Astronomia

Utilizzo dei dati SDSS / ricerca di un catalogo

Utilizzo dei dati SDSS / ricerca di un catalogo

Sto cercando un catalogo di galassie a basso redshift (preferibilmente SDSS) con informazioni sui flussi di linea e sulla massa stellare. Le mie ricerche su Google continuano a indicarmi il lavoro del gruppo di Portsmouth, quindi ho scaricato alcuni dei file fit elencati in fondo alla pagina, ma non ci sono flussi di linea in quei file, anche se sembrano suggerire che i flussi di linea sono essere reso disponibile... Mi stavo solo chiedendo se quello che sto cercando è pubblicamente disponibile e se sto cercando nel posto giusto? La loro pagina si collega a una tabella che elenca tutte le parole chiave che vorrei usare, ma non sono sicuro di come ottenere i dati.

In uno dei file che ho scaricato (portsmouth_emlinekin_full-26.fits) c'è una colonna chiamata BPT, che elenca la classificazione BPT (Seyfert, LINER, Starforming... ), quindi mi aspettavo di trovare anche i "mattoni" ([OIII], [NII], [SII], [OII] , Flussi lineari Halpha e Hbeta) del diagramma BPT. Di solito è necessario contattare gli autori per cose del genere?

Sarei molto grato di apprendere come utilizzare i dati di indagine disponibili pubblicamente da uno scienziato più esperto :)


Da quello che posso vedere, hai già trovato quello che stavi cercando. La tabella che hai collegato è la descrizione dei dati disponibili nel database Catalog Archive Server (CAS). Tutto quello che devi fare ora è usare quei nomi di tabella (sembra che le masse siano su tabelle diverse, qui e qui) e poi cercare quello che vuoi. Se non hai vincoli, puoi semplicemente cercare per regioni del cielo, ma ti consiglierei di utilizzare le query SQL poiché puoi selezionare manualmente le colonne e unire anche le tabelle. Solo per farti un rapido esempio:

SELECT TOP 10 p.specObjID, p.ra, p.dec, p.z, p.bpt, p.Flux_NeV_3425 FROM emissionLinesPort as p DOVE p.z TRA 0 E 2

Otterrai una tabella con i primi 10 risultati che hanno un redshift tra 0 e 2. Le colonne saranno ID, ascensione retta, declinazione, redshift, classificazione e flusso di [NeV] 3425 (tutto ciò che è descritto nella tabella che hai collegato). Nota che per le messe dovresti cambiare la tabella modificando emissionLinesPort e usando stellarMassStarFormingPort o stellarMassPassivePort invece (oltre a modificare le colonne di conseguenza).


Utilizzo dei dati SDSS / ricerca di un catalogo - Astronomia

Obiettivi: Estraiamo gruppi di galassie dalla SDSS Data Release 5 per studiare la rete di superammassi e le proprietà ambientali dei gruppi al suo interno. Gruppi di galassie come miglioramenti di densità possono essere usati per determinare il campo di densità di luminosità della rete superammasso-vuoto.
Metodi: utilizziamo un metodo di amici degli amici (FoF) modificato con lunghezze di collegamento leggermente variabili in direzione trasversale e radiale per eliminare gli effetti di selezione e trovare in modo affidabile il maggior numero possibile di gruppi. Per determinare la scala della lunghezza di collegamento abbiamo calibrato le dimensioni dei gruppi e la densità media del numero di galassie all'interno dei gruppi spostando i gruppi vicini a distanze maggiori.
Risultati: Il nostro campione finale contiene 17 143 gruppi nell'equatoriale e 33 219 gruppi nella parte settentrionale dell'indagine DR5. Il catalogo del gruppo è disponibile presso il CDS.
Conclusioni: Le dimensioni medie e le dispersioni di velocità dei nostri gruppi praticamente non cambiano con la loro distanza. Ciò significa che gli effetti della selezione sono stati adeguatamente presi in considerazione durante la generazione del catalogo di gruppo.


Visir

VizieR fornisce l'accesso alla libreria più completa di cataloghi astronomici pubblicati e tabelle di dati disponibili in linea organizzati in un database autodocumentato. Gli strumenti di query consentono all'utente di selezionare tabelle di dati rilevanti e di estrarre e formattare i record che corrispondono a determinati criteri. Attualmente sono disponibili 21067 cataloghi. Ulteriori informazioni
Compatibilità VO

VizieR fornisce la libreria più completa di cataloghi astronomici pubblicati --tabelle e dati associati- con dati verificati e arricchiti, accessibili tramite più interfacce. Gli strumenti di query consentono all'utente di selezionare tabelle di dati rilevanti e di estrarre e formattare i record che corrispondono a determinati criteri. Attualmente sono disponibili 21067 cataloghi maggiori informazioni
Compatibilità VO

Il VizieR Mine è un'interfaccia grafica per individuare i cataloghi esistenti nelle regioni del cielo

I gruppi di mappe auto-organizzanti Kohonen su posizioni vicine di cataloghi di mappe con contenuti simili.

Documentazione

VizieR e il Vvirtuale ohosservatorio

  • VizieR può fornire nella sua modalità avanzata i risultati in VOTABILE, un formato che garantisce la compatibilità con gli strumenti dell'Osservatorio Virtuale.
  • Le tabelle VizieR sono interrogabili secondo lo standard VO RUBINETTO che utilizzano l'estensione del linguaggio SQL ADQL.
  • Cerca in VizieR usando il Ricerca cono Norma VO.
  • Cerca spettri/serie temporali in VizieR utilizzando SSA.
  • Cerca immagini in VizieR usando SIA.

Specchi

Il team di VisiR

Questo servizio è stato creato da Francois Ochsenbein, è attualmente gestito da Gilles Landais e Pierre Ocvirk presso CDS Patricia Vannier, Emmanuelle Perret, Marianne Brouty e Sylvain Guehenneux si occupano della preparazione del materiale tabellare presso CDS e Greg Schwarz si occupa di il materiale tabulare per le riviste AAS. Grazie anche a tutti i collaboratori, autori ed editori.

Thomas Boch, Francois Xavier Pineau contribuisce anche alla vasta popolazione di cataloghi (GLIMPSE, WISE, . ).

VizieR è stato inizialmente avviato come uno sforzo congiunto di CDS (Centre de Données astronomiques de Strasbourg) e ESA-ESRIN (Divisione Sistemi Informativi), ed è ora completamente gestito da CDS. VizieR è disponibile dal 1996 ed è stato descritto in un articolo pubblicato in A&AS 143, 23 (2000).

Si noti che VizieR non contiene tutti i cataloghi online disponibili, alcuni cataloghi non sono adatti e alcuni cataloghi utilizzati meno di frequente non sono ancora stati incorporati nel database VizieR. Questi ultimi sono accessibili via FTP dall'Astronomer's Bazaar.


Le immagini

L'obiettivo dell'SDSS è quello di visualizzare tutti gli oggetti più luminosi della 23a magnitudine in 1/4 del cielo, all'incirca l'area della calotta galattica settentrionale, in cinque diverse lunghezze d'onda della luce. A causa del modo in cui funziona il telescopio, i dati vengono raccolti come un arazzo continuo. I dati vengono passati in una serie di pipeline interoperanti, che correggono i dati per i difetti, calcolano e applicano calibrazioni astrometriche e fotometriche, misurano lo sfondo del cielo e trovano, misurano e catalogano gli oggetti. Poiché l'ultimo passaggio è di gran lunga il più dispendioso in termini di tempo, il flusso di dati viene suddiviso in una serie di campi, ognuno dei quali viene elaborato in modo indipendente.

Le calibrazioni astrometriche (assegnando coordinate precise a ciascun oggetto) vengono eseguite dalla pipeline astrometrica (Astrom). Le calibrazioni fotometriche (misurazione delle condizioni dell'atmosfera durante ogni corsa) sono prodotte dalla pipeline del telescopio monitor (MT). Poiché le stelle utilizzate in questa calibrazione sono troppo luminose per essere osservate dal telescopio principale da 2,5 m, con il telescopio monitor vengono osservate macchie di cielo che si sovrappongono alle scansioni di 2,5 m. Questi patch secondari vengono utilizzati per legare il sistema fotometrico MT alle principali osservazioni di 2,5 m.

La pipeline fotometrica (Foto) trasforma i dati di imaging in informazioni sugli oggetti celesti. La foto è composta da tre pipeline successive. L'ultimo di questi, la pipeline Frames, opera su un insieme individuale di cinque frame che coprono un campo. Foto corregge ogni fotogramma per gli artefatti (colonne difettose, raggi cosmici, ecc.), corregge lo sfondo del rivelatore e le variazioni di sensibilità, trova gli oggetti in due fasi (luminoso e sbiadito), cerca oggetti con luminosità superficiale inferiore in un'immagine raccolta e combina i oggetti nei cinque filtri. La foto quindi misura gli oggetti (posizione, dimensione, forma, conteggio), li classifica, risolve gli oggetti composti per ottenere informazioni sui singoli membri e taglia le immagini dell'atlante. Quindi, Photo scrive una serie di output: tabelle dei parametri misurati, fotogrammi corretti, fotogrammi del cielo quadrati di quattro pixel con gli oggetti sottratti, immagini dell'atlante, fotogrammi delle maschere (per coprire errori come pixel saturati o interpolati) e statistiche riassuntive per ogni fotogramma.

Per eseguire questi calcoli, la pipeline Frames deve conoscere le proprietà dei rilevatori e lo sfondo del cielo. Queste proprietà sono calcolate dalla Postage Stamp Pipeline (PSP), che calcola queste quantità per l'intera corsa e le interpola al centro di ogni fotogramma. La PSP utilizza immagini ritagliate di stelle luminose (ma insature), rifiuta le stelle cattive (stelle doppie, ecc.) e calcola i parametri di una semplice funzione di diffusione del punto (PSF) - la forma di un'immagine stellare. I ritagli sono realizzati dalla Serial Stamp Collecting Pipeline (SSC), che allinea anche i fotogrammi in un campo. Di seguito, mostriamo esempi di alcune fasi di lavorazione eseguite su parte di un singolo frame. Clicca su ogni immagine per un'immagine più grande.

Un frame di dati grezzi. La differenza nei livelli di polarizzazione dei due amplificatori è visibile.

Frame corretto per il bias con pixel saturi, colonne difettose e raggi cosmici mascherati in verde.

Cornice corretta per pixel saturi, colonne difettose e raggi cosmici.

Oggetti misurati, mascherati e racchiusi in scatole. Piccole caselle vuote sono oggetti rilevati solo in qualche altra banda.

Immagine ricostruita utilizzando i francobolli di singoli oggetti e lo sfondo del cielo da un'immagine raccolta.

Una volta che i dati di imaging sono stati eseguiti attraverso queste pipeline, le immagini dei cinque filtri possono essere combinate per rendere accessibili le bellissime immagini a colori su questo sito. Inoltre, i parametri misurati di tutti gli oggetti sono archiviati in un database che gli astronomi possono cercare per trovare gli oggetti che sono interessati a studiare.


Organizzazione dei dati

Il modello di dati del catalogo SDSS

I dati del catalogo SDSS sono archiviati in un sistema di gestione di database relazionali commerciali (DBMS) - SQL Server di Microsoft. I dati sono quindi organizzati in più tabelle bidimensionali. Le tabelle e le loro relazioni reciproche sono indicate come schema nel gergo delle banche dati. Il collegamento Schema nella barra dei menu in alto ti porta alla pagina Schema dove puoi sfogliare lo schema del database.

Vista schematica dello schema DR12

Ci sono 3 diversi tipi di dati nelle tabelle: i dati di imaging sono nel foto gruppo di tabelle, dati spettroscopici e di piastrellatura è nel spettro tabelle e altri dati come documentazione o altre informazioni sui dati di foto e spettro, ovvero i metadati, si trovano nella meta tabelle. Alcune tabelle vengono create anche specificamente per velocità o comodità, ad esempio la tabella SpecPhotoAll, che contiene un JOIN precalcolato di campi rilevanti nelle tabelle PhotoObjAll e SpecObjAll.

Le tabelle importanti sono descritte di seguito, insieme alle visualizzazioni che sono attualmente definiti su ciascuna tabella. Una vista è un sottoinsieme della tabella corrispondente che può essere utilizzata al posto della tabella - in altre parole è una tavolo virtuale. Una vista di solito è più veloce rispetto all'utilizzo della tabella di base, poiché carica solo un sottoinsieme degli oggetti, ma, cosa più importante, le viste che abbiamo definito sulle tabelle selezionano solo gli oggetti importanti per la scienza e filtrano la non scienza oggetti come cielo, controllo qualità o osservazioni difettose. Pertanto, anche se di seguito elenchiamo per completezza le tabelle di base, nella stragrande maggioranza dei casi, dovresti usare le viste definite sulle tabelle invece delle tabelle stesse, per esempio. utilizzare le viste PhotoObj e SpecObj per la scienza invece delle tabelle PhotoObjAll e SpecObjAll.

Tabelle dati di imaging (foto)

- Di gran lunga la tabella più grande del database, PhotoObjAll contiene più di 100 parametri per ogni oggetto di imaging (foto). Per la maggior parte di questi parametri, ci sono in realtà 5 righe ciascuna, una per ogni banda di lunghezze d'onda. Questa tabella include dati su tutti oggetti fotografici, non solo oggetti scientifici, da cui il nome PhotoObjTutti. La vista di questa tabella che include solo oggetti scientifici ed esclude il cielo e altri oggetti sconosciuti è la PhotoObj Visualizza. La tabella PhotoObjAll è lì per completezza, ma le query scientifiche vengono solitamente eseguite nella vista PhotoObj.

PhotoObjTutte le visualizzazioni:

Visualizza nomeContenutiDescrizione
FotoFamiglia Questi sono in PhotoObj, ma né PhotoPrimary né Photosecondary. Questi oggetti vengono generati se non sono né oggetti di rilievo primari né secondari, ma un oggetto composito che è stato smembrato o la parte di un oggetto che è stato smembrato in modo errato (come i bracci a spirale di una galassia). Questi oggetti vengono conservati per tenere traccia del funzionamento del deblender. Eredita tutti i membri della classe PhotoObj.
PhotoObj Tutti gli oggetti primari e secondari nella tabella PhotoObjAll, che contiene tutti gli attributi di ciascun oggetto fotometrico (immagine). Seleziona PhotoObj con mode=1 o 2.
FotoPrimary Questi oggetti sono gli oggetti di rilievo primari. Ad ogni oggetto fisico nel cielo è associato un solo oggetto primario. Su osservazioni successive vengono generati oggetti secondari. Poiché le strisce di rilevamento si sovrappongono, ci saranno oggetti secondari per oltre il 10% di tutti gli oggetti primari e nelle strisce meridionali ci sarà una moltitudine di oggetti secondari per ogni primario (cioè riosservazioni).
FotoSecondario Gli oggetti secondari sono riosservazioni dello stesso oggetto primario.
FotoTag Le colonne più popolari di PhotoObjAll. Questa vista contiene le colonne più popolari della tabella PhotoObjAll e ha lo scopo di consentire query più veloci se richiedono solo queste colonne utilizzando la cache. Le prestazioni sono inoltre migliorate da un indice che copre le colonne in questa vista nella tabella di base (PhotoObjAll).

PhotoObjTutti gli indici:

- Questa tabella contiene tutti i parametri misurati di ciascun campo di imaging, insieme a statistiche riassuntive pertinenti e informazioni astrometriche e fotometriche.

Indici di campo:

- Questa tabella contiene i profili di luce degli oggetti fotografici SDSS.

Indici fotoprofilo:

- Questa tabella contiene i profili di luce degli oggetti di campo SDSS.

Indici FieldProfile:

- Gli oggetti SDSS entro 0,5 arcmin e i relativi parametri di corrispondenza vengono memorizzati qui. Assicurati di filtrare PhotoObj indesiderati, come i secondari.

Indici vicini:

Tabelle dati Spectro/Tiling/GalSpec/SPP

- Questa tabella contiene i dati esportati (la X sta per esportato) da una data lastra utilizzata per le osservazioni spettroscopiche. Ogni piastra ha 640 spettri osservati e quindi 640 voci corrispondenti in SpecObjAll.

Indici PlateX:

- Questa è una tabella di base contenente TUTTI le informazioni spettroscopiche, inclusi molti dati duplicati e errati. Usa il SpecObj view invece (vedi sotto), che ha i dati adeguatamente filtrati per la pulizia.

SpecObjTutte le visualizzazioni:

Visualizza nomeContenutiDescrizione
SpecObj Una vista di oggetti Spectro che ha solo gli spettri puliti. La vista esclude QA e Sky e duplicati. Usalo come via principale per accedere agli oggetti dello spettro.

SpecObjTutti gli indici:

- I parametri combinati spettro e foto di un oggetto in SpecObjAll. Questo è un join precalcolato tra le tabelle PhotoObjAll e SpecObjAll. Gli attributi delle foto includevano la copertina all'incirca come nella vista PhotoTag. La tabella include anche alcuni attributi della tabella Tile.

SpecPhotoTutte le visualizzazioni:

Visualizza nomeContenutiDescrizione
SpecPhoto Una vista degli oggetti Spettro e Foto uniti che hanno gli spettri puliti. La vista include solo quelle coppie in cui SpecObj è sciencePrimary e BEST PhotoObj è PRIMARY (mode=1).

SpecPhotoTutti gli indici:

- Contiene informazioni sulle singole tessere in cielo.

SdssTileTutte le visualizzazioni:

Visualizza nomeContenutiDescrizione
sdssTile Una vista di sdssTileAll che hanno tilled=0 La vista esclude quegli sdssTiles che sono stati utilizzati.

SdssTileTutti gli indici:

- Questa tabella memorizza le informazioni che tengono traccia del motivo per cui un target /> è stato assegnato a un riquadro />.

SdssTiledTargetTutte le visualizzazioni:

SdssTiledTargetTutti gli indici:

- Questa tabella contiene informazioni geometriche sulle aree di piastrellatura, inclusi i confini della piastrellatura. La vista TileBoundary serve i confini.

Visualizzazioni sdssTilingGeometry:

Visualizza nomeContenutiDescrizione
sdssTilingBoundary Una vista degli oggetti sdssTilingGeometry che hanno isMask = 0 La vista esclude quegli oggetti sdssTilingGeometry che hanno isMask = 1. Vedi anche sdssTilingMask.
sdssTilingMask Una vista degli oggetti sdssTilingGeometry che hanno isMask = 1 La vista esclude quegli oggetti sdssTilingGeometry che hanno isMask = 0. Vedere anche sdssTilingBoundary.

Indici sdssTilingGeometry:

, galSpecIndx, galSpecInfo e galSpecLine- Queste tabelle contengono i parametri fisici stimati, le misurazioni dell'indice spettrale, informazioni generali sull'analisi spettroscopica e le misurazioni della riga di emissione dal catalogo spettroscopico MPA-JHU.

Indici galSpecExtra:

Tipo di indiceElenco chiavi o campi
chiave primariaspecObjID

Indici galSpecIndx:

GalSpecInfo Indici:

Tipo di indiceElenco chiavi o campi
chiave primariaspecObjID

Indici galSpecLine:

e sppParams- Queste tabelle contengono le misurazioni della linea e dei parametri dalla pipeline dei parametri stellari.


Utilizzo dei dati SDSS / ricerca di un catalogo - Astronomia

Passiamo ora all'uso degli algoritmi di data mining nelle applicazioni astronomiche e al loro track record nell'affrontare alcuni problemi comuni. Mentre nella Sezione 2 abbiamo introdotto termini per l'astronomo che non ha familiarità con il data mining, qui per i non esperti di astronomia abbiamo brevemente contestualizzato i problemi astronomici. Tuttavia, una descrizione completa esula dallo scopo di questa recensione. Mentre la Sezione 2 è stata suddivisa in base ad algoritmi e problematiche di data mining, qui la suddivisione è in termini di astrofisica. In questa sezione, abbreviamo gli algoritmi di data mining che sono menzionati frequentemente o hanno nomi più lunghi secondo le abbreviazioni introdotte nella Sezione 2: PCA, ANN, DT, SVM, KNN, KDE, EM, SOM e ICA.

Dato che non esiste una definizione esatta di ciò che costituisce uno strumento di data mining, non sarebbe possibile fornire una panoramica completa della loro applicazione. Questa sezione illustra quindi l'ampia varietà di usi effettivi fino ad oggi, con ulteriori possibilità effettive o implicite. Gli usi che esistono ora ma che probabilmente acquisteranno maggiore significato in futuro, come il dominio del tempo, sono in gran parte rinviati alla Sezione 4. Esistono diverse altre panoramiche delle applicazioni degli algoritmi di apprendimento automatico in astronomia e contengono ulteriori esempi, inclusi quelli per ANN [ 103, 104, 105, 106, 107], DT [108], algoritmi genetici [109] e classificazione stellare [110].

La maggior parte delle applicazioni in questa sezione sono realizzate da astronomi che utilizzano algoritmi di data mining. Tuttavia, diversi progetti e studi sono stati realizzati anche da esperti di data mining che utilizzano dati astronomici, perché, insieme ad altri campi come la fisica e la medicina delle alte energie, l'astronomia ha prodotto molti grandi set di dati che sono suscettibili di tale approccio. Esempi di tali progetti includono lo Sky Image Cataloging and Analysis System (SKICAT) [111] per la produzione di cataloghi e l'analisi dei cataloghi da rilievi celesti digitalizzati, in particolare le scansioni del secondo Palomar Observatory Sky Survey il Jet Propulsion Laboratory Adaptive Recognition Tool (JARTool ) [112], utilizzato per il riconoscimento dei vulcani nelle oltre 30.000 immagini di Venere restituite dalla missione Magellan, il successivo e più generale Diamond Eye [113] e il progetto Sapphire del Lawrence Livermore National Laboratory [114]. Una recente revisione del data mining da questa prospettiva è fornita da Kamath nel libro Data Mining Scientifico [115]. In generale, è probabile che il dataminer utilizzi algoritmi più appropriati, moderni e sofisticati rispetto allo scienziato del dominio, ma richiederà la collaborazione con lo scienziato del dominio per acquisire conoscenze su quali aspetti del problema sono i più importanti.

La classificazione è spesso un importante passo iniziale nel processo scientifico, in quanto fornisce un metodo per organizzare le informazioni in un modo che può essere utilizzato per fare ipotesi e confrontare con modelli. Due concetti utili nella classificazione degli oggetti sono i completezza e il efficienza, noto anche come richiamo e precisione. Sono definiti in termini di veri e falsi positivi (TP e FP) e veri e falsi negativi (TN e FN). La completezza è la frazione di oggetti che sono veramente di un dato tipo che sono classificati come quel tipo:

e l'efficienza è la frazione di oggetti classificati come un dato tipo che sono veramente di quel tipo

Queste due quantità sono astrofisicamente interessanti perché, mentre si vuole ovviamente sia una maggiore completezza che un'efficienza, generalmente c'è un compromesso in gioco. L'importanza di ciascuno spesso dipende dall'applicazione, ad esempio, un'indagine su oggetti rari generalmente richiede un'elevata completezza pur consentendo una certa contaminazione (minore efficienza), ma il raggruppamento statistico di oggetti cosmologici richiede un'elevata efficienza, anche a scapito della completezza.

A causa della loro piccola dimensione fisica rispetto alla loro distanza da noi, quasi tutte le stelle sono irrisolte nei set di dati fotometrici e quindi appaiono come sorgenti puntiformi. Le galassie, tuttavia, pur essendo più lontane, sottendono generalmente un angolo maggiore, e quindi appaiono come sorgenti estese. Tuttavia, anche altri oggetti astrofisici come quasar e supernova appaiono come sorgenti puntiformi. Pertanto, la separazione dei cataloghi fotometrici in stelle e galassie, o più in generale, stelle, galassie e altri oggetti, è un problema importante. L'enorme numero di galassie e stelle nelle rilevazioni tipiche (di ordine 10 8 o superiore) richiede che tale separazione sia automatizzata.

Questo problema è ben studiato e gli approcci automatizzati sono stati impiegati anche prima che gli attuali algoritmi di data mining diventassero popolari, ad esempio, durante la digitalizzazione mediante la scansione di lastre fotografiche da parte di macchine come l'APM [116] e il DPOSS [117]. Sono stati impiegati diversi algoritmi di data mining, tra cui ANN [118, 119, 120, 121, 122, 123, 124], DT [125, 126], modellazione mista [127] e SOM [128], con la maggior parte degli algoritmi che raggiungono oltre 95% di efficienza. Tipicamente, questo viene fatto usando una serie di parametri morfologici misurati che derivano dalla fotometria del rilievo, con forse colori o altre informazioni, come il seeing, come prima. Il vantaggio di questo approccio di data mining è che tutte queste informazioni su ciascun oggetto sono facilmente incorporate. Oltre ai semplici output `star' o `galaxy', molti dei perfezionamenti descritti nella Sezione 2 hanno migliorato i risultati, inclusi gli output probabilistici e il bagging [126].

Come mostrato in Fig. 5, le galassie sono disponibili in una gamma di diverse dimensioni e forme, o più collettivamente, morfologia. Il sistema più noto per la classificazione morfologica delle galassie è la Sequenza di Hubble di ellittica, spirale, spirale barrata e irregolare, insieme a varie sottoclassi [129, 130, 131, 132, 133, 134]. Questo sistema è correlato a molte proprietà fisiche note per essere importanti nella formazione e nell'evoluzione delle galassie [135, 136]. Altri sistemi di classificazione ben noti sono il sistema di Yerkes basato sull'indice di concentrazione [137, 138, 139], il de Vaucouleurs [140], esponenziale [141, 142] e l'indice Sérsic [143, 144] misure della galassia profilo luminoso, il sistema David Dunlap Observatory (DDO) [145, 146, 147] e il sistema concentrazione-asimmetria-clumpiness (CAS) [148].

Poiché la morfologia delle galassie è un fenomeno complesso che è correlato alla fisica sottostante, ma non è unico per un dato processo, la sequenza di Hubble ha resistito, nonostante fosse piuttosto soggettiva e basata sulla morfologia della luce visibile originariamente derivata da lastre fotografiche con polarizzazione del blu. . La sequenza di Hubble è stata estesa in vari modi e per scopi di data mining è stato ampiamente utilizzato il sistema T [149, 150]. Questo sistema mappa i tipi categorici di Hubble E, S0, Sa, Sb, Sc, Sd e Irr sui valori numerici da -5 a 10.

Si può, quindi, addestrare un algoritmo supervisionato per assegnare i tipi T alle immagini per le quali sono disponibili parametri misurati. Tali parametri possono essere puramente morfologici o includere altre informazioni come il colore. Una serie di articoli di Lahav e collaboratori [152, 153, 154, 155, 104, 156] fa esattamente questo, applicando RNA per prevedere il tipo T delle galassie a basso redshift e trovando la stessa accuratezza per gli esperti umani. Le ANN sono state applicate anche a dati di redshift più elevati per distinguere tra galassie normali e peculiari [157], e la SOM ANN fondamentalmente topologica e non supervisionata è stata utilizzata per classificare le galassie dalle immagini del telescopio spaziale Hubble [74], dove la distribuzione iniziale delle classi è non conosciuto. Allo stesso modo, le ANN sono state utilizzate per ottenere tipi morfologici dagli spettri delle galassie. [158]

Diversi autori studiano la morfologia delle galassie a redshift più elevato utilizzando gli Hubble Deep Fields, dove le galassie sono generalmente molto più distanti, più deboli, meno evolute e morfologicamente peculiari. Tre studi [159, 160, 161] utilizzano ANN addestrate sulla luminosità della superficie e sui profili di luce per classificare le galassie come E/S0, Sabc e Sd/Irr. Un'altra applicazione [162] utilizza la decomposizione di Fourier sulle immagini delle galassie seguita dalle ANN per rilevare le barre e assegnare i tipi T.

Bazell & Aha [163] utilizza insiemi di classificatori, inclusi ANN e DT, per ridurre l'errore di classificazione e Bazell [164] studia l'importanza di vari attributi di input misurati, trovando che nessun singolo parametro misurato riproduce completamente le classificazioni. Palla et al. [165] ottenere risultati simili a Naim et al. [155], ma aggiornato per SDSS. Palla et al. [166] e Ball, Loveday & Brunner [167] utilizzano queste classificazioni negli studi sulla funzione di luminosità bivariata e sulla relazione morfologia-densità nell'SDSS, i primi studi di questo tipo ad utilizzare sia un'indagine digitale del cielo di queste dimensioni che tipi dettagliati di Hubble .

A causa della natura complessa della morfologia delle galassie e della pletora di approcci disponibili, esiste un gran numero di ulteriori studi: Kelly e McKay [168] (Fig. 6) dimostrano un miglioramento rispetto a una semplice divisione in tu-r utilizzando modelli misti, all'interno di uno schema che incorpora la morfologia. Serra-Ricart et al. [169] utilizzano un codificatore ANN per ridurre la dimensionalità di vari set di dati ed eseguire diverse applicazioni, inclusa la morfologia. Adams e Woolley [170] usano un comitato di ANN in una disposizione "a cascata", in cui l'output di una ANN forma l'input di un'altra che produce classi più dettagliate, migliorando i loro risultati. Molinari e Smareglia [171] utilizzano un SOM per identificare le galassie E/S0 negli ammassi e misurare la loro funzione di luminosità. de Theije & Katgert [172] suddividono E/S0 e galassie a spirale utilizzando componenti spettrali principali e studiano la loro cinematica negli ammassi. Sono stati impiegati algoritmi genetici [173, 174] per la selezione degli attributi e per far evolvere le RNA per classificare le galassie "piegate a doppio" nei dati di FIRST [175] radio survey. La radiomorfologia combina il nucleo compatto della radiogalassia e getti estremamente lunghi. Pertanto, la morfologia piegata doppia indica la presenza di un ammasso di galassie. de la Calleja & Fuentes [176] combinano insiemi di RNA e regressione pesata localmente. Oltre alla ANN, Spiekermann [177] utilizza l'algebra fuzzy e metodi euristici, anticipando l'importanza degli studi probabilistici (Sezione 4.1) che stanno cominciando proprio ora ad emergere. Owens, Griffiths e Ratnatunga [178] usano DT obliqui, ottenendo risultati simili a ANN. Zhang, Li e Zhao [179] distinguono i tipi precoci e tardivi usando il clustering di k-means. Gli SVM sono stati recentemente impiegati nell'indagine COSMOS di Huertas-Company et al. [50, 180], consentendo la separazione anticipata a KAB = 22 mag due volte più buono del sistema CAS. Le SVM saranno utilizzate anche sui dati dal satellite Gaia [181].

Recentemente, il popolare Zoo della Galassia progetto [182] ha adottato un approccio alternativo alla classificazione morfologica, impiegando crowdsourcing: è stata resa disponibile online un'applicazione in cui il pubblico in generale ha potuto visualizzare le immagini dell'SDSS e assegnare le classificazioni secondo uno schema delineato. Il progetto ha avuto molto successo e in un periodo di sei mesi oltre 100.000 persone hanno fornito oltre 40 milioni di classificazioni per un campione di 893.212 galassie, per lo più a una profondità limite di r = 17,77 mag. Le classificazioni includevano categorie non assegnate in precedenza negli studi di estrazione di dati astronomici, come il edge-on o la manualità dei bracci a spirale, e il progetto ha prodotto molteplici risultati scientifici. L'approccio rappresenta uno complementare agli algoritmi automatizzati, perché, sebbene gli esseri umani possano vedere cose che un algoritmo mancherà e sarà soggetto a diversi errori sistematici, il tempo di esecuzione è enormemente più lungo: una ANN addestrata produrrà gli stessi 40 milioni di classificazioni in pochi minuti , anziché sei mesi.

Molte delle proprietà fisiche, e quindi la classificazione, di una galassia sono determinate dalla sua popolazione stellare. Lo spettro di una galassia è quindi un altro metodo di classificazione [183, 184], e può talvolta produrre un legame più chiaro con la fisica sottostante rispetto alla morfologia. La classificazione spettrale è importante perché è possibile che una gamma di tipi morfologici abbia lo stesso tipo spettrale e viceversa, perché i tipi spettrali sono guidati da diversi processi fisici sottostanti.

Numerosi studi [185, 186, 187, 188] hanno utilizzato direttamente la PCA per la classificazione spettrale. La PCA viene spesso utilizzata anche come fase di pre-elaborazione prima della classificazione dei tipi spettrali utilizzando una ANN [189]. Folkes, Lahav e Maddox [190] predicono i tipi morfologici per il 2dF Galaxy Redshift Survey (2dFGRS) [191] usando gli spettri e Ball et al. [165] prevedono direttamente i tipi spettrali nell'SDSS utilizzando una ANN. Slonim et al. [192] utilizzano l'approccio del collo di bottiglia delle informazioni sugli spettri 2dFGRS, che preserva al massimo le informazioni spettrali per il numero desiderato di classi. Lu et al. [193] utilizzano l'apprendimento di insieme per ICA su componenti di spettri galattici. Abdalla et al. [194] utilizzano la ANN e la regressione pesata localmente per prevedere direttamente le proprietà della linea di emissione dalla fotometria.

Bazell & Miller [82] hanno applicato un metodo semi-supervisionato adatto per la scoperta di classi utilizzando ANN ai cataloghi ESO-LV [195] e SDSS Early Data Release (EDR). Hanno scoperto che era possibile una riduzione fino al 57% dell'errore di classificazione rispetto alle RNA puramente supervisionate. Il più grande dei due cataloghi, l'SDSS EDR, rappresenta un dataset preliminare circa il 6% del rilascio dei dati finali dell'SDSS, indicando chiaramente il potenziale ancora non sfruttato di questo approccio. L'approccio semi-supervisionato ricorda anche l'approccio ibrido empirico-modello ai redshift fotometrici (Sezione 3.2), poiché entrambi cercano di utilizzare un set di addestramento esistente ove disponibile anche se non copre l'intero spazio dei parametri. Tuttavia, l'approccio utilizzato da Bazell & Miller è più generale, perché consente di aggiungere nuove classi di oggetti, mentre l'approccio ibrido può solo iterare modelli esistenti.

La maggior parte della radiazione elettromagnetica emessa nell'universo proviene dalle stelle o dai dischi di accrescimento che circondano i buchi neri supermassicci nei nuclei galattici attivi (AGN). Quest'ultimo fenomeno è particolarmente drammatico nel caso dei quasar, dove la luce proveniente dalla regione centrale può eclissare il resto della galassia. Poiché si pensa che i buchi neri supermassicci siano abbastanza onnipresenti nelle grandi galassie, e il loro rifornimento, e quindi la loro luminosità intrinseca, può essere influenzato dall'ambiente che circonda la galassia ospite, i quasar e altri AGN sono importanti per comprendere la formazione e l'evoluzione della struttura in l'universo.

The selection of quasars and other AGN from an astronomical survey is a well-known and important problem, and one well suited to a data mining approach. It is well-known that different wavebands (X-ray, optical, radio) will select different AGN, and that no one waveband can select them all. Traditionally, AGN are classified on the Baldwin-Phillips-Terlevich diagram [196], in which sources are plotted on the two-dimensional space of the emission line ratios [O III] 5007 / H and [N II] / H, that is separated by a single curved line into star-forming and AGN regions. Data mining not only improves on this by allowing a more refined or higher dimensional separation, but also by including passive objects in the same framework (Fig. 7). This allows for the probability that an object contains an AGN to be calculated, and does not require all (or any) of the emission lines to be detected.

Several groups have used ANNs [197, 198, 199] or DTs [200, 201, 126, 202, 203, 204, 205] to select quasar candidates from surveys. bianca et al. [200] show that the DT method improves the reliability of the selection to 85% compared to only 60% for simpler criteria. Other algorithms employed include PCA [206], SVM and learning vector quantization [207], kd-tree [208], clustering in the form of principal surfaces and negative entropy clustering [209], and kernel density estimation [210]. Many of these papers combine multiwavelength data, particularly X-ray, optical, and radio.

Similarly, one can select and classify candidates of all types of AGN [211]. If multiwavelength data are available, the characteristic data mining algorithm ability to form a model of the required complexity to extract the information could enable it to use the full information to extract more complete AGN samples. More generally, one can classify both normal and active galaxies in one system, differentiating between star formation and AGN. As one example, DTs have been used [126] to select quasar candidates in the SDSS, providing the probabilities P(star, galaxy, quasar). P(star formation, AGN) could be supplied in a similar framework. Bamford et al. [212] combine mixture modeling and regression to perform non-parametric mixture regression, and is the first study to obtain such components and then study them versus environment. The components are passive, star-forming, and two types of AGN.

Often, the first component of classification is the actual process of object detection, which often is done at some signal-to-noise threshold. Several statistical data mining algorithms have been employed, and software packages written, for this purpose, including the Faint Object Classification and Analysis System (FOCAS) [213], DAOPHOT [214], Source Extractor (SExtractor) [215], maximum likelihood, wavelets, ICA [216], mixture models [217], and ANNs [121]. Serra-Ricart et al. [218] show that ANNs are able to classify faint objects as well as a Bayesian classifier but with considerable computational speedup.

Several studies are more general than star-galaxy separation or galaxy classification, and assign classifications of varying detail to a broad range of astrophysical objects. Goebel et al. [219] apply the AutoClass Bayesian classifier to the IRAS LRS atlas, finding new and scientifically interesting object classes. McGlynn et al. [220] use oblique DTs in a system called ClassX to classify X-ray objects into stars, white dwarfs, X-ray binaries, galaxies, AGN, and clusters of galaxies, concluding that the system has the potential to significantly increase the known populations of some rare object types. Suchkov, Hanisch & Margon [201] use the same system to classify objects in the SDSS. Bazell, Miller & Subbarao [221] apply semi-supervised learning to SDSS spectra, including those classified as `unknown', finding two classes of objects consisting of over 50% unknown.

Stellar classifications are necessarily either spectral or based on color, due to the pointlike nature of the source. This field has a long history and well established results such as the HR diagram and the OBAFGKM spectral sequence. The latter is extended to a two-dimensional system of spectral type and luminosity classes I-V to form the two-dimensional MK classification system of Morgan, Keenan & Kellman [222]. Class I are supergiants, through to class V, dwarfs, or main-sequence stars. The spectral types correspond to the hottest and most massive stars, O, through to the coolest and least massive, M, and each class is subdivided into ten subclasses 0-9. Thus, the MK classification of the sun is G2V.

The use of automated algorithms to assign MK classes is analogous to that for assigning Hubble types to galaxies in several ways: before automated algorithms, stellar spectra were compared by eye to standard examples the MK system is closely correlated to the underlying physics, but is ultimately based on observable quantities the system works quite well but has been extended in numerous ways to incorporate objects that do not fit the main classes (e.g., L and T dwarfs, Wolf-Rayet stars, carbon stars, white dwarfs, and so on). Two differences from galaxy classification are the number of input parameters, in this case spectral indices, and the number of classes. In MK classification the numbers are generally higher, of order 50 or more input parameters, compared to of order 10 for galaxies.

Given a large body of work for galaxies that has involved the use of artificial neural networks, and the similarities just outlined, it is not surprising that similar approaches have been employed for stellar classification [223, 224, 225, 226, 227, 228], with a typical accuracy of one spectral type and half a luminosity type. The relatively large number of object attributes and output classes compared to the number of objects in each class does not invalidate the approach, because the efforts described generally find that the number of principal components represented by the inputs is typically much lower. A well-known property of neural networks is that they are robust to a large number of redundant attributes (Section 2.4.5).

Neural networks have been used for other stellar classifications schemes, e.g. Gupta et al. [229] define 17 classes for IRAS sources, including planetary nebulae and HII regions. Other methods have been employed a recent example is Manteiga et al. [230], who use a fuzzy logic knowledge-based system with a hierarchical tree of decision rules. Beyond the MK and other static classifications, variable stars have been extensively studied for many years, e.g., Wozniak et al. [231] use SVM to distinguish Mira variables.

The detection and characterization of supernovae is important for both understanding the astrophysics of these events, and their use as standard candles in constraining aspects of cosmology such as the dark energy equation of state. Bailey et al. [232] use boosted DTs, random forests, and SVMs to classify supernovae in difference images, finding a ten times reduction in the false-positive rate compared to standard techniques involving parameter thresholds (Fig. 8).

Given the general nature of the data mining approach, there are many further classification examples, including cosmic ray hits [39, 233], planetary nebulae [234], asteroids [235], and gamma ray sources [236, 237].

An area of astrophysics that has greatly increased in popularity in the last few years is the estimation of redshifts from photometric data (photo-zs). This is because, although the distances are less accurate than those obtained with spectra, the sheer number of objects with photometric measurements can often make up for the reduction in individual accuracy by suppressing the statistical noise of an ensemble calculation.

Photo-zs were first demonstrated in the mid 20th century [238, 239], and later in the 1980s [240, 241]. In the 1990s, the advent of the Hubble Space Telescope Deep fields resulted in numerous approaches [242, 243, 244, 245, 246, 247, 248], reviewed by Koo [249]. In the past decade, the advent of wide-field CCD surveys and multifiber spectroscopy have revolutionized the study of photo-zs to the point where they are indispensable for the upcoming next generation surveys, and a large number of studies have been made.

The two common approaches to photo-zs are the template method and the empirical training set method. The template approach has many complicating issues [250], including calibration, zero-points, priors, multiwavelength performance (e.g., poor in the mid-infrared), and difficulty handling missing or incomplete training data. We focus in this review on the empirical approach, as it is an implementation of supervised learning. In the future, it is likely that a hybrid method incorporating both templates and the empirical approach will be used, and that the use of full probability density functions will become increasingly important. For many applications, knowing the error distribution in the redshifts is at least as important as the accuracy of the redshifts themselves, further motivating the calculation of PDFs.

At low redshifts, the calculation of photometric redshifts for normal galaxies is quite straightforward due to the break in the typical galaxy spectrum at 4000A. Thus, as a galaxy is redshifted with increasing distance, the color (measured as a difference in magnitudes) changes relatively smoothly. As a result, both template and empirical photo-z approaches obtain similar results, a root-mean-square deviation of

0.02 in redshift, which is close to the best possible result given the intrinsic spread in the properties [251]. This has been shown with ANNs [33, 165, 156, 252, 253, 254, 124, 255, 256, 257, 179], SVM [258, 259], DT [260], KNN [261], empirical polynomial relations [262, 251, 247, 263, 264, 265], numerous template-based studies, and several other methods. At higher redshifts, obtaining accurate results becomes more difficult because the 4000A break is shifted redward of the optical, galaxies are fainter and thus spectral data are sparser, and galaxies intrinsically evolve over time. The first explorations at higher redshift were the Hubble Deep Fields in the 1990s, described above (Section 3.2), and, more recently, new infrared data have become available, which allow the 4000A break to be seen to higher redshift, which improves the results. Template-based algorithms work well, provided suitable templates into the infrared are available, and supervised algorithms simply incorporate the new data and work in the same manner as previously described.

While supervised learning has been successfully used, beyond the spectral regime the obvious limitation arises that in order to reach the limiting magnitude of the photometric portions of surveys, extrapolation would be required. In this regime, or where only small training sets are available, template-based results can be used, but without spectral information, the templates themselves are being extrapolated. However, the extrapolation of the templates is being done in a more physically motivated manner. It is likely that the more general hybrid approach of using empirical data to iteratively improve the templates, [266, 267, 268, 269, 270, 271] or the semi-supervised method described in Section 2.4.3 will ultimately provide a more elegant solution. Another issue at higher redshift is that the available numbers of objects can become quite small (in the hundreds or fewer), thus reintroducing the curse of dimensionality by a simple lack of objects compared to measured wavebands. The methods of dimension reduction (Section 2.3) can help to mitigate this effect.

Historically, the calculation of photometric redshifts for quasars and other AGN has been even more difficult than for galaxies, because the spectra are dominated by bright but narrow emission lines, which in broad photometric passbands can dominate the color. The color-redshift relation of quasars is thus subject to several effects, including degeneracy, one emission line appearing like another at a different redshift, an emission line disappearing between survey filters, and reddening. In addition, the filter sets of surveys are generally designed for normal galaxies and not quasars. The assignment of these quasar photo-zs is thus a complex problem that is amenable to data mining in a similar manner to the classification of AGN described in Section 3.1.4.

The calculation of quasar photo-zs has had some success using SDSS data [272, 273, 274, 275, 276, 277], but they suffer from catastrophic failures, in which, as shown in Fig. 9, the photometric redshift for a subset of the objects is completely incorrect. However, data mining approaches have resulted in improvements to this situation. Ball et al. [278] find that a single-neighbor KNN gives a similar result to the templates, but multiple neighbors, or other supervised algorithms such as DT or ANN, pull in the regions of catastrophic failure and significantly decrease the spread in the results. Kumar [279] also shows this effect. Ball et al. [261] go further and are able to largely eliminate the catastrophics by selecting the subset of quasars with one peak in their redshift probability density function (Section 4.1), a result confirmed by Wolf [280]. Lupo et al. [281] also show significant improvement using the COMBO-17 survey, which has 17 filters compared to the five of the SDSS, but unfortunately the photometric sample is much smaller.

Beyond the spectral regime, template-based results are sufficient [282], but again suffer from catastrophics. Given our physical understanding of the nature of quasars, it is in fact reasonable to extrapolate in magnitude when using colors as a training set, because while one is going to fainter magnitudes, one is not extrapolating in color. One could therefore quite reasonably assign empirical photo-zs for a full photometric sample of quasars.

Typically in data mining, information gathered from spectra has formed the training set to apply a predictive technique to objects with photometry. However, it is clear from this process that the spectrum itself contains a large amount of information, and data mining techniques may be used directly on the spectra to extract information that might otherwise remain hidden. Applications to galaxy spectral classification were described in Section 3.1.3. In stellar work, besides the classification of stars into the MK system based on observable parameters, several studies have directly predicted physical parameters of stellar atmospheres using spectral indices. One example is Ramirez, Fuentes & Gulati [283], who utilize a genetic algorithm to select the appropriate input attributes, and predict the parameters using KNN. The attribute selection reduces run time and improves predictive accuracy. Solorio et al. [284] use KNN to study stellar populations and improve the results by using active learning to populate sparse regions of parameter space, an alternative to dimension reduction.

Although it has much potential for the future (Section 4.2), the time domain is a field in which a lot of work has already been done. Examples include the classification of variable stars described in Section 3.1.5, and, in order of distance, the interaction of the solar wind and the Earth's atmosphere, transient lunar phenomena, detection and classification of asteroids and other solar system objects by composition and orbit, solar system planetary atmospheres, stellar proper motions, extrasolar planets, novae, stellar orbits around the supermassive black hole at the Galactic center, microlensing from massive compact halo objects, supernovae, gamma ray bursts, and quasar variability. A good overview is provided by Becker [285]. The large potential of the time domain for novel discovery lies within the as yet unexplored parameter space defined by depth, sky coverage, and temporal resolution [286]. One constraining characteristic of the most variable sources beyond the solar system is that they are generally point sources. As a result, the timescales of interest are constrained by the light crossing time for the source.

The analysis of the cosmic microwave background (CMB) is amenable to several techniques, including Bayesian modeling, wavelets, and ICA. The latter, in particular via the FastICA algorithm [216], has been used in removal of CMB foregrounds [287], and cluster detection via the Sunyaev-Zeldovich effect [288]. Phillips & Kogut [289] use a committee of ANNs for cosmological parameter estimation in CMB datasets, by training them to identify parameter values in Monte Carlo simulations. This gives unbiased parameter estimation in considerably less processing time than maximum likelihood, but with comparable accuracy.

One can use the fact that objects cross-matched between surveys will likely have correlated distributions in their measured attributes, for example, similar position on the sky, to improve cross-matching results using pattern classifiers. Rohde et al. [290] combine distribution estimates and probabilistic classifiers to produce such an improvement, and supply probabilistic outputs.

Taylor & Diaz [291] obtain empirical fits for Galactic metallicity using ANNs, whose architectures are evolved using genetic algorithms. This method is able to provide equations for metallicity from line ratios, mitigating the `black box' element common to ANNs, and, in addition, is potentially able to identify new metallicity diagnostics.

Bogdanos & Nesseris [292] analyze Type Ia supernovae using genetic algorithms to extract constraints on the dark energy equation of state. This method is non-parametric, which minimizes bias from the necessarily a priori assumptions of parametric models.

Lunar and planetary science, space science, and solar physics also provide many examples of data mining uses. One example is Li et al. [293], who demonstrate improvements in solar flare forecasting resulting from the use of a mixture of experts, in this case SVM and KNN. The analysis of the abundance of minerals or constituents in soil samples [294] using mixture models is another example of direct data mining of spectra.


Five new giant radio galaxies discovered

One of new GRGs described in the study. The figure shows radio-near infrared overlay of this source, using SDSS i-band image rather than WISE, given its better angular resolution. Credit: Tang et al., 2020

With the help of citizen scientists, astronomers have detected five new giant radio galaxies (GRGs). The new GRGs have sizes ranging from 2.3 to 2.6 million light years, and have been identified at redshift between 0.28 and 0.43. The finding is reported in a paper published September 8 on the arXiv pre-print server.

GRGs are radio galaxies with an overall projected linear length exceeding at least 2.28 million light years. They are rare objects grown in low-density environments. GRGs are important for astronomers to study the formation and the evolution of radio sources.

Now, a team of astronomers led by Hongming Tang of the University of Manchester, UK, reports the finding of five previously unknown GRGs. The detection is based on the Data Release 1 (DR1) of the Radio Galaxy Zoo (RGZ) citizen science project. RGZ DR1 is a manually cross-matched radio galaxy catalog using the efforts of more than 12,000 citizen scientist volunteers.

"In this paper, we present the identification of five previously unknown giant radio galaxies (GRGs) using Data Release 1 of the Radio Galaxy Zoo citizen science project and a selection method appropriate to the training and validation of deep-learning algorithms for new radio surveys," the astronomers wrote in the paper.

The newly identified GRGs are designated J0941+3126, J1331+2557, J1402+2442, J1421+1016 and J1646+3627. They all have comparatively high radio luminosities and are likely to be either elliptical or intermediate disk galaxies.

J1402+2442 (also known as B2 1400+24) is the largest out of the newly found GRGs. It has a redshift of approximately 0.337 and its host is a close pair of galaxies, designated SDSS J140224.25+244224.3 and SDSS J140224.31+244226.8. At a redshift of about 0.28, J0941+3126 (or B2 0938+31A) is the smallest GRG from the five reported in the study. This source is hosted by SDSS J094103.62+312618.7.

In the case of J1646+3627, a GRG with a size of at least 2.46 million light years, at a redshift of 0.43, the researchers found that this object is also the brightest cluster galaxy (BCG) in the galaxy cluster GMBCG J251.67741+36.45295. This finding motivated Tang's team to conduct further study of BCGs. They report that 13 previously known GRGs could be classified as BCG candidates. If confirmed, this would increase the number of known BCG GRGs by more than 60 percent.

The remaining two giant radio galaxies described in the study, namely J1331+2357 and J1421+1016, have sizes of about 2.62 and 2.49 million light years, respectively. J1331+2357 has a redshift of 0.33 and its host galaxy is identified as SDSS J133118.01+235700.4, while J1421+1016, at a redshift of 0.37, has a host galaxy known as SDSS J142142.68+101626.2.


What is in DR16?

    of galaxies, stars and quasars from the SDSS extended Baryon Oscillation Spectroscopic Survey (eBOSS) and prior optical spectroscopic programs. from the SDSS Apache Point Observatory Galaxy Evolution Experiment (APOGEE and APOGEE-2), including stellar abundance estimates for additional elements from the ASPCAP pipeline.
  • Data cubes and maps from integral field unit (IFU) spectroscopic observations of nearby galaxies from the SDSS Mapping Nearby Galaxies at APO (MaNGA) survey
  • Spectra of the MaNGA Stellar Library program (MaStar)
  • Legacy imaging from prior SDSS programs
  • A large selection of Value Added Catalogs (VACs) from current and previous surveys

The Expanding Universe

In two thousand years of astronomy, no one ever guessed that the universe might be expanding. To ancient Greek astronomers and philosophers, the universe was seen as the embodiment of perfection. The heavens were truly heavenly - unchanging, permanent, and geometrically perfect. In the early 1600s, Isaac Newton developed his law of gravity, showing that motion in the heavens could be explained using the same laws as motion on Earth.

However, Newton ran into trouble when he tried to apply his theory of gravity to the entire universe. Since gravity is always attractive, his law predicted that all the matter in the universe should eventually clump into one big ball. Newton knew this was not the case, and assumed that the universe had to be static, so he conjectured that the Creator placed the stars such that they were "at immense distances from one another."


Albert Einstein's Theory of Relativity is the basis for our cosmological models of space and time.

In 1916, Albert Einstein ran into the same problem that Newton did. Einstein had just completed his General Theory of Relativity, which explained gravity in a different way from Newton's law. Like Newton's theory, General Relativity predicted that the universe should be collapsing into a ball. Because Einstein assumed that the universe must be static, he added a constant term to his equations that counteracted gravity on very large distance scales. A few years later, someone pointed out that Einstein's equations had another solution in which the universe should be expanding, but Einstein continued to work with his constant term, believing the universe to be static.

Then, in 1924, Edwin Hubble of the Carnegie Observatories made a new map. He used a new telescope on California's Mount Wilson to observe a series of distant galaxies, and found that light from those galaxies was redshifted - that is, light waves were stretched out like sound waves from a passing siren. The further away the galaxy, Hubble found, the greater the redshift. Hubble's observation showed that the universe was expanding, meaning it had started at a single point called the big bang about fifteen billion years ago. When Einstein heard about Hubble's discovery, he realized that his equations predicted the expanding universe all along, and called his constant term his "biggest blunder." Today, the idea of the expanding universe is the basis for all of modern astronomy.


Using SDSS data / finding a catalog - Astronomy

Welcome to SkyServer! This site gives you access to all the data from the Sloan Digital Sky Survey (SDSS). Here, you will learn how to use exactly the same tools that professional astronomers use.

You are now viewing the catalog data from the Sloan Digital Sky Survey's Data Release 12. (link opens in a new window)

Use the links below, or the links to the left, to go to a help page:

Comincia qui

Start Here gives you a quick overview of SDSS catalog data, and how to use the data

Cooking with Sloan consists of guides for doing common tasks with SDSS catalog data

FAQ is frequently asked questions about the SDSS and its data

Guide to Searching for Data

SQL Tutorial is an introduction to Structured Query Language (SQL), its scientific uses, and its syntax

SQL in SkyServer contains more detailed information about SQL, including advice making your queries run fast

Sample SQL Queries are many real-life examples of useful SQL queries

Query Limits lists the timeouts and row limits in effect for the various query tools.

Searching advice provides some practical advice on how to search SDSS data

Important Reference Information

About the Database gives an overview of the catalog archive

Table Description provides a description of the database tables

Schema Browser shows you what data you can find in the database

Glossary is a list of terms used on the site and in the SDSS

Algorithms describes the SDSS's data reduction algorithms

Detailed Reference Information

SDSS Data Publications is a link to publications that describe the SDSS data in more detail

API contains information on how to programatically access some of the SDSS services

Help Desk

Contact Help Desk allows you to send an email to the SDSS Help Desk if you have a question or problem with the site


Using SDSS data / finding a catalog - Astronomy

It would seem that the calibrated observations obtained by the Sloan Digital Sky Survey (SDSS) by themselves would be, at best, marginally useful for the secure determination of asteroid rotation lightcurves, mostly due to the scarcity of data for a particular object in a given apparition as well as because of the sometimes low photometric quality of the SDSS data. Despite these shortcomings, it was decided to see if the SDSS data could be used to help find the lightcurve parameters of at least some asteroids. Observations of ten asteroids obtained by the SDSS are compared here with lightcurves obtained by asteroid photometric stations using dense data sets. Three asteroids observed during the same apparition as the SDSS observations served to determine the accuracy of the SDSS data. Except for occasional outliers identified on the basis of deviating color indices, the accuracy of the observations was found to be about 0.03 mag in the V band on average, which is a generally accepted level of quality for most asteroid photometry. In addition to the ten asteroids with known lightcurves, another 54 asteroids without known lightcurves, but with more than 20 observations by SDSS, were also examined to derive their absolute magnitudes (H) and plausible composite lightcurves. Lightcurve analyses of (12104) Chesley, (32257) 2000 OW 52 , (39132) 2000 WU 58 , (156751) 2002 XL 92 , (219686) 2001 WE 37 , 1992 WW 6 , and 2007 EP 39 are presented. The asteroids studied in this paper were found to be mostly fainter than predicted from the H values given by the Minor Planet Center in its Orbit Database. The difference between the H values slightly correlates with the lightcurve amplitude.


Guarda il video: Introduction to SQL Part Query SDSS SkyServer with SQL (Gennaio 2022).