Galaxy Zoo ha unito gli sforzi di molti volontari non esperti per classificare un milione di galassie.
Galaxy Zoo nasce da un problema affrontato da Kevin Schawinski, studente laureato in Astronomia all'Università di Oxford nel 2007. Semplificando un po ', Schawinski era interessato alle galassie e le galassie possono essere classificate in base alla loro morfologia - ellittica o spirale - e dal loro colore blu o rosso. A quel tempo, la saggezza convenzionale tra gli astronomi era che le galassie a spirale, come la nostra Via Lattea, erano di colore blu (indicando la gioventù) e le galassie ellittiche erano rosse (indicando la vecchiaia). Schawinski dubitava di questa saggezza convenzionale. Sospettava che mentre questo schema poteva essere vero in generale, c'erano probabilmente un numero considerevole di eccezioni, e che studiando molte di queste galassie insolite - quelle che non corrispondevano al modello previsto - avrebbe potuto imparare qualcosa sul processo attraverso il quale le galassie si sono formate.
Quindi, ciò di cui Schawinski aveva bisogno per rovesciare la saggezza convenzionale era un gran numero di galassie classificate morfologicamente; cioè, galassie classificate come a spirale o ellittiche. Il problema, tuttavia, era che i metodi algoritmici esistenti per la classificazione non erano ancora abbastanza buoni da essere usati per la ricerca scientifica; in altre parole, classificare le galassie era, a quel tempo, un problema difficile per i computer. Pertanto, ciò che era necessario era un gran numero di galassie classificate dagli umani . Schawinski ha intrapreso questo problema di classificazione con l'entusiasmo di uno studente laureato. In una sessione di maratona di sette giorni di 12 ore, è stato in grado di classificare 50.000 galassie. Mentre 50.000 galassie possono sembrare molto, in realtà è solo circa il 5% del quasi milione di galassie che sono state fotografate nella Sloan Digital Sky Survey. Schawinski si rese conto che aveva bisogno di un approccio più scalabile.
Per fortuna, si scopre che il compito di galassie che classificano non richiede una formazione avanzata in astronomia; si può insegnare a qualcuno di farlo abbastanza rapidamente. In altre parole, anche se classificare le galassie è un compito che è stato difficile per i computer, è stato abbastanza facile per gli esseri umani. Così, mentre seduto in un pub di Oxford, Schawinski e collega astronomo Chris Lintott sognato un sito web dove i volontari sarebbero classificare le immagini di galassie. Pochi mesi dopo, Galaxy Zoo è nato.
Sul sito Web Galaxy Zoo, i volontari sarebbero sottoposti a pochi minuti di addestramento; per esempio, imparando la differenza tra una spirale e una galassia ellittica (figura 5.2). Dopo questo addestramento, ogni volontario ha dovuto passare un quiz relativamente facile, classificando correttamente 11 galassie su 15 con classificazioni note, e quindi avrebbe iniziato la classificazione reale delle galassie sconosciute attraverso una semplice interfaccia basata sul web (figura 5.3). La transizione dal volontario all'astronomo sarebbe avvenuta in meno di 10 minuti e richiedeva solo il superamento degli ostacoli, un semplice quiz.
Galaxy Zoo ha attratto i suoi volontari iniziali dopo che il progetto è stato pubblicato in un articolo di notizie, e in circa sei mesi il progetto è cresciuto coinvolgendo più di 100.000 cittadini scienziati, persone che hanno partecipato perché hanno apprezzato il compito e hanno voluto contribuire all'avanzamento dell'astronomia. Insieme, questi 100.000 volontari hanno contribuito a un totale di oltre 40 milioni di classificazioni, con la maggior parte delle classificazioni provenienti da un gruppo ristretto di partecipanti (Lintott et al. 2008) .
I ricercatori che hanno esperienza nell'assumere gli assistenti di ricerca universitari potrebbero essere immediatamente scettici sulla qualità dei dati. Mentre questo scetticismo è ragionevole, Galaxy Zoo mostra che quando i contributi volontari vengono correttamente puliti, debilitati e aggregati, possono produrre risultati di alta qualità (Lintott et al. 2008) . Un trucco importante per convincere la folla a creare dati di qualità professionale è la ridondanza , cioè, avere lo stesso compito svolto da molte persone diverse. Nel Galaxy Zoo c'erano circa 40 classificazioni per galassia; i ricercatori che utilizzano gli assistenti di ricerca universitari non potrebbero mai permettersi questo livello di ridondanza e quindi dovrebbero essere molto più interessati alla qualità di ogni singola classificazione. Ciò che mancava ai volontari in allenamento, sono stati compensati con la ridondanza.
Anche con più classificazioni per galassia, tuttavia, combinare l'insieme delle classificazioni di volontari per produrre una classificazione di consenso era complicato. Poiché nella maggior parte dei progetti di computazione umana emergono sfide molto simili, è utile rivedere brevemente i tre passaggi utilizzati dai ricercatori dello Zoo Galaxy per produrre le loro classificazioni di consenso. Innanzitutto, i ricercatori hanno "ripulito" i dati rimuovendo le classificazioni fasulle. Ad esempio, le persone che più volte classificano la stessa galassia, cosa che succederebbe se tentassero di manipolare i risultati, hanno scartato tutte le loro classificazioni. Questa e altre pulizie simili hanno rimosso circa il 4% di tutte le classificazioni.
Secondo, dopo la pulizia, i ricercatori dovevano rimuovere i pregiudizi sistematici nelle classificazioni. Attraverso una serie di studi di rilevamento di pregiudizi incorporati all'interno del progetto originale - ad esempio, mostrando alcuni volontari della galassia in monocromia invece che a colori - i ricercatori hanno scoperto diversi pregiudizi sistematici, come un sistematico pregiudizio per classificare galassie a spirale lontane come galassie ellittiche (Bamford et al. 2009) . La regolazione di questi errori sistematici è estremamente importante perché la ridondanza non rimuove automaticamente la distorsione sistematica; aiuta solo a rimuovere l'errore casuale.
Alla fine, dopo aver fatto il debias, i ricercatori hanno avuto bisogno di un metodo per combinare le classificazioni individuali per produrre una classificazione di consenso. Il modo più semplice per combinare le classificazioni per ogni galassia sarebbe stato scegliere la classificazione più comune. Tuttavia, questo approccio avrebbe dato a ciascun volontario un peso equivalente, ei ricercatori sospettavano che alcuni volontari fossero meglio in classifica rispetto ad altri. Pertanto, i ricercatori hanno sviluppato una procedura di ponderazione iterativa più complessa che ha cercato di individuare i migliori classificatori e dare loro più peso.
Quindi, dopo una tre fasi di pulizia del processo, debiasing e ponderazione, il team di ricerca Galaxy Zoo ha convertito 40 milioni di classificazioni di volontari in una serie di classificazioni morfologiche di consenso. Quando queste classificazioni di Galaxy Zoo furono confrontate con tre precedenti tentativi su scala ridotta da parte di astronomi professionisti, inclusa la classificazione di Schawinski che contribuì a ispirare Galaxy Zoo, ci fu un forte consenso. Pertanto, i volontari, in totale, sono stati in grado di fornire classificazioni di alta qualità e su una scala che i ricercatori non potevano eguagliare (Lintott et al. 2008) . Infatti, avendo le classificazioni umane per un così grande numero di galassie, Schawinski, Lintott e altri erano in grado di dimostrare che solo circa l'80% delle galassie segue le spirali blu modello e le ellittiche rosse previste - e sono stati scritti numerosi articoli su questa scoperta (Fortson et al. 2011) .
Dato questo sfondo, ora puoi vedere come Galaxy Zoo segue la ricetta della combinazione split-apply-combine, la stessa ricetta utilizzata per la maggior parte dei progetti di calcolo umani. Innanzitutto, un grosso problema è suddiviso in blocchi. In questo caso, il problema di classificare un milione di galassie è stato diviso in un milione di problemi di classificazione di una galassia. Successivamente, viene applicata un'operazione a ciascun blocco in modo indipendente. In questo caso, i volontari hanno classificato ciascuna galassia come a spirale o ellittica. Infine, i risultati vengono combinati per produrre un risultato di consenso. In questo caso, la fase di combinazione comprendeva la pulizia, la debobizzazione e la ponderazione per produrre una classificazione di consenso per ciascuna galassia. Anche se la maggior parte dei progetti utilizza questa ricetta generale, ogni passaggio deve essere personalizzato in base al problema specifico affrontato. Ad esempio, nel progetto di calcolo umano descritto di seguito, verrà seguita la stessa ricetta, ma le fasi di domanda e combinazione saranno molto diverse.
Per il team Galaxy Zoo, questo primo progetto è stato solo l'inizio. Ben presto si sono resi conto che anche se erano in grado di classificare quasi un milione di galassie, questa scala non è sufficiente per lavorare con le nuove rilevazioni digitali del cielo, che possono produrre immagini di circa 10 miliardi di galassie (Kuminski et al. 2014) . Per gestire un aumento da 1 milione a 10 miliardi, un fattore di 10.000 Galaxy Zoo avrebbe dovuto reclutare circa 10.000 volte più partecipanti. Anche se il numero di volontari su Internet è grande, non è infinito. Pertanto, i ricercatori hanno capito che se dovessero gestire quantità sempre crescenti di dati, era necessario un nuovo approccio, ancora più scalabile.
Pertanto, Manda Banerji - lavorando con Schawinski, Lintott e altri membri del team Galaxy Zoo (2010) iniziato a insegnare ai computer a classificare le galassie. Più in particolare, utilizzando le classificazioni umane create da Galaxy Zoo, Banerji ha costruito un modello di apprendimento automatico in grado di prevedere la classificazione umana di una galassia basata sulle caratteristiche dell'immagine. Se questo modello potesse riprodurre le classificazioni umane con elevata precisione, potrebbe essere utilizzato dai ricercatori dello Zoo di Galaxy per classificare un numero sostanzialmente infinito di galassie.
Il nucleo dell'approccio di Banerji e dei colleghi è in realtà piuttosto simile alle tecniche comunemente utilizzate nella ricerca sociale, anche se tale somiglianza potrebbe non essere chiara a prima vista. Innanzitutto, Banerji e colleghi hanno convertito ogni immagine in un insieme di caratteristiche numeriche che riassumevano le sue proprietà. Ad esempio, per le immagini delle galassie, potrebbero esserci tre funzioni: la quantità di blu nell'immagine, la variazione della luminosità dei pixel e la proporzione di pixel non bianchi. La selezione delle caratteristiche corrette è una parte importante del problema e generalmente richiede esperienza in materia. Questo primo passaggio, comunemente chiamato feature engineering , si traduce in una matrice di dati con una riga per immagine e quindi tre colonne che descrivono quell'immagine. Data la matrice dei dati e l'output desiderato (ad esempio, se l'immagine è stata classificata da un umano come una galassia ellittica), il ricercatore crea un modello statistico o di apprendimento automatico, ad esempio la regressione logistica, che predice la classificazione umana basata sulle caratteristiche dell'immagine. Infine, il ricercatore utilizza i parametri in questo modello statistico per produrre classificazioni stimate di nuove galassie (figura 5.4). Nell'apprendimento automatico, questo approccio - utilizzando esempi etichettati per creare un modello che può quindi etichettare nuovi dati - è chiamato apprendimento supervisionato .
Le caratteristiche del modello di machine learning di Banerji e colleghi erano più complesse di quelle del mio esempio di giocattolo: ad esempio, usava caratteristiche come "de Vaucouleurs fit axial ratio" e il suo modello non era regressione logistica, era una rete neurale artificiale. Usando le sue caratteristiche, il suo modello e le classificazioni del Galaxy Zoo di consenso, è stata in grado di creare pesi su ogni funzione e quindi utilizzare questi pesi per fare previsioni sulla classificazione delle galassie. Ad esempio, la sua analisi ha rilevato che le immagini con un basso rapporto assiale "de Vaucouleurs fit" avevano più probabilità di essere galassie a spirale. Dati questi pesi, è stata in grado di predire la classificazione umana di una galassia con ragionevole accuratezza.
Il lavoro di Banerji e colleghi ha trasformato Galaxy Zoo in quello che definirei un sistema di calcolo umano assistito da computer . Il modo migliore di pensare a questi sistemi ibridi è che invece di far risolvere un problema agli umani, hanno creato un set di dati che può essere utilizzato per addestrare un computer per risolvere il problema. A volte, addestrare un computer per risolvere il problema può richiedere molti esempi e l'unico modo per produrre un numero sufficiente di esempi è una collaborazione di massa. Il vantaggio di questo approccio assistito dal computer è che consente di gestire quantità di dati essenzialmente infinite utilizzando solo una quantità limitata di sforzo umano. Ad esempio, un ricercatore con un milione di galassie classificate umane può costruire un modello predittivo che può essere utilizzato per classificare un miliardo o anche un trilione di galassie. Se ci sono un numero enorme di galassie, allora questo tipo di ibrido uomo-computer è davvero l'unica soluzione possibile. Questa infinita scalabilità non è tuttavia libera. Costruire un modello di apprendimento automatico in grado di riprodurre correttamente le classificazioni umane è di per sé un problema difficile, ma fortunatamente esistono già libri eccellenti dedicati a questo argomento (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo è una buona illustrazione di come molti progetti di computazione umana si evolvono. In primo luogo, un ricercatore tenta il progetto da solo o con un piccolo gruppo di assistenti di ricerca (ad esempio, lo sforzo iniziale di classificazione di Schawinski). Se questo approccio non scala bene, il ricercatore può passare a un progetto di calcolo umano con molti partecipanti. Ma, per un certo volume di dati, il puro sforzo umano non sarà sufficiente. A quel punto, i ricercatori devono costruire un sistema di calcolo umano assistito da computer in cui le classificazioni umane siano utilizzate per addestrare un modello di apprendimento automatico che possa essere applicato a quantità virtualmente illimitate di dati.