Galaxy Zoo va combinar els esforços de molts voluntaris no experts per classificar un milió de galàxies.
Galaxy Zoo va sorgir a causa d'un problema a què s'enfronta Kevin Schawinski, estudiant de postgrau d'Astronomia a la Universitat d'Oxford el 2007. Simplificant-se una mica, Schawinski estava interessat en les galàxies, i les galàxies es poden classificar segons la seva morfologia-el·líptica o espiral-i pel seu color blau o vermell. En aquest moment, la saviesa convencional entre els astrònoms era que les galàxies espirals, com la nostra Via Làctia, eren de color blau (indicant la joventut) i les galàxies el·líptiques eren vermelles (indicant la vellesa). Schawinski dubtava d'aquesta saviesa convencional. Va sospitar que, tot i que aquest patró podria ser veritable en general, probablement hi va haver una gran quantitat d'excepcions, i que estudiant moltes d'aquestes galàxies inusuals -las que no s'ajusten al patró esperat- podria aprendre alguna cosa sobre el procés a través del qual es formen galàxies
Per tant, el que necessitava Schawinski per enderrocar la saviesa convencional era un gran conjunt de galàxies classificades morfològicament; és a dir, galàxies que havien estat classificades com espirals o el·líptiques. El problema, però, era que els mètodes algorítmics existents per a la classificació encara no eren prou bons per ser utilitzats per a la investigació científica; en altres paraules, classificar galàxies era, en aquell moment, un problema difícil per a les computadores. Per tant, el que es necessitava era una gran quantitat de galàxies classificades per l' ésser humà . Schawinski va assumir aquest problema de classificació amb l'entusiasme d'un estudiant de postgrau. En una sessió de marató de set dies de 12 hores, va poder classificar 50.000 galàxies. Mentre que 50.000 galàxies poden sonar molt, en realitat són només al voltant del 5% dels gairebé un milió de galàxies que s'havien fotografiat a la Sloan Digital Sky Survey. Schawinski es va adonar que necessitava un enfocament més escalable.
Afortunadament, resulta que la tasca de classificar les galàxies no requereix una formació avançada en astronomia; es pot ensenyar a algú que ho faci amb força rapidesa. En altres paraules, tot i que la classificació de les galàxies és una tasca que era difícil per als ordinadors, que va ser bastant fàcil per als éssers humans. Així, mentre s'està assegut en un bar a Oxford, Schawinski i company astrònom Chris Lintott va idear un lloc web on els voluntaris classificarien imatges de galàxies. Uns mesos més tard, Galaxy Zoo va néixer.
Al lloc web del Galaxy Zoo, els voluntaris experimentarien uns minuts de formació; per exemple, aprenent la diferència entre una espiral i una galàxia el·líptica (figura 5.2). Després d'aquesta formació, cada voluntari va haver de passar un qüestionari relativament senzill, classificant correctament 11 de les 15 galàxies amb classificacions conegudes, i després començaria una classificació real de galàxies desconegudes a través d'una senzilla interfície basada en web (figura 5.3). La transició del voluntari a l'astrònom es realitzaria en menys de 10 minuts i només es requeria passar el més baix dels obstacles, un qüestionari senzill.
Galaxy Zoo va atreure als seus voluntaris inicials després que el projecte aparegués en un article de notícies, i en uns sis mesos el projecte va arribar a implicar més de 100.000 científics ciutadans, persones que van participar perquè gaudien de la tasca i que volien ajudar a avançar en l'astronomia. Junts, aquests 100.000 voluntaris van aportar un total de més de 40 milions de classificacions, amb la majoria de les classificacions procedents d'un grup bàsic de participants relativament petit (Lintott et al. 2008) .
Els investigadors que tenen experiència contractant assistents de recerca de grau poden ser immediatament escèptics sobre la qualitat de les dades. Tot i que aquest escepticisme és raonable, Galaxy Zoo mostra que quan les contribucions voluntàries es netegen correctament, es desxifren i s'agreguen, poden produir resultats d'alta qualitat (Lintott et al. 2008) . Un truc important per aconseguir que la multitud creï dades de qualitat professional és redundància , és a dir, tenint la mateixa tasca realitzada per moltes persones diferents. Al Galaxy Zoo, hi havia unes 40 classificacions per galàxia; els investigadors que usen ajudants de recerca de grau mai no podrien permetre aquest nivell de redundància i, per tant, haurien d'estar molt més preocupats per la qualitat de cada classificació individual. El que els voluntaris mancaven de formació, es van fer redundants.
Fins i tot amb diverses classificacions per galàxia, però, combinar el conjunt de classificacions voluntàries per produir una classificació de consens era complicat. Com que sorgeixen reptes molt semblants en la majoria de projectes de computació humana, és útil revisar breument els tres passos que els investigadors del Zoo del Galaxy usaven per produir les seves classificacions de consens. En primer lloc, els investigadors "netegen" les dades eliminant classificacions falses. Per exemple, les persones que van classificar repetidament la mateixa galàxia -alguna cosa que passaria si intentaven manipular els resultats- s'havien descartat totes les seves classificacions. Aquesta i una altra neteja semblant van eliminar al voltant del 4% de totes les classificacions.
En segon lloc, després de la neteja, els investigadors necessitaven eliminar els biaixos sistemàtics en les classificacions. A través d'una sèrie d'estudis de detecció de polaritzats incrustats en el projecte original, per exemple, mostrant voluntaris a la galàxia en monocrom en comptes de color, els investigadors van descobrir diversos biaixos sistemàtics, com ara un biaix sistemàtic per classificar galàxies espirals llunyanes com galàxies el·líptiques (Bamford et al. 2009) . L'ajustament d'aquests biaixos sistemàtics és molt important perquè la redundància no elimina automàticament el biaix sistemàtic; només ajuda a eliminar l'error aleatori.
Finalment, després del debiasing, els investigadors necessitaven un mètode per combinar les classificacions individuals per produir una classificació de consens. La forma més senzilla de combinar classificacions per a cada galàxia hauria estat triar la classificació més comuna. No obstant això, aquest enfocament hauria donat a cada voluntari un pes igual, i els investigadors sospiten que alguns voluntaris han estat millors en la classificació que altres. Per tant, els investigadors van desenvolupar un procediment de ponderació iteratiu més complex que va intentar detectar els millors classificadors i donar-los més pes.
D'aquesta manera, després d'un procés de neteja, depuració i ponderació de tres passos, l'equip de recerca del Zoo Galaxy havia convertit 40 milions de classificacions voluntàries en un conjunt de classificacions morfològiques de consens. Quan aquestes classificacions de Galaxy Zoo es van comparar amb tres anteriors intents de menor escala per part dels astrònoms professionals, inclosa la classificació de Schawinski que va ajudar a inspirar a Galaxy Zoo, hi va haver un acord fort. D'aquesta manera, els voluntaris, en conjunt, van poder proporcionar classificacions d'alta qualitat i en una escala que els investigadors no podien comparar (Lintott et al. 2008) . De fet, tenint classificacions humanes per a una gran quantitat de galàxies, Schawinski, Lintott i altres van demostrar que només un 80% de les galàxies segueixen les esperades espirals de color blau i el·líptiques vermelles, i s'han escrit nombrosos articles sobre aquest descobriment (Fortson et al. 2011) .
Tenint en compte aquests antecedents, ara podeu veure com Galaxy Zoo segueix la recepta de combinació dividida, la mateixa recepta que s'utilitza per a la majoria de projectes de computació humana. En primer lloc, un gran problema es divideix en trossos. En aquest cas, el problema de classificar un milió de galàxies es va dividir en un milió de problemes de classificació d'una galàxia. A continuació, s'aplica una operació a cada fragment independentment. En aquest cas, els voluntaris classifiquen cada galàxia com espiral o el·líptica. Finalment, els resultats es combinen per produir un resultat de consens. En aquest cas, el pas de combinació incloïa la neteja, el desbordament i la ponderació per produir una classificació de consens per a cada galàxia. Tot i que la majoria de projectes utilitzen aquesta recepta general, cada pas ha de ser personalitzat amb el problema específic que s'aborda. Per exemple, en el projecte de computació humana que es descriu a continuació, es seguirà la mateixa recepta, però els passos d'aplicar i combinar seran molt diferents.
Pel que fa a l'equip del Galaxy Zoo, aquest primer projecte va ser només el principi. Molt ràpidament es van adonar que, tot i que podien classificar prop d'un milió de galàxies, aquesta escala no era suficient per treballar amb enquestes de cel digital més modernes, que poden produir imatges d'uns 10.000 milions de galàxies (Kuminski et al. 2014) . Per fer front a un augment d'1 milió a 10 mil milions, un factor de 10,000-Galaxy Zoo hauria de reclutar aproximadament 10,000 vegades més participants. Encara que el nombre de voluntaris a Internet és gran, no és infinit. Per tant, els investigadors es van adonar que si anaven a manejar quantitats creixents de dades, era necessari un enfocament nou i encara més escalable.
Per tant, Manda Banerji, que treballa amb Schawinski, Lintott i altres membres de l'equip del Galaxy Zoo (2010) dur a terme ordinadors docents per classificar galàxies. Més específicament, utilitzant les classificacions humanes creades per Galaxy Zoo, Banerji va construir un model d'aprenentatge automàtic que podria predir la classificació humana d'una galàxia a partir de les característiques de la imatge. Si aquest model pogués reproduir les classificacions humanes amb molta precisió, podria ser utilitzat pels investigadors del Zoo Galaxy per classificar una quantitat essencialment infinita de galàxies.
El nucli de l'enfocament de Banerji i els col·legues és en realitat molt semblant a les tècniques que s'utilitzen habitualment en la investigació social, tot i que aquesta semblança podria no ser clara a simple vista. En primer lloc, Banerji i col·legues van convertir cada imatge en un conjunt de funcions numèriques que resumien les seves propietats. Per exemple, per a imatges de galàxies, hi ha tres funcions: la quantitat de blau a la imatge, la variància en la brillantor dels píxels i la proporció de píxels no blancs. La selecció de funcions correctes és una part important del problema i, en general, requereix coneixements sobre àrees subjectes. Aquest primer pas, generalment anomenat enginyeria de característiques , dóna com a resultat una matriu de dades amb una fila per imatge i tres columnes que descriuen aquesta imatge. Donada la matriu de dades i la sortida desitjada (per exemple, si la imatge ha estat classificada per un ésser humà com una galàxia el·líptica), l'investigador crea un model estadístic o d'aprenentatge automàtic (per exemple, regressió logística) que predice la classificació humana segons les característiques de la imatge. Finalment, l'investigador utilitza els paràmetres d'aquest model estadístic per produir classificacions estimades de noves galàxies (figura 5.4). En l'aprenentatge automàtic, aquest enfocament, que utilitza exemples etiquetats per crear un model que pot etiquetar noves dades, es denomina aprenentatge supervisat .
Les característiques del model d'aprenentatge automàtic de Banerji i els seus col·legues eren més complexes que les del meu exemple de joguina, per exemple, utilitzava funcions com "Vaucouleurs fit axial ratio" i el seu model no era una regressió logística, era una xarxa neuronal artificial. Utilitzant les seves característiques, el seu model i les classificacions consensuades del Galaxy Zoo, va poder crear pesos en cada característica i després utilitzar aquests pesos per fer prediccions sobre la classificació de galàxies. Per exemple, la seva anàlisi va trobar que les imatges amb baixos "Vaucouleurs fit axial ratio" eren més propenses a ser galàxies espirals. Davant aquests pesos, va poder predir la classificació humana d'una galàxia amb una precisió raonable.
El treball de Banerji i col·legues va convertir Galaxy Zoo en el que anomenaria un sistema de còmput humà assistit per ordinador . La millor manera de pensar sobre aquests sistemes híbrids és que, en lloc d'haver-hi problemes humans, els humans construeixen un conjunt de dades que es pot utilitzar per formar una computadora per resoldre el problema. De vegades, l'entrenament d'una computadora per resoldre el problema pot requerir molts exemples, i l'única manera de produir un nombre suficient d'exemples és una col·laboració massiva. L'avantatge d'aquest enfocament assistit per ordinador és que permet gestionar quantitats essencialment infinites de dades utilitzant només una quantitat finita d'esforç humà. Per exemple, un investigador amb un milió de galàxies classificades per humans pot construir un model predictiu que es pugui utilitzar per classificar mil milions o fins i tot un bilió de galàxies. Si hi ha un gran nombre de galàxies, aquest tipus d'híbrid humà-ordinador és realment l'única solució possible. No obstant això, aquesta escalabilitat infinita no és lliure. Construir un model d'aprenentatge automàtic que pugui reproduir correctament les classificacions humanes és un problema difícil, però afortunadament ja hi ha llibres excel·lents dedicats a aquest tema (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo és una bona mostra de quants projectes de computació humana evolucionen. En primer lloc, un investigador intenta el projecte per si mateix o amb un petit equip d'ajudants de recerca (per exemple, l'esforç inicial de classificació de Schawinski). Si aquest enfocament no s'escala bé, l'investigador pot passar a un projecte de computació humana amb molts participants. Però, per a un determinat volum de dades, l'esforç humà pur no serà suficient. En aquest punt, els investigadors han de construir un sistema de computació humana assistida per ordinador en què les classificacions humanes s'utilitzen per formar un model d'aprenentatge automàtic que es pugui aplicar a quantitats pràcticament il·limitades de dades.