Galaxy Zoo combina els esforços de molts voluntaris no experts per classificar un milió de galàxies.
Galaxy Zoo va sorgir a partir d'un problema que enfronten Kevin Schawinski, un estudiant graduat en astronomia a la Universitat d'Oxford en 2007. simplificant una mica, Schawinski estava interessat en les galàxies i les galàxies es poden classificar per la seva morfologia el·líptica o en espiral i pel seu color, blau o vermell. En aquest moment, la saviesa convencional entre els astrònoms és que les galàxies espirals, com la nostra Via Làctia, eren de color blau (que indica la joventut) i que les galàxies el·líptiques eren de color vermell (que indica la vellesa). Schawinski dubtava d'aquesta saviesa convencional. Sospitava que, si bé aquest patró podria ser cert en general, probablement hi va haver un considerable nombre d'excepcions, i que mitjançant l'estudi d'una gran quantitat d'aquestes galàxies -les inusuals els que no s'ajusten a l'espera de patrons que podia aprendre alguna cosa sobre el procés a través del qual galàxies es van formar.
Per tant, el que Schawinski necessari per tal de revertir la saviesa convencional era un gran conjunt de galàxies morfològicament d'anuncis; és a dir, les galàxies que havien estat classificades com espiral o el·líptica. El problema, però, era que els mètodes algorítmics de classificació ja no eren prou bo per ser utilitzat per a la investigació científica; en altres paraules, les galàxies classificació era, en aquest moment, un problema que era difícil per a les computadores. Per tant, el que es necessitava era un gran nombre de galàxies classificades humans. Schawinski emprendre aquest problema de classificació amb l'entusiasme d'un estudiant graduat. En una maratoniana sessió de set dies, 12 hores, va ser capaç de classificar 50.000 galàxies. Mentre que 50.000 galàxies poden sonar com a molt, en realitat és només el 5% dels gairebé un milió de galàxies que havia estat fotografiat al Sloan Digital Sky Survey. Schawinski adonar que necessitava un enfocament més escalable.
Afortunadament, resulta que la tasca de classificar les galàxies no requereix una formació avançada en astronomia; es pot ensenyar a algú que ho faci amb força rapidesa. En altres paraules, tot i que la classificació de les galàxies és una tasca que era difícil per als ordinadors, que va ser bastant fàcil per als éssers humans. Així, mentre s'està assegut en un bar a Oxford, Schawinski i company astrònom Chris Lintott va idear un lloc web on els voluntaris classificarien imatges de galàxies. Uns mesos més tard, Galaxy Zoo va néixer.
Al lloc web de Galaxy Zoo, els voluntaris es sotmetrien a uns minuts d'entrenament; per exemple, l'aprenentatge de la diferència entre una espiral i la galàxia el·líptica (Figura 5.2). Després d'aquesta formació, els voluntaris van haver de passar uns classificació relativament fàcil potser-correctament 11 de 15 galàxies conegudes amb classificacions i després el voluntari començaria la classificació real de galàxies desconegudes a través d'una senzilla interfície basada en web (Figura 5.3). La transició de voluntaris per l'astrònom es duria a terme en menys de 10 minuts i només es requereix passar el més baix d'obstacles, una prova senzilla.
Galaxy Zoo va atreure als seus voluntaris inicials després que el projecte va ser presentat en un article de notícies, i en uns sis mesos, el projecte va créixer per involucrar més de 100.000 ciutadans científics, les persones que van participar, ja que van gaudir de la tasca i volien ajudar a l'astronomia antelació. En conjunt, aquests 100.000 voluntaris van contribuir amb un total de més de 40 milions de classificacions, amb la majoria de les classificacions procedents d'un grup relativament petit, el nucli dels participants (Lintott et al. 2008) .
Els investigadors que tenen experiència contractar assistents de recerca universitaris seria possible seguir escèptics sobre la qualitat de dades. Mentre que aquest escepticisme és raonable, Galaxy Zoo mostra que quan les contribucions voluntàries es netegen correctament, debiased, i s'agreguen, poden produir resultats d'alta qualitat (Lintott et al. 2008) . Un truc important per aconseguir la multitud per crear dades de qualitat professional és la redundància; és a dir, després d'haver realitzat la mateixa tasca per moltes persones diferents. A Galaxy Zoo, hi havia al voltant de 40 classificacions per galàxia; els investigadors que fan servir assistents de recerca universitaris mai podria permetre aquest nivell de redundància i per tant han de ser molt més preocupats per la qualitat de cada classificació individual. El que els voluntaris no tenien formació, la qual van compensar amb redundància.
Fins i tot amb múltiples classificacions per galàxia, però, la combinació del conjunt de classificacions de voluntaris per produir una classificació de consens és difícil. A causa que sorgeixen desafiaments molt similars en la majoria dels projectes de computació humana, és útil revisar breument els tres passos que els investigadors Galaxy Zoo utilitzen per produir els seus classificacions de consens. En primer lloc, els investigadors "netegen" les dades mitjançant l'eliminació de les classificacions falses. Per exemple, les persones que en repetides ocasions classifiquen la mateixa galàxia, cosa que passaria si estiguessin tractant de manipular els resultats tenien totes les seves classificacions-descartats. Aquesta i altres similars de neteja elimina aproximadament el 4% de totes les classificacions.
En segon lloc, després de la neteja, els investigadors necessiten per eliminar les desviacions sistemàtiques en les classificacions. A través d'una sèrie d'estudis de detecció de biaixos implícits dins el projecte, per exemple originals, mostrant alguns voluntaris de la galàxia en blanc i negre en lloc de color els investigadors van descobrir diverses desviacions sistemàtiques, com un biaix sistemàtic per classificar galàxies molt lluny en espiral com les galàxies el·líptiques (Bamford et al. 2009) . L'ajust per aquestes desviacions sistemàtiques és extremadament important, ja que una mitjana de moltes contribucions no elimina el biaix sistemàtic; només s'elimina l'error aleatori.
Finalment, després de debiasing, els investigadors necessiten un mètode per combinar les classificacions individuals per produir una classificació de consens. La forma més senzilla de combinar les classificacions de cada galàxia seria triar la classificació més comuna. No obstant això, aquest enfocament donaria a cada voluntari pes igual, i els investigadors sospiten que alguns dels voluntaris eren millors en la classificació que altres. Per tant, els investigadors van desenvolupar un procediment de ponderació iterativa més complex que intenta detectar automàticament els millors classificadors i donar-los més pes.
Per tant, després d'un procés de neteja de tres passos, debiasing, i la ponderació equip d'investigació de Galaxy Zoo s'havia convertit 40 milions de classificacions de voluntaris en un conjunt de consens classificacions morfològiques. Quan aquestes classificacions Galaxy Zoo es van comparar amb tres intents anteriors de menor escala pels astrònoms professionals, inclosa la classificació per Schawinski que va ajudar a inspirar Galaxy Zoo, hi ha un fort acord. D'aquesta manera, els voluntaris, en total, van ser capaços de proporcionar les classificacions d'alta qualitat i en una escala que els investigadors no van poder igualar (Lintott et al. 2008) . De fet, en tenir les classificacions humans per a un gran nombre de galàxies a tal, Schawinski, Lintott, i altres van ser capaços de mostrar que només al voltant del 80% de les galàxies segueix les espirals esperats patró blau i el·líptiques Vermell-i nombrosos articles s'han escrit sobre aquest descobriment (Fortson et al. 2011) .
Tenint en compte aquests antecedents, ara podem veure com segueix Galaxy Zoo la fracció d'aplicar combinar-recepta, la mateixa recepta que s'utilitza per a la majoria dels projectes de computació humana. En primer lloc, un gran problema es divideix en trossos. En aquest cas, el problema de la classificació d'un milió de galàxies es divideix en un milió de problemes de la classificació d'una galàxia. A continuació, una operació s'aplica a cada tros de forma independent. En aquest cas, un voluntari classificaria cada galàxia, ja sigui com espiral o el·líptica. Finalment, els resultats es combinen per produir un resultat de consens. En aquest cas, l'etapa de combinar inclou la neteja, debiasing, i la ponderació per produir una classificació de consens per a cada galaxy. Encara que la majoria dels projectes utilitzen aquesta recepta general, cadascun dels passos ha de personalitzar al problema específic que s'adreça. Per exemple, en el projecte de computació humana es descriu a continuació, la mateixa recepta serà seguida, però els passos s'apliquen i combinar serà molt diferent.
Per a l'equip de Galaxy Zoo, aquest primer projecte era només el principi. Molt ràpidament es van adonar que tot i que van ser capaços de classificar a prop d'un milió de galàxies, aquesta escala no és suficient per treballar amb els nous estudis del cel digitals, el que podria produir imatges d'uns 10 mil milions de galàxies (Kuminski et al. 2014) . Per manejar una, d'1 milió a 10 milions d'un factor de 10.000-Galaxy Zoo hauria de contractar aproximadament 10.000 vegades més participants. Tot i que el nombre de voluntaris a Internet és gran, no és infinit. Per tant, els investigadors es van adonar que si van a manejar cada cop més grans quantitats de dades, es necessitava una nova, encara més escalable, enfocament.
Per tant, Mana Banerji-treballar amb Kevin Schawinski, Chris Lintott, i altres membres dels equips d'ensenyament de l'equip d'arrencada Galaxy Zoo per classificar galàxies. Més específicament, l'ús de les classificacions humans creats per Galaxy Zoo, Banerji et al. (2010) van construir un model d'aprenentatge de màquina que podria predir la classificació humana d'una galàxia basat en les característiques de la imatge. Si aquest model d'aprenentatge automàtic podria reproduir les classificacions humans amb una alta precisió, llavors podria ser utilitzat pels investigadors Galaxy Zoo per classificar un nombre essencialment infinit de galàxies.
El nucli de l'enfocament Banerji i els seus col·legues 'és en realitat molt similar a les tècniques utilitzades comunament en la investigació social, tot i que la similitud podria no ser clara a primera vista. En primer lloc, Banerji i els seus col·legues converteixen cada imatge en un conjunt de característiques numèriques que resumeixen les seves propietats. Per exemple, per a les imatges de galàxies que podria haver tres característiques: la quantitat de blau en la imatge, la variació en la lluentor dels píxels, i la proporció de píxels no blancs. La selecció de les característiques correctes és una part important del problema, i generalment requereix experiència-matèria. Aquest primer pas, comunament anomenada enginyeria característica, resulta en una matriu de dades amb una fila per cada imatge i després tres columnes que descriuen aquesta imatge. Donada la matriu de dades i la sortida desitjada (per exemple, si la imatge es va classificar per un ésser humà com una galàxia el·líptica), l'investigador estima els paràmetres d'un model de d'estadística exemple, una mena de regressió que logística prediu la classificació humana basada en les característiques de la imatge. Finalment, l'investigador utilitza els paràmetres d'aquest model estadístic per produir classificacions estimat de noves galàxies (Figura 5.4). Per pensar en un anàleg socials, imaginar que tenies informació demogràfica sobre un milió d'estudiants, i saber si es van graduar de la universitat o no. Es podria ajustar una regressió logística per aquestes dades, i llavors es podria utilitzar els paràmetres resultants per predir si els nous estudiants van a graduar de la universitat. En l'aprenentatge de màquina, aquest enfocament utilitzant exemples etiquetats per crear un model estadístic que després poden etiquetar les noves dades que es diu-aprenentatge supervisat (Hastie, Tibshirani, and Friedman 2009) .
Les característiques en Banerji et al. (2010) de la màquina model d'aprenentatge eren més complexos que els de la meva joguina exemple-, per exemple, s'utilitza característiques com "de Vaucouleurs encaixa relació axial", i el seu model no era de regressió logística, que era una xarxa neuronal artificial. Usant les seves característiques, el seu model, i el consens classificacions Galaxy Zoo, ella va ser capaç de crear els pesos en cada funció, i aleshores utilitzar aquests pesos per fer prediccions sobre la classificació de les galàxies. Per exemple, la seva anàlisi va trobar que les imatges de baixa "de Vaucouleurs, aptes relació axial" eren més propensos a ser galàxies espirals. Tenint en compte aquests pesos, va ser capaç de predir la classificació humana d'una galàxia amb una precisió raonable.
El treball de Banerji et al. (2010) es va convertir Galaxy Zoo en el que jo anomenaria un sistema de computació humana de segona generació. La millor manera de pensar sobre aquests sistemes de segona generació és que els éssers humans que tenen lloc de resoldre un problema, que tenen els éssers humans construeixen un conjunt de dades que es pot utilitzar per entrenar un equip per resoldre el problema. La quantitat de dades necessàries per entrenar l'equip pot ser tan gran que requereix una col·laboració massa humana per crear. En el cas de Galaxy Zoo, les xarxes neuronals utilitzats per Banerji et al. (2010) requereix un nombre molt gran d'exemples humana marcada per tal de construir un model que va ser capaç de reproduir de manera fiable la classificació humà.
L'avantatge d'aquest enfocament és assistida per ordinador que li permet gestionar quantitats essencialment infinites de dades utilitzant només una quantitat finita d'esforç humà. Per exemple, un investigador amb un milió de galàxies classificades humans pot construir un model predictiu que després poden ser utilitzats per classificar 1000000000 o fins i tot un bilió de galàxies. Si hi ha un enorme nombre de galàxies, llavors aquest tipus d'híbrid humà-ordinador és realment l'única solució possible. Aquesta escalabilitat infinita no és lliure, però. La construcció d'un model d'aprenentatge màquina que pot reproduir correctament les classificacions humans és en si mateix un problema difícil, però afortunadament ja hi ha excel·lents llibres dedicats a aquest tema (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo mostra l'evolució de molts projectes de computació humana. En primer lloc, un investigador intenta el projecte per si mateixa o amb un petit equip d'assistents de recerca (per exemple, l'esforç classificació inicial de Schawinski). Si aquest enfocament no escala bé, l'investigador pot passar a un projecte de computació humana on moltes persones contribueixen classificacions. Però, per a un determinat volum de dades, l'esforç humà pur no serà suficient. En aquest moment, els investigadors necessiten per construir sistemes de segona generació on s'utilitzen les classificacions humans per entrenar un model d'aprenentatge automàtic que pot ser aplicat a quantitats pràcticament il·limitades de dades.