Gradina zoologica Galaxy combina eforturile multor voluntari non-experti pentru a clasifica un milion de galaxii.
Gradina zoologica Galaxy a aparut dintr-o problema cu care se confrunta Kevin Schawinski, un student absolvent al Astronomiei de la Universitatea din Oxford in 2007. Simplificand destul de putin, Schawinski a fost interesat de galaxii, iar galaxiile pot fi clasificate dupa morfologia lor - eliptica sau spirala - si prin culoarea lor albastră sau roșie. În acel moment, înțelepciunea convențională în rândul astronomilor a fost că galaxiile spiralizate, ca și Calea Lactee, erau de culoare albastră (indicând tinerețea) și galaxiile eliptice erau roșii (indicând vârsta înaintată). Schawinski sa îndoit de această înțelepciune convențională. El a suspectat că, în timp ce acest tipar ar putea fi adevărat în general, probabil că există un număr considerabil de excepții și că, studiind multe dintre aceste galaxii neobișnuite - cele care nu se potriveau modelului așteptat - el putea afla ceva despre procesul prin care au format galaxii.
Astfel, ceea ce avea nevoie Schawinski pentru a răsturna înțelepciunea convențională a fost un set mare de galaxii clasificate morfologic; adică, galaxii clasificate fie ca spirală, fie ca eliptice. Problema a fost totuși că metodele algoritmice existente pentru clasificare nu erau încă destul de bune pentru a fi utilizate în cercetarea științifică; cu alte cuvinte, clasificarea galaxiilor era, la acea vreme, o problemă dificilă pentru computere. De aceea, era nevoie de un număr mare de galaxii umane clasificate. Schawinski a întreprins această problemă de clasificare cu entuziasmul unui student absolvent. Într-o sesiune de maraton de șapte zile de 12 ore, a reușit să clasifice 50.000 de galaxii. În timp ce 50.000 de galaxii s-ar putea număra mult, este de fapt doar aproximativ 5% din aproape un milion de galaxii care au fost fotografiate în Sloan Digital Sky Survey. Schawinski a realizat că are nevoie de o abordare mai scalabilă.
Din fericire, se pare că sarcina de galaxii care clasifică nu necesită pregătire avansată în astronomie; te poate învăța pe cineva să o facă destul de repede. Cu alte cuvinte, chiar dacă clasificarea galaxii este o sarcină care a fost greu pentru calculatoare, a fost destul de ușor pentru oameni. Așa că, în timp ce stătea într-un pub din Oxford, Schawinski și colegi astronom Chris Lintott a visat un site web unde voluntarii s-ar clasifica imaginile de galaxii. Câteva luni mai târziu, Galaxy Zoo sa născut.
La site-ul Galaxy Zoo, voluntarii urmau câteva minute de formare; de exemplu, învățarea diferenței dintre o spirală și o galaxie eliptică (figura 5.2). După această pregătire, fiecare voluntar a trebuit să treacă un quiz relativ ușor - clasificând corect 11 din 15 galaxii cu clasificări cunoscute - și apoi ar începe o clasificare reală a galaxiilor necunoscute printr-o interfață simplă bazată pe web (figura 5.3). Trecerea de la voluntar la astronom ar avea loc în mai puțin de 10 minute și trebuia doar să treacă cel mai mic obstacol, un test simplu.
Galaxy Zoo a atras voluntarii inițiali după ce proiectul a fost prezentat într-un articol de știri și în aproximativ șase luni proiectul a implicat mai mult de 100.000 de oameni de știință cetățeni, oameni care au participat pentru că s-au bucurat de această sarcină și au vrut să contribuie la avansarea astronomiei. Împreună, acești 100.000 de voluntari au contribuit cu un total de peste 40 de milioane de clasificări, majoritatea clasificărilor provenind de la un grup relativ mic de participanți (Lintott et al. 2008) .
Cercetătorii care au experiență în asimilarea asistenților de cercetare universitară ar putea fi imediat sceptici în ceea ce privește calitatea datelor. În timp ce acest scepticism este rezonabil, Galaxy Zoo arată că, atunci când contribuțiile voluntarilor sunt corect curățate, debiblate și agregate, ele pot produce rezultate de înaltă calitate (Lintott et al. 2008) . Un truc important pentru a obține mulțimea de a crea date de calitate profesională este redundanță , adică având aceleași sarcini îndeplinite de mai mulți oameni diferiți. În Galaxy Zoo, au existat aproximativ 40 de clasificări pe galaxie; cercetătorii care utilizează asistenți de cercetare universitari nu și-ar putea permite niciodată acest nivel de redundanță și, prin urmare, ar trebui să fie mult mai preocupați de calitatea fiecărei clasificări individuale. Ce nu aveau voluntarii în formare, au făcut-o cu redundanță.
Cu toate acestea, cu clasificări multiple pe galaxie, combinarea setului de clasificări ale voluntarilor pentru a produce o clasificare consensuală a fost dificilă. Întrucât provocările similare apar în majoritatea proiectelor de calcul uman, este util să revizuiți pe scurt trei etape pe care cercetătorii Galaxy Zoo le-au folosit pentru a-și produce clasificările consensuale. În primul rând, cercetătorii au "curățat" datele eliminând clasificările false. De exemplu, oamenii care au clasificat în mod repetat aceeași galaxie - ceva ce s-ar întâmpla dacă ar încerca să manipuleze rezultatele - au clasat toate clasificările lor. Această curățare similară și altele au eliminat aproximativ 4% din toate clasificările.
În al doilea rând, după curățare, cercetătorii au trebuit să elimine biasurile sistematice în clasificări. Printr - o serie de studii de detectare a părtinire încorporate în original , exemplul de proiect pentru, care prezintă unele voluntari galaxie în alb - negru în loc de culoare, cercetatorii au descoperit mai multe distorsiunilor sistematice, cum ar fi o prejudecată sistematică de a clasifica galaxii spirala îndepărtate galaxii eliptice (Bamford et al. 2009) . Ajustarea pentru aceste prejudecăți sistematice este extrem de importantă deoarece redundanța nu elimină automat părtinirea sistematică; doar ajuta la eliminarea erorii aleatorii.
În cele din urmă, după debitare, cercetătorii au nevoie de o metodă de combinare a clasificărilor individuale pentru a produce o clasificare consensuală. Cea mai simplă modalitate de a combina clasificările pentru fiecare galaxie ar fi fost aceea de a alege cea mai comună clasificare. Cu toate acestea, această abordare ar fi oferit fiecărui voluntar pondere egală, iar cercetătorii au suspectat că unii voluntari au fost mai buni la clasificare decât alții. Prin urmare, cercetătorii au dezvoltat o procedură iterativă de ponderare mai complexă, care a încercat să detecteze cei mai buni clasificatori și să le dea mai multă greutate.
Astfel, după un proces de curățare, debitare și ponderare în trei etape, echipa de cercetare Galaxy Zoo a convertit 40 de milioane de clasificări de voluntari într-un set de clasificări morfologice consensuale. Când aceste clasificări Galaxy Zoo au fost comparate cu trei încercări anterioare de astronomi profesioniști, inclusiv clasificarea de către Schawinski, care a ajutat la inspirarea zoologiei Galaxy, a existat un acord puternic. Astfel, voluntarii, în ansamblu, au fost capabili să furnizeze clasificări de înaltă calitate și la o scară pe care cercetătorii nu i-au putut corespunde (Lintott et al. 2008) . De fapt, prin clasificarea umană pentru un număr atât de mare de galaxii, Schawinski, Lintott și alții au putut arăta că doar aproximativ 80% din galaxii urmează modelul așteptat - spiralele albastre și elipticalele roșii - și au fost scrise numeroase lucrări despre această descoperire (Fortson et al. 2011) .
Având în vedere acest context, puteți vedea acum modul în care Galaxy Zoo urmează rețeta split-apply-combine, aceeași rețetă utilizată pentru majoritatea proiectelor de calcul uman. În primul rând, o mare problemă este împărțită în bucăți. În acest caz, problema clasificării unui milion de galaxii a fost împărțită într-un milion de probleme de clasificare a unei galaxii. Apoi, o operație este aplicată fiecărei bucăți în mod independent. În acest caz, voluntarii au clasificat fiecare galaxie ca spirală sau eliptică. În cele din urmă, rezultatele sunt combinate pentru a produce un rezultat consens. În acest caz, pasul combinat a inclus curățarea, debitarea și ponderarea pentru a produce o clasificare consensuală pentru fiecare galaxie. Chiar dacă majoritatea proiectelor utilizează această rețetă generală, fiecare pas trebuie adaptat la problema specifică abordată. De exemplu, în proiectul de calcul uman descris mai jos, va fi urmată aceeași rețetă, dar pașii aplicați și combinați vor fi destul de diferiți.
Pentru echipa Galaxy Zoo, acest prim proiect a fost doar începutul. Foarte repede și-au dat seama că, deși au reușit să clasifice aproape un milion de galaxii, această scală nu este suficientă pentru a lucra cu sondaje digitale mai noi, care pot produce imagini de aproximativ 10 miliarde de galaxii (Kuminski et al. 2014) . Pentru a face față unei creșteri de la 1 milion la 10 miliarde, un factor de 10000 Galaxy Zoo ar trebui să recruteze aproximativ 10 000 de ori mai mulți participanți. Chiar dacă numărul de voluntari de pe Internet este mare, nu este infinit. Prin urmare, cercetătorii au dat seama că, dacă ar urma să se ocupe de tot mai multe date, ar fi fost nevoie de o abordare nouă și mai scalabilă.
Prin urmare, Manda Banerji - care lucrează cu Schawinski, Lintott și alți membri ai echipei Galaxy Zoo (2010) început să predea calculatoare pentru a clasifica galaxiile. Mai exact, folosind clasificările umane create de Galaxy Zoo, Banerji a construit un model de învățare a mașinilor care ar putea prezice clasificarea umană a unei galaxii pe baza caracteristicilor imaginii. Dacă acest model ar putea reproduce clasificările umane cu o precizie ridicată, atunci ar putea fi folosit de cercetătorii Galaxy Zoo pentru a clasifica un număr esențial infinit de galaxii.
Miezul abordării lui Banerji și al colegilor este de fapt destul de similar cu tehnicile utilizate în mod obișnuit în cercetarea socială, deși această similitudine ar putea să nu fie clară la prima vedere. În primul rând, Banerji și colegii i-au transformat fiecare imagine într-un set de caracteristici numerice care i-au rezumat proprietățile. De exemplu, pentru imaginile galaxiilor, pot exista trei caracteristici: cantitatea de albastru din imagine, varianța de luminozitate a pixelilor și proporția de pixeli non-albi. Selectarea caracteristicilor corecte este o parte importantă a problemei și, în general, necesită expertiză în domeniul respectiv. Acest prim pas, denumit în mod obișnuit inginerie de caracteristici , are ca rezultat o matrice de date cu un rând pe imagine și apoi trei coloane care descriu acea imagine. Având în vedere matricea datelor și rezultatul dorit (de exemplu, dacă imaginea a fost clasificată de către o persoană ca o galaxie eliptică), cercetătorul creează un model de învățare statistică sau de mașină - de exemplu, regresia logistică - care prezice clasificarea umană pe baza caracteristicilor a imaginii. În cele din urmă, cercetătorul folosește parametrii în acest model statistic pentru a produce clasificări estimate ale noilor galaxii (figura 5.4). În procesul de învățare în mașină, această abordare - utilizând exemple etichetate pentru a crea un model care poate apoi să eticheteze date noi - se numește învățare supravegheată .
Caracteristicile modelului de învățare a mașinilor de la Banerji și al colegilor au fost mai complexe decât cele din exemplul jucăriei mele - de exemplu, ea a folosit caracteristici ca "raportul axial de fit de Vaucouleurs" - și modelul ei nu era regresie logistică, era o rețea neurală artificială. Folosind caracteristicile ei, modelul ei și clasificările Galaxy Zoo consens, ea a reușit să creeze greutăți pentru fiecare caracteristică și apoi să folosească aceste greutăți pentru a face predicții despre clasificarea galaxiilor. De exemplu, analiza ei a constatat că imaginile cu raportul axial scăzut "de Vaucouleurs fit" au fost mult mai probabil să fie galaxii spiralizate. Având în vedere aceste greutăți, a fost capabilă să prezică clasificarea umană a unei galaxii cu o precizie rezonabilă.
Munca lui Banerji și colegilor i-au transformat Galaxy Zoo în ceea ce aș numi un sistem de calcul uman asistat de calculator . Cea mai bună metodă de a gândi despre aceste sisteme hibride este că, mai degrabă decât dacă oamenii au o problemă, ei au construit un set de date care poate fi folosit pentru a instrui un calculator pentru a rezolva problema. Uneori, pregătirea unui computer pentru a rezolva problema poate necesita o mulțime de exemple și singura modalitate de a produce un număr suficient de exemple este o colaborare în masă. Avantajul acestei abordări asistate de calculator este că vă permite să gestionați cantități infinite de date, utilizând doar o cantitate finită de efort uman. De exemplu, un cercetător cu un milion de galaxii umane clasificate poate construi un model predictiv care poate fi apoi folosit pentru a clasifica un miliard sau chiar un miliard de galaxii. Dacă există un număr enorm de galaxii, atunci acest tip de hibrid uman-calculator este într-adevăr singura soluție posibilă. Această scalabilitate infinită nu este însă gratuită. Construirea unui model de învățare a mașinilor care să reproducă corect clasificările umane este însăși o problemă dificilă, dar, din fericire, există deja cărți excelente dedicate acestui subiect (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Gradina zoologica Galaxy este o ilustratie buna a cat de multe proiecte de calcul umane evolueaza. În primul rând, un cercetător încearcă singur sau cu o mică echipă de asistenți de cercetare (de exemplu, efortul inițial de clasificare a lui Schawinski). Dacă această abordare nu scade bine, cercetătorul poate trece la un proiect de calcul uman cu mulți participanți. Dar, pentru un anumit volum de date, efortul uman pur nu va fi suficient. În acel moment, cercetătorii trebuie să construiască un sistem de computerizare asistat de calculator, în care clasificările umane să fie utilizate pentru a forma un model de învățare a mașinilor, care poate fi apoi aplicat la cantități nelimitate de date.