Galaxy Zoo kombinirao je napore mnogih ne-stručnih volontera da klasificiraju milijune galaksija.
Galaxy Zoo izrastao je iz problema s kojima se suočio Kevin Schawinski, diplomirani student astronomije na Sveučilištu u Oxfordu 2007. Pojednostavljeno malo, Schawinski je bio zainteresiran za galaksije, a galaksije se mogu klasificirati po njihovoj morfologiji - eliptičnoj ili spiralnoj - i po plavim ili crvenim bojama. U to vrijeme, konvencionalna mudrost među astronomima bila je da su spiralne galaksije, poput našeg Mliječnog puta, bile plave boje (pokazujući mladost), a eliptičke galaksije bile su crvene (što ukazuje na starost). Schawinski je sumnjao u ovu konvencionalnu mudrost. Sumnjao je da, iako bi ovaj obrazac mogao biti općenit, vjerojatno je bio značajan broj iznimaka, a da bi proučavanjem mnogih neobičnih galaksija - onih koji nisu odgovarali očekivanom uzorku - mogao naučiti nešto o procesu kroz koji nastale galaksije.
Dakle, ono što je Schawinski trebao kako bi prevladao konvencionalnu mudrost bio je veliki niz morfološki klasificiranih galaksija; to jest, galaksije koje su klasificirane kao spirale ili eliptične. Problem je, međutim, da postojeće algoritamske metode za klasifikaciju nisu bile dovoljno dobre da se koriste za znanstvena istraživanja; drugim riječima, razvrstavanje galaksija bilo je u to vrijeme problem koji je teško za računala. Stoga je bilo potrebno velik broj ljudskih razvrstanih galaksija. Schawinski je poduzeo ovaj problem klasifikacije s entuzijazmom poslijediplomskog studenta. U sedmom maratonu od sedam 12-satnih dana uspio je klasificirati 50.000 galaksija. Dok se 50.000 galaksija može zvučati kao puno, zapravo je samo oko 5% gotovo milijun galaksija snimljenih u Sloan Digital Sky Surveyu. Schawinski je shvatio da je potreban skalabilniji pristup.
Srećom, ispostavilo se da je zadatak klasificiranja galaksija ne zahtijeva usavršavanje u astronomiji; možete naučiti nekoga da to učiniti vrlo brzo. Drugim riječima, iako klasificiranja galaksija je zadatak koji je teško za računala, bilo je vrlo lako za ljude. Dakle, dok je sjedio u gostionici u Oxfordu, Schawinski i kolega astronom Chris Lintott izmislio web stranicu na kojoj volonteri će klasificirati slike galaksija. Nekoliko mjeseci kasnije, Galaxy Zoo rođen.
Na web stranici galaksije Zoo, volonteri će proći nekoliko minuta treninga; na primjer, učeći razliku između spiralne i eliptične galaksije (slika 5.2). Nakon ovog treninga svaki volonter morao je proći relativno lako kviz - ispravno razvrstavanje 11 od 15 galaksija s poznatim klasifikacijama - a zatim bi počelo pravu klasifikaciju nepoznatih galaksija kroz jednostavno sučelje koje se temelji na webu (slika 5.3). Prijelaz s volontera u astronom bi se dogodio za manje od 10 minuta i zahtijevao je samo najmanju prepreku, jednostavan kviz.
Galaxy Zoo privukao je inicijalne volontere nakon što je projekt predstavljen u novinskom članku, a oko šest mjeseci projekt je raslo uključivanje više od 100.000 znanstvenika, ljudi koji su sudjelovali jer su uživali u zadatku i htjeli su pomoći unaprijediti astronomiju. Zajedno, ova 100.000 volontera pridonijela je više od 40 milijuna klasifikacija, pri čemu je većina klasifikacija dolazila iz relativno male, osnovne skupine sudionika (Lintott et al. 2008) .
Istraživači koji imaju iskustvo zapošljavanja dodiplomskog asistenta istraživanja mogu odmah biti skeptični o kvaliteti podataka. Iako je to skepticizam razumno, Galaxy Zoo pokazuje da kada se dobrovoljni doprinosi pravilno čiste, suzdržani i agregirani, oni mogu proizvesti visoke kvalitete rezultata (Lintott et al. 2008) . Važan trik za dobivanje mnoštva za stvaranje profesionalnih kvaliteta je redundancija , odnosno, imajući isti zadatak od strane mnogih različitih ljudi. U galaksijskom zoološkom vrtu bilo je oko 40 klasifikacija po galaksiji; istraživači koji su koristili preddiplomske znanstvene suradnike nikada ne bi mogli priuštiti tu razinu zalihosti i zbog toga bi trebali biti mnogo zabrinuti za kvalitetu svake pojedinačne klasifikacije. Ono što volonteri nisu imali u obuci, oni su se pretvorili u redundantnost.
Čak i uz višestruke klasifikacije po galaksiji, međutim, kombiniranje skupa volonterskih klasifikacija za izradu konsenzusne klasifikacije bio je lukav. Budući da se vrlo slični izazovi pojavljuju u većini ljudskih računalnih projekata, korisno je ukratko pregledati tri koraka koja su istraživači galaksije Zoo koristili za izradu konsenzualnih klasifikacija. Prvo, istraživači su "očistili" podatke uklanjanjem lažnih klasifikacija. Na primjer, ljudi koji su više puta klasificirali istu galaksiju - nešto što bi se dogodilo ako bi pokušali manipulirati rezultatima - odbacilo je sve njihove klasifikacije. Ovo i slično čišćenje uklonili su oko 4% svih klasifikacija.
Drugo, nakon čišćenja, istraživači su trebali ukloniti sustavne predrasude u klasifikacijama. Kroz niz istraživanja otkrivanja pristranosti ugrađenih u izvorni projekt - na primjer, pokazujući nekim volonterima galaksiju u jednobojnoj umjesto boje - istraživači su otkrili nekoliko sustavnih pristranosti, kao što je sustavna pristranost za klasifikaciju dalekih spiralnih galaksija kao eliptičnih galaksija (Bamford et al. 2009) . Podešavanje ovih sustavnih pristranosti iznimno je važno jer redundantnost ne automatski uklanja sustavnu pristranost; to samo uklanja slučajnu pogrešku.
Konačno, nakon bacanja, istraživači su imali potrebu za kombinacijom pojedinih klasifikacija kako bi se dobila konsenzusna klasifikacija. Najjednostavniji način kombiniranja klasifikacija za svaku galaksiju bio bi odabrati najčešće klasifikaciju. Međutim, taj pristup bi svakom volonteru dao jednaku težinu, a istraživači su sumnjali da su neki dobrovoljci bili bolji u klasifikaciji od drugih. Zato su istraživači razvili složenije postupke iterativnog ponderiranja koji su pokušali otkriti najbolje klasifikatore i dati im veću težinu.
Dakle, nakon tri koraka čišćenja procesa, debiasing i weighting-istraživački tim Galaxy Zoo pretvorio 40 milijuna dobrovoljačkih klasifikacija u skup konsenzus morfološke klasifikacije. Kada su ove klasifikacije Galaxy Zoo uspoređene s tri prethodna pokušaja manjih razmjera profesionalnih astronoma, uključujući i klasifikaciju Schawinskog, koja je pomogla nadahnuti Galaxy Zoo, postojao je snažan dogovor. Dakle, volonteri, u skupini, bili su u mogućnosti pružiti kvalitetne klasifikacije i na skali koji istraživači nisu mogli podudarati (Lintott et al. 2008) . Zapravo, ljudskim klasifikacijama za takav veliki broj galaksija, Schawinski, Lintott i drugi pokazali su da samo oko 80% galaksija slijedi očekivane plave spirale i crvene elipse - ovo otkriće (Fortson et al. 2011) .
S obzirom na tu pozadinu, sada možete vidjeti kako Galaxy Zoo prati split-apply-combine recept, isti recept koji se koristi za većinu ljudskih računalnih projekata. Prvo, veliki problem je podijeljen na komade. U ovom slučaju, problem klasificiranja milijun galaksija podijeljen je na milijun problema klasificiranja jedne galaksije. Zatim, operacija se primjenjuje na svaki komad neovisno. U ovom slučaju volonteri su klasificirali svaku galaksiju kao spiralu ili eliptičnu. Konačno, rezultati se kombiniraju kako bi se dobio rezultat konsenzusa. U ovom slučaju, kombinirani korak uključivao je čišćenje, debiasing i ponderiranje kako bi se dobila konsenzusna klasifikacija za svaku galaksiju. Iako većina projekata koristi ovaj opći recept, svaki se korak mora prilagoditi specifičnom problemu koji se rješava. Na primjer, u ljudskom računalnom projektu opisanom u nastavku, slijedit će isti recept, ali koraci za primjenu i kombinaciju bit će sasvim različiti.
Za ekipu Galaxy Zoo, ovaj prvi projekt bio je samo početak. Vrlo brzo su shvatili da, iako su uspjeli klasificirati blizu milijun galaksija, ova skala nije dovoljna za rad s novijim anketama digitalnog neba, koji mogu proizvesti slike od oko 10 milijardi galaksija (Kuminski et al. 2014) . Kako bi se nosio s povećanjem od 1 do 10 milijardi - faktor od 10.000 Galaxy Zoo-a trebao bi zaposliti oko 10.000 puta više sudionika. Iako je broj volontera na Internetu velik, nije beskonačan. Stoga su istraživači shvatili da bi, ako bi se obrađivali sve veće količine podataka, potreban je novi, još skalabilniji pristup.
Stoga je Manda Banerji - suradnja sa Schawinskim, Lintottom i ostalim članovima Galaxy Zoo tima (2010) pokrenula računala za podučavanje kako bi klasificirala galaksije. Konkretnije, koristeći ljudske klasifikacije koje je stvorio Galaxy Zoo, Banerji je izgradio model učenja stroja koji bi mogao predvidjeti ljudsku klasifikaciju galaksije na temelju karakteristika slike. Ako ovaj model može reproducirati ljudske klasifikacije s velikom točnošću, onda bi ga znanstvenici Galaxy Zoo mogli koristiti za klasificiranje bitno beskonačnog broja galaksija.
Jezgra Banerji i kolegijski pristup zapravo su prilično slični tehnikama koje se uobičajeno koriste u društvenim istraživanjima, iako se takva sličnost možda na prvi pogled ne može jasno prikazati. Prvo, Banerji i kolege pretvaraju svaku sliku u niz numeričkih značajki koji sažimaju svoje osobine. Na primjer, za slike galaksija mogu postojati tri značajke: količina plave boje na slici, varijacija u svjetlini piksela i udio ne-bijelih piksela. Odabir ispravnih značajki važan je dio problema, a općenito zahtijeva stručnost područja. Ovaj prvi korak, koji se obično naziva inženjering značajki , rezultira podatkovnom matricom s jednim redom po slici i zatim tri stupca koji opisuju tu sliku. S obzirom na podatkovnu matricu i željeni izlaz (npr. Je li slika klasificirana od strane čovjeka kao eliptične galaksije), istraživač stvara model statističkog ili strojnog učenja - na primjer, logističku regresiju - koja predviđa ljudsku klasifikaciju temeljenu na značajkama slike. Konačno, istraživač koristi parametre u ovom statističkom modelu za izradu procijenjenih klasifikacija novih galaksija (slika 5.4). U strojnom učenju, ovaj pristup pomoću označenih primjera za stvaranje modela koji zatim može označiti nove podatke - naziva se nadziranim učenjem .
Značajke u Banerji i modeli učenja strojeva kolege bile su složenije od onih u mojoj igri - na primjer, koristila je značajke poput "aksijalnog omjera de Vaucouleurs", a njezin model nije bio logistička regresija, već je bila umjetna neuronska mreža. Korištenje njezinih značajki, njezinog modela i konsenzusnih klasifikacija Galaxy Zoo, uspjela je stvoriti utege na svakoj značajci, a zatim upotrijebiti ove težine kako bi predvidjela klasifikaciju galaksija. Na primjer, njezina je analiza pokazala da su slike s niskim "de Vaucouleursovim aksijalnim omjerom" vjerojatno bile spiralne galaksije. S obzirom na ove težine, uspjela je predvidjeti ljudsku klasifikaciju galaksije s razumnom točnošću.
Rad Banerja i njegovih kolega pretvorio je Galaxy Zoo u ono što bih nazvao računalno potpomognutim ljudskim računalnim sustavom . Najbolji način razmišljanja o tim hibridnim sustavima je da, umjesto da ljudi rješavaju problem, imaju ljude koji grade skup podataka koji se može koristiti za podučavanje računala za rješavanje problema. Ponekad, obučavanje računala za rješavanje problema može zahtijevati puno primjera, a jedini način da se proizvede dovoljan broj primjera je masovna suradnja. Prednost ovog pristupa računalno potpomognutog pristupa je da vam omogućuje da obrađujete bitno beskonačne količine podataka koristeći samo konačnu količinu ljudskog napora. Na primjer, istraživač s milijunom ljudi klasificiranih galaksija može izgraditi prediktivni model koji se zatim može koristiti za klasifikaciju milijarde ili čak trilijuna galaksija. Ako postoji ogroman broj galaksija, onda je ta vrsta ljudsko-računalnog hibrida jedino moguće rješenje. Ova beskonačna skalabilnost, međutim, nije besplatna. Izgradnja modela strojnog učenja koji bi mogao pravilno reproducirati ljudske klasifikacije samo je težak problem, ali srećom već postoje izvrsne knjige posvećene ovoj temi (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo je dobar primjer broja ljudskih računalnih projekata koji se razvijaju. Prvo, istraživač pokušava sam projekt ili mali tim istraživačkih suradnika (npr. Schawinskijev početni razvrsni napor). Ako se ovaj pristup ne uspoređuje dobro, istraživač se može premjestiti na računalni projekt čovjeka s mnogim sudionicima. Ali, za određeni volumen podataka, čisti ljudski napori neće biti dovoljni. U tom trenutku, istraživači trebaju izgraditi računalni sustav računalnog računanja u kojem se ljudske klasifikacije koriste za osposobljavanje modela strojnog učenja koji se zatim mogu primijeniti na gotovo neograničene količine podataka.