"Galaxy" zoologijos sodas sujungė daugelio ekspertų savanorių pastangas klasifikuojant milijoną galaktikų.
"Galaxy" zoologijos sode išaugo problema, kurią 2007 m. Ištiko Oksfordo universiteto astronomijos studente Kevinas Schawinskis. Paprasčiausiai Schawinski domino galaktikas, o galaktikos gali būti klasifikuojamos pagal jų morfologiją - elipsinę arba spiralinę jų spalvos mėlyna arba raudona spalva. Tuo tarpu astronomų įprasta išmintis buvo ta, kad spiralinės galaktikos, kaip ir mūsų Paukščių kelias, buvo mėlynos spalvos (nurodydamos jaunystę), o elipsinės galaktikos buvo raudonos (nurodant senatvę). Schawinski abejojo šia įprasta išmintį. Jis įtarė, kad nors šis modelis gali būti tikras apskritai, greičiausiai buvo daugybė išimčių, ir, studijuojant daugybę šių neįprastų galaktikų - tų, kurie neatitiko numatyto modelio, jis galėjo sužinoti apie procesą, per kurį formos galaktikos.
Taigi, ką Schawinskis norėjo išardyti įprastą išmintį, buvo daug morfologiškai klasifikuotų galaktikų; tai yra galaktika, kuri buvo klasifikuojama kaip spiralinė arba elipsinė. Tačiau problema buvo ta, kad esami algoritminiai klasifikavimo metodai dar nebuvo pakankamai geri, kad juos būtų galima naudoti moksliniams tyrimams; kitaip tariant, galaktikų klasifikavimas tuo metu buvo kompiuterių sunku problema. Todėl, ko reikėjo, buvo daug žmonių klasifikuojamų galaktikų. Schawinski prisiėmė šią klasifikavimo problemą su absolventų entuziazmu. Septynių 12 valandų dienų maratono sezone jis sugebėjo klasifikuoti 50 000 galaktikų. Nors 50 000 galaktikų gali atrodyti daug, tai tik apie 5% iš beveik vieno milijono galaktikų, kurie buvo fotografuoti "Sloan Digital Sky" tyrime. Schawinskis suvokė, kad jam reikia didesnio mastelio požiūrio.
Laimei, it turns out, kad klasifikuojant galaktikų užduotis nereikalauja aukštesnįjį mokymą astronomija; jūs galite išmokyti ką nors padaryti ją gana greitai. Kitaip tariant, nors klasifikuoti galaktikas yra užduotis, buvo sunku kompiuterius, tai buvo gana lengva žmonėms. Taigi, nors sėdi Oksforde, Schawinski ir kolegos astronomas Chrisas Lintott pub svajojo sukurti svetainę, kur savanoriai būtų klasifikuoti vaizdus galaktikų. Po kelių mėnesių, "Galaxy Zoo gimė.
"Galaxy Zoo" tinklalapyje savanoriai turėtų treniruotis keletą minučių; Pavyzdžiui, mokytis skirtumo tarp spiralės ir elipsinės galaktikos (5.2 pav.). Po šio mokymosi kiekvienas savanoris turėjo perduoti pakankamai lengvą viktoriną, teisingai klasifikavusią 11 iš 15 galaktikų su žinomomis klasifikacijomis, ir tada pradėjo tikrą nežinomų galaktikų klasifikaciją per paprastą internetinę sąsają (5.3 pav.). Perėjimas nuo savanorio prie astronomo įvyks mažiau nei per 10 minučių ir tik reikės išlaikyti mažiausius kliūtis - paprastą viktoriną.
"Galaxy Zoo" pritraukė savo pirminius savanorius po to, kai projektas buvo pristatytas naujienų straipsnyje, o per šešis mėnesius projekte dalyvavo daugiau kaip 100 000 piliečių mokslininkų, žmonių, kurie dalyvavo, nes jiems patiko užduotis, ir jie norėjo padėti išanalizuoti astronomiją. Kartu šie 100 000 savanorių sudarė daugiau kaip 40 milijonų klasifikatorių, kurių dauguma klasifikacijų buvo iš palyginti mažos pagrindinės dalyvių grupės (Lintott et al. 2008) .
Tyrėjai, turintys patirties samdydami bakalauro studijų asistentus, gali iškart skeptiškai vertinti duomenų kokybę. Nors šis skepticizmas yra pagrįstas, "Galaxy" zoologijos sode parodoma, kad kai savanorių įnašai yra teisingai išvalomi, debiuojami ir kaupiami, jie gali pagaminti kokybiškus rezultatus (Lintott et al. 2008) . Svarbus triukas, kad minios galėtų sukurti profesionalumo kokybes duomenis, yra dubliavimasis , ty tas pats uždavinys, kurį atlieka daugybė skirtingų žmonių. "Galaxy" zoologijos sode apie galaktiką buvo apie 40 klasifikacijų; mokslininkai, naudojantys studentų mokslinio tyrimo asistentus, niekada negalėtų sau leisti tokio atleidimo iš darbo lygio ir todėl turėtų būti daug labiau susirūpinę kiekvieno atskiro klasifikavimo kokybe. Ką savanoriai trūko mokyme, jie susilaukė iš darbo.
Tačiau net su daugybe klasifikacijų vienoje galaktikoje, tačiau derinant savanorių klasifikatorių rinkinį, kad būtų pasiektas konsensusas, buvo sudėtinga. Kadangi daugelyje žmonių skaičiavimo projektų susiduriama su labai panašiais sunkumais, yra naudinga trumpai apžvelgti tris žingsnius, kuriuos galaktikos zoologijos sodų mokslininkai naudojo, norėdami parengti jų sutarimą. Pirma, tyrėjai "išvalo" duomenis pašalindami klaidingą klasifikaciją. Pavyzdžiui, žmonės, kurie pakartotinai suklasifikavo tą pačią galaktiką - tai, kas atsitiks, jei jie bandytų manipuliuoti rezultatais, būtų atmesti visi jų klasifikatoriai. Šis ir kitas panašus valymas pašalina apie 4% visų klasifikacijų.
Antra, po valymo mokslininkai turėjo pašalinti sistemines klasifikacijas klasifikacijose. Pavyzdžiui, taikant į pradinį projektą įtrauktą neobjektyvumo aptikimo tyrimą, pavyzdžiui, kai kurie savanoriai parodė, kad galaktika nespalvota, o ne spalva. Mokslininkai atrado keletą sisteminių šališkumų, tokių kaip sistemingas šališkumas, kad klasifikuojant tolimus spiralines galaktikas kaip elipsės galaktikus (Bamford et al. 2009) . Šių sistemingų šališkumo koregavimas yra labai svarbus, nes atleidimas iš darbo automatiškai nepašalina sisteminio šališkumo; tai tik padeda pašalinti atsitiktine klaida.
Galiausiai, išnagrinėjus tyrimą, mokslininkams reikėjo metodo, kuriuo būtų galima suderinti atskirus klasifikatorius, kad būtų pasiektas konsensusas. Paprasčiausias būdas suderinti kiekvienos galaktikos klasifikacijas būtų buvęs pasirinkti labiausiai paplitusią klasifikaciją. Tačiau šis metodas suteiktų kiekvienam savanoriui vienodą svorį ir mokslininkai įtaria, kad kai kurie savanoriai buvo geriau klasifikuoti nei kiti. Todėl mokslininkai sukūrė sudėtingesnę iteracinę svorio procedūrą, kuri bandė nustatyti geriausius klasifikatorius ir suteikti jiems daugiau svorio.
Taigi, atlikus trijų etapų procesą - valymą, išardymą ir svorį - "Galaxy Zoo" tyrėjų komanda 40 milijonų savanorių klasifikatorių pavertė konsensuso morfologinėmis klasifikacijomis. Kai šie "Galaxy" zoologijos sodų klasifikatoriai buvo palyginti su trimis ankstesniais mažo masto profesionalių astronomų bandymais, įskaitant "Schawinski" klasifikavimą, kuris padėjo įkvėpti "Galaxy" zoologijos sodą, buvo tvirtas susitarimas. Taigi, savanoriai kartu sugebėjo pateikti aukštos kokybės klasifikatorių ir tokiu mastu, kad mokslininkai negalėjo sutapti (Lintott et al. 2008) . Tiesą sakant, turėdamas žmogaus tokio daugelio galaktikų žmonių klasifikaciją, Schawinski, Lintott ir kt. Galėjo parodyti, kad tik apie 80% galaktikų laikosi tikėtino šablono-mėlynos spiralės ir raudonųjų эллиптических dalių - ir buvo parašyta daug dokumentų šis atradimas (Fortson et al. 2011) .
Atsižvelgiant į šį foną, dabar galite sužinoti, kaip "Galaxy Zoo" seka "split-apply-combine" receptą, tą patį receptą, kuris naudojamas daugumoje žmonių skaičiavimo projektų. Pirma, didelė problema suskaidyta į gabalus. Šiuo atveju milijonų galaktikų klasifikavimo problema buvo suskaidyta į milijonines problemas, susijusias su vienos galaktikos klasifikavimu. Be to, operacija yra taikoma kiekvienam rutuliui atskirai. Tokiu atveju savanoriai kiekvieną galaktiką priskyrė spirale ar elipsinei formai. Galiausiai, rezultatai yra suderinti, kad būtų pasiektas bendras sutarimas. Šiuo atveju kombinuotame žingsnyje buvo priskiriamas valymas, debiasavimas ir svorio nustatymas, kad kiekvienai galaktikai būtų sudarytas bendras įvertinimas. Nors dauguma projektų naudoja šį bendrą receptą, kiekvienas žingsnis turi būti pritaikytas konkrečiai spręstinai problemai. Pavyzdžiui, žemiau aprašytame žmogaus skaičiavimo projekte bus laikomasi to paties recepto, tačiau taikymo ir derinimo veiksmai bus gana skirtingi.
Galaktikos zoologijos kolektyvo pirmasis projektas buvo tik pradžia. Labai greitai jie suprato, kad nors jie sugebėjo klasifikuoti beveik milijoną galaktikų, šiam mastui nepakanka dirbti su naujesniais skaitmeninio dangaus tyrimais, kurie gali pagaminti apie 10 milijardų galaktikų vaizdus (Kuminski et al. 2014) . Jei norite padidinti padidėjimą nuo 1 milijono iki 10 milijardų, tai 10 000 "Galaxy" zoologijos sodas turėtų įdarbinti maždaug 10 000 kartų daugiau dalyvių. Nors savanorių skaičius internete yra didelis, tai nėra begalinis. Todėl mokslininkai suprato, kad jei jie ketintų tvarkyti vis didėjantį duomenų kiekį, reikėjo naujo, dar labiau pritaikomo skaičiavimo metodo.
Todėl Manda Banerji, bendradarbiaudama su Schawinski, Lintott ir kitais "Galaxy Zoo" komandos nariais (2010) Pradėjo mokyti kompiuterius, kad galaktikos būtų klasifikuojamos. Konkrečiau, naudojant "Galaxy" zoologijos sodų sukurtus žmonių klasifikatorius, Banerji sukūrė mašininio mokymosi modelį, kuris galėjo numatyti galaktikos klasifikaciją pagal žmogaus charakteristikas. Jei šis modelis galėtų labai tiksliai atkurti žmogaus klasifikacijas, galaktikos zoologijos sodo tyrinėtojas galėtų jį naudoti, kad klasifikuotų iš esmės begalinį galaktikų skaičių.
Banerji ir kolegų požiūris iš esmės yra labai panašus į metodus, dažnai naudojamus socialiniuose tyrimuose, nors iš pirmo žvilgsnio šis panašumas gali būti neaiškus. Pirma, Banerji ir jo kolegos kiekvieną vaizdą pavertė skaitinėmis funkcijomis , apibendrinusias jų savybes. Pavyzdžiui, galaktikų atvaizdams gali būti trys funkcijos: mėlynos spalvos vaizdas, pikselių ryškumo dispersija ir nebalintų pikselių santykis. Tinkamų funkcijų parinkimas yra svarbi problemos dalis, ir paprastai ji reikalauja dalykinių sričių specialistų. Šis pirmasis žingsnis, paprastai vadinamas funkcijų inžinerija , sukuria duomenų matricą su viena eilute vienam vaizdui, o po to - trimis stulpeliais, apibūdinančiais tą vaizdą. Atsižvelgiant į duomenų matricą ir pageidaujamą produkciją (pvz., Ar vaizdas buvo klasifikuotas žmogumi kaip elipsės galaktika), tyrėjas sukuria statistinį arba mašininio mokymosi modelį, pavyzdžiui, logistinę regresiją, pagal kurią prognozuojama, kad žmogus klasifikuojamas pagal funkcijas vaizdą. Galiausiai, tyrėjas naudoja šio statistinio modelio parametrus, kad gautų apskaičiuotą naujų galaktikų klasifikaciją (5.4 pav.). Mokomosiose mašinose tokie metodai, kurių pavyzdžiai yra sukurti pavyzdį, kuris gali žymėti naujus duomenis, vadinamas prižiūrimu mokymusi .
"Banerji" ir kolegų mokomojo modelio funkcijos buvo sudėtingesnės nei mano žaislų pavyzdyje, pavyzdžiui, ji naudojo tokias savybes kaip "de Vaucouleurs fit axial ratio" ir jos modelis nebuvo logistikos regresija, tai buvo dirbtinis neuroninis tinklas. Naudodamasi savo funkcijomis, modeliu ir konsensuso "Galaxy Zoo" klasifikacijomis, ji sugebėjo kurti svorius kiekvienai funkcijai, o paskui naudoti šiuos svorius, kad galėtumėte prognozuoti galaktikų klasifikaciją. Pavyzdžiui, jos atlikta analizė parodė, kad vaizdai su mažu "de Vaucouleurs fit aksialiniu santykiu" labiau tikėtina, yra spiralinės galaktikos. Atsižvelgdama į šiuos svorius, ji galėjo numatyti galvosūkio žmonių klasifikavimą pagrįstu tikslumu.
"Banerji" ir jo kolegų darbas tapo "Galaxy Zoo", ką aš vadinu kompiuteriu paremta žmogaus skaičiavimo sistema . Geriausias būdas apmąstyti šias hibridines sistemas yra tas, kad žmonės, užkertantys kelią problemai išspręsti, turi žmones kurti duomenų rinkinį, kuris gali būti naudojamas mokyti kompiuterį problemai išspręsti. Kartais kompiuterio mokymas problemai išspręsti gali pareikalauti daug pavyzdžių, o vienintelis būdas sukurti pakankamą skaičių pavyzdžių yra masinis bendradarbiavimas. Šio kompiuterizuoto požiūrio privalumas yra tai, kad jis leidžia jums iš esmės perteikti begalinį duomenų kiekį, naudojant tik ribotą žmogaus pastangų kiekį. Pavyzdžiui, tyrinėtojas, turintis milijoną žmonių, turinčių klasifikuotų galaktikų, gali sukurti nuspėjamą modelį, kuris vėliau gali būti naudojamas milijardui ar net trilijonų galaktikų klasifikavimui. Jei yra didžiulis galaktikų skaičius, tai tik vieno žmogaus ir kompiuterio hibridas yra vienintelis galimas sprendimas. Tačiau begalinis mastelio lygis nėra laisvas. Labai sunku sukurti mašininio mokymosi modelį, galintį teisingai atkurti žmonių klasifikacijas, bet, laimei, jau yra puikių šios temos knygų (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
"Galaxy" zoologijos sode yra geras pavyzdys, kaip vystosi žmonių skaičiavimo projektai. Pirma, tyrinėtojas bando įgyvendinti projektą patys arba su nedidele tyrėjų padėjėjų komanda (pvz., Schawinski pradinės klasifikacijos pastangos). Jei šis metodas nesiseka, mokslininkas gali pereiti prie žmogaus skaičiavimo projekto su daugeliu dalyvių. Tačiau už tam tikrą duomenų kiekį nepakanka grynai žmonių pastangų. Tuo metu mokslininkams reikia sukurti kompiuterinę žmogiškąją skaičiavimo sistemą, kurioje žmonių klasifikavimai būtų naudojami mašininio mokymosi modelio mokymui, kuris gali būti taikomas beveik neribotam duomenų kiekiui.