Galaxy Zoo sameinar viðleitni margra sjálfboðaliða sem ekki sérfræðingur að flokka milljón vetrarbrautir.
Galaxy Zoo óx út af vandamál sem blasa við Kevin Schawinski, framhaldsnema í stjörnufræði við háskólann í Oxford árið 2007. Einföldun töluvert, Schawinski hafði áhuga á vetrarbrautum og vetrarbrautir má flokka af þeirra formgerð-sporöskjulaga eða spíral-og af þeirra lit-blár eða rauður. Á þeim tíma, venjulegur speki meðal stjörnufræðinga var að vetrarbrautir, eins Vetrarbrautinni okkar, voru blá á litinn (bendir æsku) og að sporvöluþokunum voru rauðir á lit (gefur til kynna elli). Schawinski efaðist þetta hefðbundna speki. Hann grunaði að á meðan þetta mynstur gæti verið satt almennt, voru sennilega töluverður fjöldi undantekningar, og að með því að rannsaka fullt af þessum óvenjulega vetrarbrautum-þær sem passaði ekki búist mynstur-hann gæti lært eitthvað um aðferð þar sem vetrarbrautir myndast.
Svona, það Schawinski þarf til að kollvarpa hefðbundna speki var stór sett af formgerð flokkast vetrarbrauta; það er, vetrarbrautir sem hafði verið flokkuð sem annaðhvort spíral eða sporöskjulaga. Vandamálið var hins vegar að núverandi lausnarleiðar aðferðir til flokkunar voru ekki enn nógu gott til að nota til vísindarannsókna; í öðrum orðum, flokka vetrarbrautir var á þeim tíma, vandamál sem var erfitt fyrir tölvur. Því það þurfti var mikill fjöldi manna sem flokkast vetrarbrauta. Schawinski sér þessi flokkun vandamál með ákafa framhaldsnema. Í maraþon fundi sjö, 12-tíma á dag, var hann fær um að flokka 50.000 vetrarbrautir. Þó 50.000 vetrarbrautir hljómi eins mikið, það er í raun aðeins um 5% af tæplega ein milljón vetrarbrautir sem hafði verið ljósmyndari í Sloan Digital Sky Survey. Schawinski ljóst að hann þurfti meira stigstærð nálgun.
Sem betur fer, það kemur í ljós að það verkefni að flokka vetrarbrauta þarf ekki háþróaður þjálfun í stjörnufræði; þú getur kennt einhverjum að gera það ansi hratt. Með öðrum orðum, jafnvel þótt flokkun vetrarbrauta er verkefni sem var erfitt fyrir tölvur, það var frekar auðvelt fyrir menn. Svo, á meðan situr í krá í Oxford, Schawinski og náungi stjörnufræðingurinn Chris Lintott dreymt upp vefsíðu þar sem sjálfboðaliðar myndi flokka myndir af vetrarbrautum. Nokkrum mánuðum síðar, Galaxy Zoo fæddist.
Á Galaxy Zoo vef, sjálfboðaliðar myndi gangast nokkrar mínútur af þjálfun; til dæmis, læra muninn spíral og sporvöluþoka (mynd 5.2). Eftir þessa þjálfun, sjálfboðaliðar þurfti að fara tiltölulega auðvelt quiz-rétt flokkaðir 11 af 15 vetrarbrautir með þekktum flokkun-og þá sjálfboðaliða myndi byrja alvöru flokkun óþekktra vetrarbrauta með einföldum vefur-undirstaða tengi (mynd 5.3). Umskiptin frá sjálfboðaliða til stjörnufræðingur myndi eiga sér stað í minna en 10 mínútur og aðeins krafist liggur lægsta hindranir, einfalt quiz.
Galaxy Zoo dregist upphafi sjálfboðaliða sína eftir að verkefnið var lögun í fréttagrein, og í um sex mánuði verkefnið óx að fela í sér meira en 100.000 ríkisborgari vísindamenn, fólk sem tóku þátt vegna þess að þeir njóta verkefni og þeir vildu hjálpa fyrirfram stjörnufræði. Saman þessar 100.000 sjálfboðaliðar lögðu samtals meira en 40 milljón flokkun, með meirihluta flokkanna koma frá tiltölulega litlum, algerlega öllum þátttakendum (Lintott et al. 2008) .
Vísindamenn sem hafa reynslu að ráða grunnnámi aðstoðarmenn rannsóknir gætu strax vera efins um gæði gagna. Þó að þetta tortryggni er sanngjarnt, Galaxy Zoo sýnir að þegar sjálfboðaliðar framlög séu rétt þrifin, debiased, og samanlögð, þeir geta framleiða hágæða niðurstöður (Lintott et al. 2008) . Mikilvægur bragð til að fá fólkið til að skapa faglega gæði gagna er offramboð; það er, að hafa sama verkefni flutt af mörgum mismunandi fólki. Í Galaxy Zoo, það voru um 40 flokkanir á vetrarbraut; Rannsakendur nota grunnnámi aðstoðarmenn rannsóknir gætu aldrei leyft þessu stigi offramboð og því þarf að vera miklu meiri áhyggjur með gæði hvers flokkun. Hvað sjálfboðaliðar skorti á þjálfun, þeir gerðu upp við offramboð.
Jafnvel með mörgum flokkun á vetrarbraut, þó að sameina mengi sjálfboðaliða flokkun til að framleiða samstaða flokkun er erfiður. Vegna mjög svipuð viðfangsefni koma í flestum mönnum verkefnum útreikningur, það er gagnlegt að stuttlega endurskoða þrjú skref að Galaxy Zoo vísindamenn notuð til að framleiða samstaða flokkunum. First, vísindamenn "hreinsa" gögn með því að fjarlægja svikinn flokkanir. Til dæmis, fólk sem ítrekað flokkast sama galaxy-eitthvað sem myndi gerast ef þeir voru að reyna að hagræða niðurstöðurnar-hafði allt flokkanir þeirra fleygt. Þetta og annað svipað hreinsun fjarlægt um 4% allra flokkun.
Í öðru lagi, eftir hreinsun, vísindamenn sem þarf að fjarlægja kerfisbundið hlutdrægni í flokkun. Í gegnum röð af rannsóknum hlutdrægni uppgötvun embed innan upprunalegu verkefni, til dæmis, að sýna sjálfboðaliðum Galaxy í einlita stað lita-vísindamenn uppgötvað nokkrar kerfisbundnum hlutdrægni, svo sem á kerfisbundinn hlutdrægni að flokka langt í burtu vetrarbrautir sem sporvöluvetrarbrauta (Bamford et al. 2009) . Stilling fyrir þessar kerfisbundnu hlutdrægni er afar mikilvægt vegna þess að að meðaltali margar framlög ekki fjarlægja kerfisbundið hlutdrægni; það fjarlægir aðeins handahófi villa.
Að lokum, eftir debiasing, sem vísindamenn þurfti aðferð til að sameina einstaka flokkanir til að framleiða samstöðu flokkun. Einfaldasta leiðin til að sameina flokkunum fyrir hverri vetrarbraut væri að velja algengasta flokkun. Þó þessi aðferð gæfi hvern sjálfboðaliða jafnt vægi, og vísindamenn grunaði að sumir sjálfboðaliðar voru betri á flokkun en aðrir. Því vísindamenn þróað flóknari endurtekningu vægi aðferð sem reynir að skynja bestu classifiers og gefa þeim meira vægi.
Þannig, eftir þriggja skrefa ferli-hreinsun, debiasing og vægi-the Galaxy Zoo rannsókn lið hafði breytt 40 milljónir sjálfboðaliða flokkanir inn í hóp af samstöðu útlitslegum flokkun. Þegar þessar Galaxy Zoo flokkar voru saman við þrjár fyrri tilraunir minni skala stjörnufræðingar, þar á meðal flokkunar Schawinski sem hjálpaði til að hvetja Galaxy Zoo, það var sterkur samkomulag. Þannig sjálfboðaliðar, samanlagt, voru fær um að veita hár flokkunum gæði og á mælikvarða sem vísindamenn gætu ekki passa (Lintott et al. 2008) . Í raun, með því að hafa mönnum flokkanir fyrir svo miklum fjölda vetrarbrauta, Schawinski, Lintott, og aðrir gátu til að sýna að aðeins um 80% af vetrarbrautum fylgja væntanlegu-blár spírala og rauðar ellipticals-og fjölmargir greinar hafa verið skrifaðar um þessi uppgötvun (Fortson et al. 2011) .
Í ljósi þessa bakgrunnur, getum við nú séð hvernig Galaxy Zoo fylgir hættu-gilda-sameina uppskrift, sama uppskrift sem er notað í flestum mönnum verkefna útreikningur. First, stórt vandamál er skipt í bita. Í þessu tilviki er vandamálið við að flokka milljón vetrarbrautir er skipt í milljón vandamálum flokkun einn Galaxy. Næst, aðgerð er beitt á hvern klumpur sjálfstætt. Í þessu tilfelli, sjálfboðaliði myndi flokka hverri vetrarbraut, annaðhvort kolli eða sporöskjulaga. Að lokum eru niðurstöður sameina til að framleiða samstöðu niðurstöðu. Í þessu tilviki er sameina skrefinu var þrif, debiasing, og vægi má til að mynda samstöðu flokkun fyrir hverri vetrarbraut. Jafnvel þótt flestir verkefni nota þessa almennu uppskrift, hvert skref þarf að aðlaga að sérstakur vandamálið beint. Til dæmis, í mönnum útreikningur verkefnið lýst hér, sama uppskrift verður fylgt, en beita og sameina skref verður mjög mismunandi.
Fyrir Galaxy Zoo lið, þetta fyrsta verkefni var bara byrjunin. Mjög fljótt ljóst að þeir sem jafnvel þó þeir væru færir um að flokka nærri milljón vetrarbrautir, þetta mælikvarði er ekki nóg til að vinna með nýrri Digital Sky könnunum, sem gæti framleiða myndir af um 10 milljarða vetrarbrauta (Kuminski et al. 2014) . Að höndla aukning frá 1.000.000-10000000000-stuðulinn 10.000 Galaxy Zoo þyrfti að ráða u.þ.b. 10.000 sinnum fleiri þátttakendur. Jafnvel þótt fjöldi sjálfboðaliða á Internetinu er stór, það er ekki óendanlegur. Því vísindamenn komust að því að ef þeir eru að fara að höndla sífellt vaxandi magn af gögnum, var nauðsynleg nýtt, jafnvel meira stigstærð, nálgun.
Því Manda Banerji-vinna með Kevin Schawinski, Chris Lintott og öðrum meðlimum Galaxy Zoo liðið hafin kennslu tölvur að flokka vetrarbrautir. Nánar tiltekið, með mönnum flokkanir búin með Galaxy Zoo, Banerji et al. (2010) byggði vél nám líkan sem gæti spá mannlega flokkun vetrarbrauta byggt á eiginleikum myndarinnar. Ef þetta nám vél líkan gæti endurskapa mönnum flokkanir með mikilli nákvæmni, þá gæti það verið notað af Galaxy Zoo vísindamönnum að flokka raun óendanlega fjölda vetrarbrauta.
Kjarni Banerji og samstarfsmenn "nálgun er í raun nokkuð svipað tækni sem almennt eru notaðar í félagslegu rannsóknir, þó að líkt gæti ekki verið ljóst við fyrstu sýn. First, Banerji og samstarfsmenn breytt hverja mynd inn í hóp af tölugildi eiginleikum sem lýsa það er eignir. Til dæmis, fyrir myndum af vetrarbrautum það gæti verið þrír eiginleikar: the magn af bláa í myndinni, dreifni í birtustig punktar, og hlutfall af non-hvítum dílar. Val á rétta lögun er mikilvægur hluti af vandamálinu, og það þarf almennt háð-svæði þekkingu. Þetta fyrsta skref, oft kölluð lögun verkfræði, leiðir í Data Matrix með eina röð á mynd og síðan þrír dálkar lýsa myndina. Í ljósi þess að gögn fylkið og viðkomandi framleiðsla (td hvort myndin var flokkuð með mönnum sem sporvöluþoka), rannsakandinn áætlar breytur tölfræðilegum líkan-til dæmis, eitthvað eins og línulegri aðhvarfsgreiningu-sem spáir mönnum flokkun sem byggist eftir eiginleikum myndarinnar. Loks rannsakandinn notar breytur í þessari tölfræðilegu líkani til að framleiða áætluðum flokkunum nýjum vetrarbrauta (mynd 5.4). Að hugsa um félagslega hliðstæðu, ímynda sér að þú hefðir lýðfræðilegar upplýsingar um milljón nemenda, og þú veist hvort þeir útskrifast úr háskóla eða ekki. Þú gætir passa logistic aðhvarfsgreiningu að þessum gögnum, og þá gætir þú notað leiðir líkan breytur til að spá fyrir um hvort nýir nemendur eru að fara að útskrifast úr háskóla. Í vél nám, þessi aðferð sem nota merktum dæmi til að búa til tölfræðilegt líkan sem getur þá merkja ný gögn-heitir eftirliti læra (Hastie, Tibshirani, and Friedman 2009) .
The lögun í Banerji et al. (2010) vél nám líkan voru flóknari en í leikfangið mitt dæmi, til dæmis, að hún notaði lögun eins og "de Vaucouleurs passa axial hlutfall" -Og líkan hennar var ekki aðhvarfsgreiningu, það var gervi tauga net. Notkun lögun hennar, líkan hennar og samstaða Galaxy Zoo flokkanir, hún var fær til að búa til lóð á hverja aðgerð, og þá nota þessi lóð að spá fyrir um flokkun vetrarbrauta. Til dæmis, greining hennar fannst að myndir með lágt "de Vaucouleurs passa axial hlutfall" voru líklegri til að vera vetrarbrautir. Miðað við þessar vogir, var hún fær um að spá mannlega flokkun vetrarbraut með viðunandi nákvæmni.
Starf Banerji et al. (2010) reyndist Galaxy Zoo í það sem ég myndi kalla second-kynslóð manna útreikningur kerfi. Besta leiðin til að hugsa um þessar second-kynslóð er að frekar en að þurfa menn að leysa vandamál, þeir hafa menn byggja gagnapakkann sem hægt er að nota til að þjálfa tölvu til að leysa vandann. Magn gagna sem þarf til að þjálfa tölvuna getur verið svo stór að það þarf mönnum massa samstarf til að búa til. Í tilviki Galaxy Zoo, tauga net sem notuð af Banerji et al. (2010) sem þarf mjög mikinn fjölda af dæmum manna-merkt í því skyni að byggja upp líkan sem var fær um að áreiðanlegum endurskapa manna flokkun.
Kosturinn við þessa tölvu-aðstoðar nálgun er að það gerir þér kleift að höndla í raun óendanlega magni af gögnum með aðeins endanlegt magn af mannlega viðleitni. Til dæmis, rannsóknarmaður með milljón manna sem flokkast vetrarbrauta getur byggt upp sjálfvirkri líkan sem er síðan hægt að nota til að flokka milljarða eða jafnvel trilljón vetrarbrautir. Ef það eru gífurleg fjöldi vetrarbrauta, þá er þetta eins konar manna-tölva blendingur raun eina lausnin. Þetta óendanlega sveigjanleika er ekki frjáls, þó. Building a vél nám líkan sem getur rétt endurskapa mönnum flokkanir er sjálf erfitt vandamál, en sem betur fer eru nú þegar framúrskarandi bækur helgaðar þetta efni (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo sýnir þróun margra manna verkefnum útreikningur. First, rannsóknir tilraunir verkefnið sjálf eða með litlum hópi aðstoðarmanna rannsókna (td Schawinski er forflokkunin átak). Ef þessi aðferð virkar ekki mælikvarði vel, rannsakandinn getur fært til manna útreikningur verkefni þar sem margir stuðla flokkanir. En, fyrir ákveðna magn af gögnum, hreint mannlegur máttur mun ekki vera nóg. Á þeim tímapunkti, vísindamenn þurfa að byggja second-kynslóð þar mönnum flokkar eru notaðar til að þjálfa vél nám líkan sem síðan er hægt að beita til nánast ótakmarkað magn af gögnum.