5.2.1 Galaxy Zoo

Din it-traduzzjoni ġiet maħluqa minn kompjuter. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 Galaxy Zoo

Galaxy Zoo tgħaqqad l-isforzi tal-volontiera mhux esperti ħafna biex jikklassifikaw miljun galaxies.

Galaxy Zoo kiber minn problema ffaċċjati minn Kevin Schawinski, student gradwat fil Astronomija fl-Università ta 'Oxford fl-2007 Simplifikazzjoni pjuttost ftit, Schawinski kien interessat fil galaxies, u galassji jistgħu jiġu kklassifikati mill-morfoloġija ellittika jew tagħhom spirali-u mill-kulur blu jew aħmar tagħhom. Fil-ħin, għerf konvenzjonali fost Astronomers kienet li galaxies spirali, bħal ħalib Way tagħna, kienu ta 'kulur blu (-żgħażagħ li jindika) u li galaxies ellittika kienu ta' kulur aħmar (li tindika xjuħija). Schawinski ddubitat dan il-għerf konvenzjonali. Huwa suspettat li filwaqt dan il-mudell jista 'jkun minnu, b'mod ġenerali, kien hemm probabbilment għadd imdaqqas ta' eċċezzjonijiet, u li billi jistudjaw lottijiet ta 'dawn il--galaxies l mhux tas-soltu dawk li ma jinstallax il-mistenni mudell' li seta 'titgħallem xi ħaġa dwar il-proċess li permezz tiegħu galaxies iffurmata.

Għalhekk, dak li Schawinski meħtieġa sabiex idawru għerf konvenzjonali kien sett kbir ta 'galaxies morfoloġikament klassifikati; jiġifieri, galassji li kienu ġew ikklassifikati bħala jew spirali jew ellittika. Il-problema, madankollu, kien li l-metodi algorithmic eżistenti għall-klassifikazzjoni ma kinux għadhom tajbin biżżejjed biex jintużaw għal riċerka xjentifika; fi kliem ieħor, galassji jikklassifikaw kienet, f'dak iż-żmien, problema li kienet diffiċli għall-kompjuters. Għalhekk, dak li kien meħtieġ kien numru kbir ta 'galaxies klassifikati umani. Schawinski intrabtet din il-problema klassifikazzjoni bl-entużjażmu ta 'student gradwat. F'sessjoni maratona ta 'sebat, ijiem 12 siegħa, huwa kien kapaċi li jikklassifika 50,000 galaxies. Filwaqt 50,000 galaxies jista 'ħoss simili ħafna, huwa attwalment biss madwar 5% tar-kważi miljun galaxies li kien ġie fotografat fl-Istħarriġ Sema Sloan Diġitali. Schawinski induna li kellu bżonn ta 'approċċ aktar skalabbli.

Fortunatament, jirriżulta li l-kompitu ta 'galaxies klassifikazzjoni ma jeħtieġu taħriġ avvanzat fl-astronomija; inti tista jgħallmu xi ħadd li jagħmel dan pretty malajr. Fi kliem ieħor, anki jekk klassifikazzjoni galaxies huwa kompitu li kien diffiċli għall-kompjuters, kien pjuttost faċli għall-bnedmin. Allura, waqt seduta fi pub fil Oxford, Schawinski u sħabi astronomu Chris Lintott ħolmu ta 'websajt fejn il-voluntiera jikklassifikaw stampi ta' galaxies. Ftit xhur wara, Galaxy Zoo twieled.

Fuq il-websajt Galaxy Zoo, voluntiera se jgħaddu ftit minuti ta 'taħriġ; per eżempju, it-tagħlim id-differenza bejn spirali u galaxie ellittika (Figura 5.2). Wara dan it-taħriġ, il-voluntiera kellhom jgħaddu ftit li jikklassifikaw relattivament faċli kwiżż-korrettement 11 ta '15 galaxies ma magħrufa klassifikazzjonijiet' u allura l-voluntier jibda klassifikazzjoni reali ta 'galaxies mhux magħrufa permezz ta' web-based interface sempliċi (Figura 5.3). It-tranżizzjoni mill-voluntier biex astronomu se sseħħ f'inqas minn 10 minuta u biss meħtieġ li jgħaddi l-aktar baxx ta 'ostakli, kwizz sempliċi.

Figura 5.2: Eżempji ta 'dawn iż-żewġ tipi ewlenin ta' galaxies: spirali u ellittika. Il-proġett Galaxy Zoo tintuża aktar minn 100.000 voluntiera għal kategoriji aktar minn 900.000 immaġini. Sors: www.galaxyzoo.org .

Figura 5.3: iskrin Input fejn votanti kienu mitluba biex tikklassifika immaġini waħda. Sors: www.galaxyzoo.org .

Galaxy Zoo attirati voluntiera inizjali tagħha wara li l-proġett kienet tidher fl-artikolu aħbarijiet, u fil-madwar sitt xhur il-proġett ġiet miżjuda biex tinvolvi aktar minn 100,000 xjentisti ċittadin, nies li pparteċipaw għaliex jgawdu l-kompitu u riedu biex jgħinu astronomija bil-quddiem. Flimkien, dawn 100.000 voluntiera kkontribwew total ta 'aktar minn 40 miljun klassifikazzjonijiet, bil-maġġoranza tal-klassifikazzjonijiet li ġejjin minn relattivament żgħir, grupp ewlieni ta' parteċipanti (Lintott et al. 2008) .

Riċerkaturi li għandhom esperjenza kiri assistenti riċerkaturi universitarji jista immedjatament jkun xettiċi dwar il-kwalità tad-data. Filwaqt li dan xettiċiżmu huwa raġonevoli, Galaxy Zoo juri li meta l-kontribuzzjonijiet ta 'volontarjat huma mnaddfa sewwa, debiased, u aggregata, huma jistgħu jipproduċu riżultati ta' kwalità għolja (Lintott et al. 2008) . Trick importanti biex jinkiseb il-folla biex tinħoloq dejta kwalità professjonali hija redundancy; jiġifieri, wara li l-istess kompitu mwettaq minn nies differenti ħafna. Fl Galaxy Zoo, kien hemm madwar 40 klassifikazzjonijiet għal kull galaxie; riċerkaturi li jużaw assistenti riċerkaturi li għadhom ma ggradwawx qatt setgħux jaffordjaw dan il-livell ta 'redundancy u għalhekk jeħtieġu li jkunu ferm iktar konċernat mal-kwalità ta' kull klassifikazzjoni individwali. Dak li l-voluntiera ma kellhiex fit-taħriġ, huma magħmula għall bi sensja.

Anke ma 'klassifiki multipli għal kull galaxie, madankollu, li tikkombina l-sett ta' klassifikazzjonijiet ta 'volontarjat biex tipproduċi klassifikazzjoni konsensus hija delikata. Minħabba jinħolqu sfidi simili ħafna f'ħafna proġetti komputazzjoni tal-bniedem, huwa utli li tirrevedi qosor it-tliet passi li r-riċerkaturi Galaxy Zoo użati biex jipproduċu klassifikazzjonijiet kunsens tagħhom. L-ewwel, ir-riċerkaturi "mnaddfa" id-data billi tneħħi klassifikazzjonijiet fittizji. Per eżempju, nies li ripetutament klassifikati l-istess galaxie 'xi ħaġa li jiġri jekk dawn kienu qegħdin jippruvaw jimmanipulaw-riżultati kienu klassifikazzjonijiet kollha tagħhom jintrema. Dan u tindif ieħor simili jitneħħa madwar 4% tal-klassifikazzjonijiet kollha.

It-tieni nett, wara t-tindif, l-riċerkaturi meħtieġa biex jitneħħew l-bażijiet sistematiċi fil-klassifikazzjonijiet. Permezz ta 'serje ta' studji ta 'skoperta parzjalità integrati fi ħdan l-oriġinali eżempju proġett għal, li juru xi voluntiera-galaxie fl monokromu minflok kulur-riċerkaturi skoprew bosta bażijiet sistematiċi, bħal preġudizzju sistematiku li jikklassifikaw galaxies bogħod spirali bħala galaxies ellittika (Bamford et al. 2009) . Jaġġusta għal dawn bażijiet sistematiċi huwa estremament importanti għaliex b'medja ħafna kontribuzzjonijiet ma tneħħix bias sistematika; li jneħħi biss żball każwali.

Fl-aħħarnett, wara debiasing, ir-riċerkaturi meħtieġa metodu biex jgħaqqdu l-klassifikazzjonijiet individwali biex tipproduċi klassifikazzjoni kunsens. L-eħfef mod biex jgħaqqdu klassifikazzjonijiet għal kull galaxie ikun li jagħżlu l-iktar klassifikazzjoni komuni. Madankollu, dan l-approċċ jagħti lil voluntier piż ugwali, u r-riċerkaturi suspettat li xi voluntiera kienu aħjar fil-klassifikazzjoni minn oħrajn. Għalhekk, ir-riċerkaturi żviluppaw proċedura aktar kumplessa piż iterattiv li tentattivi biex jidentifikaw awtomatikament l-aħjar klassifikaturi u tagħtihom aktar piż.

Għalhekk, wara tliet stadji proċess ta 'tindif, debiasing, u l-ippeżar il-tim tar-riċerka Galaxy Zoo kienu konvertiti 40 miljun klassifikazzjonijiet ta' volontarjat f'sett ta 'klassifikazzjonijiet morfoloġiċi kunsens. Meta dawn il-klassifikazzjonijiet Galaxy Zoo tqabblu tliet tentattivi preċedenti fuq skala iżgħar minn Astronomers professjonali, inkluż l-klassifikazzjoni mill Schawinski li għen biex jispiraw Galaxy Zoo, kien hemm qbil qawwi. Għalhekk, il-voluntiera, fl-aggregat, kienu kapaċi jipprovdu klassifikazzjonijiet ta 'kwalità għolja u bi skala li r-riċerkaturi ma setgħux jaqblu (Lintott et al. 2008) . Fil-fatt, billi klassifikazzjonijiet umani għal tali numru kbir ta 'galaxies, Schawinski, Lintott, u oħrajn kienu f'pożizzjoni li juru li huma biss madwar 80% tal galaxies ssegwi l-spirali mistennija-mudell blu u ellipticals-u aħmar dokumenti numerużi ġew miktuba dwar din l-iskoperta (Fortson et al. 2011) .

Minħabba dan l-isfond, nistgħu issa tara kif Galaxy Zoo isegwi l qasma-jgħoddu-jikkombina riċetta, l-istess riċetta li tintuża għal ħafna proġetti komputazzjoni tal-bniedem. L-ewwel, problema kbira hija maqsuma fis-biċċiet. F'dan il-każ, il-problema tal-klassifikazzjoni miljun galaxies huwa maqsum miljun problemi ta 'klassifikazzjoni galaxie wieħed. Sussegwentement, operazzjoni tiġi applikata għal kull blokki indipendentement. F'dan il-każ, voluntier jikklassifikaw kull galaxie jew bħala spirali jew ellittika. Fl-aħħarnett, ir-riżultati huma magħquda biex tipproduċi riżultat konsensus. F'dan il-każ, il jikkombinaw pass inkluża t-tindif, debiasing, u l-ippeżar li jipproduċi klassifikazzjoni kunsens għal kull galaxie. Anki minkejja li ħafna proġetti jużaw din ir-riċetta ġenerali, kull wieħed mill-passi jeħtieġ li personalizzati biex l-problema speċifika qed jiġi indirizzat. Per eżempju, fil-proġett komputazzjoni tal-bniedem deskritt hawn taħt, l-istess riċetta se tkun segwita, iżda l-japplikawx u jikkombinaw passi se jkunu pjuttost differenti.

Għat-tim Galaxy Zoo, din l-ewwel proġett kien biss il-bidu. Malajr ħafna ndunaw li anki jekk dawn kienu f'pożizzjoni li tikklassifika qrib miljun galaxies, din l-iskala mhuwiex biżżejjed biex jaħdem ma 'stħarriġ aktar ġodda sema diġitali, li jistgħu jipproduċu stampi ta' madwar 10 biljun galassji (Kuminski et al. 2014) . Biex jimmaniġġaw żieda 1000000-10000000000-fattur ta 10,000 Galaxy Zoo jeħtieġ li jirreklutaw madwar 10,000 darbiet aktar parteċipanti. Anki jekk l-għadd ta 'voluntiera fuq l-Internet huwa kbir, mhuwiex infinita. Għalhekk, ir-riċerkaturi induna li jekk huma ser jittrattaw ammonti dejjem jikber ta 'dejta, kien meħtieġ ġdida, saħansitra aktar skalabbli, approċċ.

Għalhekk, Manda Banerji-ħidma ma 'Kevin Schawinski, Chris Lintott, u l-membri oħra tal-bidu' tim kompjuters tagħlim Galaxy Zoo tikklassifika galaxies. B'mod aktar speċifiku, bl-użu tal-klassifikazzjonijiet tal-bniedem maħluqa mill Galaxy Zoo, Banerji et al. (2010) mibni mudell ta 'tagħlim magna li setgħet tipprevedi l-klassifikazzjoni tal-bniedem ta' galaxie bbażata fuq il-karatteristiċi tal-immaġini. Jekk dan il-mudell tat-tagħlim magna tista 'tirriproduċi l-klassifikazzjonijiet tal-bniedem bi preċiżjoni għolja, allura jista' jintuża minn riċerkaturi Galaxy Zoo ser tikkwalifika numru essenzjalment infinit ta 'galaxies.

Il-qalba tal-approċċ Banerji u l-kollegi "huwa attwalment pjuttost simili għall-metodi ta 'teknika użati komunement fir-riċerka soċjali, għalkemm dan ix-xebh jista' ma jkunx ċar mad-daqqa t'għajn. L-ewwel, Banerji u l-kollegi konvertiti kull immaġini f'sett ta 'karatteristiċi numeriċi li jagħtu sommarju tas huwa proprjetajiet. Per eżempju, għall-immaġini ta 'galaxies jista' jkun hemm tliet fatturi: l-ammont tal-blu fil-immaġni, il-varjanza fil-luminożità ta 'l-pixels, u l-proporzjon ta' pixels non-abjad. L-għażla tal-karatteristiċi korretta hija parti importanti tal-problema, u ġeneralment teħtieġ għarfien espert suġġett taż-żona. Dan l-ewwel pass, komunement imsejħa l-inġinerija karatteristika, jirriżulta fi matriċi tad-dejta ma 'ringiela waħda għal kull immaġini u mbagħad tliet kolonni jiddeskrivu li l-immaġni. Minħabba l-matriċi tad-dejta u l-produzzjoni mixtieqa (eż, kemm jekk l-immaġini ġie kklassifikat mill-bniedem bħala galaxie ellittika), ir-riċerkatur jistma l-parametri ta 'mudell għall-istatistika eżempju, xi ħaġa bħal-rigressjoni li loġistika tbassar l-klassifikazzjoni tal-bniedem ibbażata fuq il-karatteristiċi ta 'l-immaġini. Finalment, ir-riċerkatur juża l-parametri f'dan il-mudell statistiku biex jipproduċu klassifikazzjonijiet stmat ta 'galaxies ġodda (Figura 5.4). Biex jaħsbu ta 'Analog soċjali, jimmaġina li inti kellha informazzjoni demografika dwar miljun studenti, u inti taf jekk dawn gradwat minn kulleġġ jew le. Inti tista 'toqgħod tajjeb rigressjoni loġistika għal din id-data, u allura inti tista' tuża l-parametri tal-mudell li jirriżultaw li jbassar jekk studenti ġodda ser gradwat minn kulleġġ. Fl tagħlim magna, dan l-approċċ jintużaw eżempji ttikkettjati biex jinħoloq mudell statistiku li jistgħu mbagħad tikketta proċessar ġdid ta 'tissejjaħ sorveljati tagħlim (Hastie, Tibshirani, and Friedman 2009) .

Figura 5.4: Deskrizzjoni simplifikata ta 'kif Banerji et al. (2010) uża l-klassifikazzjonijiet Galaxy Zoo li jħarreġ mudell ta 'tagħlim magna li tagħmel klassifikazzjoni galaxie. Stampi ta 'galaxies ġew konvertiti f'matriċi ta' karatteristiċi. F'dan l-eżempju simplifikat hemm tliet fatturi (l-ammont ta 'blu fil-immaġni, il-varjanza fil-luminożità ta' l-pixels, u l-proporzjon ta 'pixels non-abjad). Imbagħad, għal subsett ta 'l-immaġini, it-tikketti Galaxy Zoo huma użati biex iħarrġu mudell ta' tagħlim magna. Finalment, it-tagħlim magna hija użata biex jiġu stmati klassifikazzjonijiet għall-galassji li jifdal. I call dan it-tip ta 'proġett tat-tieni ġenerazzjoni proġett komputazzjoni tal-bniedem minħabba li, aktar milli jkollhom bnedmin issolvi problema, dawn ikollhom il-bnedmin jibnu dataset li jistgħu jintużaw biex iħarrġu kompjuter biex isolvu l-problema. Il-vantaġġ ta 'dan l-approċċ assistita mill-kompjuter hija li jgħinuk biex jimmaniġġjaw ammonti essenzjalment infinita ta' data bl-użu biss ammont finit ta 'sforz uman.

Il-karatteristiċi fil Banerji et al. (2010) mudell ta 'tagħlim magna kienu aktar kumplessi minn dawk fil-ġugarelli tiegħi eżempju' per eżempju, hija użat karatteristiċi bħal "de Vaucouleurs tajbin proporzjon assjali" -u mudell tagħha ma kienx regressjoni loġistika, kien ta 'netwerk newrali artifiċjali. Bl-użu l-karatteristiċi tagħha, mudell tagħha, u l-Kunsens klassifikazzjonijiet Galaxy Zoo, hija kienet f'pożizzjoni li joħolqu piżijiet fuq kull karatteristika, u mbagħad jużaw dawn il-piżijiet li jagħmel previżjonijiet dwar il-klassifikazzjoni ta 'galaxies. Per eżempju, l-analiżi tagħha sabet li l-immaġini bil-baxx "de Vaucouleurs tajbin proporzjon assjali" kienu aktar probabbli li jkunu galaxies spirali. Minħabba dawn il-piżijiet, hija kienet f'pożizzjoni li jbassru l-klassifikazzjoni tal-bniedem ta 'galaxie b'eżattezza raġonevoli.

Il-ħidma tal Banerji et al. (2010) mdawwar Galaxy Zoo fil dak I call sistema komputazzjoni tal-bniedem tat-tieni ġenerazzjoni. L-aħjar mod biex jaħsbu dwar dawn is-sistemi tat-tieni ġenerazzjoni hija li minflok li l-bnedmin issolvi problema, dawn ikollhom il-bnedmin jibnu dataset li jistgħu jintużaw biex iħarrġu kompjuter biex isolvu l-problema. L-ammont ta 'data meħtieġa biex iħarrġu l-kompjuter jista' jkun hekk kbir li teħtieġ kollaborazzjoni massa bniedem biex joħolqu. Fil-każ ta 'Galaxy Zoo,-netwerks newrali użati mill Banerji et al. (2010) meħtieġa numru kbir ħafna ta 'eżempji ttikkettjati umani sabiex tinbena mudell li kienet kapaċi b'mod affidabbli tirriproduċi l-klassifikazzjoni tal-bniedem.

Il-vantaġġ ta 'dan l-approċċ assistita mill-kompjuter hija li jgħinuk biex jimmaniġġjaw ammonti essenzjalment infinita ta' data bl-użu biss ammont finit ta 'sforz uman. Per eżempju, riċerkatur bi miljun galaxies klassifikati umani tista 'tibni mudell ta' tbassir li jistgħu mbagħad jintużaw biex tikklassifika biljun jew saħansitra triljun galaxies. Jekk ikun hemm għadd enormi ta 'galaxies, allura dan it-tip ta' ibridi umani-kompjuter huwa verament l-unika soluzzjoni possibbli. Din il iskalabbiltà infinita mhuwiex ħieles, madankollu. Bini ta 'mudell ta' tagħlim magna li jistgħu jirriproduċu b'mod korrett il-klassifikazzjonijiet tal-bniedem hija nnifisha problema iebsa, iżda fortunatament hemm diġà kotba eċċellenti ddedikati għal dan is-suġġett (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo turi l-evoluzzjoni ta 'ħafna proġetti komputazzjoni tal-bniedem. L-ewwel, riċerkatur tentattivi-proġett minnha nfisha jew ma 'tim żgħir ta' assistenti ta 'riċerka (eż, l-isforz klassifikazzjoni inizjali Schawinski s). Jekk dan l-approċċ ma skala sew, ir-riċerkatur jista 'jiċċaqlaq għal proġett komputazzjoni tal-bniedem fejn ħafna nies jikkontribwixxu klassifikazzjonijiet. Iżda, għal ċertu volum ta 'data, l-isforz uman pur mhux se jkun biżżejjed. F'dak il-punt, ir-riċerkaturi jeħtieġ li jinbnew sistemi tat-tieni ġenerazzjoni fejn jingħataw klassifikazzjonijiet tal-bniedem huma użati biex iħarrġu mudell ta 'tagħlim magna li jistgħu mbagħad jiġu applikati għall-ammonti virtwalment illimitat ta' data.