Galaxy Zoo konbinatu ez adituen boluntario askoren ahaleginak milioika galaxia sailkatzeko.
Galaxia Zoo Kevin Schawinski, Oxfordeko Unibertsitateko Astronomia lizentziaduna izan zen 2007an. Schawinski galaxiarekiko interesa zuen eta galaxiak morfologia-eliptikoa edo espiralaren arabera sailkatu daitezke. kolore urdina edo gorria. Garai hartan, astronomoen ohiko jakinduriak espiralaren galaxiak, gure Esne Bidea bezalakoak, kolore urdinak ziren (gazteak adieraziz) eta galaxi eliptikoak gorriak ziren (zahartzaroa adierazteko). Schawinski zalantza ohiko hau zalantzan jartzen zuen. Arrazoi hau orokorra den bitartean egia izan liteke, salbuespen ugari izan ziren, eta ezohiko galaxia horietako asko aztertuz, espero zenaren ereduari egokitu ez zitzaizkionak, prozesuaren inguruko zerbait ikasten zuen. galaxia osatzen dute.
Horrela, Schawinski-k konbentzionalaren jakinduria suntsitu behar zuen zer galaxia morfologikoki sailkatutako multzo handi bat izan zen; hau da, espiral edo eliptiko gisa sailkatutako galaxiak. Arazoa, ordea, sailkapeneko metodo algoritmikoak ez zirela oraindik ikerketa zientifikorako erabili ahal izateko; Beste era batera esanda, galaxia sailkatzea ordenagailuentzat zaila izan zen garai hartan. Hori dela eta, beharrezkoa zen giza galaxia sailkatu ugari zen. Schawinski-k sailkapen arazo hau burutu zuen graduondoko ikaslearen gogotsu. 12 orduko zazpi orduko maratoi saio batean, 50.000 galaxia sailkatu zituen. 50.000 galaxia baino gehiago badira ere, Sloan Digital Sky Inkestan argazkiak ateratako ia milioi bat galaxia baino ez dira. Schawinski konturatu zen planteamendu gehiago eskalagarria zela.
Zorionez, bihurtzen da galaxia sailkatzeko zeregina ez du astronomia prestakuntza aurreratua eskatzen; norbaitek egin nahiko azkar irakasteko dezakezu. Beste era batera esanda, nahiz eta galaxiak sailkatuz zeregin bat gogorra izan da ordenagailuak da, nahiko da gizakientzat erraza izan da. Beraz, Oxford, Schawinski eta Chris Lintott ikaskide astronomo pub batean eserita amestu webgune bat non boluntario galaxia irudiak sailkatzea litzateke. Hilabete batzuk beranduago, Galaxy Zoo jaio zen.
Galaxy Zoo webgunean, boluntarioek prestakuntza gutxi batzuk igaroko lituzkete; adibidez, espiral eta galaxia eliptiko baten arteko aldea ikasi (5.2 irudia). Prestakuntza honen ostean, boluntario bakoitzak galdekizazio nahiko erraza izan behar zuen sailkapen ezagunekin 11 galaxiaren 15eko sailkapena gainditu eta gero, galaxia ezezagunen benetako sailkapena hasiko da web orri bakarreko interfazearen bidez (5.3 irudia). Boluntarioak astronomoarekiko trantsizioa 10 minututan baino gutxiagotan gertatuko litzateke eta nahasketa txikiena gainditu beharko du.
Galaxy Zoo-k bere hasierako boluntarioak erakarri zituen proiektua albiste batean agertu ondoren eta sei hilabete inguru proiektua 100.000 herritar zientzialariek baino gehiagok parte hartu zuten, parte hartzera gonbidatu zuten eta astronomiaren alorrean lagundu nahi zuten. Elkarrekin, 100.000 boluntario horiek 40 milioi sailkapen baino gehiago eman dituzte, parte-hartzaileen talde txikien (Lintott et al. 2008) datozen sailkapen gehienak.
Ikertzaile laguntzaileek esperientzia duten kontratatzeko esperientziak derrigorrezko datuei buruzko eszeptikoa izan liteke. Eszeptizismoa arrazoizkoa den bitartean, Galaxy Zoo-k boluntarioen ekarpenak behar bezala garbitu, debekatu eta agregatu direnean, kalitate handiko emaitzak sor ditzakete (Lintott et al. 2008) . Eragileak kalitatezko datu profesionalak lortzeko trikimailu garrantzitsu bat erredundantzia da , hau da, jende askok egindako zeregin bera izatea. Galaxy Zoo-k 40 galaxia bakoitzeko sailkapenak zituen; Ikertzaileen laguntzako ikasketek ez dute sekula erredundantzia maila hau ordaindu behar, eta, horregatik, banakoen sailkapenaren kalitateari dagokionez askoz ere gehiago izan beharko lukete. Boluntarioek prestakuntza falta zutela, erredundantzia egin zuten.
Nahiz eta galaxia bakoitzeko sailkapen anitzek, adostasun sailkapen bat egiteko boluntarioen sailkapenen multzoa konbinatzea zaila izan zen. Errekurtso oso antzekoak giza konputazioko proiektu gehienetan sortzen direnez, lagungarria da Galaxia Zoologiko ikertzaileek beren adostasunaren sailkapenak egiteko erabilitako hiru urratsak berrikustea. Lehenik eta behin, ikertzaileek "garbitu" datuak sailkapen faltsuak ezabatu zituzten. Esate baterako, emaitzak behin maneiatzen saiatzen baziren galaxia-mota bereko behin-behineko sailkatu ziren pertsonak baztertu zituzten sailkapen guztiak. Hau eta antzeko garbiketa batzuk sailkapen guztien% 4 inguru kendu dira.
Bigarrenik, garbiketa egin ondoren, ikertzaileek sailkapenean sistematiko prezioak kentzeko behar zituzten. Proiektuaren barnean kapsulatutako detekzio-azterketen bidez, adibidez, monokromoak galaxian boluntarioak ez diren koloreak agertu beharrean, ikertzaileek hainbat alborapen sistematiko aurkitu zituzten, hala nola, galaxia urruneko galaxiak eliptikoak sailkatzeko (Bamford et al. 2009) . Sentsibilitate sistematiko hauei egokitzea oso garrantzitsua da, erredundantzia sistematikoki alboratzen ez delako automatikoki; ausazko errorea kentzen laguntzen du.
Azkenean, debiasing ondoren, ikertzaileek adostasun sailkapen bat sortzeko banakako sailkapenak konbinatzeko metodo bat behar zuten. Galaxia bakoitzeko sailkapenen konbinazio modurik errazena sailkapen arruntena aukeratu beharko litzateke. Hala eta guztiz ere, planteamendu horrek boluntario bakoitzak pisu berdina emango luke, eta ikertzaileek ustez boluntario batzuk sailkapenean hobeak zeuden beste batzuek baino. Hori dela eta, ikertzaileek irizpide iteragarrien prozedura konplexuagoa garatu zuten, sailkatzaile onenak hautemateko eta pisu gehiago emateko.
Horrela, hiru urrats prozesu-garbiketa, debiasing eta ponderazio baten ostean, Galaxia Zoologikoan ikertzaile taldeak 40 milioi boluntario sailkapen bihurtu zituen adostasun morfologikoko sailkapen multzo batean. Galaxy Zoo sailkapen hauei aurre egin zieten astronomo profesionalek aurreko hiru dimentsiotan egindako saiakera batzuekin alderatuta, besteak beste, Galaxia Zoologikoa inspiratzen lagundu duten Schawinski-ren sailkapena. Horrela, boluntarioek, agregatuan, kalitatezko sailkapenak eta ikertzaileek ezin izan zezaketen eskala batean (Lintott et al. 2008) . Izan ere, galaxia kopuru handia edukitzeko gizakiak, Schawinski, Lintott, eta beste batzuek erakutsi zuten galaxiaren% 80 inguru soilik espero zituztela espiral urdinak eta eliptiko gorriak direla-eta paper ugari idatzi dira. Aurkikuntza hau (Fortson et al. 2011) .
Atzeko plano hau kontuan hartuta, ikusi orain nola Galaxia Zoo split-apply-combine errezeta jarraitzen du, giza konputazioko proiektu gehienetarako erabiltzen den errezeta bera. Lehenik eta behin, arazo handi bat zatituta banatzen da. Kasu honetan, milioi bat galaxia sailkatzeko arazoa galaxia bat sailkatzeko milioi bat arazo zenbatu zen. Hurrengoa, eragiketa bakoitza era independentean aplikatzen da. Kasu honetan, boluntarioek galaxia bakoitza espiral edo eliptiko gisa sailkatzen dute. Azkenean, emaitzak konbinatzen dira adostasunezko emaitza lortzeko. Kasu honetan, konbinazio-pausoan, galaxia bakoitzaren adostasun sailkapen bat sortzeko garbiketa, debiasing eta ponderazio bat sartu dira. Proiektu gehienak errezeta orokor hau erabiltzen badute ere, urrats bakoitza norberaren arazo partikularra pertsonalizatu behar da. Esate baterako, behean deskribatutako giza konputazio proiektuan, errezeta bera egingo da, baina aplikatu eta konbinatu urratsak oso bestelakoak izango dira.
Galaxy Zoo taldearentzat, lehen proiektu hau hasiera besterik ez zen. Oso azkar konturatu dira milioi bat galaxia inguru sailkatu zitezkeen arren, eskala hori ez da nahikoa zeru digital berrien inkestekin lan egitea, hau da, 10.000 milioi galaxia inguruko irudiak (Kuminski et al. 2014) . 1 milioi eta 10 milioi euroko gehikuntza kudeatzeko, 10.000-Galaxia Zoo faktorea 10.000 aldiz gehiago parte-hartzera behartu beharko litzateke. Interneten boluntario kopurua handia den arren, ez da amaigabea. Hori dela eta, ikertzaileek konturatu ziren datu kantitate gero eta handiagoak kudeatu behar balira, ikuspegi berria eta areagotuagoa behar zutela.
Hori dela eta, Manda Banerji-k Schawinski-rekin, Lintott-ekin eta Galaxy Zoo-ko beste kide batzuekin (2010) -galaxia sailkatzeko ordenagailu irakasgaitzak sortu zituen. Zehatzago esanda, Galaxy Zoo sortutako giza sailkapenak erabiliz, Banerjik makina ikasketa eredua eraiki zuen, irudiaren ezaugarrietan oinarritutako galaxia baten giza sailkapena aurreikusteko. Eredu honek giza sailkapenek zehaztasun handiz erreproduzitu litezkeen arren, Galaxia Zoologiko ikertzaileek galaxia funtsean infinitua izendatzeko erabil dezakete.
Banerji-ren eta lankideen hurbilpenaren muina ikerketa sozialean normalean erabilitako tekniken antzekoa da, nahiz eta antzekotasun hori lehen begiratuan ez egon. Lehenik eta behin, Banerji eta lankideek irudi bakoitza bere propietateak laburbiltzen zituzten zenbakizko funtzio multzo bihurtu zuten. Adibidez, galaxiaren irudietarako, hiru funtzio izan ditzakegu: irudiaren urdinaren zenbatekoa, pixelen distirako bariantza eta pixel ez zuriaren proportzioa. Baliabide egokien aukeraketa arazoaren zati garrantzitsu bat da, eta, oro har, gaiaren inguruko espezializazioa eskatzen du. Lehenengo urratsa, normalean izeneko ingeniaritza deritzonak, datu-matrizea errenkada bakoitzeko irudi bakoitzeko eta, ondoren, hiru irudi zutabe deskribatzen ditu. Datu matrizearen eta irteeraren (adibidez, irudia giza galaxia eliptiko gisa sailkatu zen ala ez), ikertzaileak estatistika edo makina ikasketen eredua sortzen du, adibidez, logistikako regresioa, ezaugarrietan oinarritutako giza sailkapena aurreikusten duena irudia. Azkenean, ikertzaileak parametro hauek erabiltzen ditu eredu estatistiko honetan galaxia berriak kalkulatzeko (5.4 irudia). Makinen ikasketa, planteamendu-erabiltzean etiketatu adibide eredu bat dituena, ondoren new etiketa sortzea da hau, datu-da gainbegiratutako ikasketa deitu.
Banerji-ren eta lankideen makinen ikasketa-ereduaren ezaugarriak nire jostailuen adibideetan konplexuagoak ziren, adibidez, "Vaucouleurs fit axial ratio" bezalako ezaugarriak erabili zituen -eta bere eredua ez zen erregresio logistikoa, neural sare artifiziala baitzen. Bere ezaugarriak, eredua eta Galaxia Zoologiko sailkapenaren adostasuna erabiliz, ezaugarri bakoitzaren pisuak sortu eta galaxien sailkapenari buruzko iragarpenak egiteko erabili zituen pisu hauek. Esate baterako, bere azterketak aurkitu zuen "Vaucouleurs fit axial ratio" baxua duten irudiak espiralak galaxia izan zitezkeen. Ponderazio hauei esker, galaxia sailkapenaren giza sailkapena predikatzeko arrazoizkoa zen.
Banerji-ren eta lankideen lanak Galaxy Zoo-k ordenagailu bidezko giza konputazio sistema bat deitu nahi nuke. Sistema hibrido hauei buruz pentsatzeko modurik onena da gizakiek arazo bat konpontzen ez dutela; gizakiak ordenagailu bat prestatzeko erabilitako datu multzo bat eraiki dute arazoa konpontzeko. Batzuetan arazoa konpontzen den ordenagailu bat prestatzeko adibide asko behar dira, eta adibide kopuru nahikoa sortzeko modu bakarra lankidetza masiboa da. Ordenagailuz lagundutako hurbilketa honen abantaila da ahalegin handiak egiten dituzten giza baliabideen kopuru finko bat erabiliz funtsean kopuru kopuru mugagabeak kudeatzea. Adibidez, milioi bat giza klasifikatutako galaxiarekin egindako ikertzaileek milioi bat edota triloi galaxia bat sailkatzeko erabili dezaketen aurresandako eredua eraiki dezakete. Galaxiaren kopuru izugarriak badira, orduan giza-ordenagailu hibrido mota hau irtenbide bakarra da. Eskalagarritasun infinitua ez da doakoa, ordea. Makina ikasketarako eredu bat eraikitzea, giza sailkapen egokiak era egokian erreproduzitzea arazo bera da, baina zorionez gai honi eskainitako liburu bikainak daude (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo zenbat giza konputazio-proiektu bilakatzen den azaltzen da. Lehenik eta behin, ikertzaileak bere burua proiektatzen saiatzen da edo ikerketa-laguntzaile talde txiki batekin (adibidez, Schawinski-ren hasierako sailkapenaren ahalegina). Hurbilketa hori ez bada ondo isurtzen, ikertzaileak hainbat konputazio proiektu batera eramango ditu. Datuen bolumen jakin baterako, giza ahalegin hutsa ez da nahikoa. Une horretan, ikertzaileek ordenagailuz lagundutako giza konputazio sistema bat sortu behar dute, giza sailkapenek makina ikasketen eredua prestatzeko erabili ohi dutena, datu kopuru mugagabeak aplikatu ahal izateko.