Galaxy Zoo kombinon përpjekjet e shumë vullnetarëve jo-ekspertë për të klasifikuar një milion galaktika.
Galaxy Zoo u rrit nga një problem me të cilin përballet Kevin Schawinski, një student i diplomuar në Astronomi në Universitetin e Oksfordit në vitin 2007. Thjeshtimi i mjaftueshëm, Schawinski ishte i interesuar në galaktika dhe galaktikat mund të klasifikohen sipas morfologjisë së tyre - eliptike ose spirale nga ngjyra e tyre blu ose e kuqe. Në atë kohë, mençuria konvencionale midis astronomëve ishte se galaktikat spirale, si Rruga jonë e Qumështit, ishin ngjyrë blu (duke treguar të rinjtë) dhe galaktikat eliptike ishin të kuqe (duke treguar moshën e vjetër). Schawinski dyshonte për këtë mençuri konvencionale. Ai dyshonte se, ndonëse ky model mund të ishte i vërtetë në përgjithësi, ndoshta kishte një numër të konsiderueshëm përjashtimesh dhe se duke studiuar shumë nga këto galaktika të pazakonshme - ato që nuk përputheshin me modelin e pritur - ai mund të mësonte diçka rreth procesit përmes të cilit u formuan galaktika.
Kështu, ajo që Schawinski kishte nevojë për të përmbysur mençurinë konvencionale ishte një grup i madh galaktikash të klasifikuara morfologjikisht; që është, galaktikat që ishin klasifikuar si spirale ose eliptike. Problemi, megjithatë, ishte se metodat ekzistuese algoritmike për klasifikim nuk ishin ende mjaft të mira për t'u përdorur për kërkime shkencore; me fjalë të tjera, klasifikimi i galaktikave ishte, në atë kohë, një problem që ishte i vështirë për kompjuterët. Prandaj, ajo që nevojitej ishte një numër i madh i galaktikave njerëzore të klasifikuara. Schawinski ndërmori këtë problem të klasifikimit me entuziazmin e një studenti të diplomuar. Në një seancë maratone prej shtatë ditëve 12-orëshe, ai ishte në gjendje të klasifikonte 50,000 galaktika. Ndërsa 50.000 galaktika mund të tingëllojë si shumë, në të vërtetë është vetëm rreth 5% e pothuajse një milion galaktikave të fotografuara në Sloan Digital Sky Survey. Schawinski kuptoi se kishte nevojë për një qasje më të shkallëzuar.
Për fat të mirë, rezulton se detyra e galaktikave i klasifikuar nuk kërkon trajnime të avancuara në astronomi; ju mund të mësoni dikë të bëjë atë shumë shpejt. Me fjalë të tjera, edhe pse klasifikimin galaktika është një detyrë që ishte e vështirë për kompjutera, ajo ishte shumë e lehtë për njerëzit. Kështu, ndërsa ulur në një pijetore në Oksford, Schawinski dhe shokët astronomi Chris Lintott ëndërruar një faqe interneti ku vullnetarët do të klasifikojë imazhet e galaktikave. Disa muaj më vonë, Galaxy Zoo ka lindur.
Në faqen e internetit të Galaxy Zoo, vullnetarët do të kalonin disa minuta trajnime; për shembull, të mësuar dallimin midis një galaksi spirale dhe eliptike (figura 5.2). Pas këtij trajnimi, secili vullnetar duhej të kalonte një quiz relativisht të lehtë - saktësisht klasifikimin e 11 nga 15 galaktikat me klasifikime të njohura - dhe pastaj do të fillonte klasifikimin e vërtetë të galaktikave të panjohura nëpërmjet një ndërfaqeje të thjeshtë në internet (figura 5.3). Tranzicioni nga vullnetari në astronomer do të ndodhte në më pak se 10 minuta dhe kërkoi vetëm kalimin e më të ultë të pengesave, një quiz i thjeshtë.
Galaxy Zoo tërhoqi vullnetarët e saj fillestar pasi projekti u paraqit në një artikull lajme, dhe për rreth gjashtë muaj projekti u rrit për të përfshirë më shumë se 100,000 shkencëtarë qytetarë, njerëz që morën pjesë, sepse ata kënaqeshin me detyrën dhe donin të ndihmonin në avancimin e astronomisë. Së bashku, këto 100,000 vullnetarë kontribuan gjithsej më shumë se 40 milionë klasifikime, me shumicën e klasifikimeve që vinin nga një grup relativisht i vogël i pjesëmarrësve (Lintott et al. 2008) .
Studiuesit që kanë përvojë në marrjen e asistentëve kërkimore në universitet mund të jenë menjëherë skeptikë për cilësinë e të dhënave. Përderisa ky skepticizëm është i arsyeshëm, Galaxy Zoo tregon se kur kontributet vullnetare janë pastruar në mënyrë korrekte, të ballafaquar dhe të agreguara, ato mund të prodhojnë rezultate me cilësi të lartë (Lintott et al. 2008) . Një mashtrim i rëndësishëm për marrjen e turmës për të krijuar të dhëna me cilësi profesionale është teprimi , dmth., Duke kryer të njëjtën detyrë nga shumë njerëz të ndryshëm. Në Galaxy Zoo, kishte rreth 40 klasifikime për galaktikë; studiuesit që përdorin asistentët e kërkimit shkencor nuk mund të përballonin kurrë këtë nivel të tepricave dhe prandaj do të duhej të ishin më shumë të shqetësuar me cilësinë e çdo klasifikimi individual. Ajo që mungonin vullnetarët në stërvitje, ata u bënë me tepricë.
Edhe me klasifikime të shumta për galaktikë, megjithatë, kombinimi i grupit të klasifikimeve vullnetare për të prodhuar një klasifikim të konsensusit ishte i ndërlikuar. Për shkak të sfidave shumë të ngjashme që lindin në shumicën e projekteve të llogaritjes njerëzore, është e dobishme që të shqyrtojmë shkurtimisht tre hapat që studiuesit e Zoologjikëve të Galikës përdorën për të prodhuar klasifikimet e tyre të konsensusit. Së pari, hulumtuesit "pastruan" të dhënat duke hequr klasifikimet e rreme. Për shembull, njerëzit që klasifikonin në mënyrë të përsëritur të njëjtën galaktikë - diçka që do të ndodhte nëse ata po përpiqeshin të manipulonin rezultatet - i hodhën poshtë të gjitha klasifikimet e tyre. Kjo dhe pastrim tjetër i ngjashëm larguan rreth 4% të të gjitha klasifikimeve.
Së dyti, pas pastrimit, hulumtuesit duhet të heqin paragjykimet sistematike në klasifikime. Përmes një sërë studimesh për zbulimin e paragjykimeve të përfshira në projektin origjinal - për shembull, duke treguar disa vullnetarë galaktikë në pikturë njëngjyrëshe në vend të ngjyrës - kërkuesit zbuluan disa paragjykime sistematike, të tilla si një paragjykim sistematik për të klasifikuar galaktikat spirale të largëta si galaktika eliptike (Bamford et al. 2009) . Përshtatja për këto paragjykime sistematike është jashtëzakonisht e rëndësishme sepse mungesa e tepricave nuk heq automatikisht paragjykimet sistematike; vetëm ndihmon të heq gabimin e rastësishëm.
Së fundi, pas zbulimit, hulumtuesit kishin nevojë për një metodë për të kombinuar klasifikimet individuale për të prodhuar një klasifikim të konsensusit. Mënyra më e thjeshtë për të kombinuar klasifikimet për secilën galaktikë do të ishte që të zgjidhej klasifikimi më i zakonshëm. Megjithatë, kjo qasje do t'i jepte secilit vullnetar peshë të barabartë, dhe kërkuesit dyshonin se disa vullnetarë ishin më të mirë në klasifikim se të tjerët. Prandaj, hulumtuesit zhvilluan një procedurë më komplekse të peshimit që u përpoqën të zbulonin klasifikuesit më të mirë dhe t'u jepnin atyre më shumë peshë.
Kështu, pas një procesi tre-hapësh të pastrimit, zbutjes dhe peshimit, ekipi hulumtues i Galaxy Zoo kishte konvertuar 40 milionë klasifikime vullnetare në një grup klasifikimesh morfologjike të konsensusit. Kur këto klasifikime të Zoo Galaxy u krahasuan me tre përpjekjet e mëparshme në shkallë të vogël nga astronomët profesionistë, duke përfshirë klasifikimin nga Schawinski që ndihmoi për të frymëzuar Galaxy Zoo, kishte marrëveshje të fortë. Kështu, vullnetarët, në përgjithësi, ishin në gjendje të ofrojnë klasifikime të kualitetit të lartë dhe në një shkallë që kërkuesit nuk mund të përputheshin (Lintott et al. 2008) . Në fakt, duke pasur klasifikime njerëzore për një numër aq të madh galaktikash, Schawinski, Lintott dhe të tjerë ishin në gjendje të tregonin se vetëm rreth 80% e galaktikave ndjekin spiralet e pritura të modelit blu dhe eliptikat e kuqe - ky zbulim (Fortson et al. 2011) .
Duke pasur parasysh këtë sfond, tani mund të shihni se si Galaxy Zoo ndjek recetë split-apply-combine, recetë e njëjtë që përdoret për shumicën e projekteve të llogaritjes njerëzore. Së pari, një problem i madh ndahet në copa. Në këtë rast, problemi i klasifikimit të një milion galaktikash u nda në një milion probleme të klasifikimit të një galaktike. Tjetra, një operacion zbatohet në secilën copë në mënyrë të pavarur. Në këtë rast, vullnetarët klasifikuan secilën galaktikë si spirale ose eliptike. Së fundi, rezultatet janë të kombinuara për të prodhuar një rezultat konsensusi. Në këtë rast, hapi i kombinuar përfshinte pastrimin, zbutjen dhe peshimin për të prodhuar një klasifikim të konsensusit për secilën galaktikë. Edhe pse shumica e projekteve e përdorin këtë recetë të përgjithshme, çdo hap duhet të përshtatet me problemin specifik që po trajtohet. Për shembull, në projektin e llogaritjes njerëzore të përshkruar më poshtë, do të ndiqet e njëjta recetë, por aplikimi dhe kombinimi i hapave do të jenë mjaft të ndryshme.
Për ekipin e Zoologjisë Galaxy, ky projekt i parë ishte vetëm fillimi. Shumë shpejt ata e kuptuan se edhe pse ishin në gjendje të klasifikonin afro një milion galaktika, kjo shkallë nuk mjafton për të punuar me anketat më të reja të qiellit dixhital, të cilat mund të prodhojnë imazhe të rreth 10 miliard galaktikave (Kuminski et al. 2014) . Për të trajtuar një rritje prej 1 milion deri në 10 miliardë - një faktor prej 10,000-Galaxy Zoo do të duhet të rekrutojë afërsisht 10,000 herë më shumë pjesëmarrës. Edhe pse numri i vullnetarëve në internet është i madh, nuk është i pafund. Prandaj, studiuesit kuptuan se nëse do të trajtonin sasi gjithnjë në rritje të të dhënave, nevojitet një qasje e re, madje edhe më e shkallëzuar.
Prandaj, Manda Banerji - duke punuar me Schawinski, Lintott dhe anëtarët e tjerë të ekipit të Zoologjisë Galaxy (2010) - filluan kompjuterët mësimorë për të klasifikuar galaktikat. Më konkretisht, duke përdorur klasifikimet njerëzore të krijuara nga Galaxy Zoo, Banerji ndërtoi një model të mësimit të makinës që mund të parashikonte klasifikimin njerëzor të një galaktike bazuar në karakteristikat e imazhit. Nëse ky model mund të riprodhojë klasifikimet njerëzore me saktësi të lartë, atëherë mund të përdoret nga hulumtuesit e Galaxy Zoo për të klasifikuar një numër thelbësisht të pafund të galaktikave.
Thelbi i qasjes së Banerji dhe kolegëve në të vërtetë është mjaft i ngjashëm me teknikat e përdorura zakonisht në kërkimet sociale, edhe pse kjo ngjashmëri mund të mos jetë e qartë në shikim të parë. Së pari, Banerji dhe kolegët e konvertuan çdo imazh në një grup karakteristikash numerike që përmblodhën pronat e saj. Për shembull, për imazhet e galaktikave, mund të ketë tre karakteristika: sasia e kaltër në imazh, ndryshueshmëria në shkëlqimin e pikselave dhe përqindja e pikselëve jo të bardhë. Përzgjedhja e karakteristikave të sakta është një pjesë e rëndësishme e problemit dhe zakonisht kërkon ekspertizë në fushën e lëndëve. Ky hap i parë, zakonisht i quajtur inxhinieri tipar , rezulton në një matricë të dhënash me një rresht për imazhin dhe pastaj tre kolona që përshkruajnë atë imazh. Duke marrë parasysh matricën e të dhënave dhe rezultatin e dëshiruar (p.sh., nëse imazhi është klasifikuar nga një njeri si një galaktikë eliptike), studiuesi krijon një model statistikor ose të mësimit të makinës - për shembull, regresioni logjistik - që parashikon klasifikimin njerëzor bazuar në karakteristikat e imazhit. Së fundi, hulumtuesi përdor parametrat në këtë model statistikor për të prodhuar klasifikimet e vlerësuara të galaktikave të reja (figura 5.4). Në mësimin e makinës, kjo qasje, duke përdorur shembuj të etiketuar për të krijuar një model që pastaj mund të etiketojë të dhëna të reja, quhet mësim i mbikëqyrur .
Karakteristikat në modelin Banerji dhe kolegët e mësimit të makinës ishin më komplekse sesa ato në shembullin tim lodër - për shembull, ajo përdorte tipare si "de Vaucouleurs fit ratio axial" - dhe modeli i saj nuk ishte regresiv logjistik, ishte një rrjet artificial nervor. Duke përdorur karakteristikat e saj, modelin e saj dhe klasifikimet e konsensusit të Galaxy Zoo, ajo ishte në gjendje të krijonte pesha në secilën veçori dhe pastaj të përdorte këto pesha për të bërë parashikime për klasifikimin e galaktikave. Për shembull, analiza e saj zbuloi se imazhet me "de Vaucouleurs" të ulët të raportit axial "kishin më shumë gjasa të ishin galaktika spirale. Duke pasur parasysh këto pesha, ajo ishte në gjendje të parashikonte klasifikimin njerëzor të një galaktike me saktësi të arsyeshme.
Puna e Banerji dhe kolegët u kthyen në Galaxy Zoo në atë që unë do ta quaja një sistem kompjuteri të ndihmuar kompjuterik . Mënyra më e mirë për të menduar për këto sisteme hibride është se, në vend që njerëzit të zgjidhin një problem, njerëzit kanë ndërtuar një grup të dhënash që mund të përdoret për të trajnuar një kompjuter për të zgjidhur problemin. Ndonjëherë, trajnimi i një kompjuteri për të zgjidhur problemin mund të kërkojë shumë shembuj, dhe e vetmja mënyrë për të prodhuar një numër të mjaftueshëm shembujsh është një bashkëpunim masiv. Avantazhi i kësaj qasjeje të asistuar në kompjuter është se ju mundëson të trajtoni sasi thelbësisht të pafundme të të dhënave duke përdorur vetëm një sasi të kufizuar të përpjekjeve njerëzore. Për shembull, një studiues me një milion galaktikat e klasifikuara njerëzore mund të ndërtojë një model parashikuese që pastaj mund të përdoret për të klasifikuar një miliard apo edhe një miliard galaktika. Nëse ka një numër të madh galaktikash, atëherë ky lloj i hibridit njerëzor-kompjuter është me të vërtetë zgjidhja e vetme e mundshme. Megjithatë, kjo skalabilitet i pafund nuk është i lirë. Ndërtimi i një modeli të mësimit të makinës që mund të riprodhojë në mënyrë korrekte klasifikimet njerëzore është vetë një problem i vështirë, por për fat të mirë tashmë ekzistojnë libra të shkëlqyera të dedikuara për këtë temë (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo është një ilustrim i mirë se sa projekte të llogaritjes njerëzore evoluojnë. Së pari, një studiues tenton projektin vetë ose me një ekip të vogël ndihmësish të hulumtimit (p.sh., përpjekja e klasifikimit fillestar të Schawinski). Nëse kjo qasje nuk shkon mirë, studiuesi mund të kalojë në një projekt të llogaritjes njerëzore me shumë pjesëmarrës. Por, për një vëllim të caktuar të të dhënave, përpjekja e pastër njerëzore nuk do të jetë e mjaftueshme. Në atë pikë, studiuesit duhet të ndërtojnë një sistem kompjuterik të llogaritur të kompjuterëve në të cilin klasifikimet njerëzore përdoren për të trajnuar një model të mësimit të makinës, i cili pastaj mund të zbatohet në sasi pothuajse të pakufizuara të të dhënave.