A Galaxy Zoo összefogta sok nem szakértő önkéntes erőfeszítéseit, hogy egy millió galaxist soroljon fel.
A Galaxy Zoo egy problémát vetett fel, amelyet Kevin Schawinski, az Oxfordi Egyetemen végzett Csillagászati Egyetem 2007-ben szembesített. A Schawinsyt kissé egyszerűsítették, és a galaxisokat a morfológiájuk - elliptikus vagy spirális - és a színe kék vagy piros. Abban az időben a csillagászok közötti hagyományos bölcsesség az volt, hogy a spirálgalaxisok, a Tejútunkhoz hasonlóan, kék színűek voltak (fiatalokat jelöltek), és az elliptikus galaxisok pirosak voltak (öregkorra utalva). Schawinski kétségbe vonta ezt a hagyományos bölcsességet. Gyanította, hogy bár ez a minta általánosságban igaz lehet, valószínűleg nagy számban voltak kivételek, és ha sok ilyen szokatlan galaxist tanulmányoztak - azok, amelyek nem felelnek meg a várt mintanak -, akkor megtanulhatott valamit arról a folyamatról, amelyen keresztül galaxisok alakultak ki.
Így azt a Schawinski-t, amire a hagyományos bölcsesség felborulása volt szükséges, számos morfológiailag osztályozott galaxis volt; azaz olyan galaxisokat, amelyeket spirálként vagy elliptikusnak minősítettek. A probléma azonban az volt, hogy a klasszifikációban már létező algoritmikus módszerek még nem voltak elégségesek a tudományos kutatáshoz; más szóval, a galaxisok osztályozása akkoriban olyan probléma volt, amely nehéz volt a számítógépek számára. Ezért szükség volt nagyszámú, emberi osztályozású galaxisra. Schawinski ezt a besorolási problémát egy végzős diák lelkesedésével vállalta. A hét 12 órás napi maratoni ülésen 50 000 galaxist tudott osztályozni. Míg 50 000 galaxis hangzik, mint sokat, valójában csak mintegy 5% -a közel egymillió galaxis volt fényképezett a Sloan Digital Sky Survey. Schawinski rájött, hogy nagyobb méretezhetőségre van szüksége.
Szerencsére kiderült, hogy a feladat osztályozásának galaxisok nem igényel speciális képzést csillagászat; lehet tanítani valakit, hogy nem elég gyorsan. Más szóval, még ha osztályozására galaxisok olyan feladat, hogy nehéz volt a számítógépek, ez elég egyszerű az emberek számára. Így, miközben ül egy kocsmában Oxford, Schawinski és a többi csillagász Chris Lintott megálmodott egy weboldal, ahol az önkéntesek sorolnám képek a galaxisok. Néhány hónappal később, a Galaxy Zoo született.
A Galaxy Zoo weboldalán az önkéntesek néhány perc alatt tanultak; például megtanulják a spirál és az elliptikus galaxis közötti különbséget (5.2. ábra). A képzés után minden önkéntesnek viszonylag könnyű kvíznek kellett eljutnia - 15 osztályból ismert galaxisokat 11-et kell besorolni, amelyek ismert besorolásokkal - és az ismeretlen galaxisok valódi osztályozását egy egyszerű web-alapú felületen (5.3. Ábra) kezdték el. Az önkéntesektől az asztronómáig való átmenet kevesebb, mint 10 perc alatt zajlott le, és csak a legalacsonyabb akadályok, egy egyszerű kvíz szükséges.
A Galaxis Zoo vonzotta kezdeti önkénteseit, miután a projektet egy hírcikkben szerepeltették, és körülbelül hat hónap alatt a projekt több mint 100 000 állampolgári tudós bevonásával járult hozzá, akik azért vettek részt, mert élvezték a feladatot, és segíteni akartak a csillagászat előmozdításában. Együtt, ezek a 100 000 önkéntesek összesen több mint 40 millió besorolást jártak be, a besorolások többsége egy viszonylag kis résztvevő csoportból (Lintott et al. 2008) származott.
Azok a kutatók, akik tapasztalattal rendelkeznek egyetemi adjunktusokkal, azonnali szkeptikusak lehetnek az adatok minőségével kapcsolatban. Bár ez a szkepticizmus ésszerű, a Galaxy Zoo azt mutatja, hogy amikor az önkéntes hozzájárulásokat helyesen megtisztítják, megvédik és összegyűjtik, kiváló minőségű eredményeket produkálhatnak (Lintott et al. 2008) . Fontos trükk ahhoz, hogy a tömegeket professzionális minőségű adatokhoz hozzák létre, a redundancia , vagyis ugyanazt a feladatot sok különböző ember végzi el. A Galaxy Zoo-ban kb. 40 osztályozás volt galaktikusan; az egyetemi kutatói asszisztenseket használó kutatók sohasem engedhetik meg maguknak ezt az elbocsátási szintet, ezért sokkal jobban kellene foglalkozniuk az egyes besorolások minőségével. Amit az önkéntesek hiányoztak a képzésben, feleslegessé váltak.
Még a galaxisokon végzett többféle osztályozás esetében is, az önkéntes besorolások halmazának egyesítése a konszenzus osztályozásához bonyolult volt. Mivel a legtöbb emberi számítási projektben nagyon hasonló kihívások merülnek fel, hasznos áttekinteni a három lépést, amelyeket a Galaxy Zoo kutatói a konszenzusos besorolások előállításához használtak. Először is, a kutatók "tisztították" az adatokat a hamis besorolások eltávolításával. Például azokat az embereket, akik ismételten ugyanazt a galaxist osztályozták - valami olyasmi, ami akkor történne, ha megpróbálják manipulálni az eredményeket - az összes besorolást elvetette. Ez és más hasonló tisztítás eltávolította az összes besorolás 4% -át.
Másodszor, a tisztítás után a kutatóknak el kellett távolítaniuk a szisztematikus előítéleteket a besorolásokban. Az eredeti projektbe beágyazott előítéletességi vizsgálatokon keresztül - például a színész helyett a monokróm önkénteseket ábrázoló galaxist - a kutatók több szisztematikus előítéletet fedeztek fel, mint például a szisztematikus torzítást, hogy az elülső spirális galaxisokat elliptikus galaxisokká minősítsék (Bamford et al. 2009) . Ezeknek a szisztematikus előítéleteknek a beállítása rendkívül fontos, mert a redundancia nem automatikusan távolítja el a szisztematikus torzítást; csak segít eltávolítani a véletlenszerű hibákat.
Végül, a kutatómunkás után a kutatóknak egy olyan módszerre volt szükségük, amely egyesíti az egyes besorolást, és konszenzusos besoroláshoz vezet. Az egyes galaxisok osztályozásának legegyszerűbb módja a legáltalánosabb osztályozás kiválasztása lenne. Mindazonáltal ez a megközelítés egyenlő súlyt adott volna mindegyik önkéntesnek, és a kutatók azt gyanították, hogy egyes önkéntesek jobban osztályozzák, mint mások. Ezért a kutatók egy komplexebb iteratív súlyozási eljárást fejlesztettek ki, amely megpróbálta felismerni a legjobb osztályozókat, és nagyobb súlyt adott.
Így egy három lépcsős folyamat-tisztítás, elbillentés és súlyozás után a Galaxy Zoo kutatócsoport 40 millió önkéntes besorolást alakított át konszenzusos morfológiai osztályozásra. Amikor ezeket a Galaxy Zoo osztályozásokat összehasonlították a professzionális csillagászok három korábbi kisebb próbálkozásával, beleértve a Schawinski által a Galaxy Zoo inspirációját segítő osztályozást, erős volt az egyetértés. Így az önkéntesek összességében képesek voltak magas színvonalú besorolást biztosítani olyan mértékben, hogy a kutatók nem tudtak összeegyeztetni (Lintott et al. 2008) . Tény, hogy az ilyen nagyszámú galaxisok számára a humán besorolást Schawinski, Lintott és mások bizonyították, hogy a galaxisok csak mintegy 80% -a követi a várható kék-spirálokat és piros elliptikusokat. ez a felfedezés (Fortson et al. 2011) .
Tekintettel erre a háttérre, most már láthatja, hogy a Galaxy Zoo hogyan követi a split-apply-combine receptet, ugyanazt a receptet, amelyet a legtöbb emberi számítási projekthez használnak. Először is, egy nagy probléma darabokra oszlik . Ebben az esetben egy millió galaxis osztályozásának problémája egy millió gálaxis besorolású problémára oszlott. Ezután egy műveletet alkalmaznak minden egyes darab függetlenül. Ebben az esetben az önkéntesek mindegyik galaxist spirálként vagy ellipszisnek minősítették. Végül az eredmények kombinálva konszenzus eredményt hoznak. Ebben az esetben a kombinált lépés magában foglalta a tisztítást, az elhidegezést és a súlyozást, hogy minden galaxishoz konszenzus besorolást kapjon. Annak ellenére, hogy a legtöbb projekt ezt az általános receptet alkalmazza, minden egyes lépést testreszabni kell az adott problémához. Például az alábbiakban leírt emberi számítási projektben ugyanazt a receptet követi majd, de a lépések alkalmazása és kombinálása egészen más lesz.
A Galaxy Zoo csapata számára ez az első projekt csak a kezdet volt. Nagyon gyorsan rájöttek arra, hogy bár közel millió galaxist képesek osztályozni, ez a méret nem elegendő az újabb digitális égboltok felmérésére, amelyek mintegy 10 milliárd galaxis képét képesek előállítani (Kuminski et al. 2014) . Annak érdekében, hogy kezelni tudja a növekedést 1 millióról 10 milliárdra - a 10 000-galaxikus állatkertnek körülbelül 10 000-szer több résztvevőre kell pályáznia. Bár az önkéntesek száma az interneten nagy, ez nem végtelen. Ezért a kutatók rájöttek, hogy ha egyre növekvő mennyiségű adatot kezelnek, új, még skálázhatóbb megközelítésre van szükség.
Ezért Manda Banerji - a Schawinski, Lintott és a Galaxy Zoo csapat többi tagjával (2010) dolgozott - oktatott számítógépeket a galaxisok osztályozására. Konkrétabban, a Galaxy Zoo által létrehozott humán besorolások felhasználásával a Banerji olyan gépi tanulási modellt épített fel, amely meg tudja becsülni a galaxis emberi besorolását a kép jellemzői alapján. Ha ez a modell nagy pontossággal képes reprodukálni a humán besorolást, akkor a Galaxy Zoo kutatói felhasználhatják egy alapvetően végtelen számú galaxis osztályozását.
A Banerji magatartása és a kollégák szemléletmódja nagyon hasonlít a társadalomkutatásban általánosan használt technikákhoz, bár ez a hasonlóság első ránézésre lehetetlen. Először is, Banerji és munkatársai átalakították az egyes képeket a numerikus jellemzők sorába , amelyek összegezték tulajdonságait. Például a galaxisok képére három lehetőség lehet: a kék mennyisége a képről, a képpontok fényességének eltérése és a nem fehér képpontok aránya. A helyes funkciók kiválasztása a probléma fontos része, és általában a tématerület szakértelmét igényli. Ez az első lépés, amelyet gyakran neveznek a jellemzői , egy adatmátrixot eredményez egy képsorral, majd három oszlopot, amelyek leírják ezt a képet. Az adatmátrix és a kívánt kimenet (pl., Hogy a képet egy ember elliptikus galaxisnak minősítette-e), a kutató statisztikai vagy gépi tanulási modellt hoz létre - például logisztikai regressziót - a kép. Végül a kutató a statisztikai modell paramétereit használja az új galaxisok becsült osztályozásának elkészítéséhez (5.4 ábra). A gépi tanulásban ez a megközelítés - a címkével ellátott példákat egy olyan modell létrehozására használva, amely képes új adatokat címkézni - a felügyelt tanulásnak nevezik.
A Banerji és munkatársai gépi tanulási modelljei bonyolultabbak voltak, mint a játékszer példája - például a "de Vaucouleurs illeszkedő axiális arány" jellemzőit használta - és modellje nem logisztikus regresszió volt, hanem mesterséges neurális hálózat volt. Funkcióinak, modelljének és a konszenzusos Galaxy Zoo osztályozásoknak köszönhetően minden funkcióra súlyokat tudott létrehozni, majd ezeket a súlyokat felhasználva előrejelezheti a galaxisok osztályozását. Például az elemzés megállapította, hogy az alacsony "de Vaucouleurs axiális arányt" tartalmazó képek nagyobb valószínűséggel spirális galaxisok. Tekintettel ezekre a súlyokra, meg tudta becsülni a galaxis emberi besorolását ésszerű pontossággal.
Banerji és munkatársai a Galaxy Zoo-t a számítógépesített emberi számítási rendszerbe hívták. A legjobb módja ezeknek a hibrid rendszereknek a megfontolására az, hogy az ember nem oldja meg a problémát, hanem olyan embereket állít elő, amelyek egy számítógépet képezhetnek a probléma megoldására. Előfordulhat, hogy a számítógépet a probléma megoldására sok példára lehet szükség, és az egyetlen módja annak, hogy megfelelő számú példát állítsunk elő, tömeges együttműködés. Ennek a számítógéppel támogatott megközelítésnek az az előnye, hogy lehetővé teszi számodra végtelen mennyiségű adat kezelését véges mennyiségű emberi erőfeszítéssel. Például egy olyan kutató, aki egy millió emberi besorolt galaxisból áll, képes egy prediktív modellt felépíteni, amelyet felhasználhat egy milliárd vagy akár egy milliárd galaxis osztályozására. Ha hatalmas számú galaxis létezik, akkor ez az ember-számítógépes hibrid valóban az egyetlen lehetséges megoldás. Ez a végtelen skálázhatóság azonban nem szabad. A humán osztályozás helyes reprodukálására alkalmas gépi tanulási modell létrehozása önmagában kemény probléma, de szerencsére már nagyon jó könyvek szentelnek erre a témára (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
A Galaxy Zoo jó példa arra, hogy hány emberi számítási projekt alakul ki. Először is, egy kutató saját maga vagy egy kis kutatói asszisztens kísérletével próbálja meg a projektet (pl. Schawinski kezdeti osztályozási erőfeszítése). Ha ez a megközelítés nem mérséklődik, akkor a kutató számos résztvevővel átvihet egy emberi számítási projektbe. De bizonyos mennyiségű adat esetében a tiszta emberi erőfeszítés nem elegendő. Ezen a ponton a kutatóknak számítógéppel támogatott emberi számítási rendszert kell létrehozniuk, amelyben az emberi besorolást egy gépi tanulási modell képzésére használják, amelyet majdnem korlátlan mennyiségű adatra lehet alkalmazni.