Galaxia Zoo combina l'espansione di parechji vuluntarii non periciale per classificà un million galaxies.
Galaxy Zoo creceu da u prublema face à Kevin Schawinski, un studiente graduatu in Astronomia in l'Università di Oxford in 2007. Simplificà un pocu, Schawinski era interessatu da a Galaxi, è a Galaxia pudete esse classificatu da a so morfologia-ellittica o spirale è da u so culore in blu o rosu. A questu tempu, a saviezza convenciò entre l'astrònomi era questa galaxia spirali, cum'è a nostra Via Lattica, sò culori aziani (ghjente indicazione) è i galaxia elittichi eranu rossi (indicando a vichjàia). Schawinski dubtava di sta saviezza convenciale. Hè suspetta chì quandu u patronu pò esse veru in generale, ci era prubabilmente un gran numare d'eccezzioni, è chì, urganizendu assai di sti galaxia inusual, i quelli chì ùn si sò micca in u standard espertu, puderia studià qualchì cosa di u prucessu per quale di Galaxi di furmà.
Cusì, Schawinski necessariu per annullà a saviezza convenciale era un grande cunflittu di galaxia cungratiche murphologichi; chistu, galaxia chì era statu classificatu cum'è spirale o elittica. U prublema, però, era chì i metudi algorithmic existenti per a classificazione ùn sò micca boni boni per esse utilizati per a ricerca scientifica; In autri vocabuli, classificà a galaxia era, in questu tempu, un prublema chì era dura per i computers. Dunque, quellu chì era necessariu era un grande numaru di galaxia cele classificate umani . Schawinski faciu stu problema di qualificazione cù l'entusiasmu di un studiente graduate. In una sessione di maratona di setti ghjorni di 12 ore, hà pudutu classificà 50.000 galaxia. Mentre 50.000 galaxie pò sonanu assai, hè veramente solu un 5% di quasi un million galaxies chì avianu fotografiatu in u Sloan Digital Sky Survey. Schawinski s'hè avvistatu chì avia bisognu di un accostu scalable.
Par furtuna, si gira fora ca lu compitu di galaxies classifying ùn hà bisognu di furmazione avanzata à l 'astronumìa; pudete insignà à qualchisia à fà lu beddu prestu. Nta àutri paroli, ancu s'è classifying galaxies hè un compitu chì era dura di impianti, era beddu faciuli di la cumpagnia. Allura, mentri à pusà in un francese pub a Oxford, Schawinski è feritu astronomu Chris Lintott imprecisu, su un situ induve vuluntari putìssiru classify imàgini di galaxies. Qualchi mesi dopu, aise Zoo era natu.
À u situ web di u Galaxy Zoo, voluntieri sò sottuponiti parechji minuti di furmazione; per esempiu, apprendu a diffarenza frà una spirala è galaxia elittica (figura 5.2). Doppu stu furmazione, ogni vuluntariu hà deve passatu un quiz relativamente facilmente, chjamatu correlativamente 11 di 15 galaxie cù classificazioni cunnisciuti, è da puderia principià a classificazione reali di galaxia difunnuti per una simplicità di a basa web (figura 5.3). A transizione di u vuluntariu à l'astrònomu rializeghja in menu di 10 minuti è solu esse dumandata u valore di i valori, un simplice simplice.
Galaxia Zoo hà attraversu i so vuluntarii iniziali dopu chì u prughjettu era fattu un novu articulu, è in circa sei mesi u prugettu addiventanu à participà più di 100 000 citatibile citatinu, e persone chì participonu perchè anu travagliatu u travagliu è volenu aiutà à l'astronumìa avanti. Inseme, questi 100 000 voluntieri cuntribuierru un totalità di più di 40 milioni di classificazioni, cù a maggurità di e classificazioni chì venenu da un gruppu di participanti (Lintott et al. 2008) .
I prufessori chì anu pussutu sperienze à l'assistenti di ricerca di studienti di i primi studienti pussutu immediatamente esse sette nantu à a qualità di dati. Mentre chì stu scetticismu hè raielu, Galaxy Zoo ammenta chì quandu quaghjule voluntarii sò bè nimicati, debiased è aghjurnati, pò pruduce risultati d'alta qualità (Lintott et al. 2008) . Un vaghjimu impurtante per averà a ghjente per creà cose di qualità prufessionale hè a résumissione , per quessa, avè a stessa tareta realizata da parechji parechji ghjenti. In u Galaxy Zoo, ci anu da circa 40 classificazione per galaxia; circhanti cù attori di ricerca in univirsitati ùn anu micca permette issu nivulu di redundanza è per quessa era bisognu di più in mente di a qualità di ogni classificazione individuale. Ciò chì i vuluntarii ùn anu in mancu furmazione, cumpienu per a rumanità.
Ancu anch'elli classificazioni multipli per galaxia, però, cumminendu u gruppu di classificazioni di vuluntariu per pruducia una classificazione di cuntenimentu era tricky. Perchè parechji risultati parechjani s'arriparanu in a maiò parte di i prughjetti di càlculum umani, hè d'utile à riviseghjà pocu pocu è quì trè passeti chì i furmulari di i zoologichi di u zooali di u zoologicu annunzià per pruduce e classificazioni di consensus Prima, i circhuli "limpi" i dati anulendu classificazioni falsificati. Per esempiu, i pirsuni chì anu classificatu rettitùdine a stessa galaxia-quarchi cosa chì succidia si stàvanu attempu di manipulà i risultati- avè micca tutte e so classificazione spedizione. Questa è altri cleaning similari suprimi circa un 4% di tutti e classificazione.
Sicunna, doppu a pulizia, i circh merchante sò bisognu di rimpiazzà i preghje sistematiche in classificazione. A través d'una serie di bias detection studies incubati in u prughjettu originale, per esempiu, chì mostra parechji vuluntarii a galaxia in monocromu inveci di culore, i circherosi scupreru parechji preghjeti sistematii, cum'è un preghjudiziu sistematicu per classificà a spirali galaxie persunale per a galaxia elittica (Bamford et al. 2009) . Aghjettendu per estes preghjudizzii sistematii hè assai impurtante, perchè a redundanza ùn mancu automaticamente eliminazione di prediletti sistematichi; hè solu l'aghjunta sìlla l'azzione aleatura.
Infine, dopu à u debiasi, i circh merchante necessitaban un metudu per cumbattà e classificazione individuali per pruducia una classificazione per consensu. U modu più sèmplice per cumbattimentu di classificazione per ogni galaxia anu da esse elettu a classificazione più cumuni. In ogni modu, questu approcculu averebbe datu ogni vuluntariu u pesu ugguali, è i circunsitori suspettanu chì qualchi vuluntarii sò megliu in una classificazione chì altri. Dunque, i circunieri sò sviluppati un prucessu analiticu prugheru più complexu chì tentò detectar i classificatori più belli è dà più pesu.
Cusì, dopu à un purificazione di u trè passatu, i debbiante, è ponderatu, u squadra di a rivière Galaxy Zoo anu convertitu 40 milioni di classificazione vuluntarii in un gruppu di classificazioni morfològichi di cuntenimentu. Quandu sti classificazione di a Galaxy Zoo fôru cumparatu cù trè pezzi di scala più chjucu di l'astrònomi prufessiunale, cumpresa a classificazione per Schawinski chì aiutò à inspirà Galaxy Zoo, ci era un forti acordu. Cusì, i vuluntarii, in agrancatu, puderanu furnisce classificazioni d'alta qualità è à una scala chì i circunsidenti puderi micca cunnessu (Lintott et al. 2008) . In fattu, per avè classificazioni umani per un grande numaru di galaesi, Schawinski, Lintott è altre puderanu esposerne chì solu u 80% di a galaxia seguiten u spiritu spirituale di u spiritu primu è l'ellittichi muderni-e sò numerosi documenti chì sò scritti nantu à sta scuperta (Fortson et al. 2011) .
Datu questu sfondate, pudete avà vede cum'è Galaxy Zoo segue a split-apply-combine recipe, a stessa ricetta chì hè utilizata per a maiò prughjetti di computation umanu. Prima, un gran problema hè spargugliatu in bulu. In questu casu, u prublema di classificà un million galaxies hè divisu in un miliu di prublemi di classificà una galaxia. A prublema, una operazione hè appiicata à ogni chunk indipendentamente. In questu casu, i vuluntarii classificate ogni galaxia cum'è spirale o elittica. Infini, i risultati sò cumminati per produsir un resultat consensu. In questu casu, u passu cunghjunali incluse a limpieza, debaseghja è ponderamentu di pruducia una classificazione per consensu per ogni galaxia. Invece chì a maiò parte di i prugetti utilizate sta ricetta generale, ogni passu hà bisognu à persunalizà cù u prublema specìbile indirizzatu. Per esempiu, in u prughjettu di càlculum umanu chjamatu sottu, a stessa ricetta hè stata seguitata, ma l'appiicà è a cunghjunta passi seranu moltu sfarenti.
Per a cumpagnia di u Galaxy Zoo, stu primu prughjettu era solu u principiu. Moltu rádevi sappiamu chì ancu se puderanu classificà quasi un milionu galaxie, questa scala ùn hè micca abbastanza à travaglià cù l' (Kuminski et al. 2014) digitali novi, chì puderanu pruduce l'imaginari di circa 10 miliardi di galaxia (Kuminski et al. 2014) . Per manighjà una crescita di 1 milioni à 10 miliardi, un fattore di 10 000-Galaxy Zoo necessaria di ricrutà circa 10 000 volte più participanti. Ancu se u numaru di vuluntarii in Internet hè grande, ùn hè micca infinitu. Per quessa, i ricerchi anu realizatu chì, si avianu a gestione di quantità sempre numerosa di dati, era un avvisu novu, à più scalvereddu.
Cusì, Manda Banerji-attraversu Schawinski, Lintott, è altri membri di u ghjocu di a Galia Galaxy (2010) -started computeri di furmazione per classificà a galaxia. A più specificamente, utilizendu i classificazioni umani creati da u Galaxy Zoo, Banerji hà custruitu un mudellu d'aprenu tecnicu chì pudaria pridicà a classificazione umana di una galaxia basata nantu à e caratteristiche di l'imaghjini. Se stu mudellu puderia ripruduce i classificazioni umani cù una alta precisione, puderia esse adupratu per i circunscili di Galaxy Zoo per fassi classificà un numulu essentially infinitu di galaxie.
U core di l'attruvatu di Banerji è di i culleghi hè in veru assai simili à e tecniche usatu in a ricerca sociale, ancu chì a similitudu pò esse micca esse chjaru di vista. Prima, Banerji è i culleghi cunvertisce ogni figura in un settore di funziunalità numerichi chì sintumu i so proprietà. Per esempiu, per l'imagine di a galaxia, puderia esse trè funori: a quantità di blu in l'imagine, a varianza in u luminosu di i pixelli è a proporzioni di píxeli micca bianchi. A selezzione di e funzioni curretta hè una parte impurtante di u prublema, è ghjisce in generale per esogheria di u sughjettu. Stu primu passu, cumunimentu chjamatu l'articuli di l'articuli , risultati di una matricatura di dati cun una fila per l'imagine è da trè colonna chì qualificanu l'imagine. Dati a matriceria di dati è a risurta desitxata (per esempiu, se l'imagine hè statu classificatu per una persona umana cum'è galaxia elittica), l'investigatore crea un mudellu statisticu o muter-learning, per esempiu, regressione logistica chì predice a classificazione umana basata in funziunalità di a imatge. Infine, l'investigatore utilizeghja i paràmetri in u mudellu statisticu per a prudenza di classificazioni stiutu di novi galaxi (figura 5.4). In machine learn, stu approcciu, usando esempiu tichittatu per creà un mudellu chì pò esse stampatu l'infurmazioni novi, hè chjamatu studienti supervisatu .
I so funziunalità in u mudellu d'apparechjardu di Banerji è i collegeri eranu più cumplessi chì quelli in l'oghje di u ghjocu, per esempiu, hà utilizatu belli funzioni cum'è «de Vaucouleurs fit ratio axial»; u so mudellu ùn era regressione logistica, hè stata una rede neurale artificiale. Utilizà e so funzioni, u so mudellu, è a classificazione di cunversu di a Galaxy Zoo, puderia creà pesi nantu à ogni funziunalità è utilizate estes pesi per fà predicimenti à a classificazione di a galaxia. Per esempiu, u so analisi anu truvatu chì l'imaghjinuccii bage «de Vaucouleurs fit ratio axial» eranu più prubabili di esse spirale galaxie. Doppianu questi pesi, hà pudutu predichendu a classificazione umana di una galaxia cun precisione raccurdata.
U travagliu di Banerji è i culleghji turnonu a Galaxy Zoo perchè cumu avaristi chjamate u sistema di computtu umanu computer assistitu . A megli manera di penserà di sti sistemi hibridi hè chì invece di avè l'omi solu di prublema, anu l'omi anu da custituisce una setturazione chì pò esse usata per furmà un computer per a risolve u prublema. A volte, furmà una cumpagnia per risolviri u prublema pò esse dumandà parechje exempli, è l'unicu modu per pruduce un nùmmuru abbastanti di esempi è una colazione mucosa. U vantaghju di issu impurtante assistitu per l'aiutu hè chì permette di gestionà indispinevamenti parechji quantità di dati chì utilizanu solu un quantu finitu di sforzu umanu. Per esempiu, un investigatore cù un miliuni di galaxia calachi umani pudite custruisce un mudellu predictivo chì pò esse adupratu per classificà un milionariu o ancu una trilionia di galaxia. Se ci sò numeri enormi di galaxia, invece stu tipu di l'umanu ghjianu hibridu hè veramente l'unica solu solu. Questa scalabilità infinita ùn hè micca libera, ma. Cumpressà un mudellu d'attrachju in a tecnulugia chì pò esse riproduciutu correlativamente a classificazioni umani hè un prublemu duru, ma furtunamenti sò oghji libri excelbili dedicati à stu tema (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo hè una bona illustrazione di quantu evoluzione di i prughjetti di i computi umani. Prima, un investigatore prova à u prugettu per ella stessu o cun un gruppu di l'assistenti di ricerca (per esempiu, u sforzu di classificazione iniziale di Schawinski). Se stu approcciu ùn faci micca scala, l'investigatore pò mudificà à un prughjettu di computation umanu cù assai participanti. Ma, per un certu voluminu di dati, l'upertu umanu puru ùn sia micca bè. A stu puntu, i circuncedi anu bisognu di custruisce un sistema di compulazione umana assistita per l'aiutu in quali classificazioni umani sò utilizati per furmà un mudellu di furmatu di l'impresa chì pò esse applicata à quantità di datu veramente senza limitazione.