Galaxy Zoo kombineer die pogings van baie nie-deskundige vrywilligers om 'n miljoen sterrestelsels te klassifiseer.
Galaxy Zoo het uit 2007 'n probleem ondervind deur Kevin Schawinski, 'n gegradueerde student in die Sterrekunde aan die Universiteit van Oxford in 2007. Vereenvoudiging van 'n bietjie, Schawinski was geïnteresseerd in sterrestelsels, en sterrestelsels kan geklassifiseer word deur hul morfologie-elliptiese of spirale-en deur hul kleurblou of rooi. Die konvensionele wysheid van sterrekundiges was destyds dat die spiraalvormige sterrestelsels, soos ons Melkweg, blou van kleur was (dui op die jeug) en elliptiese sterrestelsels was rooi (dui op ouderdom). Schawinski betwyfel hierdie konvensionele wysheid. Hy het vermoed dat terwyl hierdie patroon waarskynlik in die algemeen kon wees, daar waarskynlik 'n aansienlike aantal uitsonderings was, en dat deur baie van hierdie ongewone sterrestelsels te bestudeer - diegene wat nie die verwagte patroon pas nie - hy kon iets leer oor die proses waardeur sterrestelsels gevorm.
Dus, wat Schawinski nodig gehad het om konvensionele wysheid om te keer, was 'n groot stel morfologies geklassifiseerde sterrestelsels; dit is sterrestelsels wat as óf spiraal of ellipties geklassifiseer is. Die probleem was egter dat bestaande algoritmiese metodes vir klassifikasie nog nie genoeg was om vir wetenskaplike navorsing gebruik te word nie; Met ander woorde, die klassifikasie van sterrestelsels was destyds 'n probleem wat vir rekenaars moeilik was. Daarom, wat nodig was, was 'n groot aantal mense- geklassifiseerde sterrestelsels. Schawinski het hierdie klassifikasieprobleem onderneem met die entoesiasme van 'n gegradueerde. In 'n marathonsessie van sewe 12-uur-dae kon hy 50 000 sterrestelsels klassifiseer. Terwyl 50.000 sterrestelsels dalk so baie klink, is dit eintlik net sowat 5% van die byna een miljoen sterrestelsels wat in die Sloan Digital Sky Survey gefotografeer is. Schawinski het besef dat hy 'n meer skaalbare benadering nodig het.
Gelukkig, dit blyk dat die taak van die klassifikasie van sterrestelsels nie vereis gevorderde opleiding in astronomie; jy kan iemand om dit redelik vinnig te doen leer. Met ander woorde, selfs al is die klassifikasie van sterrestelsels is 'n taak wat hard was vir rekenaars, dit was redelik maklik vir mense. So, terwyl jy sit in 'n kroeg in Oxford, Schawinski en mede-sterrekundige Chris Lintott gedroom van 'n webwerf waar vrywilligers beelde van sterrestelsels sou klassifiseer. 'N Paar maande later, was Galaxy Zoo gebore.
Op die Galaxy Zoo webwerf sal vrywilligers 'n paar minute van opleiding ondergaan; Byvoorbeeld, leer die verskil tussen 'n spiraal- en elliptiese sterrestelsel (figuur 5.2). Na hierdie opleiding moes elke vrywilliger 'n betreklik maklike vasvra slaag om 11 van 15 sterrestelsels met bekende klassifikasies korrek te klassifiseer - en dan sal die werklike klassifikasie van onbekende sterrestelsels begin deur 'n eenvoudige webgebaseerde koppelvlak (figuur 5.3). Die oorgang van vrywilliger na sterrekundige sal in minder as 10 minute plaasvind en benodig slegs die laagste hekkies, 'n eenvoudige vasvra.
Galaxy Zoo het sy aanvanklike vrywilligers gelok nadat die projek in 'n nuusberig verskyn het. In ongeveer ses maande het die projek gegroei om meer as 100 000 burgerwetenskaplikes te betrek, mense wat deelgeneem het omdat hulle die taak geniet het en hulle wou help om die sterrekunde te bevorder. Saam het hierdie 100,000 vrywilligers 'n totaal van meer as 40 miljoen klassifikasies bygedra, met die meeste klassifikasies afkomstig uit 'n relatief klein kerngroep deelnemers (Lintott et al. 2008) .
Navorsers wat ondervinding het om voorgraadse navorsingsassistente te huur, kan dadelik skepties wees oor data kwaliteit. Alhoewel hierdie skeptisisme redelik is, toon Galaxy Zoo dat wanneer vrywillige bydraes korrek skoongemaak, deorganies en geaggregeer word, hoë kwaliteit resultate kan lewer (Lintott et al. 2008) . 'N Belangrike truuk om die skare te kry om van professionele gehalte data te skep, is ontslag , dit wil sê met dieselfde taak wat deur baie verskillende mense uitgevoer word. In die Galaxy Zoo was daar ongeveer 40 klassifikasies per sterrestelsel; navorsers wat voorgraadse navorsingsassistente gebruik, kan nooit hierdie vlak van ontslag bekostig nie en moet dus baie meer bekommerd wees oor die kwaliteit van elke individuele klassifikasie. Wat die vrywilligers nie in opleiding gehad het nie, het hulle opgemaak met ontslag.
Selfs met verskeie klassifikasies per sterrestelsel, was dit egter moeilik om die stel vrywillige klassifikasies te kombineer om 'n konsensus klassifikasie te produseer. Omdat baie soortgelyke uitdagings in die meeste menslike berekeningsprojekte voorkom, is dit nuttig om die drie stappe wat die Galaxy Zoo navorsers gebruik het om hul konsensus klassifikasies te produseer, kortliks te hersien. Eerstens het die navorsers die data skoongemaak deur vals klassifikasies te verwyder. Byvoorbeeld, mense wat herhaaldelik dieselfde sterrestelsel geklassifiseer het - iets wat sou gebeur as hulle die resultate probeer manipuleer - het al hul klassifikasies weggegooi. Hierdie en ander soortgelyke skoonmaak het ongeveer 4% van alle klassifikasies verwyder.
Tweedens, na die skoonmaak, moes die navorsers sistematiese vooroordele in klassifikasies verwyder. Deur middel van 'n reeks vooroordeelstudies wat in die oorspronklike projek ingebed is, byvoorbeeld, het sommige van die vrywilligers die melkweg in monochroom in plaas van kleur gewys. Die navorsers het verskeie sistematiese vooroordeel ontdek, soos 'n sistematiese vooroordeel om verreweg spiraalvormige sterrestelsels as elliptiese sterrestelsels (Bamford et al. 2009) . Aanpassing vir hierdie sistematiese vooroordeel is uiters belangrik omdat redundansie nie outomaties stelselmatige vooroordeel verwyder nie; dit help net om willekeurige foute te verwyder.
Uiteindelik het die navorsers na afbreking 'n metode gehad om die individuele klassifikasies te kombineer om 'n konsensus klassifikasie te skep. Die eenvoudigste manier om klassifikasies vir elke sterrestelsel te kombineer sou wees om die mees algemene klassifikasie te kies. Hierdie benadering sou egter elke vrywilliger gelyke gewig gegee het, en die navorsers het vermoed dat sommige vrywilligers beter in klassifikasie as ander was. Daarom het die navorsers 'n meer komplekse iteratiewe gewigprosedure ontwikkel wat probeer het om die beste klassifiseerders op te spoor en meer gewig te gee.
Dus, na 'n drie-stap proses-skoonmaak, debiasing en gewig-die Galaxy Zoo-navorsingspan het 40 miljoen vrywilliger-klassifikasies omskep in 'n stel konsensus-morfologiese klassifikasies. Toe hierdie klassifikasies van die Galaxy Zoo vergelyk word met drie vorige kleiner skaalpogings deur professionele sterrekundiges, insluitende die klassifikasie van Schawinski wat geholp het om Galaxy Zoo te inspireer, was daar sterk ooreenkoms. Aldus kon die vrywilligers in staat wees om klassifikasies van hoë gehalte te verskaf en op 'n skaal wat die navorsers nie kon ooreenstem nie (Lintott et al. 2008) . Trouens, deur menslike klassifikasies vir so 'n groot aantal sterrestelsels te hê, was Schawinski, Lintott en ander in staat om te wys dat slegs ongeveer 80% van die sterrestelsels die verwagte patroonblou spirale en rooi elliptiese volg, en daar is talle vraestelle geskryf oor hierdie ontdekking (Fortson et al. 2011) .
Gegewe hierdie agtergrond, kan jy nou sien hoe Galaxy Zoo die gesplete-aansoek-kombineer resep volg, dieselfde resep wat gebruik word vir die meeste menslike berekeningsprojekte. In die eerste plek is 'n groot probleem te verdeel in stukke. In hierdie geval is die probleem van die klassifikasie van 'n miljoen sterrestelsels verdeel in 'n miljoen probleme om een sterrestelsel te klassifiseer. Volgende, is 'n operasie toegepas op elke stuk onafhanklik. In hierdie geval, vrywilligers geklassifiseer elke sterrestelsel as óf spiraal of elliptiese. Laastens word die resultate gekombineer om 'n konsensus resultaat te lewer. In hierdie geval het die kombineerstap die skoonmaak, debiasing en gewig ingesluit om 'n konsensus klassifikasie vir elke sterrestelsel te produseer. Alhoewel die meeste projekte hierdie algemene resep gebruik, moet elke stap aangepas word vir die spesifieke probleem wat aangespreek word. Byvoorbeeld, in die menslike berekeningsprojek wat hieronder beskryf word, sal dieselfde resep gevolg word, maar die toepassing en kombinasie van stappe sal heel anders wees.
Vir die Galaxy Zoo-span was hierdie eerste projek net die begin. Baie vinnig het hulle besef dat, hoewel hulle naby 'n miljoen sterrestelsels kon klassifiseer, hierdie skaal nie genoeg is om met nuwer digitale (Kuminski et al. 2014) te werk nie, wat beelde van ongeveer 10 miljard sterrestelsels kan produseer (Kuminski et al. 2014) . Om 'n toename van 1 miljoen tot 10 miljard te hanteer, sal 'n faktor van 10,000 Galaxy Zoo nodig wees om ongeveer 10,000 keer meer deelnemers te werf. Alhoewel die aantal vrywilligers op die internet groot is, is dit nie oneindig nie. Daarom het die navorsers besef dat indien hulle steeds groter hoeveelhede data moes hanteer, 'n nuwe, selfs meer skaalbare benadering nodig was.
Daarom het Manda Banerji-werk saam met Schawinski, Lintott en ander lede van die Galaxy Zoo-span (2010) begin met die onderrig van rekenaars om sterrestelsels te klassifiseer. Meer spesifiek, met behulp van die menslike klassifikasies geskep deur Galaxy Zoo, het Banerji 'n masjienleermodel gebou wat die menslike klassifikasie van 'n sterrestelsel kan voorspel op grond van die eienskappe van die beeld. As hierdie model die menslike klassifikasies met hoë akkuraatheid kan weergee, kan dit deur Galaxy Zoo-navorsers gebruik word om 'n wesenlike oneindige aantal sterrestelsels te klassifiseer.
Die kern van Banerji en kollegas se benadering is eintlik baie soortgelyk aan tegnieke wat algemeen in sosiale navorsing gebruik word, alhoewel die ooreenkoms nie by die eerste oogopslag duidelik kan wees nie. Eerstens het Banerji en kollegas elke prent omskep in 'n stel numeriese kenmerke wat sy eienskappe opgesom het. Byvoorbeeld, vir beelde van sterrestelsels, kan daar drie eienskappe wees: die hoeveelheid blou in die beeld, die variansie in die helderheid van die pixels, en die verhouding van nie-wit pixels. Die keuse van die korrekte eienskappe is 'n belangrike deel van die probleem, en dit vereis gewoonlik vakgebied kundigheid. Hierdie eerste stap, wat algemeen bekend staan as funksie-ingenieurswese , lei tot 'n data-matriks met een ry per beeld en dan drie kolomme wat die prent beskryf. Gegewe die data matriks en die verlangde uitset (bv. Of die beeld deur 'n mens as elliptiese sterrestelsel geklassifiseer is), skep die navorser 'n statistiese of masjienleermodel - byvoorbeeld logistieke regressie - wat die menslike klassifikasie voorspel op grond van die kenmerke van die beeld. Laastens gebruik die navorser die parameters in hierdie statistiese model om geskatte klassifikasies van nuwe sterrestelsels te lewer (Figuur 5.4). In masjienleer word hierdie benaderings-gebruik van gemerkte voorbeelde om 'n model te skep wat dan nuwe data kan etiket, genoem onder toesig .
Die kenmerke in Banerji en die kollegas se masjienleermodel was meer kompleks as dié in my speelgoedvoorbeeld. Byvoorbeeld, sy gebruik eienskappe soos die Vaucouleurs-pas-aksiale verhouding en haar model was nie logistieke regressie nie, dit was 'n kunsmatige neurale netwerk. Met behulp van haar eienskappe, haar model en die konsensus Galaxy Zoo-klassifikasies kon sy gewigte op elke kenmerk skep, en gebruik dan hierdie gewigte om voorspellings te maak oor die klassifikasie van sterrestelsels. Byvoorbeeld, haar ontleding het bevind dat beelde met 'n lae "de Vaucouleurs fikse aksiale verhouding" meer geneig was om spiraalstelsels te wees. Gegewe hierdie gewigte kon sy die menslike klassifikasie van 'n sterrestelsel met redelike akkuraatheid voorspel.
Die werk van Banerji en kollegas het Galaxy Zoo verander in wat ek 'n rekenaargesteunde menslike berekeningstelsel sou noem. Die beste manier om na te dink oor hierdie hibriede stelsels is dat eerder as om mense 'n probleem op te los, het hulle mense 'n datastel gebou wat gebruik kan word om 'n rekenaar op te lei om die probleem op te los. Soms is die opleiding van 'n rekenaar om die probleem op te los, baie voorbeelde nodig. Die enigste manier om genoeg voorbeelde te produseer, is 'n massamewerking. Die voordeel van hierdie rekenaargesteunde benadering is dat dit u in staat stel om wesenlike oneindige hoeveelhede data te hanteer deur slegs 'n beperkte hoeveelheid menslike inspanning te gebruik. Byvoorbeeld, 'n navorser met 'n miljoen menslike geklassifiseerde sterrestelsels kan 'n voorspellende model bou wat dan gebruik kan word om 'n biljoen of selfs 'n triljoen sterrestelsels te klassifiseer. As daar 'n groot aantal sterrestelsels is, dan is hierdie soort menslike rekenaarbaster eintlik die enigste moontlike oplossing. Hierdie oneindige skaalbaarheid is egter nie gratis nie. Die bou van 'n masjienleermodel wat die menslike klassifikasies korrek kan reproduseer, is self 'n moeilike probleem, maar gelukkig is daar reeds uitstekende boeke toegewy aan hierdie onderwerp (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo is 'n goeie illustrasie van hoeveel menslike berekeningsprojekte ontwikkel. Eerstens probeer 'n navorser die projek deur haarself of met 'n klein span navorsingsassistente (bv. Schawinski se aanvanklike klassifikasie-inspanning). As hierdie benadering nie goed skaal nie, kan die navorser met baie deelnemers na 'n menslike berekeningsprojek beweeg. Maar vir 'n sekere hoeveelheid data sal suiwer menslike inspanning nie genoeg wees nie. Op daardie stadium moet navorsers 'n rekenaargesteunde menslike berekeningstelsel bou waarin menslike klassifikasies gebruik word om 'n masjienleermodel op te lei wat dan op feitlik onbeperkte hoeveelhede data toegepas kan word.