Galaxy Zoo kombineer die pogings van baie nie-deskundige vrywilligers om 'n miljoen sterrestelsels te klassifiseer.
Galaxy Zoo het gegroei uit 'n probleem in die gesig gestaar deur Kevin Schawinski, 'n nagraadse student in Sterrekunde aan die Universiteit van Oxford in 2007. Vereenvoudiging nogal 'n bietjie, Schawinski belangstel in sterrestelsels was, en sterrestelsels kan geklassifiseer word deur hul morfologie-elliptiese of spiraal-en deur hul kleur blou of rooi. Op die oomblik, konvensionele wysheid onder sterrekundiges was dat spiraalstelsels, soos ons Melkweg, was blou in kleur (dui jeug) en dat elliptiese sterrestelsels was rooi van kleur (dui ouderdom). Schawinski getwyfel hierdie konvensionele wysheid. Hy vermoed dat terwyl hierdie patroon ware in die algemeen kan wees, was daar waarskynlik 'n aansienlike aantal uitsonderings, en dat deur die bestudering van baie van hierdie ongewone sterrestelsels-die een wat nie pas die verwagte patroon-hy kon iets oor die proses te leer waardeur sterrestelsels gevorm.
So, wat Schawinski nodig om konvensionele wysheid ongedaan was 'n groot versameling van morfologies geklassifiseer sterrestelsels; dit is, sterrestelsels wat reeds geklassifiseer as óf spiraal of elliptiese. Die probleem was egter dat die bestaande algoritmiese metodes vir klassifikasie was nog goed genoeg om gebruik te word vir wetenskaplike navorsing; Met ander woorde, die klassifikasie van sterrestelsels was, op daardie tydstip, 'n probleem wat hard was vir rekenaars. Daarom, wat nodig was, was 'n groot aantal mense geklassifiseer sterrestelsels. Schawinski onderneem hierdie klassifikasie probleem met die entoesiasme van 'n nagraadse student. In 'n marathon-sessie van sewe, 12-uur dae, kon hy 50,000 sterrestelsels te klassifiseer. Terwyl 50000 sterrestelsels mag klink soos 'n baie, dit is eintlik net sowat 5% van die byna 'n miljoen sterrestelsels wat gefotografeer is in die Sloan Digital Sky Survey. Schawinski besef dat hy 'n meer haalbare benadering nodig.
Gelukkig, dit blyk dat die taak van die klassifikasie van sterrestelsels nie vereis gevorderde opleiding in astronomie; jy kan iemand om dit redelik vinnig te doen leer. Met ander woorde, selfs al is die klassifikasie van sterrestelsels is 'n taak wat hard was vir rekenaars, dit was redelik maklik vir mense. So, terwyl jy sit in 'n kroeg in Oxford, Schawinski en mede-sterrekundige Chris Lintott gedroom van 'n webwerf waar vrywilligers beelde van sterrestelsels sou klassifiseer. 'N Paar maande later, was Galaxy Zoo gebore.
Op die Galaxy Zoo webwerf, sal vrywilligers 'n paar minute van opleiding ondergaan; byvoorbeeld, leer die verskil tussen 'n spiraal en elliptiese sterrestelsel (Figuur 5.2). Na hierdie opleiding, die vrywilligers het 'n relatief maklike vasvra-korrek te klassifiseer 11 van 15 sterrestelsels slaag met bekende klassifikasies-en dan die vrywilliger sou begin werklike klassifikasie van 'n onbekende sterrestelsels deur 'n eenvoudige web-gebaseerde koppelvlak (Figuur 5.3). Die oorgang van vrywilligers om sterrekundige sal plaasvind in minder as 10 minute en net nodig verby die laagste van hekkies, 'n eenvoudige toets.
Galaxy Zoo gelok sy aanvanklike vrywilligers na die projek is te sien in 'n nuus artikel, en in sowat ses maande die projek het gegroei tot meer as 100,000 burger wetenskaplikes, mense wat deelgeneem het, omdat hulle die taak geniet en hulle wou vooraf sterrekunde help betrek. Saam, hierdie 100,000 vrywilligers bygedra 'n totaal van meer as 40 miljoen klassifikasies, met die meerderheid van die klassifikasie wat uit 'n relatief klein, kerngroep deelnemers (Lintott et al. 2008) .
Navorsers wat ondervinding verhuring voorgraadse navorsingsassistente kan onmiddellik skepties oor kwaliteit data. Terwyl hierdie skeptisisme is redelik, Galaxy Zoo toon dat wanneer vrywilliger bydraes korrek skoongemaak, debiased, en saamgevoeg, kan hulle 'n hoë-gehalte resultate te produseer (Lintott et al. 2008) . 'N Belangrike truuk vir die kry van die skare om professionele gehalte data te skep, is ontslag; dit wil sê, wat dieselfde taak verrig deur baie verskillende mense. In Galaxy Zoo, was daar ongeveer 40 klassifikasies per sterrestelsel; navorsers met behulp van voorgraadse navorsing assistente kon nooit hierdie vlak van oortolligheid bekostig en daarom moet baie meer bekommerd oor die gehalte van elke individu klassifikasie te wees. Wat die vrywilligers het 'n tekort in die opleiding, het hulle opgemaak vir met ontslag.
Selfs met veelvuldige klassifikasies per sterrestelsel egter die kombinasie van die stel van vrywilliger klassifikasie te produseer 'n konsensus klassifikasie is lastig. Omdat baie soortgelyke uitdagings ontstaan in die meeste menslike berekening projekte, is dit nuttig om kortliks kyk na die drie stappe wat die Galaxy Zoo navorsers gebruik om hul konsensus klassifikasies produseer. In die eerste plek het die navorsers "skoongemaak" die data deur die verwydering van valse klassifikasies. Byvoorbeeld, mense wat herhaaldelik dieselfde sterrestelsel-iets wat sou gebeur as hulle probeer om die te manipuleer geklassifiseer resultate-het al hul klassifikasie weggegooi. Hierdie en ander soortgelyke skoonmaak verwyder sowat 4% van alle klassifikasies.
In die tweede plek na die skoonmaak, het die navorsers wat nodig is om sistematiese vooroordele in klassifikasies verwyder. Deur middel van 'n reeks van vooroordeel opsporing studies ingesluit in die oorspronklike projek-byvoorbeeld, wat 'n paar vrywilligers die sterrestelsel in monochroom in plaas van kleur-die navorsers ontdek 'n paar sistematiese vooroordele, soos 'n sistematiese vooroordeel te ver spiraalstelsels as elliptiese sterrestelsels te klassifiseer (Bamford et al. 2009) . Aanpassing vir hierdie sistematiese vooroordele is uiters belangrik, want gemiddeld baie bydraes nie sistematiese vooroordeel te verwyder; dit verwyder net ewekansige fout.
Ten slotte, nadat debiasing, het die navorsers nodig om 'n metode om die individuele klassifikasies kombineer om 'n konsensus klassifikasie produseer. Die eenvoudigste manier om klassifikasie te kombineer vir elke sterrestelsel sou wees om die mees algemene klassifikasie kies. Tog sou hierdie benadering elke vrywilliger gelyke gewig gee, en die navorsers vermoed dat sommige vrywilligers was beter klassifikasie as ander. Daarom, het die navorsers ontwikkel 'n meer komplekse iteratiewe gewig prosedure wat poog om outomaties die beste klassifiseerders en gee hulle meer gewig.
So, na 'n drie stap proses-skoonmaak, debiasing en gewig-die Galaxy Zoo navorsingspan het as 40 miljoen vrywilligers klassifikasies omskep in 'n stel van konsensus morfologiese klassifikasies. Wanneer hierdie Galaxy Zoo klassifikasie is in vergelyking met die vorige drie kleiner skaal pogings deur professionele sterrekundiges, insluitend die klassifikasie deur Schawinski wat gehelp het om te inspireer Galaxy Zoo, was daar 'n sterk ooreenkoms. So, die vrywilligers, in totaal, in staat was om 'n hoë gehalte klassifikasie verskaf en op 'n skaal wat die navorsers nie kon ooreenstem (Lintott et al. 2008) . Trouens, deurdat menslike klassifikasies vir so 'n groot aantal van sterrestelsels, Schawinski, Lintott, en ander in staat was om te wys dat slegs sowat 80% van sterrestelsels volg die verwagte patroon-blou spirale en rooi elliptische-en verskeie referate is geskryf oor hierdie ontdekking (Fortson et al. 2011) .
Gegewe hierdie agtergrond, kan ons nou sien hoe Galaxy Zoo volg die split-pas-kombineer resep, dieselfde resep wat gebruik word vir die meeste menslike berekening projekte. In die eerste plek is 'n groot probleem verdeel in stukke. In hierdie geval, is die probleem van die klassifikasie van 'n miljoen sterrestelsels verdeel in 'n miljoen probleme van die klassifikasie van 'n sterrestelsel. Volgende, is 'n operasie op elke stuk onafhanklik. In hierdie geval, sal 'n vrywilliger elke sterrestelsel as óf spiraal of elliptiese klassifiseer. Ten slotte, is die resultate gekombineer om 'n konsensus gevolg produseer. In hierdie geval, die kombineer stap ingesluit die skoonmaak, debiasing en gewig tot 'n konsensus klassifikasie vir elke sterrestelsel te produseer. Selfs al is die meeste projekte hierdie algemene resep gebruik, elk van die stappe moet aangepas word om die spesifieke probleem aangespreek. Byvoorbeeld, in die menslike berekening projek hieronder beskryf, dieselfde resep gevolg sal word, maar die stappe toe te pas en te kombineer sal heel anders wees.
Vir die Galaxy Zoo span, die eerste projek was net die begin. Baie vinnig het hulle besef dat selfs al was hulle in staat om te klassifiseer naby aan 'n miljoen sterrestelsels, hierdie skaal is nie genoeg om te werk met nuwe digitale lug opnames, wat beelde van sowat 10 miljard sterrestelsels kan produseer (Kuminski et al. 2014) . Tot 'n toename van 1 miljoen tot 10 hanteer miljard-faktor van 10,000-Galaxy Zoo nodig sou wees om ongeveer 10,000 keer meer deelnemers te werf. Selfs al is die aantal vrywilligers op die internet is groot, dit is nie oneindig. Daarom, het die navorsers het besef dat as hulle gaan steeds groeiende hoeveelhede data, 'n nuwe, nog meer skaalbare, benadering nodig is te hanteer.
Daarom, Manda Banerji-werk met Kevin Schawinski, Chris Lintott, en ander lede van die Melkweg Zoo-span begin onderrig rekenaars te sterrestelsels te klassifiseer. Meer spesifiek, die gebruik van die menslike klassifikasies geskep deur Galaxy Zoo, Banerji et al. (2010) het 'n masjien leermodel wat die menslike klassifikasie van 'n sterrestelsel wat gebaseer is op die eienskappe van die beeld kan voorspel. As hierdie masjien leermodel die menslike klassifikasie met 'n hoë akkuraatheid kan voortplant, dan kan dit gebruik word deur Galaxy Zoo navorsers om 'n wese oneindige aantal sterrestelsels te klassifiseer.
Die kern van Banerji en kollegas se benadering is eintlik redelik soortgelyk aan tegnieke wat algemeen gebruik word in sosiale navorsing, alhoewel dit ooreenkoms nie duidelik met die eerste oogopslag mag wees. In die eerste plek Banerji en kollegas omskep elke beeld in 'n stel van numeriese eienskappe wat 'n opsomming is dit eienskappe. Byvoorbeeld, vir die beelde van sterrestelsels daar kon wees drie funksies: die bedrag van blou in die beeld, die variansie in die glans van die pixels, en die verhouding van nie-wit pixels. Die keuse van die regte funksies is 'n belangrike deel van die probleem, en dit vereis oor die algemeen onderwerp-gebied kundigheid. Die eerste stap, algemeen bekend staan as funksie ingenieurswese, lei tot 'n datamatriks met een ry per beeld en dan drie kolomme beskryf die beeld. Gegewe die data matrix en die verlangde uitset (bv, of die beeld is geklassifiseer deur 'n mens as 'n elliptiese sterrestelsel), die navorser van mening die parameters van 'n statistiese model-byvoorbeeld, iets soos 'n logistieke regressie-dat die menslike klassifikasie gebaseer voorspel op die eienskappe van die beeld. Ten slotte, die navorser gebruik maak van die parameters in hierdie statistiese model om beraamde klassifikasie van nuwe sterrestelsels (Figuur 5.4) te produseer. Om te dink aan 'n sosiale analoog, dink dat jy demografiese inligting oor 'n miljoen studente het, en jy weet of hulle gegradueer kollege of nie. Jy kan 'n logistieke regressie pas om hierdie data, en dan kan jy die gevolglike model parameters gebruik om te voorspel of nuwe studente gaan gegradueerde van kollege. In masjienleer, hierdie benadering-met behulp van benoemde voorbeelde om 'n statistiese model wat dan nuwe kan benoem skep data-genoem toesig leer (Hastie, Tibshirani, and Friedman 2009) .
Die funksies in Banerji et al. (2010) masjien leermodel is meer kompleks as dié in my speelgoed voorbeeld-byvoorbeeld, gebruik sy funksies, soos die "de Vaucouleurs pas aksiale verhouding" -en haar model was nie logistieke regressie, dit was 'n kunsmatige neurale netwerk. Met behulp van haar eienskappe, haar model, en die konsensus Galaxy Zoo klassifikasie, was sy in staat was om gewig te skep oor elke funksie, en gebruik dan hierdie gewigte om voorspellings te maak oor die klassifikasie van sterrestelsels te maak. Byvoorbeeld, haar ontleding het gevind dat beelde met 'n lae "de Vaucouleurs pas aksiale verhouding" was meer geneig om spiraalstelsels wees. Gegewe hierdie gewigte, was sy in staat was om die menslike klassifikasie van 'n sterrestelsel voorspel redelik akkuraat.
Die werk van Banerji et al. (2010) het Galaxy Zoo in wat ek 'n tweede-generasie menslike berekening stelsel sou noem. Die beste manier om te dink oor hierdie tweede generasie stelsels is dat eerder as om die mens 'n probleem op te los, hulle het die mens bou 'n datastel wat gebruik kan word om 'n rekenaar op te lei om die probleem op te los. Die hoeveelheid data wat nodig is om die rekenaar op te lei kan so groot dat dit vereis 'n menslike massa samewerking te skep. In die geval van Galaxy Zoo, die neurale netwerke wat gebruik word deur Banerji et al. (2010) vereis 'n baie groot aantal van menslike gemerk voorbeelde ten einde 'n model wat op kommando moet betroubaar weer te gee die mens klassifikasie was bou.
Die voordeel van hierdie rekenaargesteunde benadering is dat dit in staat stel om in wese oneindige hoeveelhede data met behulp van slegs 'n beperkte hoeveelheid menslike inspanning te hanteer. Byvoorbeeld, kan 'n navorser met 'n miljoen mense geklassifiseer sterrestelsels n voorspelbare model wat dan gebruik kan word om 'n miljard of selfs 'n triljoen sterrestelsels klassifiseer bou. As daar enorme getalle van sterrestelsels, dan is hierdie soort van mens-rekenaar baster is regtig die enigste moontlike oplossing. Dit oneindige scalability is nie gratis, egter. Die bou van 'n masjien leermodel wat korrek die menslike klassifikasie kan voortplant is self 'n harde probleem, maar gelukkig is daar reeds 'n uitstekende boeke gewy aan hierdie onderwerp (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo toon die evolusie van baie menslike berekening projekte. Eerstens, 'n navorser poog die projek deur haarself of met 'n klein span van navorsingsassistente (bv Schawinski se aanvanklike klassifikasie moeite). As hierdie benadering nie goed skaal, kan die navorser na 'n menslike berekening projek waar baie mense bydra klassifikasies. Maar, vir 'n sekere volume van data, suiwer menslike inspanning sal nie genoeg wees nie. Op daardie stadium, moet navorsers om tweede-generasie stelsels waar menslike klassifikasie word gebruik om 'n masjien leermodel wat dan aangewend kan word om bykans onbeperkte hoeveelhede data trein te bou.