Galaxy Zoo combineerde de inspanningen van vele niet-deskundige vrijwilligers om een miljoen sterrenstelsels te classificeren.
Galaxy Zoo groeide uit een probleem van Kevin Schawinski, een afgestudeerde student in de astronomie aan de Universiteit van Oxford in 2007. Vereenvoudigend nogal, was Schawinski geïnteresseerd in sterrenstelsels, en sterrenstelsels kunnen worden geclassificeerd door hun morfologie-elliptische of spiraalvormige en door hun kleur-blauw of rood. In die tijd was de conventionele wijsheid onder astronomen dat spiraalstelsels, zoals onze Melkweg, blauw van kleur waren (wat wijst op de jeugd) en elliptische sterrenstelsels rood (wat de ouderdom aangeeft). Schawinski twijfelde aan deze conventionele wijsheid. Hij vermoedde dat hoewel dit patroon in het algemeen waar zou zijn, er waarschijnlijk een aanzienlijk aantal uitzonderingen was, en dat hij door het bestuderen van veel van deze ongewone sterrenstelsels - degenen die niet in het verwachte patroon pasten - iets zou kunnen leren over het proces waardoor sterrenstelsels gevormd.
Dus wat Schawinski nodig had om conventionele wijsheid ten val te brengen, was een groot aantal morfologisch geclassificeerde sterrenstelsels; dat wil zeggen sterrenstelsels die waren geclassificeerd als spiraalvormig of elliptisch. Het probleem was echter dat bestaande algoritmische methoden voor classificatie nog niet goed genoeg waren om te worden gebruikt voor wetenschappelijk onderzoek; met andere woorden, het classificeren van sterrenstelsels was op dat moment een probleem dat moeilijk was voor computers. Daarom was er een groot aantal menselijke melkwegstelsels nodig. Schawinski ondernam dit classificatieprobleem met het enthousiasme van een afgestudeerde student. Tijdens een marathon van zeven dagen van 12 uur kon hij 50.000 sterrenstelsels classificeren. Terwijl 50.000 sterrenstelsels misschien veel klinken, is het feitelijk slechts ongeveer 5% van de bijna een miljoen sterrenstelsels die in de Sloan Digital Sky Survey zijn gefotografeerd. Schawinski besefte dat hij een meer schaalbare aanpak nodig had.
Gelukkig blijkt dat de taak van het classificeren van sterrenstelsels niet vereist geavanceerde opleiding in de astronomie; kun je iemand om het vrij snel te doen onderwijzen. Met andere woorden, hoewel classificeren stelsels is een taak die moeilijk was voor computers, was vrij gemakkelijk voor mensen. Dus, zittend in een pub in Oxford, Schawinski en collega-astronoom Chris Lintott bedacht een website waar vrijwilligers beelden van sterrenstelsels zou classificeren. Een paar maanden later, werd Galaxy Zoo geboren.
Op de website van de Galaxy Zoo kregen vrijwilligers een paar minuten training; bijvoorbeeld het verschil leren tussen een spiraal en een elliptisch stelsel (figuur 5.2). Na deze training moest elke vrijwilliger een relatief eenvoudige quiz doorgeven - waarbij hij 11 van de 15 sterrenstelsels met bekende classificaties correct classificeerde - en vervolgens met een echte classificatie van onbekende sterrenstelsels beginnen via een eenvoudige webgebaseerde interface (figuur 5.3). De overgang van vrijwilliger naar astronoom zou in minder dan 10 minuten plaatsvinden en hoefde alleen de laagste hindernissen te passeren, een eenvoudige quiz.
Galaxy Zoo trok zijn eerste vrijwilligers aan nadat het project in een nieuwsartikel was opgenomen en in ongeveer zes maanden tijd groeide het project uit tot meer dan 100.000 burgerwetenschappers, mensen die deelnamen omdat ze de taak leuk vonden en ze wilden helpen de astronomie vooruit te helpen. Samen hebben deze 100.000 vrijwilligers in totaal meer dan 40 miljoen classificaties bijgedragen, waarbij de meerderheid van de classificaties afkomstig was van een relatief kleine kerngroep van deelnemers (Lintott et al. 2008) .
Onderzoekers die ervaring hebben met het aannemen van niet-gegradueerde onderzoeksassistenten, zijn mogelijk onmiddellijk sceptisch over de gegevenskwaliteit. Hoewel dit scepticisme redelijk is, laat Galaxy Zoo zien dat wanneer bijdragen van vrijwilligers correct worden schoongemaakt, ontbeten en geaggregeerd, ze hoogwaardige resultaten kunnen produceren (Lintott et al. 2008) . Een belangrijke truc om de menigte te krijgen om gegevens van professionele kwaliteit te maken is redundantie , dat wil zeggen dat dezelfde taak door veel verschillende mensen wordt uitgevoerd. In Galaxy Zoo waren er ongeveer 40 classificaties per melkweg; onderzoekers die niet-gegradueerde onderzoeksassistenten gebruiken, zouden dit niveau van redundantie nooit kunnen betalen en zouden zich daarom veel meer moeten bezighouden met de kwaliteit van elke individuele classificatie. Wat de vrijwilligers misten in training, ze compenseerden met ontslag.
Zelfs met meerdere classificaties per melkwegstelsel was het combineren van de reeks vrijwillige classificaties om een consensusclassificatie te produceren echter lastig. Omdat de meeste menselijke rekenprojecten zeer vergelijkbare uitdagingen oproepen, is het nuttig om kort de drie stappen te bekijken die de onderzoekers van de Galaxy Zoo gebruikten om hun consensusclassificaties te produceren. Ten eerste hebben de onderzoekers de gegevens "schoongemaakt" door het verwijderen van valse classificaties. Mensen die bijvoorbeeld herhaaldelijk hetzelfde sterrenstelsel hebben geclassificeerd - iets dat zou gebeuren als ze probeerden de resultaten te manipuleren - moesten alle classificaties worden weggegooid. Deze en andere soortgelijke schoonmaak verwijderde ongeveer 4% van alle classificaties.
Ten tweede moesten de onderzoekers na het opschonen systematische vooroordelen in classificaties verwijderen. Door middel van een reeks biasdetectiestudies die in het oorspronkelijke project zijn ingebed - bijvoorbeeld door een aantal vrijwilligers het melkwegstelsel in zwart-wit in plaats van in kleuren te tonen - ontdekten de onderzoekers verschillende systematische vooroordelen, zoals een systematische vooroordeel om verre spiraalstelsels als elliptische sterrenstelsels te classificeren (Bamford et al. 2009) . Het aanpassen van deze systematische vooroordelen is uiterst belangrijk omdat redundantie niet automatisch systematische vertekening verwijdert; het helpt alleen willekeurige fouten te verwijderen.
Ten slotte hadden de onderzoekers na debiasing een methode nodig om de individuele classificaties te combineren tot een consensusclassificatie. De eenvoudigste manier om classificaties voor elk sterrenstelsel te combineren, was om de meest voorkomende classificatie te kiezen. Deze aanpak zou echter elke vrijwilliger evenveel gewicht hebben gegeven, en de onderzoekers vermoedden dat sommige vrijwilligers beter waren in classificatie dan andere. Daarom ontwikkelden de onderzoekers een meer complexe iteratieve wegingsprocedure die probeerde de beste classifiers te vinden en ze meer gewicht te geven.
Dus na een drietraps procesreiniging, debiasing en weging, had het onderzoeksteam van de Galaxy Zoo 40 miljoen vrijwillige classificaties omgezet in een reeks consensus morfologische classificaties. Toen deze klasseringen van de Galaxy Zoo werden vergeleken met drie eerdere kleinschalige pogingen van professionele astronomen, waaronder de classificatie door Schawinski die Galaxy Zoo inspireerde, was er een sterke overeenkomst. Zodoende waren de vrijwilligers in totaal in staat om classificaties van hoge kwaliteit te leveren en op een schaal die de onderzoekers niet konden evenaren (Lintott et al. 2008) . Door het hebben van menselijke classificaties voor zo'n groot aantal sterrenstelsels, konden Schawinski, Lintott en anderen zelfs aantonen dat slechts ongeveer 80% van de sterrenstelsels de verwachte patroon-blauwe spiralen en rode elliptische stelsels volgden en er zijn talloze artikelen geschreven over deze ontdekking (Fortson et al. 2011) .
Met deze achtergrond kun je nu zien hoe Galaxy Zoo het recept voor split-apply-combineren volgt, hetzelfde recept dat wordt gebruikt voor de meeste menselijke rekenprojecten. Ten eerste wordt een groot probleem opgesplitst in stukjes. In dit geval was het probleem van het classificeren van een miljoen sterrenstelsels gesplitst in een miljoen problemen om een sterrenstelsel te classificeren. Vervolgens wordt een bewerking onafhankelijk op elk blok toegepast . In dit geval hebben vrijwilligers elk sterrenstelsel geclassificeerd als spiraalvormig of elliptisch. Ten slotte worden de resultaten gecombineerd om een consensusresultaat te produceren. In dit geval omvatte de combinatiestap het reinigen, debiasing en weging om een consensusclassificatie voor elk melkwegstelsel te produceren. Hoewel de meeste projecten dit algemene recept gebruiken, moet elke stap worden aangepast aan het specifieke probleem dat wordt aangepakt. In het hieronder beschreven menselijke berekeningsproject zal hetzelfde recept worden gevolgd, maar de stappen van toepassen en combineren zullen heel verschillend zijn.
Voor het Galaxy Zoo-team was dit eerste project nog maar het begin. Al snel realiseerden ze zich dat, hoewel ze bijna een miljoen sterrenstelsels konden classificeren, deze schaal niet voldoende is om te werken met nieuwere digitale (Kuminski et al. 2014) , die beelden van ongeveer 10 miljard sterrenstelsels kunnen produceren (Kuminski et al. 2014) . Om een toename van 1 miljoen naar 10 miljard, een factor van 10.000, te kunnen verwerken, zou Galaxy Zoo ongeveer 10.000 keer meer deelnemers moeten werven. Hoewel het aantal vrijwilligers op internet groot is, is het niet oneindig. Daarom beseften de onderzoekers dat als ze met steeds grotere hoeveelheden gegevens zouden omgaan, een nieuwe, nog beter schaalbare aanpak nodig was.
Daarom begon Manda Banerji - samenwerkend met Schawinski, Lintott en andere leden van het Galaxy Zoo-team (2010) - met het onderwijzen van computers om sterrenstelsels te classificeren. Meer specifiek, gebruikmakend van de menselijke classificaties gecreëerd door Galaxy Zoo, bouwde Banerji een machine-leermodel dat de menselijke classificatie van een sterrenstelsel kon voorspellen op basis van de kenmerken van het beeld. Als dit model de menselijke classificaties met grote nauwkeurigheid zou kunnen reproduceren, dan zou het door onderzoekers van de Galaxy Zoo kunnen worden gebruikt om een in wezen oneindig aantal sterrenstelsels te classificeren.
De kern van de benadering van Banerji en collega's is eigenlijk vergelijkbaar met technieken die algemeen worden gebruikt in sociaal onderzoek, hoewel die gelijkenis op het eerste gezicht misschien niet duidelijk is. Ten eerste converteerden Banerji en collega's elk beeld naar een reeks numerieke functies die de eigenschappen ervan samenvatten. Voor afbeeldingen van sterrenstelsels kunnen er bijvoorbeeld drie functies zijn: de hoeveelheid blauw in de afbeelding, de variantie in de helderheid van de pixels en de verhouding van niet-witte pixels. De selectie van de juiste kenmerken is een belangrijk onderdeel van het probleem en vereist doorgaans expertise op vakgebied. Deze eerste stap, gewoonlijk feature-engineering genoemd , resulteert in een gegevensmatrix met één rij per afbeelding en vervolgens drie kolommen die die afbeelding beschrijven. Gegeven de datamatrix en de gewenste output (bijv. Of het beeld door een mens als een elliptisch stelsel was geclassificeerd), maakt de onderzoeker een statistisch of machine-leermodel aan, bijvoorbeeld logistische regressie, dat de menselijke classificatie voorspelt op basis van de kenmerken van de afbeelding. Ten slotte gebruikt de onderzoeker de parameters in dit statistische model om geschatte classificaties van nieuwe sterrenstelsels te produceren (figuur 5.4). Bij het leren van machines wordt deze benadering - met behulp van gelabelde voorbeelden om een model te maken dat vervolgens nieuwe gegevens kan labelen - ' supervised learning' genoemd .
De functies in Banerji en het machine-leermodel van collega's waren complexer dan die in mijn speelgoedvoorbeeld - ze gebruikte bijvoorbeeld functies als "de Vaucouleurs fit axiale ratio" - en haar model was geen logistische regressie, het was een kunstmatig neuraal netwerk. Gebruikmakend van haar functies, haar model en de consensus Galaxy Zoo-classificaties, was ze in staat om gewichten te maken voor elke functie, en vervolgens deze gewichten te gebruiken om voorspellingen te doen over de classificatie van sterrenstelsels. Haar analyse toonde bijvoorbeeld aan dat beelden met een lage "de Vaucouleurs fit axiale ratio" eerder spiraalvormige sterrenstelsels waren. Gezien deze gewichten was ze in staat om de menselijke classificatie van een melkwegstelsel met redelijke nauwkeurigheid te voorspellen.
Het werk van Banerji en zijn collega's maakten van de Galaxy Zoo een computerondersteund menselijk rekensysteem . De beste manier om na te denken over deze hybride systemen is dat mensen niet een probleem oplossen, maar een dataset bouwen die kan worden gebruikt om een computer te trainen om het probleem op te lossen. Soms kan het trainen van een computer om het probleem op te lossen heel wat voorbeelden vereisen, en de enige manier om voldoende voorbeelden te produceren, is een massale samenwerking. Het voordeel van deze computerondersteunde aanpak is dat het u in staat stelt om in wezen oneindig veel gegevens te verwerken met slechts een eindige hoeveelheid menselijke inspanning. Een onderzoeker met een miljoen door mensen geclassificeerde sterrenstelsels kan bijvoorbeeld een voorspellend model bouwen dat vervolgens kan worden gebruikt om een miljard of zelfs een biljoen sterrenstelsels te classificeren. Als er enorm veel sterrenstelsels zijn, dan is dit soort mens-computer hybride echt de enige mogelijke oplossing. Deze oneindige schaalbaarheid is echter niet gratis. Het bouwen van een machine-leermodel dat de menselijke classificaties correct kan reproduceren, is op zichzelf een moeilijk probleem, maar gelukkig zijn er al uitstekende boeken gewijd aan dit onderwerp (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo is een goede illustratie van hoeveel menselijke computerprojecten evolueren. Ten eerste probeert een onderzoeker het project zelf of met een klein team van onderzoeksmedewerkers (bijvoorbeeld de initiële classificatie-inspanning van Schawinski). Als deze aanpak niet goed schaalt, kan de onderzoeker met veel deelnemers overgaan op een menselijk rekenproject. Maar voor een bepaalde hoeveelheid gegevens zal pure menselijke inspanning niet genoeg zijn. Op dat moment moeten onderzoekers een computergestuurd menselijk rekenstelsel bouwen waarin menselijke classificaties worden gebruikt om een machine-leermodel te trainen dat vervolgens op vrijwel onbeperkte hoeveelheden gegevens kan worden toegepast.