Galaxy Zoo vereinte die Bemühungen vieler Nicht-Experten, eine Million Galaxien zu klassifizieren.
Galaxy Zoo entstand aus einem Problem von Kevin Schawinski, Doktorand der Astronomie an der Universität Oxford im Jahr 2007. Schawinski, der sich ziemlich viel näherte, interessierte sich für Galaxien und Galaxien lassen sich anhand ihrer Morphologie - elliptisch oder spiralförmig - klassifizieren durch ihre Farbe - blau oder rot. Zu dieser Zeit war die gängige Meinung der Astronomen, dass Spiralgalaxien, wie unsere Milchstraße, blau waren (was auf die Jugend hindeutete) und elliptische Galaxien rot waren (was das Alter anzeigte). Schawinski bezweifelte diese konventionelle Weisheit. Er vermutete, dass, während dieses Muster im Allgemeinen wahr sein könnte, es wahrscheinlich eine beträchtliche Anzahl von Ausnahmen gab, und dass durch das Studium vieler dieser ungewöhnlichen Galaxien - die nicht dem erwarteten Muster entsprachen - er etwas über den Prozess erfahren konnte Galaxien gebildet.
Was Schawinski also brauchte, um die konventionelle Weisheit zu überwinden, war eine große Menge morphologisch klassifizierter Galaxien; das heißt, Galaxien, die entweder als spiralförmig oder elliptisch klassifiziert wurden. Das Problem bestand jedoch darin, dass existierende algorithmische Klassifizierungsmethoden noch nicht gut genug für die wissenschaftliche Forschung waren; mit anderen Worten, das Klassifizieren von Galaxien war zu dieser Zeit ein Problem, das für Computer schwierig war. Was daher benötigt wurde, war eine große Anzahl von Menschen klassifizierten Galaxien. Schawinski hat dieses Klassifizierungsproblem mit der Begeisterung eines Doktoranden übernommen. In einer Marathon-Session von sieben 12-Stunden-Tagen konnte er 50.000 Galaxien klassifizieren. Während 50.000 Galaxien wie viel klingen mögen, sind es nur etwa 5% der fast eine Million Galaxien, die im Sloan Digital Sky Survey fotografiert wurden. Schawinski erkannte, dass er einen besser skalierbaren Ansatz benötigte.
Glücklicherweise stellt sich heraus, dass die Aufgabe der Klassifizierung von Galaxien nicht Fortbildung in der Astronomie erfordert; Sie kann jemand beibringen, es ist ziemlich schnell zu tun. Mit anderen Worten, obwohl Galaxien ist eine Aufgabe, die Klassifizierung, die schwer für Computer war, war es recht einfach für den Menschen. Also, in einem Pub in Oxford, Schawinski und Kollegen Astronom Chris Lintott beim Sitzen geträumt, eine Website, wo Freiwillige Bilder von Galaxien klassifizieren würde. Ein paar Monate später wurde Galaxy Zoo geboren.
Auf der Galaxy Zoo-Website würden Freiwillige ein paar Minuten Training absolvieren; zum Beispiel den Unterschied zwischen einer Spirale und einer elliptischen Galaxie zu lernen (Abbildung 5.2). Nach diesem Training musste jeder Freiwillige ein relativ einfaches Quiz bestehen - 11 von 15 Galaxien mit bekannten Klassifizierungen richtig klassifizieren - und dann eine echte Klassifikation unbekannter Galaxien über eine einfache webbasierte Schnittstelle beginnen (Abbildung 5.3). Der Übergang vom Freiwilligen zum Astronomen würde in weniger als 10 Minuten stattfinden und nur die niedrigsten Hürden überwinden, ein einfaches Quiz.
Galaxy Zoo zog seine ersten Freiwilligen an, nachdem das Projekt in einem Nachrichtenartikel vorgestellt wurde, und in ungefähr sechs Monaten wuchs das Projekt auf mehr als 100.000 Bürgerwissenschaftler, Leute, die daran teilnahmen, weil sie die Aufgabe genossen hatten und die Astronomie voranbringen wollten. Zusammen trugen diese 100.000 Freiwilligen insgesamt mehr als 40 Millionen Klassifikationen bei, wobei der Großteil der Klassifikationen aus einer relativ kleinen Kerngruppe von Teilnehmern (Lintott et al. 2008) .
Forscher, die Erfahrung bei der Einstellung von Undergraduate-Research-Assistenten haben, sind möglicherweise skeptisch gegenüber der Datenqualität. Während diese Skepsis angemessen ist, zeigt Galaxy Zoo, dass, wenn freiwillige Beiträge korrekt gereinigt, debattiert und aggregiert werden, sie qualitativ hochwertige Ergebnisse liefern können (Lintott et al. 2008) . Ein wichtiger Trick, um die Crowd dazu zu bringen, Daten in professioneller Qualität zu erstellen, ist die Redundanz , dh die gleiche Aufgabe wird von vielen verschiedenen Personen ausgeführt. Im Galaxy Zoo gab es ungefähr 40 Klassifikationen pro Galaxie; Forscher, die wissenschaftliche Hilfskräfte einsetzen, könnten sich diese Redundanz nicht leisten und müssten sich daher viel mehr mit der Qualität jeder einzelnen Klassifikation befassen. Was den Freiwilligen im Training fehlte, wurde mit Redundanz ausgeglichen.
Selbst mit mehreren Klassifikationen pro Galaxie war die Kombination der freiwilligen Klassifizierungen zur Erstellung einer Konsens-Klassifikation jedoch schwierig. Da in den meisten menschlichen Berechnungsprojekten sehr ähnliche Herausforderungen auftreten, ist es hilfreich, die drei Schritte, die die Galaxy Zoo-Forscher zur Erstellung ihrer Konsensusklassifizierungen verwendet haben, kurz zu wiederholen. Zuerst "bereinigten" die Forscher die Daten, indem sie falsche Klassifizierungen beseitigten. Zum Beispiel haben Leute, die wiederholt die gleiche Galaxie klassifiziert haben - was passieren würde, wenn sie versuchen würden, die Ergebnisse zu manipulieren - alle ihre Klassifikationen verworfen. Diese und andere ähnliche Reinigung entfernt etwa 4% aller Klassifikationen.
Zweitens mussten die Forscher nach der Reinigung systematische Verzerrungen in den Klassifikationen entfernen. Durch eine Reihe von Bias-Detection-Studien, die in das ursprüngliche Projekt eingebettet waren - z. B. zeigten einige Freiwillige die Galaxie in Monochrom anstelle von Farbe - entdeckten die Forscher mehrere systematische Verzerrungen, wie z. B. eine systematische Tendenz, ferne Spiralgalaxien als elliptische Galaxien zu klassifizieren (Bamford et al. 2009) . Die Anpassung an diese systematischen Verzerrungen ist äußerst wichtig, da Redundanz nicht automatisch systematische Verzerrungen beseitigt; es hilft nur, zufällige Fehler zu entfernen.
Schließlich benötigten die Forscher nach dem Debiasing eine Methode, um die einzelnen Klassifikationen zu einer Konsensusklassifikation zusammenzufassen. Die einfachste Art, Klassifikationen für jede Galaxie zu kombinieren, wäre gewesen, die gebräuchlichste Klassifikation zu wählen. Dieser Ansatz hätte jedoch jedem Freiwilligen dasselbe Gewicht gegeben, und die Forscher vermuteten, dass einige Freiwillige besser in der Klassifizierung waren als andere. Daher entwickelten die Forscher ein komplexeres iteratives Gewichtungsverfahren, das versuchte, die besten Klassifikatoren zu erkennen und ihnen mehr Gewicht zu geben.
Nach einem dreistufigen Prozess - Reinigung, Debiasing und Gewichtung - hatte das Forschungsteam von Galaxy Zoo 40 Millionen freiwillige Klassifikationen in eine Reihe von morphologischen Konsensusklassifizierungen umgewandelt. Als diese Klassifizierungen von Galaxy Zoo mit drei früheren kleineren Versuchen professioneller Astronomen verglichen wurden, einschließlich der Klassifizierung von Schawinski, die dazu beitrug, Galaxy Zoo zu inspirieren, gab es starke Übereinstimmung. Somit konnten die Freiwilligen insgesamt hochwertige Klassifikationen in einem Ausmaß liefern, das die Forscher nicht erreichen konnten (Lintott et al. 2008) . In der Tat konnten Schawinski, Lintott und andere durch die Klassifizierung von Menschen für eine so große Anzahl von Galaxien zeigen, dass nur etwa 80% der Galaxien dem erwarteten Muster folgen - blaue Spiralen und rote elliptische Galaxien - und zahlreiche Artikel wurden darüber geschrieben diese Entdeckung (Fortson et al. 2011) .
Vor diesem Hintergrund können Sie jetzt sehen, wie Galaxy Zoo dem Split-Apply-Combine-Rezept folgt, dem gleichen Rezept, das für die meisten menschlichen Berechnungsprojekte verwendet wird. Zuerst wird ein großes Problem in Stücke geteilt. In diesem Fall wurde das Problem der Klassifizierung einer Million Galaxien in eine Million Probleme der Klassifizierung einer Galaxie aufgeteilt. Als nächstes wird eine Operation unabhängig für jeden Chunk angewendet . In diesem Fall klassifizierten Freiwillige jede Galaxie entweder als spiralförmig oder elliptisch. Schließlich werden die Ergebnisse kombiniert , um ein Konsensergebnis zu erzielen. In diesem Fall beinhaltete der Kombinationsschritt die Reinigung, das Debiasing und die Gewichtung, um eine Konsensklassifikation für jede Galaxie zu erzeugen. Obwohl die meisten Projekte dieses allgemeine Rezept verwenden, muss jeder Schritt an das spezifische Problem angepasst werden. Zum Beispiel wird in dem unten beschriebenen menschlichen Berechnungsprojekt das gleiche Rezept befolgt, aber die Anwendungs- und Kombinationsschritte werden ziemlich unterschiedlich sein.
Für das Galaxy Zoo Team war dieses erste Projekt nur der Anfang. Sie erkannten sehr schnell, dass diese Skala, obwohl sie fast eine Million Galaxien klassifizieren konnte, nicht ausreicht, um mit neueren digitalen Himmelsdurchmusterungen zu arbeiten, die Bilder von etwa 10 Milliarden Galaxien erzeugen können (Kuminski et al. 2014) . Um einen Anstieg von 1 Million auf 10 Milliarden - ein Faktor von 10.000 - zu bewältigen, müsste Galaxy Zoo etwa 10.000 Mal mehr Teilnehmer einstellen. Obwohl die Anzahl der Freiwilligen im Internet groß ist, ist sie nicht unendlich. Daher erkannten die Forscher, dass ein neuer, noch besser skalierbarer Ansatz erforderlich wäre, wenn sie mit immer größeren Datenmengen umgehen wollten.
Daher begann Manda Banerji - in Zusammenarbeit mit Schawinski, Lintott und anderen Mitgliedern des Galaxy Zoo-Teams (2010) - Computer zu unterrichten, um Galaxien zu klassifizieren. Genauer gesagt baute Banerji unter Verwendung der von Galaxy Zoo erstellten Klassifikationen ein maschinelles Lernmodell auf, das die menschliche Klassifizierung einer Galaxie anhand der Eigenschaften des Bildes vorhersagen konnte. Wenn dieses Modell die menschlichen Klassifikationen mit hoher Genauigkeit reproduzieren könnte, könnte es von Galaxy Zoo-Forschern verwendet werden, um eine im Wesentlichen unendliche Anzahl von Galaxien zu klassifizieren.
Der Kern des Ansatzes von Banerji und Kollegen ist tatsächlich den Techniken ähnlich, die üblicherweise in der Sozialforschung verwendet werden, obwohl diese Ähnlichkeit auf den ersten Blick nicht klar ist. Zuerst wandelten Banerji und Kollegen jedes Bild in eine Menge numerischer Merkmale um , die seine Eigenschaften zusammenfassten. Zum Beispiel könnte es für Bilder von Galaxien drei Merkmale geben: die Menge an Blau in dem Bild, die Varianz in der Helligkeit der Pixel und der Anteil an nicht-weißen Pixeln. Die Auswahl der richtigen Merkmale ist ein wichtiger Teil des Problems und erfordert in der Regel Fachkenntnisse. Dieser erste Schritt, der häufig als Feature Engineering bezeichnet wird , führt zu einer Datenmatrix mit einer Zeile pro Bild und drei Spalten, die dieses Bild beschreiben. In Anbetracht der Datenmatrix und der gewünschten Ausgabe (z. B. ob das Bild von einem Menschen als elliptische Galaxie klassifiziert wurde), erstellt der Forscher ein statistisches oder maschinelles Lernmodell - zum Beispiel logistische Regression -, das die menschliche Klassifizierung basierend auf den Merkmalen vorhersagt des Bildes. Schließlich verwendet der Forscher die Parameter in diesem statistischen Modell, um geschätzte Klassifizierungen neuer Galaxien zu erzeugen (Abbildung 5.4). Beim maschinellen Lernen wird diese Methode - die Verwendung beschrifteter Beispiele zur Erstellung eines Modells, das dann neue Daten kennzeichnen kann - als überwachtes Lernen bezeichnet .
Die Merkmale in Banerjis und Kollegen 's Machine Learning Modell waren komplexer als die in meinem Spielzeug Beispiel - zum Beispiel verwendete sie Funktionen wie "de Vaucouleurs Fit Achsenverhältnis" - und ihr Modell war keine logistische Regression, es war ein künstliches neuronales Netzwerk. Mit Hilfe ihrer Features, ihres Modells und der Klassifizierungen nach dem Klassifizierungssystem von Galaxy Zoo konnte sie für jedes Merkmal Gewichte erstellen und diese Gewichte dann verwenden, um Vorhersagen über die Klassifizierung von Galaxien zu treffen. Zum Beispiel fand ihre Analyse heraus, dass Bilder mit niedrigen "de Vaucouleurs passen Axialverhältnis" eher Spiralgalaxien waren. Angesichts dieser Gewichte war sie in der Lage, die menschliche Klassifizierung einer Galaxie mit angemessener Genauigkeit vorherzusagen.
Die Arbeit von Banerji und seinen Kollegen verwandelte Galaxy Zoo in etwas, das ich Computer-gestütztes menschliches Rechensystem nennen würde. Der beste Weg, über diese hybriden Systeme nachzudenken, ist, dass Menschen nicht ein Problem lösen müssen, sondern Menschen einen Datensatz erstellen, mit dem sie einen Computer trainieren können, um das Problem zu lösen. Manchmal kann das Training eines Computers zur Lösung des Problems viele Beispiele erfordern, und die einzige Möglichkeit, eine ausreichende Anzahl von Beispielen zu erstellen, ist eine Massenzusammenarbeit. Der Vorteil dieses computergestützten Ansatzes besteht darin, dass Sie mit einer endlichen Menge menschlicher Anstrengung im Wesentlichen unendlich viele Datenmengen verarbeiten können. Zum Beispiel kann ein Forscher mit einer Millionen von menschlichen klassifizierten Galaxien ein Vorhersagemodell erstellen, das dann dazu verwendet werden kann, eine Milliarde oder sogar eine Billion Galaxien zu klassifizieren. Wenn es eine enorme Anzahl von Galaxien gibt, dann ist diese Art Mensch-Computer-Hybrid wirklich die einzig mögliche Lösung. Diese unendliche Skalierbarkeit ist jedoch nicht frei. Der Aufbau eines maschinellen Lernmodells, das die menschlichen Klassifizierungen korrekt reproduzieren kann, ist selbst ein schwieriges Problem, aber glücklicherweise gibt es bereits ausgezeichnete Bücher zu diesem Thema (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo ist ein gutes Beispiel dafür, wie viele menschliche Berechnungsprojekte sich entwickeln. Zuerst versucht eine Forscherin das Projekt selbst oder mit einem kleinen Team von Forschungsassistenten (z. B. Schawinskis anfängliche Klassifizierungsbemühungen). Wenn dieser Ansatz nicht gut skaliert, kann der Forscher zu einem menschlichen Berechnungsprojekt mit vielen Teilnehmern übergehen. Aber für eine bestimmte Datenmenge wird reine menschliche Anstrengung nicht ausreichen. An diesem Punkt müssen Forscher ein computergestütztes menschliches Rechensystem aufbauen, in dem menschliche Klassifikationen verwendet werden, um ein maschinelles Lernmodell zu trainieren, das dann auf praktisch unbegrenzte Datenmengen angewendet werden kann.