Galaxy Zoo a combiné les efforts de nombreux bénévoles non experts pour classer un million de galaxies.
Galaxy Zoo est né d'un problème rencontré par Kevin Schawinski, un étudiant diplômé en astronomie à l'Université d'Oxford en 2007. Simplifiant un peu, Schawinski était intéressé par les galaxies, et les galaxies peuvent être classés par leur morphologie-elliptique ou spirale-et par leur couleur-bleu ou rouge. À l'époque, la sagesse conventionnelle parmi les astronomes était que les galaxies spirales, comme notre Voie Lactée, étaient de couleur bleue (indiquant la jeunesse) et les galaxies elliptiques étaient rouges (indiquant la vieillesse). Schawinski doutait de cette sagesse conventionnelle. Il soupçonnait que, bien que ce schéma puisse être vrai en général, il y avait probablement un nombre considérable d'exceptions, et qu'en étudiant beaucoup de ces galaxies inhabituelles - celles qui ne correspondaient pas au modèle attendu - il pourrait apprendre quelque chose sur le processus par lequel galaxies formées.
Ainsi, ce dont Schawinski avait besoin pour renverser la sagesse conventionnelle était un grand ensemble de galaxies morphologiquement classées; c'est-à-dire, les galaxies qui ont été classées comme spirale ou elliptique. Le problème, cependant, était que les méthodes algorithmiques existantes pour la classification n'étaient pas encore assez bonnes pour être utilisées pour la recherche scientifique; en d'autres termes, la classification des galaxies était, à l'époque, un problème difficile pour les ordinateurs. Par conséquent, ce qui était nécessaire était un grand nombre de galaxies humaines- classifiées. Schawinski a entrepris ce problème de classification avec l'enthousiasme d'un étudiant diplômé. Lors d'une session marathon de sept jours de 12 heures, il a pu classer 50 000 galaxies. Alors que 50 000 galaxies peuvent sembler beaucoup, c'est seulement environ 5% des presque un million de galaxies qui ont été photographiées dans le Sloan Digital Sky Survey. Schawinski s'est rendu compte qu'il avait besoin d'une approche plus évolutive.
Heureusement, il se trouve que la tâche des galaxies de classification ne nécessite pas de formation avancée en astronomie; vous pouvez enseigner à quelqu'un de le faire assez rapidement. En d'autres termes, même si la classification des galaxies est une tâche qui a été difficile pour les ordinateurs, il était très facile pour les humains. Ainsi, alors qu'il était assis dans un pub à Oxford, Schawinski et son compatriote astronome Chris Lintott imaginé un site Web où les bénévoles se classer des images de galaxies. Quelques mois plus tard, Galaxy Zoo est né.
Sur le site Web du Zoo Galaxy, les volontaires suivraient quelques minutes de formation; par exemple, apprendre la différence entre une galaxie spirale et elliptique (figure 5.2). Après cette formation, chaque volontaire devait passer un quiz relativement facile - classant correctement 11 des 15 galaxies avec des classifications connues - et commencer une véritable classification des galaxies inconnues à travers une interface web simple (figure 5.3). La transition du bénévolat à l'astronome aurait lieu en moins de 10 minutes et ne nécessitait que passer le plus bas des obstacles, un simple quiz.
Le Galaxy Zoo a attiré ses premiers volontaires après que le projet a été présenté dans un article de presse, et dans environ six mois, le projet a impliqué plus de 100 000 scientifiques citoyens, qui ont participé parce qu'ils appréciaient la tâche et voulaient faire avancer l'astronomie. Ensemble, ces 100 000 bénévoles ont contribué au total à plus de 40 millions de classifications, la majorité des classifications provenant d'un groupe restreint de participants (Lintott et al. 2008) .
Les chercheurs qui ont de l'expérience dans l'embauche d'assistants de recherche de premier cycle pourraient être immédiatement sceptiques quant à la qualité des données. Bien que ce scepticisme soit raisonnable, Galaxy Zoo montre que lorsque les contributions volontaires sont correctement nettoyées, débalancées et agrégées, elles peuvent produire des résultats de haute qualité (Lintott et al. 2008) . Une astuce importante pour amener le public à créer des données de qualité professionnelle est la redondance , c'est-à-dire que la même tâche est exécutée par de nombreuses personnes différentes. Dans Galaxy Zoo, il y avait environ 40 classifications par galaxie; les chercheurs utilisant des assistants de recherche de premier cycle ne pourraient jamais se permettre ce niveau de redondance et devraient donc se préoccuper beaucoup plus de la qualité de chaque classification individuelle. Ce que manquaient les volontaires à l'entraînement, ils le compensaient par la redondance.
Cependant, même avec plusieurs classifications par galaxie, combiner l'ensemble des classifications de bénévoles pour produire une classification consensuelle était délicat. Parce que des défis très similaires se posent dans la plupart des projets de calcul humain, il est utile de passer brièvement en revue les trois étapes que les chercheurs du Zoo Galaxy ont utilisé pour produire leurs classifications consensuelles. Premièrement, les chercheurs ont «nettoyé» les données en supprimant les classifications erronées. Par exemple, les personnes qui ont classé à plusieurs reprises la même galaxie - ce qui arriverait si elles essayaient de manipuler les résultats - avaient toutes leurs classifications abandonnées. Ce nettoyage et d'autres similaires ont éliminé environ 4% de toutes les classifications.
Deuxièmement, après le nettoyage, les chercheurs devaient éliminer les biais systématiques dans les classifications. Grâce à une série d'études de détection de biais incorporées au projet original - par exemple, montrant certains volontaires de la galaxie en monochrome plutôt qu'en couleur - les chercheurs ont découvert plusieurs biais systématiques, comme un biais systématique pour classifier les galaxies spirales lointaines comme galaxies elliptiques (Bamford et al. 2009) . L'ajustement de ces biais systématiques est extrêmement important car la redondance ne supprime pas automatiquement les biais systématiques; cela aide seulement à éliminer les erreurs aléatoires.
Finalement, après le debiasing, les chercheurs ont eu besoin d'une méthode pour combiner les classifications individuelles afin de produire une classification consensuelle. La façon la plus simple de combiner les classifications pour chaque galaxie aurait été de choisir la classification la plus commune. Cependant, cette approche aurait donné un poids égal à chaque volontaire et les chercheurs ont soupçonné que certains volontaires étaient meilleurs au classement que d'autres. Par conséquent, les chercheurs ont développé une procédure de pondération itérative plus complexe qui tentait de détecter les meilleurs classificateurs et de leur donner plus de poids.
Ainsi, après un processus en trois étapes - nettoyage, analyse et pondération - l'équipe de recherche de Galaxy Zoo avait converti 40 millions de classifications de volontaires en un ensemble de classifications morphologiques consensuelles. Lorsque ces classifications Galaxy Zoo ont été comparés à trois précédentes tentatives à plus petite échelle par des astronomes professionnels, y compris la classification par Schawinski qui a contribué à inspirer Galaxy Zoo, il y avait un fort accord. Ainsi, les volontaires ont pu, globalement, fournir des classifications de haute qualité et à une échelle que les chercheurs ne pouvaient égaler (Lintott et al. 2008) . En fait, en ayant des classifications humaines pour un si grand nombre de galaxies, Schawinski, Lintott et d'autres ont pu montrer que seulement environ 80% des galaxies suivent le modèle attendu - spirales bleues et elliptiques rouges - et de nombreux articles ont été écrits sur cette découverte (Fortson et al. 2011) .
Compte tenu de ce contexte, vous pouvez maintenant voir comment Galaxy Zoo suit la recette split-apply-combine, la même recette qui est utilisée pour la plupart des projets de calcul humain. Tout d'abord, un gros problème est divisé en morceaux. Dans ce cas, le problème de la classification d'un million de galaxies a été divisé en un million de problèmes de classification d'une galaxie. Ensuite, une opération est appliquée à chaque segment indépendamment. Dans ce cas, les volontaires ont classé chaque galaxie comme spirale ou elliptique. Finalement, les résultats sont combinés pour produire un résultat consensuel. Dans ce cas, l'étape de combinaison incluait le nettoyage, le débâtissage et la pondération pour produire une classification consensuelle pour chaque galaxie. Même si la plupart des projets utilisent cette recette générale, chaque étape doit être adaptée au problème spécifique traité. Par exemple, dans le projet de calcul humain décrit ci-dessous, la même recette sera suivie, mais les étapes d'application et de combinaison seront très différentes.
Pour l'équipe Galaxy Zoo, ce premier projet n'était que le début. Très vite, ils ont réalisé que même s'ils pouvaient classer près d'un million de galaxies, cette échelle n'est pas suffisante pour travailler avec de nouvelles enquêtes sur le ciel numérique, qui peuvent produire des images d'environ 10 milliards de galaxies (Kuminski et al. 2014) . Pour faire face à une augmentation de 1 million à 10 milliards - un facteur de 10 000 - Galaxy Zoo devrait recruter environ 10 000 fois plus de participants. Même si le nombre de bénévoles sur Internet est important, il n'est pas infini. Par conséquent, les chercheurs ont réalisé que s'ils devaient traiter des quantités toujours croissantes de données, une nouvelle approche, encore plus évolutive, serait nécessaire.
Par conséquent, Manda Banerji - en collaboration avec Schawinski, Lintott et d'autres membres de l'équipe Galaxy Zoo (2010) commencé à enseigner aux ordinateurs à classer les galaxies. Plus spécifiquement, en utilisant les classifications humaines créées par Galaxy Zoo, Banerji a construit un modèle d'apprentissage automatique capable de prédire la classification humaine d'une galaxie en fonction des caractéristiques de l'image. Si ce modèle pouvait reproduire les classifications humaines avec une grande précision, il pourrait être utilisé par les chercheurs de Galaxy Zoo pour classer un nombre essentiellement infini de galaxies.
Le noyau de l'approche de Banerji et de ses collègues est en réalité assez similaire aux techniques couramment utilisées dans la recherche sociale, bien que cette similitude puisse ne pas être claire à première vue. Premièrement, Banerji et ses collègues ont converti chaque image en un ensemble de caractéristiques numériques qui résument ses propriétés. Par exemple, pour les images de galaxies, il peut y avoir trois caractéristiques: la quantité de bleu dans l'image, la variance de la luminosité des pixels et la proportion de pixels non blancs. La sélection des caractéristiques correctes est une partie importante du problème, et elle nécessite généralement une expertise de domaine. Cette première étape, communément appelée ingénierie de caractéristiques , aboutit à une matrice de données avec une ligne par image, puis trois colonnes décrivant cette image. Étant donné la matrice de données et le résultat souhaité (par exemple, si l'image a été classée comme une galaxie elliptique), le chercheur crée un modèle d'apprentissage statistique ou mécanique - par exemple, la régression logistique - qui prédit la classification humaine basée sur les caractéristiques. de l'image Enfin, le chercheur utilise les paramètres de ce modèle statistique pour produire des classifications estimées de nouvelles galaxies (figure 5.4). Dans l'apprentissage automatique, cette approche - utilisant des exemples étiquetés pour créer un modèle capable d'étiqueter de nouvelles données - est appelée apprentissage supervisé .
Les caractéristiques du modèle d'apprentissage automatique de Banerji et ses collègues étaient plus complexes que celles de mon exemple de jouet - par exemple, elle utilisait des caractéristiques comme «de Vaucouleurs fit axial ratio» - et son modèle n'était pas une régression logistique. En utilisant ses caractéristiques, son modèle et les classements par consensus de Galaxy Zoo, elle a pu créer des poids sur chaque caractéristique, puis utiliser ces poids pour faire des prédictions sur la classification des galaxies. Par exemple, son analyse a montré que les images ayant un faible rapport axial de Vaucouleurs étaient plus susceptibles d'être des galaxies spirales. Compte tenu de ces poids, elle était capable de prédire la classification humaine d'une galaxie avec une précision raisonnable.
Le travail de Banerji et de ses collègues a fait de Galaxy Zoo ce que j'appellerais un système de calcul humain assisté par ordinateur . La meilleure façon de penser à ces systèmes hybrides est que plutôt que d'avoir des humains à résoudre un problème, ils ont des humains construisent un ensemble de données qui peut être utilisé pour former un ordinateur pour résoudre le problème. Parfois, former un ordinateur pour résoudre le problème peut exiger beaucoup d'exemples, et la seule façon de produire un nombre suffisant d'exemples est une collaboration de masse. L'avantage de cette approche assistée par ordinateur est qu'elle vous permet de manipuler des quantités essentiellement infinies de données en utilisant seulement une quantité finie d'effort humain. Par exemple, un chercheur avec un million de galaxies classifiées humaines peut construire un modèle prédictif qui peut ensuite être utilisé pour classer un milliard ou même un billion de galaxies. S'il y a énormément de galaxies, alors ce type d'hybride humain-ordinateur est vraiment la seule solution possible. Cependant, cette évolutivité infinie n'est pas gratuite. Construire un modèle d'apprentissage automatique capable de reproduire correctement les classifications humaines est en soi un problème difficile, mais heureusement il existe déjà d'excellents livres consacrés à ce sujet (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo est une bonne illustration du nombre de projets de calcul humain qui évoluent. D'abord, un chercheur tente le projet seul ou avec une petite équipe d'assistants de recherche (par exemple, l'effort de classification initial de Schawinski). Si cette approche n'évolue pas bien, le chercheur peut passer à un projet de calcul humain avec de nombreux participants. Mais, pour un certain volume de données, l'effort humain pur ne suffira pas. À ce stade, les chercheurs ont besoin de construire un système de calcul humain assisté par ordinateur dans lequel des classifications humaines sont utilisées pour former un modèle d'apprentissage automatique qui peut ensuite être appliqué à des quantités pratiquement illimitées de données.