Galaxy Zoo combinou os esforzos de moitos voluntarios non expertos para clasificar un millón de galaxias.
O Galaxy Zoo creouse a partir dun problema que enfronta Kevin Schawinski, estudante de posgrao en Astronomía da Universidade de Oxford en 2007. Simplificando un pouco, Schawinski interesouse polas galaxias e as galaxias poden clasificarse pola súa morfoloxía-elíptica ou espiral- e pola súa cor azul ou vermella. Na época, a sabedoría convencional entre os astrónomos era que as galaxias espirales, como a nosa Vía Láctea, eran de cor azul (indicando mocidade) e as galaxias elípticas eran vermellas (indicando a vellez). Schawinski dubidou desta sabedoría convencional. Sospeitaba que, aínda que este patrón fose certo en xeral, probablemente houbese unha cantidade considerable de excepcións e que, ao estudar moitas destas galaxias inusuales -as que non se axustaron ao patrón esperado- podería aprender algo sobre o proceso a través do cal formáronse galaxias.
Así, o que Schawinski necesitou para derrocar a sabedoría convencional era un gran conxunto de galaxias morfológicamente clasificadas; é dicir, as galaxias que se clasificaron como espiral ou elípticas. Non obstante, o problema era que os métodos algorítmicos existentes para a clasificación aínda non eran suficientes para ser utilizados na investigación científica; noutras palabras, clasificar as galaxias era, por entón, un problema difícil para as computadoras. Polo tanto, o que se necesitou era unha gran cantidade de galaxias clasificadas por humanos . Schawinski emprendeu este problema de clasificación co entusiasmo dun estudante de posgrao. Nunha sesión de maratón de sete días de 12 horas, puido clasificar 50.000 galaxias. Aínda que 50.000 galaxias poden parecer moito, en realidade son só un 5% do case un millón de galaxias que se fotografaron no Sloan Digital Sky Survey. Schawinski deuse conta de que necesitaba un enfoque máis escalable.
Afortunadamente, verifícase que a tarefa de galaxias que clasifican non require adestramento avanzado en astronomía; pode ensinar a alguén a facelo moi rápido. Noutras palabras, a pesar de clasificar as galaxias é unha tarefa que era difícil para ordenadores, era moi fácil para os seres humanos. Así, mentres está sentado nun pub en Oxford, Schawinski e compañeiro astrónomo Chris Lintott soñou crear un sitio web onde os voluntarios clasificar imaxes de galaxias. Algúns meses máis tarde, o Galaxy Zoo naceu.
No sitio web do Galaxy Zoo, os voluntarios pasarían uns minutos de adestramento; por exemplo, aprendendo a diferenza entre unha espiral e unha galaxia elíptica (figura 5.2). Despois deste adestramento, cada voluntario tivo que pasar un cuestionario relativamente sinxelo, clasificando correctamente 11 de 15 galaxias con clasificacións coñecidas e comezaría a clasificación real de galaxias descoñecidas a través dunha interface web simple (figura 5.3). A transición de voluntario a astrónomo tería lugar en menos de 10 minutos e só se requiría pasar o máis baixo de obstáculos, un simple cuestionario.
Galaxy Zoo atraeu aos seus voluntarios iniciais despois de que o proxecto aparecese nun artigo e, en aproximadamente seis meses, o proxecto chegou a involucrar máis de 100.000 científicos cidadáns, persoas que participaron porque gozaban da tarefa e querían axudar a avanzar na astronomía. Xuntos, estes 100.000 voluntarios aportaron un total de máis de 40 millóns de clasificacións, coa maioría das clasificacións procedentes dun grupo de participantes relativamente pequeno (Lintott et al. 2008) .
Os investigadores que teñen experiencia na contratación de asistentes de investigación universitarios poden ser inmediatamente escépticos sobre a calidade dos datos. Aínda que este escepticismo é razoable, Galaxy Zoo mostra que cando as contribucións voluntarias están correctamente limpas, desbloqueadas e agregadas, poden producir resultados de alta calidade (Lintott et al. 2008) . Un truco importante para que a multitude poida crear datos de calidade profesional é redundancia , é dicir, tendo a mesma tarefa realizada por moitas persoas diferentes. No Galaxy Zoo, había preto de 40 clasificacións por galaxia; Os investigadores que utilizan axudantes de investigación universitarios nunca poderían pagar este nivel de redundancia e, polo tanto, terían que estar moito máis preocupados coa calidade de cada clasificación individual. O que os voluntarios carecían de adestramento compensáronse coa redundancia.
Incluso con clasificacións múltiples por galaxia, con todo, combinar o conxunto de clasificacións voluntarias para producir unha clasificación de consenso foi complicado. Debido a que xorden problemas moi parecidos na maioría dos proxectos de cálculo humano, é útil revisar brevemente os tres pasos que utilizaron os investigadores do Zoo do Galaxy para producir as súas clasificacións de consenso. En primeiro lugar, os investigadores "limparon" os datos eliminando clasificacións falsas. Por exemplo, as persoas que clasificaron repetidamente a mesma galaxia -aínda que se trataba de manipular os resultados- desapareceron todas as súas clasificacións. Esta e outra limpeza similar eliminou aproximadamente o 4% de todas as clasificacións.
En segundo lugar, despois da limpeza, os investigadores necesitaron eliminar os prexuízos sistemáticos nas clasificacións. A través dunha serie de estudos de detección de polarización integrados no proxecto orixinal -por exemplo, mostrando algúns voluntarios a galaxia en monocromo en lugar de cores- os investigadores descubriron varios prexuízos sistemáticos, como un sesgo sistemático para clasificar galaxias espirales distantes como galaxias elípticas (Bamford et al. 2009) . O axuste para estes prexuízos sistemáticos é moi importante porque a redundancia non elimina automaticamente o sesgo sistemático; só axuda a eliminar o erro aleatorio.
Finalmente, despois do debiasing, os investigadores necesitaron un método para combinar as clasificacións individuais para producir unha clasificación de consenso. O xeito máis sinxelo de combinar as clasificacións para cada galaxia sería escoller a clasificación máis común. Con todo, este enfoque tería dado a cada voluntario o mesmo peso, e os investigadores sospeitaban que algúns voluntarios estaban mellor na clasificación que outros. Por iso, os investigadores desenvolveron un procedemento iterativo de ponderación máis complexo que intentaba detectar os mellores clasificadores e darlles máis peso.
Deste xeito, tras un proceso de limpeza, depilación e ponderación de tres pasos, o equipo de investigación do Galaxy Zoo converteu 40 millóns de clasificacións voluntarias nun conxunto de clasificacións morfolóxicas de consenso. Cando estas clasificacións do Galaxy Zoo foron comparadas con tres intentos temporais anteriores de astrónomos profesionais, incluíndo a clasificación de Schawinski que axudou a inspirar o Galaxy Zoo, houbo un forte acordo. Deste xeito, os voluntarios, en conxunto, puideron proporcionar clasificacións de alta calidade ea unha escala que os investigadores non puideron coincidir (Lintott et al. 2008) . De feito, tendo clasificacións humanas para unha gran cantidade de galaxias, Schawinski, Lintott e outros demostraron que só un 80% das galaxias seguen as espirales de patrón azul e elípticas vermellas e escribíronse numerosos traballos sobre Este descubrimento (Fortson et al. 2011) .
Dado este antecedente, agora podes ver como Galaxy Zoo segue a receita de combinación dividida, a mesma receita que se usa para a maioría dos proxectos de cálculo humano. En primeiro lugar, un gran problema está dividido en anacos. Neste caso, o problema de clasificar un millón de galaxias dividíase nun millón de problemas de clasificación dunha galaxia. A continuación, aplícase unha operación a cada peza de forma independente. Neste caso, os voluntarios clasificaron cada galaxia como espiral ou elíptica. Finalmente, os resultados se combinan para producir un resultado de consenso. Neste caso, o paso combinar incluíu a limpeza, o debiasing e a ponderación para producir unha clasificación de consenso para cada galaxia. Aínda que a maioría dos proxectos utilizan esta receita xeral, cada paso debe ser personalizado para o problema específico a seren abordados. Por exemplo, no proxecto de cálculo humano descrito a continuación, seguirase a mesma receita, pero os pasos de aplicar e combinar serán moi diferentes.
Para o equipo do Galaxy Zoo, este primeiro proxecto foi só o comezo. Moi rápidamente decatáronse de que, aínda que puideron clasificar preto dun millón de galaxias, esta escala non era suficiente para traballar con novas enquisas de ceo dixital, que poden producir imaxes de preto de 10 millóns de galaxias (Kuminski et al. 2014) . Para manexar un aumento de 1 a 10 millóns de euros, un factor de 10,000-Galaxy Zoo tería que reclutar aproximadamente 10,000 veces máis participantes. Aínda que o número de voluntarios en Internet é grande, non é infinito. Polo tanto, os investigadores entenderon que se tratasen cantidades cada vez maiores de datos, era necesario un enfoque novo e aínda máis escalable.
Polo tanto, Manda Banerji, que traballou con Schawinski, Lintott e outros membros do equipo do Galaxy Zoo (2010) comezou a ensinar computadoras para clasificar as galaxias. Máis específicamente, usando as clasificacións humanas creadas polo Galaxy Zoo, Banerji construíu un modelo de aprendizaxe automático que podería predecir a clasificación humana dunha galaxia en función das características da imaxe. Se este modelo podería reproducir as clasificacións humanas con gran precisión, entón podería ser usado polos investigadores do Galaxy Zoo para clasificar un número esencialmente infinito de galaxias.
O núcleo da aproximación de Banerji e compañeiros é en realidade bastante semellante ás técnicas utilizadas na investigación social, aínda que esta semellanza quizais non estea clara a primeira vista. En primeiro lugar, Banerji e colegas converteron cada imaxe nun conxunto de características numéricas que resumían as súas propiedades. Por exemplo, para imaxes de galaxias, pode haber tres características: a cantidade de azul da imaxe, a varianza no brillo dos píxeles ea proporción de píxeles non brancos. A selección das funcións correctas é unha parte importante do problema e, polo xeral, require coñecementos sobre a área temática. Este primeiro paso, comúnmente chamado enxeñaría de recursos , dá como resultado unha matriz de datos cunha liña por imaxe e tres columnas que describen esa imaxe. Dada a matriz de datos ea saída desexada (por exemplo, se a imaxe foi clasificada por un humano como unha galaxia elíptica), o investigador crea un modelo de aprendizaxe estatística ou de máquina, por exemplo, a regresión logística que predice a clasificación humana en función das características da imaxe. Finalmente, o investigador utiliza os parámetros deste modelo estatístico para producir clasificacións estimadas de novas galaxias (figura 5.4). Na aprendizaxe automática, esta aproximación, usando exemplos marcados para crear un modelo que pode etiquetar novos datos, chámase aprendizaxe supervisada .
As características do modelo de aprendizaxe automático de Banerji e os seus compañeiros eran máis complexas que as do meu exemplo de xoguete; por exemplo, utilizou funcións como "Vaucouleurs fit axial ratio" e o seu modelo non era regresión logística, era unha rede neuronal artificial. Usando as súas características, o seu modelo e as consensas clasificacións do Galaxy Zoo, puido crear pesos en cada recurso e logo usar estes pesos para facer predicións sobre a clasificación das galaxias. Por exemplo, a súa análise atopou que as imaxes con baixo "Vaucouleurs fit axial ratio" eran máis propensas a ser galaxias en espiral. Dados estes pesos, puido predecir a clasificación humana dunha galaxia con precisión razoable.
O traballo de Banerji e compañeiros converteu a Galaxy Zoo no que eu chamaría un sistema de computación humano asistido por computadora . A mellor forma de pensar nestes sistemas híbridos é que, no canto de ter un problema humano, os humanos teñen un conxunto de datos que pode ser usado para adestrar unha computadora para resolver o problema. Ás veces, a formación dunha computadora para resolver o problema pode esixir moitos exemplos, ea única forma de producir un número suficiente de exemplos é unha colaboración masiva. A vantaxe deste enfoque asistido por computadora é que permite manexar cantidades esencialmente infinitas de datos usando só unha cantidade finita de esforzo humano. Por exemplo, un investigador con un millón de galaxias humanas clasificadas pode construír un modelo predictivo que se poida usar para clasificar mil millóns ou incluso un billón de galaxias. Se hai un número enorme de galaxias, este tipo de híbrido humano-computador é realmente a única solución posible. Non obstante, esta escalabilidade infinita non é libre. Construír un modelo de aprendizaxe automático que poida reproducir correctamente as clasificacións humanas é un problema difícil, pero afortunadamente xa hai excelentes libros dedicados a este tema (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo é unha boa ilustración de cantos proxectos de cálculo humano evolucionan. En primeiro lugar, un investigador intenta o proxecto por si mesmo ou cun pequeno equipo de asistentes de investigación (por exemplo, o esforzo de clasificación inicial de Schawinski). Se este enfoque non escalee ben, o investigador pode pasar a un proxecto de computación humano con moitos participantes. Pero, para un determinado volume de datos, o esforzo humano puro non será suficiente. Nese punto, os investigadores precisan construír un sistema de computación humana asistido por computadora no que se usan clasificacións humanas para adestrar un modelo de aprendizaxe automático que poida aplicarse a cantidades de datos prácticamente ilimitadas.