Galaxy Zoo combina os esforzos de moitos voluntarios non-especialistas para clasificar un millón de galaxias.
Galaxy Zoo creceu a partir dun problema enfrontado por Kevin Schawinski, un estudante graduado en astronomía na Universidade de Oxford en 2007. Simplificando un pouco, Schawinski estaba interesado en galaxias e as galaxias poden clasificarse pola súa morfoloxía-elíptica ou en espiral e pola súa cor azul ou vermello. Na época, a sabedoría convencional entre os astrónomos era que galaxias espirais, como a nosa Vía Láctea, eran de cor azul (novas indicando) e que as galaxias elípticas eran de cor vermella (indicando a vellez). Schawinski dubidaba esta sabedoría convencional. El sospeita que mentres este estándar pode ser verdade en xeral, probablemente había un número considerable de excepcións, e que, ao estudar moitas desas galaxias os pouco comúns aos que non se encaixan esperado estándar de que podería aprender algo sobre o proceso a través do cal galaxias se formaron.
Así, o que Schawinski necesaria para derrubar a sabedoría convencional era un gran conxunto de galaxias morfoloxicamente clasificados; isto é, galaxias que foran clasificados como quere espiral ou elíptica. O problema, con todo, foi que os métodos algorítmicos existentes para a clasificación non eran bos o suficiente para ser usado para a investigación científica; noutras palabras, galaxias clasificando era, naquel tempo, un problema que foi difícil para ordenadores. Polo tanto, o que era necesario era un gran número de galaxias clasificados humanos. Schawinski emprendeu este problema de clasificación co entusiasmo dun estudante de graduación. Nunha sesión maratón de sete, 12 horas ao día, foi capaz de clasificar 50.000 galaxias. Mentres 50.000 galaxias pode soar como moito, é realmente só preto de 5% dos case un millón de galaxias que foran fotografados en Sloan Digital Sky Survey. Schawinski entender que precisaba unha visión máis scalable.
Afortunadamente, verifícase que a tarefa de galaxias que clasifican non require adestramento avanzado en astronomía; pode ensinar a alguén a facelo moi rápido. Noutras palabras, a pesar de clasificar as galaxias é unha tarefa que era difícil para ordenadores, era moi fácil para os seres humanos. Así, mentres está sentado nun pub en Oxford, Schawinski e compañeiro astrónomo Chris Lintott soñou crear un sitio web onde os voluntarios clasificar imaxes de galaxias. Algúns meses máis tarde, o Galaxy Zoo naceu.
Na páxina web do Galaxy Zoo, voluntarios sufriría varios minutos de adestramento; por exemplo, aprender a diferenza entre unha espiral e galaxia elíptica (Figura 5.2). Tras este adestramento, os voluntarios tiveron que pasar por unha proba relativamente fácil correctamente clasificando 11 de 15 galaxias con coñecidos clasificacións e, a continuación, o voluntario comezaría a clasificación real das galaxias descoñecidas a través dunha interface baseada na web sinxela (Figura 5.3). A transición do voluntario para o astrónomo tería lugar en menos de 10 minutos e só necesario pasar o menor dos obstáculos, unha proba sinxela.
Galaxy Zoo atraeu seus voluntarios iniciais despois de que o proxecto foi destaque en un artigo de noticias, e en preto de seis meses, o proxecto pasou a involucrar máis de 100.000 científicos cidadáns, persoas que participaron porque lle gustaba a tarefa e que quería axudar a astronomía antelación. Xuntos, estes 100.000 voluntarios contribuíu cun total de máis de 40 millóns de clasificacións, coa maioría das clasificacións procedentes dun grupo relativamente pequeno, o núcleo de participantes (Lintott et al. 2008) .
Investigadores que teñen experiencia contratación de asistentes de investigación de graduación pode ser inmediatamente escéptico sobre a calidade dos datos. Mentres ese escepticismo é razoable, Galaxy Zoo mostra que cando as achegas voluntarias son limpos correctamente, debiased, e agregados, poden producir resultados de alta calidade (Lintott et al. 2008) . Un truco importante para obter a multitude para crear datos de calidade profesional é a redundancia; isto é, tendo a mesma tarefa realizada por moitas persoas diferentes. En Galaxy Zoo, había cerca de 40 clasificacións por galaxia; investigadores mediante asistentes de investigación de post non podería pagar ese nivel de redundancia e, polo tanto, ten que ser moito máis preocupados pola calidade de cada clasificación individual. O que os voluntarios faltaba en formación, fixeron cara redundancia.
Mesmo con múltiples clasificacións por galaxia, con todo, combinando o conxunto de clasificacións de voluntarios para producir unha clasificación de consenso é complicado. Porque retos moi semellantes xorden na maioría dos proxectos de computación humanos, é útil revisar brevemente os tres pasos que os investigadores Galaxy Zoo utilizados para producir as súas clasificacións de consenso. En primeiro lugar, os investigadores "limpa" os datos, eliminando clasificacións falsos. Por exemplo, as persoas que repetidamente clasificados mesma galaxia, algo que acontecería se eles estaban tentando manipular os resultados, tiña todas as súas clasificacións descartado. Este e outros produtos de limpeza similares eliminado preto de 4% de todas as clasificacións.
En segundo lugar, despois da limpeza, os investigadores precisaron eliminar desvíos sistemáticos nas clasificacións. A través dunha serie de estudos de detección de viés embutidos no exemplo orixinal do proxecto para, mostrando algúns voluntarios da galaxia en monocromo en vez de cor-os investigadores descubriron varios desvíos sistemáticos, como unha tendencia sistemática para clasificar as galaxias lonxe espiral como galaxias elípticas (Bamford et al. 2009) . Excluíndo estes desvíos sistemáticos é moi importante porque media de moitas contribucións non elimina viés sistemático; el só elimina erro aleatorio.
Finalmente, tras debiasing, os investigadores necesario un método para combinar as clasificacións individuais para producir unha clasificación do consenso. O xeito máis sinxelo de combinar as clasificacións para cada galaxia sería escoller a clasificación máis común. Con todo, esta visión dá cada voluntario peso igual, e os investigadores sospeitaban que algúns voluntarios eran mellores en clasificación que outros. Polo tanto, os investigadores desenvolveron un procedemento de ponderación iterativo máis complexo que intenta detectar automaticamente os mellores clasificadores e darlles máis peso.
Así, tras un período de tres paso proceso de limpeza, debiasing, e pesando-o equipo de investigación Galaxy Zoo convertera 40 millóns de clasificacións de voluntarios nun conxunto de clasificacións morfolóxicas de consenso. Cando estas clasificacións Galaxy Zoo foron comparados con tres intentos de menor escala anteriores por astrónomos profesionais, incluíndo a clasificación por Schawinski que axudou a inspirar Galaxy Zoo, houbo forte concordancia. Así, os voluntarios, en total, foron capaces de proporcionar as clasificacións de alta calidade e nunha escala que os investigadores non conseguiu igualar (Lintott et al. 2008) . En realidade, por clasificacións humanos a un número tan grande de galaxias, Schawinski, Lintott, e outros foron capaces de demostrar que só preto de 80% das galaxias siga as espirais esperadas estándar azul e elípticas-e vermellos numerosos artigos foron escritos sobre este descubrimento (Fortson et al. 2011) .
Ante este escenario, vemos agora como Galaxy Zoo segue o split-aplica-se combinan receita, a mesma receita que se usa para a maioría dos proxectos de computación humana. En primeiro lugar, un gran problema divídese en anacos. Neste caso, o problema de clasificar un millón de galaxias divídese en un millón de problemas de clasificación dunha galaxia. Logo dunha operación aplícase a cada bloque con independencia. Neste caso, un voluntario ía clasificar cada galaxia como calquera espiral ou elíptica. Finalmente, os resultados son combinados para producir un resultado de consenso. Neste caso, o paso de combinar a limpeza incluído, debiasing, e de ponderación para producir unha clasificación de consenso para cada Galaxy. Aínda que a maioría dos proxectos usar esta receita xeral, cada un dos pasos ten personalizado para o problema específico a ser abordado. Por exemplo, no proxecto de computación humana descritos a continuación, a mesma receita será seguido, pero os pasos aplicables e combinan será moi diferente.
Para o equipo Galaxy Zoo, este primeiro proxecto era só o comezo. Moi rapidamente eles entenderon que aínda que eles foron capaces de clasificar preto dun millón de galaxias, esta escala non é suficiente para traballar con máis recentes investigacións de ceo dixital, que pode producir imaxes de preto de 10 millóns de galaxias (Kuminski et al. 2014) . Para xestionar un aumento 1.000.000-10000000000-un factor de 10.000 Galaxy Zoo sería necesario contratar uns 10.000 veces máis participantes. Aínda que o número de voluntarios en Internet é grande, non é infinita. Polo tanto, os investigadores viron que se están indo a tratar con cantidades cada vez maiores de datos, foi necesario un novo aínda máis scalable, visión ,.
Polo tanto, Manda Banerji-traballar con Kevin Schawinski, Chris Lintott, e outros membros dos equipos de ensino-partido do equipo Galaxy Zoo para clasificar as galaxias. En concreto, utilizando as clasificacións humanos creados por Galaxy Zoo, Banerji et al. (2010) construíu un modelo de aprendizaxe máquina que podería prever a clasificación humana dunha galaxia en base ás características da imaxe. Se este modelo de aprendizaxe de máquina podería reproducir as clasificacións humanos con alta precisión, el podería ser usado por investigadores Galaxy Zoo para clasificar un número esencialmente infinito de galaxias.
O núcleo do Banerji e compañeiros "visión é realmente moi semellantes ás técnicas comunmente empregadas na investigación social, aínda que esa semellanza pode non ser claro a primeira vista. En primeiro lugar, Banerji e compañeiros convertido cada imaxe nun conxunto de características numéricos que resumen as súas propiedades. Por exemplo, para imaxes de galaxias podería haber tres características: a cantidade de azul na imaxe, a variación no brillo dos píxeles, ea proporción de píxeles non-brancos. A selección das características de corrección é unha parte importante do problema, e que, xeralmente, require destreza-área suxeita. Esta primeira etapa, comunmente chamado de enxeñaría recurso, resulta nunha matriz de datos cunha liña por imaxe e, a continuación, de tres columnas que describen esta imaxe. Dada a matriz de datos e saída desexada (por exemplo, se a imaxe foi clasificada por un ser humano como un Galaxy elíptica), o investigador estima os parámetros dun exemplo de modelo-para estatística, algo así como unha regresión que loxística prevé a clasificación humana baseada nas características da imaxe. Finalmente, o investigador utiliza os parámetros neste modelo estatístico para producir clasificacións estimado de novas galaxias (Figura 5.4). Para pensar de un análogo sociais, imaxina que tiña informacións demográficas sobre un millón de estudantes, e vostede sabe se formou na facultade ou non. Pódese colocar unha regresión loxística con estes datos, e entón pode usar os parámetros do modelo resultante para prever os novos estudantes están indo para formar na facultade. En aprendizaxe de máquina, esta visión-empregando exemplos rotulado para crear un modelo estatístico que pode entón marcar nova data chámase aprendizaxe supervisado (Hastie, Tibshirani, and Friedman 2009) .
Os recursos Banerji et al. (2010) modelo de aprendizaxe de máquina eran máis complexos que os no meu xoguete exemplo, por exemplo, ela usou recursos como "de Vaucouleurs caber razón axial" -e seu modelo non foi regresión loxística, foi unha rede neuronal artificial. Usando os seus recursos, o seu modelo, eo consenso clasificacións Galaxy Zoo, foi capaz de crear pesos en cada función e, a continuación, usar estes pesos para facer previsións sobre a clasificación de galaxias. Por exemplo, a súa análise descubriu que as imaxes con baixa "de Vaucouleurs caber razón axial" eran máis propensos a ser galaxias espirais. Tendo en conta estes pesos, foi capaz de prever a clasificación humana dunha galaxia cunha precisión razoable.
O traballo de Banerji et al. (2010) virou Galaxy Zoo para o que eu chamaría de un sistema de computación humana de segunda xeración. A mellor forma de pensar sobre estes sistemas de segunda xeración é que en vez de ter os seres humanos resolver un problema, eles teñen os seres humanos construír un conxunto de datos que poden ser usados para adestrar un equipo para resolver o problema. A cantidade de datos necesarios para adestrar o ordenador pode ser tan grande que esixe unha colaboración en masa humana para crear. No caso de Galaxy Zoo, as redes neuronais utilizadas por Banerji et al. (2010) requirido un número moi grande de exemplos marcados con humanos, a fin de construír un modelo que foi capaz de reproducir con fiabilidade da clasificación humana.
A vantaxe desta visión asistida por ordenador é que permite que para xestionar cantidades esencialmente infinitas de datos utilizando só unha cantidade finita de esforzo humano. Por exemplo, un investigador con un millón de galaxias clasificados humanos pode construír un modelo preditivo que pode entón ser usada para clasificar mil millóns ou un billón de galaxias. Se hai un número enorme de galaxias, entón este tipo de híbridos humano-ordenador é realmente a única solución posible. Esta escalabilidade infinita non é libre, con todo. Construíndo un modelo de aprendizaxe máquina que pode reproducir correctamente as clasificacións humanos é en si un problema difícil, pero por sorte xa existen excelentes libros dedicados a este tema (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo mostra a evolución de moitos proxectos de computación humana. En primeiro lugar, un investigador trata o proxecto soa ou cun pequeno equipo de asistentes de investigación (por exemplo, o esforzo clasificación inicial do Schawinski). Se esta visión non escala ben, o investigador pode moverse para un proxecto de computación humana, onde moitas persoas contribúen clasificacións. Pero, para un correcto volume de datos, o esforzo humano puro non será suficiente. Nese punto, os investigadores teñen construír sistemas de segunda xeración, onde as clasificacións humanos son usados para adestrar un modelo de aprendizaxe de máquina que pode ser aplicado sobre os valores practicamente ilimitado de datos.