Galaxy Zoo combina os esforços de muitos voluntários não-especialistas para classificar um milhão de galáxias.
Galaxy Zoo cresceu a partir de um problema enfrentado por Kevin Schawinski, um estudante graduado em astronomia na Universidade de Oxford em 2007. Simplificando um pouco, Schawinski estava interessado em galáxias e as galáxias podem ser classificados pela sua morfologia-elíptica ou em espiral e pela sua cor-azul ou vermelho. Na época, a sabedoria convencional entre os astrônomos era que galáxias espirais, como a nossa Via Láctea, eram de cor azul (jovens indicando) e que as galáxias elípticas eram de cor vermelha (indicando a velhice). Schawinski duvidava esta sabedoria convencional. Ele suspeita que, enquanto esse padrão pode ser verdade em geral, provavelmente havia um número considerável de excepções, e que, ao estudar muitas dessas galáxias-os incomuns aqueles que não se encaixam o esperado padrão de que poderia aprender algo sobre o processo através do qual galáxias se formaram.
Assim, o que Schawinski necessária para derrubar a sabedoria convencional era um grande conjunto de galáxias morfologicamente classificados; isto é, galáxias que tinham sido classificados como quer espiral ou elíptica. O problema, no entanto, foi que os métodos algorítmicos existentes para a classificação ainda não eram bons o suficiente para ser usado para a investigação científica; em outras palavras, galáxias classificando era, naquele tempo, um problema que foi difícil para computadores. Portanto, o que era necessário era um grande número de galáxias classificados humanos. Schawinski empreendeu este problema de classificação com o entusiasmo de um estudante de graduação. Em uma sessão maratona de sete, 12 horas por dia, ele foi capaz de classificar 50.000 galáxias. Enquanto 50.000 galáxias pode soar como muito, é realmente apenas cerca de 5% dos quase um milhão de galáxias que tinham sido fotografados na Sloan Digital Sky Survey. Schawinski percebeu que precisava de uma abordagem mais escalável.
Felizmente, verifica-se que a tarefa de galáxias que classificam não requer treinamento avançado em astronomia; você pode ensinar alguém a fazê-lo muito rapidamente. Em outras palavras, apesar de classificar galáxias é uma tarefa que era difícil para computadores, era muito fácil para os seres humanos. Assim, enquanto está sentado em um pub em Oxford, Schawinski e colega astrônomo Chris Lintott sonhou criar um site onde os voluntários se classificar imagens de galáxias. Alguns meses mais tarde, o Galaxy Zoo nasceu.
No site do Galaxy Zoo, voluntários sofreria alguns minutos de treinamento; por exemplo, aprender a diferença entre uma espiral e galáxia elíptica (Figura 5.2). Após este treinamento, os voluntários tiveram que passar por um teste relativamente fácil-corretamente classificando 11 de 15 galáxias com conhecidos classificações e, em seguida, o voluntário começaria a classificação real das galáxias desconhecidas através de uma interface baseada na web simples (Figura 5.3). A transição do voluntário para o astrônomo teria lugar em menos de 10 minutos e apenas necessário passar o menor dos obstáculos, um teste simples.
Galaxy Zoo atraiu seus voluntários iniciais depois que o projeto foi destaque em um artigo de notícias, e em cerca de seis meses, o projeto cresceu para envolver mais de 100.000 cientistas cidadãos, pessoas que participaram porque eles gostaram da tarefa e que queria ajudar a astronomia antecedência. Juntos, estes 100.000 voluntários contribuiu com um total de mais de 40 milhões de classificações, com a maioria das classificações provenientes de um grupo relativamente pequeno, o núcleo de participantes (Lintott et al. 2008) .
Os investigadores que têm experiência contratação de assistentes de pesquisa de graduação pode ser imediatamente cético sobre a qualidade dos dados. Enquanto esse ceticismo é razoável, Galaxy Zoo mostra que quando as contribuições voluntárias são limpos corretamente, debiased, e agregados, eles podem produzir resultados de alta qualidade (Lintott et al. 2008) . Um truque importante para obter a multidão para criar dados de qualidade profissional é a redundância; isto é, tendo a mesma tarefa realizada por muitas pessoas diferentes. Em Galaxy Zoo, havia cerca de 40 classificações por galáxia; pesquisadores usando assistentes de pesquisa de graduação nunca poderia pagar esse nível de redundância e, portanto, precisa ser muito mais preocupados com a qualidade de cada classificação individual. O que os voluntários faltava em treinamento, eles fizeram para com redundância.
Mesmo com múltiplas classificações por galáxia, no entanto, combinando o conjunto de classificações de voluntários para produzir uma classificação de consenso é complicado. Porque desafios muito semelhantes surgem na maioria dos projetos de computação humanos, é útil rever brevemente os três passos que os pesquisadores Galaxy Zoo utilizados para produzir suas classificações de consenso. Primeiro, os pesquisadores "limpa" os dados, removendo classificações falsos. Por exemplo, as pessoas que repetidamente classificados mesma galáxia, algo que aconteceria se eles estavam tentando manipular os resultados, tinha todas as suas classificações descartado. Este e outros produtos de limpeza semelhantes removido cerca de 4% de todas as classificações.
Em segundo lugar, após a limpeza, os pesquisadores precisaram remover desvios sistemáticos nas classificações. Através de uma série de estudos de detecção de viés embutidos no exemplo original do projeto-para, mostrando alguns voluntários da galáxia em monocromático em vez de cor-os pesquisadores descobriram vários desvios sistemáticos, tais como uma tendência sistemática para classificar galáxias longe espiral como galáxias elípticas (Bamford et al. 2009) . Excluindo estes desvios sistemáticos é extremamente importante porque média de muitas contribuições não remove viés sistemático; ele apenas remove erro aleatório.
Finalmente, após debiasing, os investigadores necessário um método para combinar as classificações individuais para produzir uma classificação do consenso. A maneira mais simples de combinar as classificações para cada galáxia seria escolher a classificação mais comum. No entanto, esta abordagem dá cada voluntário peso igual, e os pesquisadores suspeitavam que alguns voluntários eram melhores em classificação do que outros. Portanto, os pesquisadores desenvolveram um procedimento de ponderação iterativo mais complexo que tenta detectar automaticamente os melhores classificadores e dar-lhes mais peso.
Assim, após um período de três passo processo de limpeza, debiasing, e pesando-a equipe de pesquisa Galaxy Zoo tinha convertido 40 milhões de classificações de voluntários em um conjunto de classificações morfológicas de consenso. Quando estas classificações Galaxy Zoo foram comparados com três tentativas de menor escala anteriores por astrônomos profissionais, incluindo a classificação por Schawinski que ajudou a inspirar Galaxy Zoo, houve forte concordância. Assim, os voluntários, no total, foram capazes de fornecer as classificações de alta qualidade e em uma escala que os pesquisadores não conseguiu igualar (Lintott et al. 2008) . Na verdade, por ter classificações humanos para um número tão grande de galáxias, Schawinski, Lintott, e outros foram capazes de mostrar que apenas cerca de 80% das galáxias siga as espirais esperados padrão azul-e elípticas-e vermelhos numerosos artigos foram escritos sobre esta descoberta (Fortson et al. 2011) .
Perante este cenário, podemos ver agora como Galaxy Zoo segue o split-aplicam-se combinam receita, a mesma receita que é usado para a maioria dos projetos de computação humana. Em primeiro lugar, um grande problema é dividido em pedaços. Neste caso, o problema de classificar um milhão de galáxias é dividido em um milhão de problemas de classificação de uma galáxia. Em seguida, uma operação é aplicada a cada bloco independentemente. Neste caso, um voluntário iria classificar cada galáxia como qualquer espiral ou elíptica. Finalmente, os resultados são combinados para produzir um resultado de consenso. Neste caso, o passo de combinar a limpeza incluído, debiasing, e de ponderação para produzir uma classificação de consenso para cada Galaxy. Mesmo que a maioria dos projetos usar esta receita geral, cada um dos passos precisa personalizado para o problema específico a ser abordado. Por exemplo, no projecto de computação humana descritos a seguir, a mesma receita será seguido, mas os passos aplicáveis e combinam irá ser bastante diferente.
Para a equipe Galaxy Zoo, este primeiro projeto era apenas o começo. Muito rapidamente eles perceberam que mesmo que eles foram capazes de classificar perto de um milhão de galáxias, esta escala não é suficiente para trabalhar com mais recentes pesquisas de céu digital, que pode produzir imagens de cerca de 10 bilhões de galáxias (Kuminski et al. 2014) . Para lidar com um aumento 1.000.000-10000000000-um fator de 10.000 Galaxy Zoo seria necessário recrutar cerca de 10.000 vezes mais participantes. Embora o número de voluntários na Internet é grande, não é infinita. Portanto, os pesquisadores perceberam que se eles estão indo para lidar com quantidades cada vez maiores de dados, foi necessário um novo ainda mais escalável, abordagem,.
Portanto, Manda Banerji-trabalhando com Kevin Schawinski, Chris Lintott, e outros membros dos computadores de ensino-partida da equipe Galaxy Zoo para classificar galáxias. Mais especificamente, utilizando as classificações humanos criados por Galaxy Zoo, Banerji et al. (2010) construiu um modelo de aprendizagem máquina que poderia prever a classificação humana de uma galáxia com base nas características da imagem. Se este modelo de aprendizagem de máquina poderia reproduzir as classificações humanos com alta precisão, então ele poderia ser usado por pesquisadores Galaxy Zoo para classificar um número essencialmente infinito de galáxias.
O núcleo do Banerji e colegas "abordagem é realmente muito semelhantes às técnicas comumente utilizadas na pesquisa social, embora essa semelhança pode não ser claro à primeira vista. Em primeiro lugar, Banerji e colegas convertido cada imagem em um conjunto de recursos numéricos que resumem suas propriedades. Por exemplo, para imagens de galáxias poderia haver três características: a quantidade de azul na imagem, a variação no brilho dos pixels, ea proporção de pixels não-brancos. A selecção das características de correcção é uma parte importante do problema, e que, geralmente, requer perícia-área sujeita. Esta primeira etapa, comumente chamado de engenharia recurso, resulta em uma matriz de dados com uma linha por imagem e, em seguida, de três colunas que descrevem essa imagem. Dada a matriz de dados e a saída desejada (por exemplo, se a imagem foi classificada por um ser humano como um Galaxy elíptica), o pesquisador estima os parâmetros de um exemplo de modelo-para estatística, algo como uma regressão que logística prevê a classificação humana baseada nas características da imagem. Finalmente, o pesquisador utiliza os parâmetros neste modelo estatístico para produzir classificações estimado de novas galáxias (Figura 5.4). Para pensar de um análogo sociais, imagine que você tinha informações demográficas sobre um milhão de estudantes, e você sabe se formou na faculdade ou não. Pode-se colocar uma regressão logística com estes dados, e então você pode usar os parâmetros do modelo resultantes para prever se os novos estudantes estão indo para formar na faculdade. Em aprendizagem de máquina, esta abordagem-usando exemplos rotulados para criar um modelo estatístico que pode então marcar nova data-é chamado de aprendizado supervisionado (Hastie, Tibshirani, and Friedman 2009) .
Os recursos Banerji et al. (2010) modelo de aprendizagem de máquina eram mais complexos do que aqueles em meu brinquedo exemplo, por exemplo, ela usou recursos como "de Vaucouleurs caber razão axial" -e seu modelo não foi regressão logística, foi uma rede neural artificial. Usando seus recursos, seu modelo, eo consenso classificações Galaxy Zoo, ela foi capaz de criar pesos em cada função e, em seguida, usar estes pesos para fazer previsões sobre a classificação de galáxias. Por exemplo, sua análise descobriu que as imagens com baixa "de Vaucouleurs caber razão axial" eram mais propensos a ser galáxias espirais. Tendo em conta estes pesos, ela foi capaz de prever a classificação humana de uma galáxia com uma precisão razoável.
O trabalho de Banerji et al. (2010) virou Galaxy Zoo para o que eu chamaria de um sistema de computação humana de segunda geração. A melhor maneira de pensar sobre estes sistemas de segunda geração é que em vez de ter os seres humanos resolver um problema, eles têm os seres humanos construir um conjunto de dados que podem ser usados para treinar um computador para resolver o problema. A quantidade de dados necessários para treinar o computador pode ser tão grande que exige uma colaboração em massa humana para criar. No caso de Galaxy Zoo, as redes neurais utilizadas por Banerji et al. (2010) requerido um número muito grande de exemplos marcados com humanos, a fim de construir um modelo que foi capaz de reproduzir com fiabilidade da classificação humana.
A vantagem dessa abordagem assistida por computador é que ele permite que você para lidar com quantidades essencialmente infinitas de dados utilizando apenas uma quantidade finita de esforço humano. Por exemplo, um pesquisador com um milhão de galáxias classificados humanos pode construir um modelo preditivo que pode então ser usada para classificar um bilhão ou até mesmo um trilhão de galáxias. Se houver um número enorme de galáxias, então este tipo de híbrido humano-computador é realmente a única solução possível. Esta escalabilidade infinita não é livre, no entanto. Construindo um modelo de aprendizagem máquina que pode reproduzir corretamente as classificações humanos é em si um problema difícil, mas felizmente já existem excelentes livros dedicados a este tema (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo mostra a evolução de muitos projetos de computação humana. Em primeiro lugar, um pesquisador tenta o projeto sozinha ou com uma pequena equipe de assistentes de pesquisa (por exemplo, o esforço classificação inicial do Schawinski). Se esta abordagem não escala bem, o pesquisador pode mover-se para um projeto de computação humana, onde muitas pessoas contribuem classificações. Mas, para um certo volume de dados, o esforço humano puro não será suficiente. Nesse ponto, os pesquisadores precisam construir sistemas de segunda geração, onde as classificações humanos são usados para treinar um modelo de aprendizagem de máquina que pode ser aplicado sobre os valores virtualmente ilimitado de dados.