O Galaxy Zoo combinou os esforços de muitos voluntários não especialistas em classificar um milhão de galáxias.
O Galaxy Zoo nasceu de um problema enfrentado por Kevin Schawinski, um estudante de graduação em Astronomia da Universidade de Oxford em 2007. Simplificando bastante, Schawinski estava interessado em galáxias, e as galáxias podem ser classificadas por sua morfologia - elíptica ou espiral - e pela sua cor - azul ou vermelho. Na época, a sabedoria convencional entre os astrônomos era que as galáxias espirais, como a Via Láctea, eram de cor azul (indicando a juventude) e as galáxias elípticas eram vermelhas (indicando a velhice). Schawinski duvidou dessa sabedoria convencional. Ele suspeitava que, embora esse padrão pudesse ser verdade em geral, provavelmente houvesse um considerável número de exceções, e que estudando muitas dessas galáxias incomuns - aquelas que não se encaixavam no padrão esperado - ele poderia aprender algo sobre o processo pelo qual galáxias formadas.
Assim, o que Schawinski precisava para derrubar a sabedoria convencional era um grande conjunto de galáxias morfologicamente classificadas; isto é, galáxias que foram classificadas como espirais ou elípticas. O problema, entretanto, era que os métodos algorítmicos existentes para classificação ainda não eram bons o suficiente para serem usados em pesquisas científicas; Em outras palavras, classificar as galáxias era, na época, um problema difícil para os computadores. Portanto, o que era necessário era um grande número de galáxias classificadas por humanos . Schawinski assumiu esse problema de classificação com o entusiasmo de um estudante de graduação. Em uma maratona de sete dias de 12 horas, ele conseguiu classificar 50.000 galáxias. Embora 50 mil galáxias possam parecer muito, na verdade são apenas cerca de 5% das quase um milhão de galáxias que foram fotografadas no Sloan Digital Sky Survey. Schawinski percebeu que precisava de uma abordagem mais escalável.
Felizmente, verifica-se que a tarefa de galáxias que classificam não requer treinamento avançado em astronomia; você pode ensinar alguém a fazê-lo muito rapidamente. Em outras palavras, apesar de classificar galáxias é uma tarefa que era difícil para computadores, era muito fácil para os seres humanos. Assim, enquanto está sentado em um pub em Oxford, Schawinski e colega astrônomo Chris Lintott sonhou criar um site onde os voluntários se classificar imagens de galáxias. Alguns meses mais tarde, o Galaxy Zoo nasceu.
No site do Galaxy Zoo, os voluntários passariam por alguns minutos de treinamento; por exemplo, aprendendo a diferença entre uma galáxia espiral e a elíptica (figura 5.2). Após esse treinamento, cada voluntário teve que passar um teste relativamente fácil - classificando corretamente 11 das 15 galáxias com classificações conhecidas - e então começaria a classificação real de galáxias desconhecidas através de uma interface simples baseada na web (figura 5.3). A transição do voluntário para o astrônomo ocorreria em menos de 10 minutos e só seria necessária para passar pelo menor dos obstáculos, um simples teste.
O Galaxy Zoo atraiu seus voluntários iniciais depois que o projeto apareceu em uma reportagem, e em cerca de seis meses o projeto cresceu e envolveu mais de 100.000 cientistas cidadãos, pessoas que participaram porque gostaram da tarefa e queriam ajudar no avanço da astronomia. Juntos, esses 100.000 voluntários contribuíram com um total de mais de 40 milhões de classificações, com a maioria das classificações vindo de um grupo central de participantes relativamente pequeno (Lintott et al. 2008) .
Os pesquisadores que têm experiência na contratação de auxiliares de pesquisa de graduação podem ser imediatamente céticos quanto à qualidade dos dados. Embora esse ceticismo seja razoável, o Galaxy Zoo mostra que quando as contribuições voluntárias são limpas, debilitadas e agregadas corretamente, elas podem produzir resultados de alta qualidade (Lintott et al. 2008) . Um truque importante para fazer com que a multidão crie dados de qualidade profissional é redundância , ou seja, ter a mesma tarefa executada por muitas pessoas diferentes. No Galaxy Zoo, havia cerca de 40 classificações por galáxia; Pesquisadores que usam assistentes de pesquisa de graduação nunca poderiam arcar com esse nível de redundância e, portanto, precisariam estar muito mais preocupados com a qualidade de cada classificação individual. O que os voluntários não tinham em treinamento, compensavam com redundância.
Mesmo com múltiplas classificações por galáxia, combinar o conjunto de classificações de voluntários para produzir uma classificação de consenso foi complicado. Como desafios muito semelhantes surgem na maioria dos projetos de computação humana, é útil revisar brevemente os três passos que os pesquisadores do Galaxy Zoo usaram para produzir suas classificações de consenso. Primeiro, os pesquisadores “limparam” os dados removendo classificações falsas. Por exemplo, as pessoas que repetidamente classificaram a mesma galáxia - algo que aconteceria se estivessem tentando manipular os resultados - tiveram todas as suas classificações descartadas. Esta e outras limpezas semelhantes removeram cerca de 4% de todas as classificações.
Em segundo lugar, após a limpeza, os pesquisadores precisaram remover vieses sistemáticos nas classificações. Através de uma série de estudos de detecção enviesados dentro do projeto original - por exemplo, mostrando alguns voluntários da galáxia em monocromático em vez de cor - os pesquisadores descobriram vários vieses sistemáticos, como um viés sistemático para classificar galáxias espirais distantes como galáxias elípticas (Bamford et al. 2009) . O ajuste para esses vieses sistemáticos é extremamente importante porque a redundância não remove automaticamente o viés sistemático; só ajuda a remover erros aleatórios.
Finalmente, após a degradação, os pesquisadores precisaram de um método para combinar as classificações individuais para produzir uma classificação de consenso. A maneira mais simples de combinar classificações para cada galáxia teria sido escolher a classificação mais comum. No entanto, essa abordagem teria dado a cada voluntário igual peso, e os pesquisadores suspeitaram que alguns voluntários eram melhores na classificação do que outros. Portanto, os pesquisadores desenvolveram um procedimento de ponderação iterativa mais complexo que tentou detectar os melhores classificadores e dar-lhes mais peso.
Assim, após um processo de três etapas - limpeza, desmembramento e ponderação - a equipe de pesquisa do Galaxy Zoo havia convertido 40 milhões de classificações de voluntários em um conjunto de classificações morfológicas de consenso. Quando essas classificações do Zoo da Galáxia foram comparadas com três tentativas anteriores em menor escala feitas por astrônomos profissionais, incluindo a classificação de Schawinski que ajudou a inspirar o Galaxy Zoo, houve um forte acordo. Assim, os voluntários, em conjunto, foram capazes de fornecer classificações de alta qualidade e em uma escala que os pesquisadores não puderam igualar (Lintott et al. 2008) . De fato, tendo classificações humanas para um número tão grande de galáxias, Schawinski, Lintott e outros conseguiram mostrar que apenas cerca de 80% das galáxias seguem o padrão esperado - espirais azuis e elípticas vermelhas - e numerosos trabalhos foram escritos sobre o assunto. esta descoberta (Fortson et al. 2011) .
Com esse pano de fundo, agora você pode ver como o Galaxy Zoo segue a receita do split-apply-combine, a mesma receita usada para a maioria dos projetos de computação humana. Primeiro, um grande problema é dividido em partes. Nesse caso, o problema de classificar um milhão de galáxias foi dividido em um milhão de problemas de classificação de uma galáxia. Em seguida, uma operação é aplicada a cada bloco de forma independente. Neste caso, os voluntários classificaram cada galáxia como espiral ou elíptica. Finalmente, os resultados são combinados para produzir um resultado de consenso. Nesse caso, a etapa de combinar incluiu limpeza, degradação e ponderação para produzir uma classificação de consenso para cada galáxia. Embora a maioria dos projetos use essa receita geral, cada etapa precisa ser personalizada para o problema específico a ser tratado. Por exemplo, no projeto de computação humana descrito abaixo, a mesma receita será seguida, mas as etapas de aplicar e combinar serão bem diferentes.
Para a equipe do Galaxy Zoo, esse primeiro projeto foi apenas o começo. Muito rapidamente eles perceberam que, embora eles pudessem classificar cerca de um milhão de galáxias, essa escala não é suficiente para trabalhar com novos levantamentos do céu digital, que podem produzir imagens de cerca de 10 bilhões de galáxias (Kuminski et al. 2014) . Para lidar com um aumento de 1 milhão para 10 bilhões - um fator de 10.000 -, o Galaxy Zoo precisaria recrutar cerca de 10.000 vezes mais participantes. Embora o número de voluntários na Internet seja grande, não é infinito. Portanto, os pesquisadores perceberam que, se lidassem com volumes cada vez maiores de dados, seria necessária uma abordagem nova e ainda mais escalonável.
Portanto, Manda Banerji - trabalhando com Schawinski, Lintott e outros membros da equipe do Galaxy Zoo (2010) começou a ensinar computadores para classificar as galáxias. Mais especificamente, usando as classificações humanas criadas pelo Galaxy Zoo, Banerji construiu um modelo de aprendizado de máquina que poderia prever a classificação humana de uma galáxia com base nas características da imagem. Se este modelo pudesse reproduzir as classificações humanas com alta precisão, então poderia ser usado pelos pesquisadores do Galaxy Zoo para classificar um número essencialmente infinito de galáxias.
O núcleo da abordagem de Banerji e dos colegas é, na verdade, bastante similar às técnicas comumente usadas na pesquisa social, embora essa semelhança possa não estar clara à primeira vista. Primeiro, Banerji e seus colegas converteram cada imagem em um conjunto de características numéricas que resumiram suas propriedades. Por exemplo, para imagens de galáxias, pode haver três características: a quantidade de azul na imagem, a variação no brilho dos pixels e a proporção de pixels não brancos. A seleção dos recursos corretos é uma parte importante do problema e, geralmente, requer experiência em área de assunto. Essa primeira etapa, comumente chamada de engenharia de recursos , resulta em uma matriz de dados com uma linha por imagem e, em seguida, três colunas descrevendo essa imagem. Dada a matriz de dados e a saída desejada (por exemplo, se a imagem foi classificada por um humano como uma galáxia elíptica), o pesquisador cria um modelo estatístico ou de aprendizado de máquina - por exemplo, regressão logística - que prevê a classificação humana com base nos recursos da imagem. Finalmente, o pesquisador usa os parâmetros neste modelo estatístico para produzir classificações estimadas de novas galáxias (figura 5.4). No aprendizado de máquina, essa abordagem - usando exemplos rotulados para criar um modelo que possa rotular novos dados - é chamada de aprendizado supervisionado .
As características do modelo de aprendizado de máquina de Banerji e seus colegas eram mais complexas do que as do meu brinquedo - por exemplo, ela usava características como “razão axial de ajuste de Vaucouleurs” - e seu modelo não era regressão logística, era uma rede neural artificial. Usando seus recursos, seu modelo e as classificações consensuais do Galaxy Zoo, ela conseguiu criar pesos em cada recurso e usar esses pesos para fazer previsões sobre a classificação das galáxias. Por exemplo, sua análise constatou que as imagens com baixa "taxa axial de ajuste de Vaucouleurs" eram mais propensas a serem galáxias espirais. Dados esses pesos, ela foi capaz de prever a classificação humana de uma galáxia com razoável precisão.
O trabalho de Banerji e seus colegas transformaram o Galaxy Zoo no que eu chamaria de um sistema de computação humana assistido por computador . A melhor maneira de pensar sobre esses sistemas híbridos é que, em vez de os seres humanos resolverem um problema, eles têm humanos construindo um conjunto de dados que pode ser usado para treinar um computador para resolver o problema. Às vezes, treinar um computador para resolver o problema pode exigir muitos exemplos, e a única maneira de produzir um número suficiente de exemplos é uma colaboração em massa. A vantagem dessa abordagem assistida por computador é que ela permite que você manipule quantidades essencialmente infinitas de dados usando apenas uma quantidade finita de esforço humano. Por exemplo, um pesquisador com um milhão de galáxias humanas classificadas pode construir um modelo preditivo que pode ser usado para classificar um bilhão ou até um trilhão de galáxias. Se há um enorme número de galáxias, esse tipo de híbrido humano-computador é realmente a única solução possível. Essa escalabilidade infinita não é gratuita, no entanto. Construir um modelo de aprendizado de máquina que possa reproduzir corretamente as classificações humanas é um problema difícil, mas felizmente já existem excelentes livros dedicados a este tópico (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
O Galaxy Zoo é uma boa ilustração de quantos projetos de computação humana evoluem. Primeiro, um pesquisador tenta o projeto sozinho ou com uma pequena equipe de assistentes de pesquisa (por exemplo, o esforço inicial de classificação de Schawinski). Se essa abordagem não for bem dimensionada, o pesquisador pode passar para um projeto de computação humana com muitos participantes. Mas, para um certo volume de dados, o esforço humano puro não será suficiente. Nesse ponto, os pesquisadores precisam construir um sistema de computação humana assistido por computador no qual as classificações humanas sejam usadas para treinar um modelo de aprendizado de máquina que pode ser aplicado a quantidades virtualmente ilimitadas de dados.