comentários adicionais

Esta secção destina-se a ser usado como uma referência, em vez de ser lido como uma narrativa.

  • Introdução (Seção 5.1)

Colaboração em massa combina idéias da ciência do cidadão, crowdsourcing e inteligência coletiva. Ciência do cidadão significa geralmente envolvendo "cidadãos" (ou seja, não-cientistas) no processo científico (Crain, Cooper, and Dickinson 2014) . Crowdsourcing geralmente significa tomar um problema normalmente resolvidos dentro de uma organização e, em vez de terceirização-lo para uma multidão (Howe 2009) . A inteligência coletiva significa geralmente grupos de indivíduos agindo coletivamente de maneiras que parecem inteligentes (Malone and Bernstein 2015) . Nielsen (2012) é uma maravilhosa introdução do livro de comprimento para o poder da colaboração em massa para a investigação científica.

Existem muitos tipos de colaboração em massa que não se encaixam perfeitamente nas três categorias que propus, e eu acho que três merecem atenção especial porque pode ser útil na pesquisa social em algum momento. Um exemplo é a mercados de previsão, onde os participantes comprar e contratos comerciais que são baseados resgatáveis ​​nos resultados que ocorrem no mundo (Wolfers and Zitzewitz 2004; Arrow et al. 2008) . Mercados prevendo são muitas vezes utilizados por empresas e governos para a previsão, e os mercados prevendo também têm sido utilizados por pesquisadores sociais para prever a replicabilidade de estudos publicados em psicologia (Dreber et al. 2015) .

Um segundo exemplo de que não se encaixa bem no meu esquema de categorização é o projeto polímata, onde os investigadores colaborou usando blogs e wikis para provar novos teoremas matemáticos (Gowers and Nielsen 2009; Cranshaw and Kittur 2011; Nielsen 2012; Kloumann et al. 2016) . O projeto polímata é de certa forma semelhante ao Netflix Prize, mas os participantes do projeto polímata construído de forma mais activa nas soluções parciais dos outros.

Um terceiro exemplo de que não se encaixa bem no meu esquema de categorização é mobilizações dependentes do tempo, como a Agência Defense Advanced Research Projects (DARPA) Desafio de rede (ou seja, o Desafio Balão Vermelho). Para saber mais sobre estes tempo mobilizações sensíveis ver Pickard et al. (2011) , Tang et al. (2011) , e Rutherford et al. (2013) .

  • Computação humana (Seção 5.2)

O termo "computação humana" sai do trabalho feito por cientistas da computação, e compreender o contexto por trás desta pesquisa irá melhorar a sua capacidade de escolher os problemas que possam ser passíveis de-lo. Para determinadas tarefas, os computadores são incrivelmente poderoso com capacidades muito superiores seres humanos, mesmo perito. Por exemplo, em xadrez, os computadores podem bater mesmo os melhores mestres grandes. Mas, e isso é menos bem apreciado pelos cientistas sociais-para outras tarefas, os computadores são realmente muito pior do que as pessoas. Em outras palavras, agora você é melhor do que até mesmo o computador mais sofisticado em certas tarefas que envolvem o processamento de imagens, vídeo, áudio e texto. Assim, como foi ilustrado por um maravilhoso XKCD cartoon-existem tarefas que são fáceis para computadores e difícil para as pessoas, mas também existem tarefas que são difíceis para computadores e fácil para as pessoas (Figura 5.13). Os cientistas da computação trabalhando nesses hard-de-computadores-easy-for-humanas tarefas, portanto, perceberam que poderiam incluir os seres humanos em seu processo computacional. Veja como Luis von Ahn (2005) descreveu computação humana quando ele cunhou o termo em sua tese: ". Um paradigma para a utilização de poder de processamento humana para resolver problemas que os computadores ainda não pode resolver"

Figura 5.13: Para algumas tarefas computadores são surpreendentes, superando a capacidade dos especialistas humanos. Mas, para outras tarefas, os seres humanos comuns podem superar os sistemas de computadores, mesmo sofisticados. problemas de grande escala que envolvem tarefas que são difíceis de computadores e fácil para os seres humanos são bem adequadas para a computação humana. Utilizado de acordo com os termos descritos aqui: http://xkcd.com/license.html

Figura 5.13: Para algumas tarefas computadores são surpreendentes, superando a capacidade dos especialistas humanos. Mas, para outras tarefas, os seres humanos comuns podem superar os sistemas de computadores, mesmo sofisticados. problemas de grande escala que envolvem tarefas que são difíceis de computadores e fácil para os seres humanos são bem adequadas para a computação humana. Utilizado de acordo com os termos descritos aqui: http://xkcd.com/license.html

Por esta definição Foldit-que descrevi na seção sobre abertos chamadas-poderia ser considerado um projecto de computação humana. No entanto, eu escolho para categorizar Foldit como um convite aberto porque requer habilidades especializadas e leva a melhor solução contribuiu ao invés de usar uma estratégia de dividir a aplicar-se combinam.

Para um excelente tratamento comprimento livro da computação humana, no sentido mais geral do termo, ver Law and Ahn (2011) . Capítulo 3 da Law and Ahn (2011) tem uma interessante discussão sobre mais complexas combinam passos do que os do presente capítulo.

O termo "split-aplicam-se combinam" foi usado por Wickham (2011) para descrever uma estratégia para computação estatística, mas capta perfeitamente o processo de muitos projetos de computação humana. A a aplicar-se combinam dividida estratégia é semelhante à estrutura MapReduce desenvolvido pelo Google (Dean and Ghemawat 2004; Dean and Ghemawat 2008) .

Dois projetos de computação humanos inteligentes que eu não tive espaço para discutir é o jogo ESP (Ahn and Dabbish 2004) e reCAPTCHA (Ahn et al. 2008) . Ambos os projectos encontraram maneiras criativas para motivar os participantes a fornecer rótulos nas imagens. No entanto, ambos os projectos também levantou questões éticas porque, ao contrário Galaxy Zoo, os participantes no jogo ESP e reCAPTCHA não sabia como seus dados estava sendo usado (Lung 2012; Zittrain 2008) .

Inspirado no jogo ESP, muitos pesquisadores tentaram desenvolver outros "jogos com objetivo" (Ahn and Dabbish 2008) (ie, "jogos de computação humana-" (Pe-Than, Goh, and Lee 2015) ), que pode ser utilizado para resolver uma variedade de outros problemas. O que esses "jogos com objetivo" têm em comum é que eles tentam fazer as tarefas envolvidas na computação humana agradável. Assim, enquanto o jogo ESP partilha a mesma fração de aplicar-se combinam estrutura com o Galaxy Zoo, ele difere em como os participantes são motivados-fun vs. desejo de ajudar a ciência.

Minha descrição do Galaxy Zoo recorre a Nielsen (2012) , Adams (2012) , Clery (2011) , e Hand (2010) , e minha apresentação dos objetivos do Galaxy Zoo pesquisa foi simplificada. Para saber mais sobre a história da classificação galáxia em astronomia e como Galaxy Zoo continua esta tradição, consulte Masters (2012) e Marshall, Lintott, and Fletcher (2015) . Com base no Galaxy Zoo, os pesquisadores concluída Galaxy Zoo 2, que recolheu mais de 60 milhões de classificações morfológicas complexos de voluntários (Masters et al. 2011) . Além disso, eles ramificou-se em problemas fora da morfologia galáxia incluindo explorar a superfície da Lua, em busca de planetas, e transcrição de documentos antigos. Atualmente, todos os seus projetos são recolhidos ao www.zooniverse.org (Cox et al. 2015) . Um dos projectos-Snapshot Serengeti-fornece evidências de que Galaxy Zoo do tipo projectos de classificação de imagem também pode ser feito para a pesquisa ambiental (Swanson et al. 2016) .

Para os pesquisadores planejam usar um mercado de trabalho micro-tarefa (por exemplo, Amazon Mechanical Turk) para um projeto de computação humana, Chandler, Paolacci, and Mueller (2013) e Wang, Ipeirotis, and Provost (2015) oferecem bons conselhos sobre concepção de tarefas e outras questões relacionadas.

Os pesquisadores interessados em criar o que eu chamei sistemas de computação humana segunda geração (por exemplo, sistemas que utilizam etiquetas humanos para treinar um modelo de aprendizagem de máquina) pode estar interessado em Shamir et al. (2014) (para um exemplo usando áudio) e Cheng and Bernstein (2015) . Além disso, esses projetos pode ser feito com chamadas abertas, em que pesquisadores competem para criar modelos de aprendizagem de máquina com o maior desempenho preditivo. Por exemplo, a equipe Galaxy Zoo correu um convite aberto e encontrou uma nova abordagem que superou o desenvolvido no Banerji et al. (2010) ; veja Dieleman, Willett, and Dambre (2015) para mais detalhes.

  • Os concursos abertos (secção 5.3)

convites abertos não são novos. Na verdade, um dos concursos públicos mais conhecidos remonta a 1714, quando o Parlamento da Grã-Bretanha criou o Prêmio Longitude para qualquer um que poderia desenvolver uma maneira de determinar a longitude de um navio no mar. O problema perplexo muitos dos maiores cientistas dos dias, incluindo Isaac Newton, ea solução vencedora acabou por ser apresentada por um relojoeiro do campo que abordou o problema de forma diferente dos cientistas que estavam focados em uma solução que, de alguma forma envolvem astronomia (Sobel 1996) . Como este exemplo ilustra, uma das razões que as chamadas abertas são pensados para funcionar tão bem é que eles fornecem acesso a pessoas com diferentes perspectivas e habilidades (Boudreau and Lakhani 2013) . Veja Hong and Page (2004) e Page (2008) para mais informações sobre o valor da diversidade na resolução de problemas.

Cada um dos casos de chamadas abertas no capítulo requer um pouco de explicação de por que ele pertence a esta categoria. Em primeiro lugar, de uma maneira que eu distinguir entre computação humana e projectos de chamadas em aberto é se a saída é uma média de todas as soluções (computação humana) ou a melhor solução (chamada aberta). A Netflix Prize é um pouco complicado, a este respeito, porque a melhor solução acabou por ser uma média sofisticado de soluções individuais, uma aproximou chamado uma solução conjunto (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Da perspectiva da Netflix, no entanto, tudo o que tinham a fazer era escolher a melhor solução.

Em segundo lugar, algumas definições de computação humana (por exemplo, Von Ahn (2005) ), Foldit deve ser considerado um projecto de computação humana. No entanto, eu escolho para categorizar Foldit como um convite aberto porque requer habilidades especializadas e leva a melhor solução contribuiu, em vez de usar uma estratégia de dividir a aplicar-se combinam.

Finalmente, pode-se argumentar que Peer-to-Patent é um exemplo de coleta de dados distribuída. Eu optar por incluí-lo como um convite aberto porque tem uma estrutura concurso-like e apenas os melhores contribuições são usadas (ao passo que a coleta de dados distribuídos, a idéia de bons e maus contribuições é menos clara).

Para saber mais sobre o Prêmio Netflix, ver Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , e Feuerverger, He, and Khatri (2012) . Para saber mais sobre Foldit ver, Cooper et al. (2010) , Andersen et al. (2012) , e Khatib et al. (2011) ; minha descrição do Foldit baseia-se em descrições em Nielsen (2012) , Bohannon (2009) , e Hand (2010) . Para saber mais sobre Peer-to-Patent, consulte Noveck (2006) , Bestor and Hamp (2010) , Ledford (2007) , e Noveck (2009) .

Semelhante aos resultados de Glaeser et al. (2016) , Mayer-Schönberger and Cukier (2013) , Capítulo 10 relatórios de grandes ganhos na produtividade dos inspectores da habitação na cidade de Nova York, quando as inspecções são guiados por modelos preditivos. Em Nova York, esses modelos preditivos foram construídas por funcionários da cidade, mas em outros casos, pode-se imaginar que eles poderiam ser criados ou melhorados com chamadas abertas (por exemplo, Glaeser et al. (2016) ). No entanto, uma das principais preocupações com modelos de previsão a ser utilizado para alocar recursos é que os modelos têm o potencial para reforçar as polarizações existentes. Muitos pesquisadores já sabem "garbage in, garbage out", e com modelos de previsão pode ser "viés, o viés de fora." Veja Barocas and Selbst (2016) e O'Neil (2016) para mais informações sobre os perigos de modelos preditivos construídos com dados de treinamento tendenciosas.

Um problema que pode impedir que os governos usando concursos abertos é que ele requer liberação de dados, o que poderia levar a violações de privacidade. Para saber mais sobre privacidade e liberação de dados em chamadas abertas ver Narayanan, Huey, and Felten (2016) e a discussão no Capítulo 6.

  • Coleta de dados distribuídos (Seção 5.4)

Minha descrição do eBird baseia-se em descrições em Bhattacharjee (2005) e Robbins (2013) . Para saber mais sobre como os pesquisadores usam modelos estatísticos para analisar dados eBird ver Hurlbert and Liang (2012) e Fink et al. (2010) . Para saber mais sobre a história da ciência do cidadão na ornothology, consulte Greenwood (2007) .

Para saber mais sobre o Projeto Revistas Malawi, ver Watkins and Swidler (2009) e Kaler, Watkins, and Angotti (2015) . E para saber mais sobre um projeto relacionado na África do Sul, consulte Angotti and Sennott (2015) . Para mais exemplos de pesquisa usando dados do Projeto Malawi Revistas ver Kaler (2004) e Angotti et al. (2014) .

  • Projetar seu próprio (Seção 5.5)

Minha abordagem para oferecer conselhos projeto era indutiva, com base nos exemplos de sucesso e falhou projetos de colaboração em massa que tenho ouvido falar. Há também uma corrente de pesquisa tenta aplicar teorias psicológicas sociais mais gerais para a concepção de comunidades on-line que é relevante para a concepção de projectos de colaboração em massa, ver, por exemplo, Kraut et al. (2012) .

Em relação participantes motivadores, é realmente muito difícil de descobrir exatamente por que as pessoas participar em projectos de colaboração em massa (Nov, Arazy, and Anderson 2011; Cooper et al. 2010, Raddick et al. (2013) ; Tuite et al. 2011; Preist, Massung, and Coyle 2014) . Se você pretende motivar os participantes com o pagamento em um mercado de trabalho micro-tarefa (por exemplo, Amazon Mechanical Turk) Kittur et al. (2013) oferece alguns conselhos.

Em relação permitindo surpresa, para mais exemplos de descobertas inesperadas que saem de projectos zooniverse, ver Marshall, Lintott, and Fletcher (2015) .

Em relação ser ético, algumas boas introduções gerais para as questões envolvidas são Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) , e Zittrain (2008) . Para questões especificamente relacionadas com questões legais com empregados multidão, consulte Felstiner (2011) . O'Connor (2013) aborda questões sobre a supervisão ética da pesquisa quando os papéis dos investigadores e participantes borrar. Para questões relacionadas com a partilha de dados ao mesmo tempo proteger participando activamente em projectos de ciência do cidadão, ver Bowser et al. (2014) . Ambos Purdam (2014) e Windt and Humphreys (2016) tem alguma discussão sobre as questões éticas na coleta de dados distribuída. Finalmente, a maioria dos projetos de reconhecer as contribuições mas não dar crédito de autoria aos participantes. Em Foldit, os jogadores do Foldit são frequentemente listado como um autor (Cooper et al. 2010; Khatib et al. 2011) . Em outros projetos de chamada aberta, o contribuinte ganhar muitas vezes pode escrever um artigo descrevendo suas soluções (por exemplo, Bell, Koren, and Volinsky (2010) e Dieleman, Willett, and Dambre (2015) ). Na família Galaxy Zoo de projetos, os contribuintes extremamente ativas e importantes são, por vezes, convidado a ser co-autores em papéis. Por exemplo, Ivan Terentev e Tim Matorny, dois participantes Radio Galaxy Zoo da Rússia, foram co-autores de um dos jornais que surgiram a partir desse projeto (Banfield et al. 2016; Galaxy Zoo 2016) .