comentarios

Esta sección está dirixida a ser usado como unha referencia, no canto de ser lido como un relato.

  • Introdución (Sección 5.1)

Colaboración en masa combina ideas da ciencia do cidadán, crowdsourcing e intelixencia colectiva. Ciencia do cidadán significa xeralmente inclúen "cidadáns" (é dicir, non-científicos) no progreso científico (Crain, Cooper, and Dickinson 2014) . Crowdsourcing xeralmente significa tomar un problema normalmente resoltos dentro dunha organización e, en vez de terceirização-lo para unha multitude (Howe 2009) . A intelixencia colectiva significa xeralmente grupos de individuos actuando colectivamente de formas que parecen intelixentes (Malone and Bernstein 2015) . Nielsen (2012) é unha marabillosa introdución do libro de lonxitude para o poder da colaboración en masa para a investigación científica.

Existen moitos tipos de colaboración masiva que non se encaixan perfectamente nas tres categorías que propuxen, e eu creo que tres merecen atención especial porque pode ser útil na investigación social nalgún momento. Un exemplo é a mercados de previsión, onde os participantes mercar e contratos comerciais que están baseados resgatáveis ​​nos resultados que se producen no mundo (Wolfers and Zitzewitz 2004; Arrow et al. 2008) . Mercados prevendo son moitas veces utilizados por empresas e gobernos para a previsión, e os mercados prevendo tamén foron utilizados por investigadores sociais para prever a replicabilidade de estudos publicados en psicoloxía (Dreber et al. 2015) .

Un segundo exemplo de que non encaixa ben no meu esquema de clasificación é o proxecto polímata, onde os investigadores colaborou usando blogs e wikis para probar novos teoremas matemáticos (Gowers and Nielsen 2009; Cranshaw and Kittur 2011; Nielsen 2012; Kloumann et al. 2016) . O proxecto polímata é de certa forma semellante ao Netflix Prize, pero os participantes do proxecto polímata construído de forma máis activa nas solucións parciais dos outros.

Un terceiro exemplo de que non encaixa ben no meu esquema de clasificación é mobilizacións dependentes do tempo, como a Axencia defensiva Advanced Research Projects (DARPA) Desafío de rede (ou sexa, o Desafío Globo Vermello). Para saber máis sobre estes tempo mobilizacións sensibles ver Pickard et al. (2011) , Tang et al. (2011) , e Rutherford et al. (2013) .

  • Computación humana (Sección 5.2)

O termo "computación humana" sae do traballo feito por científicos da computación, e comprender o contexto detrás desta investigación pode mellorar a súa capacidade de escoller os problemas que poidan ser susceptibles de lo. Para determinadas tarefas, os ordenadores son incriblemente poderoso con capacidades moi superiores humanos, mesmo experto. Por exemplo, en xadrez, os ordenadores poden bater mesmo os mellores mestres grandes. Pero, e isto é menos ben apreciado polos científicos sociais-para outras tarefas, os ordenadores son realmente moito peor que a xente. Noutras palabras, agora é mellor que mesmo o ordenador máis sofisticado en certas tarefas que implica o procesamento de imaxes, vídeo, audio e texto. Así, como se ilustra por un marabilloso xkcd cartoon-hai tarefas que son fáciles de ordenadores e difícil para a xente, pero tamén hai tarefas que son difíciles de ordenadores e fácil para a xente (Figura 5.13). Os científicos da computación traballando neses hard-de-computadoras-easy-for-humanas tarefas, polo tanto, viron que figurarán os seres humanos no seu proceso computacional. Vexa como Luís von Ahn (2005) describiu computación humana cando acuñou o termo na súa tese: ". Un paradigma para a utilización de poder de procesamento humana para resolver problemas que os ordenadores non pode resolver"

Figura 5.13: Para algunhas tarefas ordenadores son sorprendentes, superando a capacidade dos expertos humanos. Pero, para outras tarefas, os seres humanos comúns poden superar os sistemas de ordenadores, aínda sofisticados. problemas de grande escala que implica tarefas que son difíciles de ordenadores e doado para os seres humanos son ben axeitadas para a computación humana. Utilizado de acordo cos termos descritos aquí: http://xkcd.com/license.html

Figura 5.13: Para algunhas tarefas ordenadores son sorprendentes, superando a capacidade dos expertos humanos. Pero, para outras tarefas, os seres humanos comúns poden superar os sistemas de ordenadores, aínda sofisticados. problemas de grande escala que implica tarefas que son difíciles de ordenadores e doado para os seres humanos son ben axeitadas para a computación humana. Utilizado de acordo cos termos descritos aquí: http://xkcd.com/license.html

Por esta definición Foldit-que describín na sección sobre abertos chamadas-podería ser considerado un proxecto de computación humana. Sen embargo, eu escollo para categorizar Foldit como unha invitación aberta porque require habilidades especializadas e leva a mellor solución contribuíu en vez de usar unha estratexia de dividir a aplicar-se combinan.

Para un excelente tratamento lonxitude libro da computación humana, no sentido máis xeral do termo, ver Law and Ahn (2011) . Capítulo 3 da Law and Ahn (2011) ten unha interesante discusión sobre máis complexas combinan pasos que os do presente capítulo.

O termo "split-aplica-se combinan" foi usado por Wickham (2011) para describir unha estratexia para computación estatística, pero capta perfectamente o proceso de moitos proxectos de computación humana. A a aplicar-se combinan dividida estratexia é semellante á estrutura MapReduce desenvolvido por Google (Dean and Ghemawat 2004; Dean and Ghemawat 2008) .

Dous proxectos de computación humanos intelixentes que eu non tiven espazo para discutir é o xogo ESP (Ahn and Dabbish 2004) e reCAPTCHA (Ahn et al. 2008) . Ambos proxectos atoparon formas creativas para motivar aos participantes a proporcionar rótulos nas imaxes. Con todo, ambos os proxectos tamén levantou cuestións éticas porque, a diferenza Galaxy Zoo, os participantes no xogo ESP e reCAPTCHA non sabía como os seus datos estaba sendo usado (Lung 2012; Zittrain 2008) .

Inspirado no xogo ESP, moitos investigadores tentaron desenvolver outros "xogos con obxectivo" (Ahn and Dabbish 2008) (ie, "xogos de computación humana-" (Pe-Than, Goh, and Lee 2015) ), que pode ser utilizado para resolver unha variedade de outros problemas. O que estes "xogos con obxectivo" teñen en común é que tentan facer as tarefas implicadas na computación humana agradable. Así, mentres que o xogo ESP compartir a mesma fracción de aplicar-se combinan estrutura co Galaxy Zoo, difire en que os participantes son motivados-fun vs. desexo de axudar a ciencia.

Miña descrición do Galaxy Zoo recorre a Nielsen (2012) , Adams (2012) , Clery (2011) , e Hand (2010) , e miña presentación dos obxectivos do Galaxy Zoo investigación simplificada. Para saber máis sobre a historia da clasificación galaxia en astronomía e como Galaxy Zoo continúa esta tradición, consulte Masters (2012) e Marshall, Lintott, and Fletcher (2015) . Con base no Galaxy Zoo, os investigadores rematada Galaxy Zoo 2, que recolleu máis de 60 millóns de clasificacións morfolóxicas complexos de voluntarios (Masters et al. 2011) . Ademais, ramificouse-se en problemas fóra da morfoloxía galaxia incluíndo explorar a superficie da Lúa, en busca de planetas, e transcrición de documentos antigos. Actualmente, os seus proxectos son recollidas ao www.zooniverse.org (Cox et al. 2015) . Un dos proxectos Snapshot Serengeti-ofrece evidencias de que Galaxy Zoo do tipo proxectos de clasificación de imaxe tamén se pode facer para a investigación ambiental (Swanson et al. 2016) .

Para os investigadores planean empregar un mercado de traballo micro-tarefa (por exemplo, Amazon Mechanical Turk) para un proxecto de computación humana, Chandler, Paolacci, and Mueller (2013) e Wang, Ipeirotis, and Provost (2015) ofrecen bos consellos sobre deseño de tarefas e outras cuestións relacionadas.

Os investigadores interesados en crear o que eu chamei sistemas de computación humana segunda xeración (por exemplo, os sistemas que utilizan etiquetas humanos para adestrar un modelo de aprendizaxe de máquina) pode estar interesado en Shamir et al. (2014) (para un exemplo usando audio) e Cheng and Bernstein (2015) . Ademais, estes proxectos se pode facer con chamadas abertas, na que investigadores compiten para crear modelos de aprendizaxe de máquina co maior rendemento preditivo. Por exemplo, o equipo Galaxy Zoo correu unha invitación aberta e atopou unha nova visión que superou o desenvolvido no Banerji et al. (2010) ; vexa Dieleman, Willett, and Dambre (2015) para obter asistencia.

  • Os concursos abertos (sección 5.3)

invitacións abertas non son novos. De feito, un dos concursos públicos máis coñecidos remonta a 1714, cando o Parlamento de Gran Bretaña creou o Premio Lonxitude para calquera que podería desenvolver unha forma de determinar a lonxitude dun barco no mar. O problema perplexo moitos dos maiores científicos dos días, incluíndo Isaac Newton, ea solución gañadora resultou ser presentada por un reloxeiro do campo que aborda o problema de forma diferente dos científicos que estaban enfocados nunha solución que, dalgún xeito implica astronomía (Sobel 1996) . Como este exemplo ilustra, unha das razóns que as chamadas abertas son pensados para funcionar tan ben é que fornecen acceso a persoas con diferentes perspectivas e habilidades (Boudreau and Lakhani 2013) . Vexa Hong and Page (2004) e Page (2008) para máis información sobre o valor da diversidade na resolución de problemas.

Cada un dos casos de chamadas abertas no capítulo require un pouco de explicación de por que pertence a esta categoría. En primeiro lugar, dun xeito que eu distinguir entre computación humana e proxectos de chamadas en aberto é a saída é unha media de todas as solucións (computación humana) ou a mellor solución (chamada aberta). A Netflix Prize é un pouco complicado, a este respecto, porque a mellor solución resultou ser unha media sofisticado de solucións individuais, unha achegou chamado dunha solución conxunto (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . A perspectiva de Netflix, con todo, todo o que tiñan que facer era escoller a mellor solución.

En segundo lugar, algunhas definicións de computación humana (por exemplo, Von Ahn (2005) ), Foldit debe ser considerado un proxecto de computación humana. Sen embargo, eu escollo para categorizar Foldit como unha invitación aberta porque require habilidades especializadas e leva a mellor solución contribuíu, en vez de usar unha estratexia de dividir a aplicar-se combinan.

Finalmente, pódese argumentar que Peer-to-Patent é un exemplo de recollida de datos distribuída. Eu decide inclui-lo como unha invitación aberta porque ten unha estrutura concurso-like e só os mellores contribucións son usadas (mentres que a obtención de datos distribuídos, a idea de bos e malos contribucións é menos clara).

Para saber máis sobre o Premio Netflix, ver Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , e Feuerverger, He, and Khatri (2012) . Para saber máis sobre Foldit ver, Cooper et al. (2010) , Andersen et al. (2012) , e Khatib et al. (2011) ; miña descrición do Foldit baséase en descricións en Nielsen (2012) , Bohannon (2009) , e Hand (2010) . Para saber máis sobre Peer-to-Patent, consulte Noveck (2006) , Bestor and Hamp (2010) , Ledford (2007) , e Noveck (2009) .

Semellante aos resultados de Glaeser et al. (2016) , Mayer-Schönberger and Cukier (2013) , capítulo 10 informes de grandes beneficios na produtividade dos inspectores da vivenda na cidade de Nova York, cando as inspeccións son guiados por modelos preditivos. En Nova York, estes modelos preditivos foron construídas por funcionarios da cidade, pero noutros casos, pódese imaxinar que poderían ser creados ou mellorados con chamadas abertas (por exemplo, Glaeser et al. (2016) ). Con todo, unha das principais preocupacións con modelos de predición a empregar para reservar recursos é que os modelos teñen o potencial para reforzar as polarizações existentes. Moitos investigadores xa saben "Garbage in, Garbage Out", e con modelos de previsión pode ser "viés, o viés de fóra." Vexa Barocas and Selbst (2016) e O'Neil (2016) para máis información sobre os perigos de modelos preditivos construídos con datos de adestramento tendenciosas.

Un problema que pode impedir que os gobernos utilizando concursos abertos é que require liberación de datos, o que podería levar a violacións de privacidade. Para saber máis sobre privacidade e liberación de datos en chamadas abertas ver Narayanan, Huey, and Felten (2016) ea discusión no capítulo 6.

  • Recollida de datos distribuídos (Sección 5.4)

Miña descrición do eBird baséase en descricións en Bhattacharjee (2005) e Robbins (2013) . Para saber máis sobre como os investigadores usan modelos estatísticos para analizar datos eBird ver Hurlbert and Liang (2012) e Fink et al. (2010) . Para saber máis sobre a historia da ciencia do cidadán na ornothology, consulte Greenwood (2007) .

Para saber máis sobre o Proxecto Revistas Malaui, ver Watkins and Swidler (2009) e Kaler, Watkins, and Angotti (2015) . E para saber máis sobre un proxecto relacionado Sudáfrica, consulte Angotti and Sennott (2015) . Para máis exemplos de busca usando datos do Proxecto Malaui Revistas ver Kaler (2004) e Angotti et al. (2014) .

  • Proxectar o seu propio (Sección 5.5)

Miña visión para ofrecer consellos proxecto era indutiva, con base nos exemplos de éxito e fallou proxectos de colaboración en masa que teño oído falar. Hai tamén unha corrente de investigación intenta aplicar teorías psicolóxicas sociais máis xerais para o deseño de comunidades en liña que é relevante para o deseño de proxectos de colaboración en masa, ver, por exemplo, Kraut et al. (2012) .

Respecto participantes motivadores, é realmente moi difícil de descubrir por que a xente participar en proxectos de colaboración en masa (Nov, Arazy, and Anderson 2011; Cooper et al. 2010, Raddick et al. (2013) ; Tuite et al. 2011; Preist, Massung, and Coyle 2014) . Se desexa motivar aos participantes co pagamento nun mercado de traballo micro-tarefa (por exemplo, Amazon Mechanical Turk) Kittur et al. (2013) ofrece algúns consellos.

Respecto permitindo sorpresa, a máis exemplos de descubrimentos inesperados que saen de proxectos zooniverse, ver Marshall, Lintott, and Fletcher (2015) .

Respecto ser ético, algunhas boas introducións xerais para as cuestións implicadas son Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) , e Zittrain (2008) . Para cuestións especificamente relacionadas con cuestións legais con empregados multitude, consulte Felstiner (2011) . O'Connor (2013) aborda cuestións sobre a supervisión ética da investigación cando os papeis dos investigadores e participantes borrar. Para cuestións relacionadas coa posta en común de datos ao mesmo tempo protexer participando activamente en proxectos de ciencia do cidadán, ver Bowser et al. (2014) . Ambos Purdam (2014) e Windt and Humphreys (2016) ten algunha discusión sobre as cuestións éticas na obtención de datos distribuída. Finalmente, a maioría dos proxectos de recoñecer as achegas pero non dar crédito de autoría aos participantes. En Foldit, os xogadores do Foldit son frecuentemente listado como un autor (Cooper et al. 2010; Khatib et al. 2011) . Noutros proxectos de chamada aberta, o contribuínte gañar moitas veces pode escribir un artigo describindo as súas solucións (por exemplo, Bell, Koren, and Volinsky (2010) e Dieleman, Willett, and Dambre (2015) ). Na familia Galaxy Zoo de proxectos, os contribuíntes moi activas e importantes son, por veces, invitado a ser co-autores en papeis. Por exemplo, Ivan Terentev e Tim Matorny, dous participantes Radio Galaxy Zoo de Rusia, foron co-autores dun dos xornais que xurdiron a partir dese proxecto (Banfield et al. 2016; Galaxy Zoo 2016) .