A colaboración en masa combina ideas de ciencia cidadá , crowdsourcing e intelixencia colectiva . A ciencia dos cidadáns adoita implicar "cidadáns" (é dicir, non científicos) no proceso científico; para máis, consulte Crain, Cooper, and Dickinson (2014) e Bonney et al. (2014) . Crowdsourcing xeralmente significa tomar un problema normalmente resolto dentro dunha organización e, en vez diso, terceirizalo a unha multitude; para máis, vexa Howe (2009) . A intelixencia colectiva xeralmente significa grupos de individuos que actúan colectivamente de formas que parecen intelixentes; para máis, vexa Malone and Bernstein (2015) . Nielsen (2012) é unha introdución de libros para o poder da colaboración en masa para a investigación científica.
Hai moitos tipos de colaboración en masa que non se axustan perfectamente ás tres categorías que propuxen, e creo que tres deles merecen unha atención especial porque poden ser útiles na investigación social. Un exemplo son os mercados de previsión, onde os participantes compran e comercializan contratos que son canjeables en función dos resultados que se producen no mundo. Os empresarios e os gobernos adoitan empregar predictores de mercados para a previsión, e tamén os investigadores sociais utilizaron para predecir a reprodución dos estudos publicados en psicoloxía (Dreber et al. 2015) . Para obter unha visión xeral dos mercados de previsión, consulte Wolfers and Zitzewitz (2004) e Arrow et al. (2008) .
Un segundo exemplo que non encaixa no meu esquema de categorización é o proxecto PolyMath, onde os investigadores colaboraron usando blogs e wikis para demostrar novos teoremas de matemáticas. O proxecto PolyMath é dalgún xeito similar ao Premio Netflix, pero neste proxecto os participantes máis activamente construíron as solucións parciais dos demais. Para máis información sobre o proxecto PolyMath, consulte Gowers and Nielsen (2009) , Cranshaw and Kittur (2011) , Nielsen (2012) e Kloumann et al. (2016) .
Un terceiro exemplo que non encaixa perfectamente no meu esquema de categorización é o de mobilizacións dependentes do tempo, como o Desafío de Rede de Proxectos de Investigación Avanzada de Proxectos (DARPA) (ou sexa, o Red Balloon Challenge). Para máis información sobre estas mobilizacións sensibles ao tempo, vexa Pickard et al. (2011) , Tang et al. (2011) , e Rutherford et al. (2013) .
O termo "computación humana" sae do traballo realizado por científicos informáticos e comprender o contexto desta investigación mellorará a súa capacidade de elixir os problemas que poidan ser adecuados para iso. Para determinadas tarefas, as computadoras son increíblemente poderosas, con capacidades moi superiores ás de humanos expertos. Por exemplo, no xadrez, as computadoras poden bater incluso os mellores mestres. Pero, e iso é menos ben apreciado polos científicos sociais, para outras tarefas, as computadoras son realmente moito peores que as persoas. Noutras palabras, agora mesmo é mellor que incluso a computadora máis sofisticada en certas tarefas que inclúen o procesamento de imaxes, video, audio e texto. Os científicos informáticos que traballan nesas tarefas difíciles para as computadoras fáciles de traballar polo ser humano entenderon que poderían incluír aos humanos no seu proceso computacional. Así como Luis von Ahn (2005) describiu a computación humana cando acuñou o termo na súa disertación: "un paradigma para utilizar o poder procesador humano para resolver problemas que as computadoras aínda non poden resolver". Para un tratamento de lonxitude de libro da computación humana, en o sentido máis xeral do termo, véxase Law and Ahn (2011) .
Segundo a definición proposta en Ahn (2005) Foldit -que descrebei na sección sobre chamadas abertas- podería considerarse un proxecto de computación humano. Non obstante, escolle categorizar a Foldit como unha chamada aberta porque require habilidades especializadas (aínda que non necesariamente formación formal) e leva a mellor solución contribuída, en lugar de utilizar unha estrutura de combinación dividida.
O termo "split-apply-combine" foi usado por Wickham (2011) para describir unha estratexia de computación estatística, pero captura perfectamente o proceso de moitos proxectos de cálculo humano. A estratexia dividir-aplicar-combinar é similar á framework MapReduce desenvolvida en Google; para máis información sobre MapReduce, vexa Dean and Ghemawat (2004) e Dean and Ghemawat (2008) . Para máis información sobre outras arquitecturas de computación distribuída, consulte Vo and Silvia (2016) . O capítulo 3 de Law and Ahn (2011) ten un debate sobre proxectos con pasos combinados máis complexos que os que se inclúen neste capítulo.
Nos proxectos de computación humana que teño discutido no capítulo, os participantes estaban conscientes do que estaba a suceder. Algúns outros proxectos, porén, buscan capturar "traballo" que xa está a suceder (semellante a eBird) e sen conciencia do participante. Vexa, por exemplo, o Xogo ESP (Ahn and Dabbish 2004) e reCAPTCHA (Ahn et al. 2008) . Non obstante, ambos proxectos tamén plantexan cuestións éticas porque os participantes non sabían como se utilizaban os seus datos (Zittrain 2008; Lung 2012) .
Inspirados no Xogo ESP, moitos investigadores intentaron desenvolver outros "xogos con finalidade" (Ahn and Dabbish 2008) (é dicir, "xogos de computación baseados en humanos" (Pe-Than, Goh, and Lee 2015) ) que poden ser usado para resolver unha variedade de outros problemas. O que teñen en común estes "xogos cun propósito" é que intentan facer agradables as tarefas implicadas na computación humana. Deste xeito, mentres o xogo ESP comparte a mesma estrutura de combinación dividida con Galaxy Zoo, difire en como se motivan os participantes: diversión contra o desexo de axudar á ciencia. Para máis información sobre xogos con finalidade, consulte Ahn and Dabbish (2008) .
A miña descrición de Galaxy Zoo está baseada en Nielsen (2012) , Adams (2012) , Clery (2011) e Hand (2010) , e a miña presentación dos obxectivos de investigación de Galaxy Zoo foi simplificada. Para obter máis información sobre a historia da clasificación de galaxias en astronomía e como funciona o Galaxy Zoo, vexa Masters (2012) e Marshall, Lintott, and Fletcher (2015) . Baseándose no Galaxy Zoo, os investigadores completaron o Galaxy Zoo 2 que reuniu máis de 60 millóns de clasificacións morfolóxicas máis complexas de voluntarios (Masters et al. 2011) . Ademais, eles ramificaron en problemas fóra da morfoloxía do galaxia, incluíndo a exploración da superficie da Lúa, a procura de planetas e a transcripción de documentos antigos. Actualmente, todos os seus proxectos colócanse no sitio web de Zooniverse (Cox et al. 2015) . Un dos proxectos-Snapshot Serengeti-fornece evidencias de que os proxectos de clasificación de imaxe tipo Galaxy Zoo tamén se poden facer para a investigación ambiental (Swanson et al. 2016) .
Para os investigadores que planean usar un mercado laboral de microondas (por exemplo, Amazon Mechanical Turk) para un proxecto de cálculo humano, Chandler, Paolacci, and Mueller (2013) e J. Wang, Ipeirotis, and Provost (2015) ofrecen bos consellos sobre deseño de tarefas e outros problemas relacionados. Porter, Verdery, and Gaddis (2016) ofrecen exemplos e consellos que se centran específicamente nos usos dos mercados de traballo de microtask para o que eles denominan "aumento de datos". A liña entre a ampliación de datos ea recolleita de datos é un pouco borrosa. Para máis información sobre a obtención e uso de etiquetas para a aprendizaxe supervisada para texto, vexa Grimmer and Stewart (2013) .
Os investigadores interesados en crear o que eu chamei sistemas de computación humana asistidos por computadora (por exemplo, sistemas que utilizan etiquetas humanas para formar un modelo de aprendizaxe automático) poden estar interesados en Shamir et al. (2014) (por exemplo, utilizando audio) e Cheng and Bernstein (2015) . Ademais, os modelos de aprendizaxe automática nestes proxectos pódense solicitar con chamadas abertas, onde os investigadores compiten para crear modelos de aprendizaxe de máquinas con maior rendemento predictivo. Por exemplo, o equipo do Galaxy Zoo realizou unha chamada aberta e atopou un novo enfoque que superou o desenvolvido en Banerji et al. (2010) ; vexa Dieleman, Willett, and Dambre (2015) para obter máis detalles.
As chamadas abertas non son novas. De feito, unha das chamadas abertas máis coñecidas remóntase a 1714 cando o Parlamento de Gran Bretaña creou o Premio Lonxitude para calquera que poida desenvolver un xeito de determinar a lonxitude dun buque no mar. O problema superou a moitos dos maiores científicos da época, incluíndo Isaac Newton, e a solución gañadora finalmente foi presentada por John Harrison, un reloxo do campo que se achegou ao problema de forma diferente aos científicos que estaban enfocados nunha solución que dalgunha forma implicaría a astronomía. ; Para máis información, vexa Sobel (1996) . Como este exemplo ilustra, unha das razóns polas que as chamadas abertas se cren que funcionan tan ben é que proporcionan acceso a persoas con diferentes perspectivas e habilidades (Boudreau and Lakhani 2013) . Vexa Hong and Page (2004) e Page (2008) para obter máis información sobre o valor da diversidade na resolución de problemas.
Cada un dos casos de chamada aberta no capítulo require un pouco máis de explicación por que pertence a esta categoría. Primeiro, unha forma de distinguir entre computación humana e proxectos de chamada aberta é se a saída é unha media de todas as solucións (computación humana) ou a mellor solución (chamada aberta). O Premio Netflix é algo complicado a este respecto porque a mellor solución resultou ser unha media sofisticada de solucións individuais, un enfoque chamado solución conxunta (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Desde a perspectiva de Netflix, con todo, todo o que tiña que facer era escoller a mellor solución. Para máis información sobre o Premio Netflix, vexa Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) e Feuerverger, He, and Khatri (2012) .
En segundo lugar, por algunhas definicións de computación humana (por exemplo, Ahn (2005) ), Foldit debería considerarse un proxecto de computación humano. Non obstante, escolle categorizalo como unha convocatoria aberta porque require habilidades especializadas (aínda que non necesariamente formación especializada) e leva a mellor solución, en lugar de utilizar unha estratexia de combinación dividida. Para máis información sobre Foldit vexa Cooper et al. (2010) , Khatib et al. (2011) , e Andersen et al. (2012) ; A miña descrición de Foldit baséase nas descricións en Bohannon (2009) , Hand (2010) e Nielsen (2012) .
Finalmente, pódese argumentar que Peer-to-Patent é un exemplo de recolección de datos distribuídos. Escórome incluílo como unha chamada aberta porque ten unha estrutura similar a un concurso e só se utilizan as mellores contribucións, mentres que coa recopilación de datos distribuídos, a idea de contribucións boas e malas é menos clara. Para máis información sobre Peer-to-Patent, consulte Noveck (2006) , Ledford (2007) , Noveck (2009) e Bestor and Hamp (2010) .
En termos de uso de chamadas abertas na investigación social, resultados semellantes aos de Glaeser et al. (2016) , informáronse no capítulo 10 de Mayer-Schönberger and Cukier (2013) segundo o cal a cidade de Nova York puido utilizar o modelo de predición para producir grandes ganancias na productividad dos inspectores de vivendas. Na cidade de Nova York, estes modelos preditivos foron construídos por empregados da cidade, pero noutros casos, pódese imaxinar que se puidesen crear ou mellorar con chamadas abertas (por exemplo, Glaeser et al. (2016) ). Con todo, unha das principais preocupacións cos modelos predictivos que se utilizan para asignar recursos é que estes modelos teñen o potencial de reforzar os prexuízos existentes. Moitos investigadores xa saben "lixo, lixo" e con modelos preditivos pode ser "parcialidade", vexa Barocas and Selbst (2016) e O'Neil (2016) para máis información sobre os perigos dos modelos preditivos construídos con datos de formación sesgados.
Un dos problemas que poden impedir que os gobernos utilicen competencias abertas é que isto require a liberación de datos, o que podería provocar infraccións de privacidade. Para obter máis información sobre privacidade e liberación de datos en chamadas abertas, consulte Narayanan, Huey, and Felten (2016) e a discusión do capítulo 6.
Para máis información sobre as diferenzas e as similitudes entre predición e explicación, vexa Breiman (2001) , Shmueli (2010) , Watts (2014) e Kleinberg et al. (2015) . Para máis información sobre o papel da predición na investigación social, vexa Athey (2017) , Cederman and Weidmann (2017) , Hofman, Sharma, and Watts (2017) , ( ??? ) e Yarkoni and Westfall (2017) .
Para unha revisión dos proxectos de convocatoria aberta en bioloxía, incluído o consello de deseño, consulte Saez-Rodriguez et al. (2016) .
A miña descrición de eBird baséase nas descricións en Bhattacharjee (2005) , Robbins (2013) e Sullivan et al. (2014) . Para máis información sobre como os investigadores utilizan modelos estatísticos para analizar datos de eBird véxase Fink et al. (2010) e Hurlbert and Liang (2012) . Para máis información sobre a estimación da habilidade dos participantes de eBird, consulte Kelling, Johnston, et al. (2015) . Para máis información sobre a historia da ciencia cidadá en ornitoloxía, ver Greenwood (2007) .
Para máis información sobre o proxecto Malawi Journals, vexa Watkins and Swidler (2009) e Kaler, Watkins, and Angotti (2015) . Para máis información sobre un proxecto relacionado en Sudáfrica, vexa Angotti and Sennott (2015) . Para máis exemplos de investigación usando datos do Proxecto Revistas de Malawi, vexa Kaler (2004) e Angotti et al. (2014) .
O meu enfoque de ofrecer consellos de deseño foi inductivo, baseado nos exemplos de proxectos de colaboración masiva exitosos e faltantes que escoitei. Tamén houbo un fluxo de intentos de investigación para aplicar teorías psicolóxicas sociais máis xerais para deseñar comunidades en liña que sexan relevantes para o deseño de proxectos de colaboración masiva, ver, por exemplo, Kraut et al. (2012) .
En canto aos participantes motivadores, é realmente complicado descubrir exactamente por que as persoas participan en proxectos de colaboración en masa (Cooper et al. 2010; Nov, Arazy, and Anderson 2011; Tuite et al. 2011; Raddick et al. 2013; Preist, Massung, and Coyle 2014) . Se planea motivar os participantes a pagar nun mercado laboral de microondas (por exemplo, Amazon Mechanical Turk), Kittur et al. (2013) ofrece algúns consellos.
En canto á sorpresa, para máis exemplos de descubrimentos inesperados que saen de proxectos de Zooiverse, consulte Marshall, Lintott, and Fletcher (2015) .
No que respecta a ser ético, algunhas boas introducións xerais aos problemas implicados son Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) e Zittrain (2008) . Para cuestións relacionadas específicamente con cuestións legais con empregados da multitude, consulte Felstiner (2011) . O'Connor (2013) aborda preguntas sobre a supervisión ética da investigación cando os roles dos investigadores e dos participantes se desdibujan. Para cuestións relacionadas coa compartición de datos mentres se protexe aos participantes nos proxectos de ciencia cidadá, consulte Bowser et al. (2014) . Tanto Purdam (2014) como Windt and Humphreys (2016) teñen un debate sobre os problemas éticos na recopilación de datos distribuídos. Finalmente, a maioría dos proxectos recoñecen contribucións, pero non dan crédito a autoría aos participantes. En Foldit, os xogadores adoitan estar listados como autor (Cooper et al. 2010; Khatib et al. 2011) . Noutros proxectos de chamadas abertas, o contribuínte gañador moitas veces pode escribir un artigo describindo as súas solucións (por exemplo, Bell, Koren, and Volinsky (2010) e Dieleman, Willett, and Dambre (2015) ).