Esta sección está diseñada para ser utilizada como una referencia, en lugar de ser leído como un relato.
Colaboración masiva combina las ideas de la ciencia ciudadana, el crowdsourcing, y la inteligencia colectiva. Ciencia ciudadana que implica por lo general significa "ciudadanos" (es decir, los no científicos) en el proceso científico (Crain, Cooper, and Dickinson 2014) . Crowdsourcing por lo general significa tomar un problema resuelto por lo general dentro de una organización y en vez subcontratan a una multitud (Howe 2009) . La inteligencia colectiva generalmente significa grupos de personas que actúan colectivamente en formas que parecen inteligentes (Malone and Bernstein 2015) . Nielsen (2012) es una maravillosa introducción de longitud del libro en el poder de la colaboración masiva para la investigación científica.
Hay muchos tipos de colaboración masiva que no encajan perfectamente en las tres categorías que he propuesto, y creo que tres merecen una atención especial, ya que podría ser útil en la investigación social en algún momento. Un ejemplo es los mercados de predicción, donde los participantes compran y contratos comerciales que se pueden canjear basan en los resultados que se producen en el mundo (Wolfers and Zitzewitz 2004; Arrow et al. 2008) . La predicción de los mercados a menudo son utilizados por las empresas y los gobiernos para el pronóstico y la predicción de los mercados también han sido utilizados por los investigadores sociales para predecir la posibilidad de reproducir los estudios publicados en la psicología (Dreber et al. 2015) .
Un segundo ejemplo que no encaja bien en mi esquema de categorización es el proyecto PolyMath, donde los investigadores colaboraron el uso de blogs y wikis para probar nuevos teoremas matemáticos (Gowers and Nielsen 2009; Cranshaw and Kittur 2011; Nielsen 2012; Kloumann et al. 2016) . El proyecto PolyMath es en cierto modo similar al Premio Netflix, pero en los participantes del proyecto PolyMath construido de forma más activa en las soluciones parciales de los demás.
Un tercer ejemplo que no encaja bien en mi esquema de categorización es movilizaciones dependientes del tiempo, como la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) Desafío de la red (es decir, el desafío globo rojo). Para más información sobre estos tiempos sensibles movilizaciones ver Pickard et al. (2011) , Tang et al. (2011) , y Rutherford et al. (2013) .
El término "computación humana" sale del trabajo realizado por científicos de la computación, y entender el contexto de iniciar esta investigación va a mejorar su capacidad para recoger los problemas que podrían ser susceptibles a ella. Para ciertas tareas, las computadoras son increíblemente potente con capacidades muy superiores a los seres humanos, incluso los expertos. Por ejemplo, en el ajedrez, las computadoras pueden superar incluso los mejores maestros grandes. Pero -y esto es menos apreciado por los científicos sociales-para otras tareas, las computadoras son en realidad mucho peor que la gente. En otras palabras, en este momento usted es mejor que incluso el equipo más sofisticado en ciertas tareas de procesamiento de imágenes, vídeo, audio y texto. Por lo tanto, como se puso de manifiesto por una maravillosa historieta xkcd-hay tareas que son fáciles para los ordenadores y difícil para la gente, pero también hay tareas que son difíciles para las computadoras y fácil para las personas (Figura 5.13). Los científicos informáticos que trabajan en estos duros-para-ordenadores-fácil-de-tareas humanas, por lo tanto, se dieron cuenta de que podían incluir a los humanos en su proceso de cálculo. Así es como Luis von Ahn (2005) describe la computación humana cuando se acuñó por primera vez el término en su disertación: "un paradigma para la utilización de la potencia de procesamiento humano para resolver problemas que los ordenadores no pueden resolver."
Según esta definición Foldit -que he descrito en el apartado de las llamadas abiertas-podría ser considerado un proyecto de computación humana. Sin embargo, elijo categorizar Foldit como una convocatoria abierta, ya que requiere conocimientos especializados y toma la mejor solución contribuyó en lugar de utilizar un aplicarán-combine-split estrategia.
Para un excelente tratamiento longitud libro de computación humana, en el sentido más general del término, véase Law and Ahn (2011) . El capítulo 3 de Law and Ahn (2011) tiene una interesante discusión de combinar los pasos más complejos que los de este capítulo.
El término "-aplicar-se combinan dividido" fue utilizado por Wickham (2011) para describir una estrategia para el cálculo estadístico, sino que capta a la perfección el proceso de muchos proyectos de computación humana. El-aplicar-combinar división estrategia es similar al marco MapReduce desarrollado en Google (Dean and Ghemawat 2004; Dean and Ghemawat 2008) .
Dos proyectos de cálculo humanos inteligentes que yo no tenía espacio para discutir son el ESP Game (Ahn and Dabbish 2004) y reCAPTCHA (Ahn et al. 2008) . Ambos proyectos encontraron formas creativas para motivar a los participantes para proporcionar etiquetas en las imágenes. Sin embargo, ambos de estos proyectos también plantearon cuestiones éticas, ya que, a diferencia de Galaxy Zoo, los participantes en el Juego de ESP y reCAPTCHA no sabían cómo se estaba utilizando sus datos (Lung 2012; Zittrain 2008) .
Inspirado por el ESP Game, muchos investigadores han intentado desarrollar otros "juegos con un propósito" (Ahn and Dabbish 2008) (es decir, "juegos de computación basada en humanos" (Pe-Than, Goh, and Lee 2015) ) que puede ser utilizado para resolver una variedad de otros problemas. Lo que estos "juegos con un propósito" tienen en común es que ellos tratan de hacer las tareas de computación humana agradable. Por lo tanto, mientras que el ESP Game comparte la misma fracción de aplicar-se combinan con la estructura de Galaxy Zoo, se diferencia en la manera de los participantes motivados-diversión vs deseo de ayudar a la ciencia.
Mi descripción de Galaxy Zoo recurre a Nielsen (2012) , Adams (2012) , Clery (2011) , y Hand (2010) , y se simplificó mi presentación de los objetivos de investigación de Galaxy Zoo. Para más información sobre la historia de la clasificación de galaxias en la astronomía y cómo Galaxy Zoo continúa esta tradición, véase Masters (2012) y Marshall, Lintott, and Fletcher (2015) . Sobre la base de Galaxy Zoo, los investigadores completó Galaxy Zoo 2, que recoge más de 60 millones más de las clasificaciones morfológicas complejas a partir de voluntarios (Masters et al. 2011) . Además, como nueva actividad en problemas fuera de la morfología de la galaxia incluyendo la exploración de la superficie de la luna, la búsqueda de planetas, y transcribir documentos antiguos. En la actualidad, todos sus proyectos se recogen en www.zooniverse.org (Cox et al. 2015) . Uno de los proyectos de instantáneas Serengeti-proporciona evidencia de que tipo Zoo Galaxy proyectos de clasificación de imágenes también se puede hacer a la investigación medioambiental (Swanson et al. 2016) .
Para los investigadores planean utilizar un mercado de trabajo de micro-tarea (por ejemplo, Amazon Mechanical Turk) para un proyecto de computación humana, Chandler, Paolacci, and Mueller (2013) y Wang, Ipeirotis, and Provost (2015) ofrecen buenos consejos sobre el diseño de tareas y otros temas relacionados.
Los investigadores interesados en la creación de lo que he llamado los sistemas de computación humano de segunda generación (por ejemplo, los sistemas que utilizan etiquetas humanos para entrenar un modelo de aprendizaje automático) podrían estar interesados en Shamir et al. (2014) (por ejemplo, el uso de audio) y Cheng and Bernstein (2015) . Además, estos proyectos se pueden hacer con las llamadas abiertas, por lo que los investigadores compiten para crear modelos de aprendizaje automático con el mayor rendimiento predictivo. Por ejemplo, el equipo de Galaxy Zoo corrió una convocatoria abierta y encontró un nuevo enfoque que superó a la desarrollada en Banerji et al. (2010) ; ver Dieleman, Willett, and Dambre (2015) para más detalles.
Convocatorias abiertas no son nuevos. De hecho, una de las convocatorias más conocidos se remonta a 1714 cuando el parlamento británico creó el Premio Longitud para cualquier persona que pudiera desarrollar una forma de determinar la longitud de un barco en alta mar. El problema perplejo a muchos de los más grandes científicos de la época, por ejemplo, Isaac Newton, y la solución ganadora fue finalmente presentada por un relojero del campo que se acercó al problema de manera diferente de los científicos que se centran en una solución que de alguna manera implicaría la astronomía (Sobel 1996) . Como ilustra este ejemplo, una de las razones que se cree que las llamadas abiertas para trabajar tan bien es que proporcionan el acceso a personas con diferentes perspectivas y habilidades (Boudreau and Lakhani 2013) . Ver Hong and Page (2004) y la Page (2008) para más información sobre el valor de la diversidad en la resolución de problemas.
Cada uno de los casos de llamadas abiertas en el capítulo requiere un poco de explicación adicional de por qué pertenece a esta categoría. En primer lugar, de una manera que yo distingo entre la computación humana y los proyectos de convocatoria abierta es si la salida es un promedio de todas las soluciones (computación humana) o la mejor solución (convocatoria abierta). El Premio Netflix es un poco complicado en este sentido porque la mejor solución resultó ser un medio sofisticado de soluciones individuales, se acercó a una llama una solución de conjunto (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Desde la perspectiva de Netflix, sin embargo, todo lo que tenían que hacer era elegir la mejor solución.
En segundo lugar, por algunas definiciones de computación humana (por ejemplo, Von Ahn (2005) ), Foldit debe considerarse como un proyecto de computación humana. Sin embargo, elijo categorizar Foldit como una convocatoria abierta, ya que requiere conocimientos especializados y toma la mejor solución contribuyó, en lugar de utilizar un aplicarán-combine-split estrategia.
Por último, se podría argumentar que Peer-to-patente es un ejemplo de la recopilación de datos distribuida. Elijo incluirlo como una convocatoria abierta, ya que tiene una estructura similar a concurso y sólo se usan las mejores contribuciones (mientras que con la recolección de datos distribuida, la idea de las contribuciones buenos y malos es menos claro).
Para más información sobre el Premio Netflix, véase Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , y Feuerverger, He, and Khatri (2012) . Para más información sobre Foldit ver, Cooper et al. (2010) , Andersen et al. (2012) , y Khatib et al. (2011) ; mi descripción de Foldit se basa en descripciones de Nielsen (2012) , Bohannon (2009) , y Hand (2010) . Para más información sobre Peer-to-Patentes, ver Noveck (2006) , Bestor and Hamp (2010) , Ledford (2007) , y Noveck (2009) .
Similar a los resultados de Glaeser et al. (2016) , Mayer-Schönberger and Cukier (2013) , Capítulo 10 informes grandes ganancias en la productividad de los inspectores de vivienda en la ciudad de Nueva York, cuando las inspecciones se guían por modelos predictivos. En la ciudad de Nueva York, estos modelos predictivos fueron construidas por los empleados de la ciudad, pero en otros casos, uno podría imaginar que se podrían crear o mejorar con llamadas abiertas (por ejemplo, Glaeser et al. (2016) ). Sin embargo, una preocupación importante con los modelos de predicción que se utilizan para asignar recursos es que los modelos tienen el potencial para reforzar prejuicios existentes. Muchos investigadores ya saben "entra basura, sale basura", y con los modelos predictivos que pueden ser "sesgo en, el sesgo hacia fuera." Ver Barocas and Selbst (2016) y O'Neil (2016) para más información sobre los peligros de los modelos predictivos construidos con datos de entrenamiento sesgados.
Uno de los problemas que podrían impedir que los gobiernos mediante concursos abiertos es que requiere la publicación de datos, lo que podría dar lugar a violaciónes de privacidad. Para más información acerca de la privacidad y la publicación de los datos de las llamadas abiertas ver Narayanan, Huey, and Felten (2016) y la discusión en el capítulo 6.
Mi descripción de eBird se basa en descripciones en Bhattacharjee (2005) y Robbins (2013) . Para más información sobre cómo los investigadores utilizan modelos estadísticos para analizar los datos eBird ver Hurlbert and Liang (2012) y Fink et al. (2010) . Para más información sobre la historia de la ciencia ciudadana en ornothology, ver Greenwood (2007) .
Para más información sobre el Proyecto de Revistas Malawi, véase Watkins and Swidler (2009) y Kaler, Watkins, and Angotti (2015) . Y para más de un proyecto relacionado en Sudáfrica, ver Angotti and Sennott (2015) . Para más ejemplos de investigación utilizando los datos del Proyecto Malawi Diarios ver Kaler (2004) y Angotti et al. (2014) .
Mi acercamiento a ofrecer consejos diseño era inductivo, basado en los ejemplos de éxito y no proyectos de colaboración en masa que he oído hablar. También hay una corriente de investigación trata de aplicar las teorías psicológicas sociales más generales para el diseño de las comunidades en línea que es relevante para el diseño de proyectos de colaboración en masa, véase, por ejemplo, Kraut et al. (2012) .
En cuanto a los participantes que motivan, en realidad es bastante difícil de averiguar exactamente por qué las personas participan en proyectos de colaboración de masas (Nov, Arazy, and Anderson 2011; Cooper et al. 2010, Raddick et al. (2013) ; Tuite et al. 2011; Preist, Massung, and Coyle 2014) . Si va a motivar a los participantes con el pago de un mercado de trabajo de micro-tarea (por ejemplo, Amazon Mechanical Turk) Kittur et al. (2013) ofrece algunos consejos.
En cuanto a que permite sorpresa, para más ejemplos de descubrimientos inesperados que salen de proyectos zooniverse, véase Marshall, Lintott, and Fletcher (2015) .
En cuanto a ser ético, algunas buenas introducciones generales a las cuestiones en juego son Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) , y Zittrain (2008) . Para cuestiones relacionadas específicamente con problemas legales con los empleados muchedumbre, ver Felstiner (2011) . O'Connor (2013) se dirige a preguntas sobre la supervisión ética de la investigación, cuando los papeles de los investigadores y los participantes desdibujan. Para cuestiones relacionadas con el intercambio de datos al tiempo que protege participats en proyectos de ciencia ciudadana, ver Bowser et al. (2014) . Tanto Purdam (2014) y Windt and Humphreys (2016) tienen una cierta discusión sobre los problemas éticos en la recopilación de datos distribuida. Por último, la mayoría de los proyectos reconocen las contribuciones, pero no dan crédito de autor a los participantes. En Foldit, los jugadores de Foldit se enumeran a menudo como un autor (Cooper et al. 2010; Khatib et al. 2011) . En otros proyectos de convocatoria abierta, el contribuyente ganar con frecuencia puede escribir un artículo que describe sus soluciones (por ejemplo, Bell, Koren, and Volinsky (2010) y Dieleman, Willett, and Dambre (2015) ). En la familia Galaxy Zoo de proyectos, colaboradores muy activos e importantes a veces son invitados a ser co-autores en los papeles. Por ejemplo, Ivan Terentev y Tim Matorny, dos participantes Galaxy Zoo Radio de Rusia, fueron co-autores en uno de los documentos que surgieron de ese proyecto (Banfield et al. 2016; Galaxy Zoo 2016) .