La col·laboració en massa combina idees de ciència ciutadana , crowdsourcing i intel·ligència col·lectiva . La ciència ciutadana sol implicar la participació de "ciutadans" (és a dir, no científics) en el procés científic; Per obtenir més informació, vegeu Crain, Cooper, and Dickinson (2014) i Bonney et al. (2014) . Crowdsourcing sol dir prendre un problema que normalment es resol dins d'una organització i, en canvi, externalitzar-lo a una multitud; Per obtenir més informació, consulteu Howe (2009) . La intel·ligència col·lectiva sol dir que els grups d'individus actuen col·lectivament de maneres que semblen intel·ligents; Per obtenir més informació, consulteu Malone and Bernstein (2015) . Nielsen (2012) és una introducció bibliogràfica al poder de la col · laboració massiva per a la investigació científica.
Hi ha molts tipus de col · laboració massiva que no encaixen perfectament en les tres categories que he proposat, i crec que tres d'aquestes mereixen una atenció especial perquè podrien ser útils en la recerca social. Un exemple són els mercats de predicció, on els participants compren i comercialitzen contractes que es poden bescanviar segons els resultats que es produeixen al món. Els mercats previsibles sovint són utilitzats per empreses i governs per a la predicció, i també els investigadors socials han utilitzat per predir la replicabilitat dels estudis publicats en psicologia (Dreber et al. 2015) . Per obtenir una visió general dels mercats de predicció, vegeu Wolfers and Zitzewitz (2004) i Arrow et al. (2008) .
Un segon exemple que no encaixa perfectament en el meu esquema de categorització és el projecte PolyMath, on els investigadors col·laboraven amb blocs i wikis per demostrar nous teoremes de matemàtiques. El projecte PolyMath és d'alguna manera similar al Premi Netflix, però en aquest projecte els participants es van integrar de forma més activa en les solucions parcials d'altres. Per obtenir més informació sobre el projecte PolyMath, vegeu Gowers and Nielsen (2009) , Cranshaw and Kittur (2011) , Nielsen (2012) i Kloumann et al. (2016) .
Un tercer exemple que no encaixa perfectament en el meu esquema de categorització és el de les mobilitzacions dependents del temps, com ara el desafiament de xarxa de l'Agència de Projectes avançats de recerca (DARPA) (és a dir, el desafiament de globus vermells). Per obtenir més informació sobre aquestes mobilitzacions sensibles al temps, vegeu Pickard et al. (2011) , Tang et al. (2011) , i Rutherford et al. (2013) .
El terme "computació humana" surt del treball realitzat per científics informàtics i, per comprendre el context d'aquesta recerca, millorarà la seva capacitat per esbrinar els problemes que poden ser adequats per a això. Per a determinades tasques, les computadores són increïblement poderoses, amb capacitats molt superiors a les d'humans experts fins i tot. Per exemple, en l'escacs, les computadores poden guanyar fins i tot els millors mestres. Però, i això és menys ben valorat pels científics socials, per a altres tasques, les computadores són molt pitjors que les persones. En altres paraules, ara mateix és millor que fins i tot l'ordinador més sofisticat en determinades tasques que impliquin processament d'imatges, vídeo, àudio i text. Els científics informàtics que treballen en aquestes tasques difícils de fer per a ordinadors, per tant, són fàcils d'utilitzar, per la qual cosa es va adonar que podrien incloure els humans en el seu procés computacional. Així és com Luis von Ahn (2005) descriure la computació humana quan va inventar el terme en la seva dissertació: "un paradigma per utilitzar el poder de processament humà per resoldre problemes que les computadores encara no poden resoldre". Per a un tractament de la computació humana el sentit més general del terme, vegeu Law and Ahn (2011) .
Segons la definició proposada en Ahn (2005) Foldit -que he descrit a la secció sobre trucades obertes- podria considerar-se com un projecte de computació humana. Tanmateix, tria categoritzar Foldit com una convocatòria oberta perquè requereix habilitats especialitzades (encara que no necessàriament formatives formals) i pren la millor solució aportar, en comptes d'utilitzar una estratègia de combinació dividida.
El terme "split-apply-combine" va ser utilitzat per Wickham (2011) per descriure una estratègia de computació estadística, però captura perfectament el procés de molts projectes de computació humana. L'estratègia de combinació dividida s'aplica similar al marc MapReduce desenvolupat a Google; Per obtenir més informació sobre MapReduce, vegeu Dean and Ghemawat (2004) i Dean and Ghemawat (2008) . Per obtenir més informació sobre altres arquitectures de computació distribuïda, consulteu Vo and Silvia (2016) . El capítol 3 de Law and Ahn (2011) té una discussió de projectes amb passos combinats més complexos que els d'aquest capítol.
En els projectes de computació humana que he discutit al capítol, els participants sabien què estava passant. Alguns altres projectes, tanmateix, busquen captar "treball" que ja està passant (similar a eBird) i sense consciència dels participants. Vegeu, per exemple, el joc ESP (Ahn and Dabbish 2004) i reCAPTCHA (Ahn et al. 2008) . Tanmateix, aquests dos projectes també plantegen qüestions ètiques perquè els participants no sabien com s'utilitzaven les seves dades (Zittrain 2008; Lung 2012) .
Inspirats en el joc ESP, molts investigadors han intentat desenvolupar altres "jocs amb finalitat" (Ahn and Dabbish 2008) (és a dir, "jocs de computació basats en humans" (Pe-Than, Goh, and Lee 2015) ) que poden ser s'utilitza per resoldre una varietat d'altres problemes. El que tenen en comú aquests "jocs amb finalitat" és que intenten fer que les tasques de la computació humana siguin agradables. Així, mentre el joc ESP comparteix la mateixa estructura de combinació dividida amb Galaxy Zoo, es diferencia en la motivació dels participants: diversió versus desig d'ajudar a la ciència. Per obtenir més informació sobre els jocs amb un propòsit, vegeu Ahn and Dabbish (2008) .
La meva descripció del Galaxy Zoo es basa en Nielsen (2012) , Adams (2012) , Clery (2011) i Hand (2010) , i la meva presentació dels objectius d'investigació del Galaxy Zoo es va simplificar. Per obtenir més informació sobre la història de la classificació de galàxies en astronomia i com segueix aquesta tradició el Galaxy Zoo, vegeu Masters (2012) i Marshall, Lintott, and Fletcher (2015) . Partint del Galaxy Zoo, els investigadors van completar el Galaxy Zoo 2 que va recollir més de 60 milions de classificacions morfològiques més complexes de voluntaris (Masters et al. 2011) . A més, es van estendre a problemes fora de la morfologia de galàxies, incloent explorar la superfície de la Lluna, buscar planetes i transcriure documents antics. Actualment, tots els seus projectes es recullen al lloc web de Zooniverse (Cox et al. 2015) . Un dels projectes-Snapshot Serengeti-proporciona proves que els projectes de classificació d'imatges de tipus Galaxy Zoo també es poden fer per a la recerca ambiental (Swanson et al. 2016) .
Per als investigadors que planifiquen utilitzar un mercat laboral microtask (per exemple, Amazon Mechanical Turk) per a un projecte de computació humana, Chandler, Paolacci, and Mueller (2013) i J. Wang, Ipeirotis, and Provost (2015) ofereixen bons consells sobre disseny de tasques i altres problemes relacionats. Porter, Verdery, and Gaddis (2016) ofereixen exemples i assessorament centrats específicament en els usos dels mercats laborals de microtask pel que anomenen "augment de dades". La línia entre l'augment de dades i la recopilació de dades és una mica borrosa. Per obtenir més informació sobre com recopilar i utilitzar etiquetes per a l'aprenentatge supervisat per a text, vegeu Grimmer and Stewart (2013) .
Els investigadors interessats a crear el que he anomenat sistemes de computació humana assistits per ordinador (per exemple, sistemes que utilitzen etiquetes humanes per formar un model d'aprenentatge automàtic) poden estar interessats en Shamir et al. (2014) (per exemple, utilitzant àudio) i Cheng and Bernstein (2015) . A més, els models de màquina d'aprenentatge en aquests projectes es poden sol·licitar amb convocatòries obertes, on els investigadors competeixen per crear models d'aprenentatge automàtic amb el major rendiment predictiu. Per exemple, l'equip del Galaxy Zoo va executar una trucada oberta i va trobar un nou enfocament que va superar el desenvolupat a Banerji et al. (2010) ; vegeu Dieleman, Willett, and Dambre (2015) per obtenir més informació.
Les trucades obertes no són noves. De fet, una de les convocatòries obertes més conegudes es remunta a 1714 quan el Parlament de Gran Bretanya va crear el Premi Longitud per a qualsevol que pogués desenvolupar una manera de determinar la longitud d'un vaixell al mar. El problema va superar a molts dels millors científics d'avui, inclòs Isaac Newton, i la solució guanyadora va ser finalment presentada per John Harrison, un rellotger del camp que es va acostar al problema d'una manera diferent als científics que es van centrar en una solució que d'alguna manera implicaria l'astronomia ; Per obtenir més informació, vegeu Sobel (1996) . Tal com mostra aquest exemple, una de les raons per les quals es creu que les trucades obertes funcionen tan bé és que proporcionen accés a persones amb diferents perspectives i habilitats (Boudreau and Lakhani 2013) . Vegeu Hong and Page (2004) i Page (2008) per obtenir més informació sobre el valor de la diversitat en la resolució de problemes.
Cadascun dels casos de convocatòria oberta del capítol requereix una mica més d'explicació per què pertany a aquesta categoria. En primer lloc, una manera de distingir entre computació humana i projectes de convocatòries obertes és si la producció és una mitjana de totes les solucions (computació humana) o la millor solució (trucada oberta). El Premi Netflix és alguna cosa complicat en aquest sentit, perquè la millor solució va resultar ser una sofisticada mitjana de solucions individuals, un enfocament anomenat conjunt de solucions (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Des de la perspectiva de Netflix, però, tot el que havia de fer era triar la millor solució. Per obtenir més informació sobre el Premi Netflix, vegeu Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , i Feuerverger, He, and Khatri (2012) .
En segon lloc, per algunes definicions de computació humana (per exemple, Ahn (2005) ), Foldit s'ha de considerar un projecte de computació humana. Tanmateix, tria categoritzar-lo com una convocatòria oberta perquè requereix habilitats especialitzades (encara que no necessàriament d'entrenament especialitzat) i es necessita la millor solució, en comptes d'utilitzar una estratègia de combinació dividida. Per obtenir més informació sobre Foldit, vegeu Cooper et al. (2010) , Khatib et al. (2011) , i Andersen et al. (2012) ; La meva descripció de Foldit es basa en les descripcions de Bohannon (2009) , Hand (2010) i Nielsen (2012) .
Finalment, es podria argumentar que Peer-to-Patent és un exemple de recopilació de dades distribuïda. Tria incloure'l com una convocatòria oberta perquè té una estructura concreta i només s'utilitzen les millors contribucions, mentre que amb la recopilació de dades distribuïda, la idea de contribucions bones i dolentes és menys clara. Per obtenir més informació sobre Peer-to-Patent, vegeu Noveck (2006) , Ledford (2007) , Noveck (2009) i Bestor and Hamp (2010) .
Pel que fa a l'ús de trucades obertes en recerca social, resultats similars als de Glaeser et al. (2016) , es recullen al capítol 10 de Mayer-Schönberger and Cukier (2013) segons el qual la ciutat de Nova York va poder utilitzar models predictius per produir grans guanys en la productivitat dels inspectors d'habitatge. A la ciutat de Nova York, aquests models predictius van ser construïts per empleats de la ciutat, però en altres casos, es podria imaginar que es podrien crear o millorar amb trucades obertes (per exemple, Glaeser et al. (2016) ). Tanmateix, una gran preocupació pels models predictius que s'utilitzen per assignar recursos és que aquests models tenen el potencial de reforçar els biaixos existents. Molts investigadors ja saben "escombraries, escombraries", i amb models predictius poden ser "biaixos, parcialització". Vegeu Barocas and Selbst (2016) i O'Neil (2016) per obtenir més informació sobre els perills dels models predictius construïts amb dades de formació parcials.
Un dels problemes que pot impedir que els governs facin ús de concursos oberts és que això requereix l'alliberament de dades, la qual cosa podria provocar infraccions de privadesa. Per obtenir més informació sobre la privadesa i la publicació de dades en trucades obertes, vegeu Narayanan, Huey, and Felten (2016) i la discussió al capítol 6.
Per obtenir més informació sobre les diferències i similituds entre predicció i explicació, vegeu Breiman (2001) , Shmueli (2010) , Watts (2014) i Kleinberg et al. (2015) . Per a més informació sobre el paper de la predicció en la investigació social, vegeu Athey (2017) , Cederman and Weidmann (2017) , Hofman, Sharma, and Watts (2017) , ( ??? ) , i Yarkoni and Westfall (2017) .
Per a una revisió de projectes de convocatòria oberta en biologia, inclosos els consells de disseny, vegeu Saez-Rodriguez et al. (2016) .
La meva descripció d'eBird es basa en les descripcions de Bhattacharjee (2005) , Robbins (2013) i Sullivan et al. (2014) . Per obtenir més informació sobre com els investigadors utilitzen models estadístics per analitzar dades d'eBird, vegeu Fink et al. (2010) i Hurlbert and Liang (2012) . Per obtenir més informació sobre com calcular l'habilitat dels participants d'eBird, vegeu Kelling, Johnston, et al. (2015) . Per obtenir més informació sobre la història de la ciència ciutadana en ornitologia, vegeu Greenwood (2007) .
Per obtenir més informació sobre el projecte de revistes de Malawi, vegeu Watkins and Swidler (2009) i Kaler, Watkins, and Angotti (2015) . Per obtenir més informació sobre un projecte relacionat a Sud-àfrica, vegeu Angotti and Sennott (2015) . Per obtenir més exemples de recerca que utilitzen dades del projecte de revistes de Malawi, vegeu Kaler (2004) i Angotti et al. (2014) .
El meu enfocament a oferir consells de disseny va ser inductiu, basat en els exemples de projectes de col · laboració massiva amb èxit i fracassats que he escoltat. També hi ha hagut un corrent d'intents d'investigació per aplicar teories psicològiques socials més generals per dissenyar comunitats en línia que siguin rellevants per al disseny de projectes de col · laboració massiva, vegeu, per exemple, Kraut et al. (2012) .
Pel que fa als participants motivadors, en realitat és bastant difícil d'esbrinar exactament per què la gent participa en projectes de col · laboració massiva (Cooper et al. 2010; Nov, Arazy, and Anderson 2011; Tuite et al. 2011; Raddick et al. 2013; Preist, Massung, and Coyle 2014) . Si teniu previst motivar els participants amb el pagament en un mercat laboral de microempresa (per exemple, Amazon Mechanical Turk), Kittur et al. (2013) ofereix alguns consells.
Pel que fa a la possibilitat de sorpresa, per obtenir més exemples de descobriments inesperats sorgits de projectes Zooiverse, vegeu Marshall, Lintott, and Fletcher (2015) .
Pel que fa a l'ètica, algunes bones introduccions generals a les qüestions implicades són Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) i Zittrain (2008) . Per qüestions relacionades específicament amb temes legals amb empleats de la multitud, consulteu Felstiner (2011) . O'Connor (2013) aborda qüestions sobre la supervisió ètica de la recerca quan es desdibuixa el rol dels investigadors i els participants. Per qüestions relacionades amb compartir dades mentre protegeix els participants en projectes de ciència ciutadana, vegeu Bowser et al. (2014) . Tant Purdam (2014) com Windt and Humphreys (2016) tenen una discussió sobre els problemes ètics en la recopilació de dades distribuïdes. Finalment, la majoria dels projectes reconeixen contribucions, però no concedeixen crèdit d'autoria als participants. A Foldit, els jugadors sovint figuren com a autor (Cooper et al. 2010; Khatib et al. 2011) . En altres projectes de convocatòria oberta, el col·laborador guanyador sovint pot escriure un document que descrigui les seves solucions (per exemple, Bell, Koren, and Volinsky (2010) i Dieleman, Willett, and Dambre (2015) ).