Colaborarea în masă îmbină ideile din domeniul științei cetățenilor , al mulțimii și al inteligenței colective . Știința cetățenilor înseamnă, de obicei, implicarea în procesul științific a "cetățenilor" (adică, a nespecialiștilor); pentru mai multe, a se vedea Crain, Cooper, and Dickinson (2014) și Bonney et al. (2014) . Crowdsourcing înseamnă, de obicei, că trebuie să rezolvi o problemă rezolvată în mod obișnuit în cadrul unei organizații și să o externalizați într-o mulțime; pentru mai mult, a se vedea Howe (2009) . Inteligența colectivă înseamnă de obicei grupuri de indivizi care acționează colectiv în moduri care par inteligente; pentru mai multe, vezi Malone and Bernstein (2015) . Nielsen (2012) este o introducere în cartea de lungă durată a puterii de colaborare în masă pentru cercetarea științifică.
Există multe tipuri de colaborare în masă care nu se încadrează perfect în cele trei categorii pe care le-am propus și cred că trei dintre acestea merită o atenție deosebită deoarece ar putea fi utile în cercetarea socială. Un exemplu este piețele de predicție, în care participanții cumpără și comercializează contracte care pot fi rambursate pe baza rezultatelor care apar în lume. Piețele de predicție sunt adesea folosite de firme și guverne pentru prognoză și au fost, de asemenea, folosite de cercetătorii sociali pentru a prezice replicabilitatea studiilor publicate în psihologie (Dreber et al. 2015) . Pentru o prezentare generală a piețelor de predicție, a se vedea Wolfers and Zitzewitz (2004) și Arrow et al. (2008) .
Un al doilea exemplu care nu se încadrează bine în schema mea de clasificare este proiectul PolyMath, în cadrul căruia cercetătorii au colaborat folosind bloguri și wiki-uri pentru a demonstra noi teze de matematică. Proiectul PolyMath este în unele privințe similar cu premiul Netflix, dar în acest proiect participanții au mai construit mai mult pe soluțiile parțiale ale altora. Pentru mai multe despre proiectul PolyMath, vezi Gowers and Nielsen (2009) , Cranshaw and Kittur (2011) , Nielsen (2012) și Kloumann et al. (2016) .
Un al treilea exemplu care nu se încadrează bine în schema mea de clasificare este cel al mobilizărilor dependente de timp, cum ar fi Provocarea de rețea a Agenției Proiectelor de Cercetare pentru Advanced Defense Research (DARPA) (de exemplu, Challenge Balloon Red). Pentru mai multe despre aceste mobilizări sensibile la timp, a se vedea Pickard et al. (2011) , Tang et al. (2011) și Rutherford et al. (2013) .
Termenul de "calcul uman" iese din munca făcută de oamenii de știință de pe computer, iar înțelegerea contextului din spatele acestei cercetări va îmbunătăți abilitatea dvs. de a alege problemele care ar putea fi potrivite pentru aceasta. Pentru anumite sarcini, calculatoarele sunt incredibil de puternice, cu capacități mult mai mari decât cele ale unor oameni experimentați. De exemplu, în șah, computerele pot bate chiar și cei mai buni maeștri. Dar - și acest lucru este mai puțin apreciat de oamenii de știință sociali - pentru alte sarcini, computerele sunt de fapt mult mai rele decât oamenii. Cu alte cuvinte, acum sunteți mai bine decât cel mai sofisticat calculator, la anumite sarcini care implică procesarea imaginilor, a videoclipurilor, a sunetului și a textului. Oamenii de știință din calculatoare care lucrează la aceste sarcini grele pentru computere, ușor de înțeles pentru oameni, au realizat că ar putea include oamenii în procesul lor de calcul. Iată cum Luis von Ahn (2005) descris calculul uman atunci când a inventat pentru prima dată termenul în disertația sa: "o paradigmă pentru utilizarea puterii de procesare a omului pentru a rezolva problemele pe care computerele nu le pot rezolva încă." Pentru un tratament de lungă durată al calculelor umane, cel mai general sens al termenului, vezi Law and Ahn (2011) .
Conform definiției propuse în Ahn (2005) Foldit - pe care l-am descris în secțiunea privind apelurile deschise - ar putea fi considerat un proiect de calcul uman. Cu toate acestea, aleg să clasifică Foldit ca pe un apel deschis, deoarece necesită abilități de specialitate (deși nu este necesar formarea formală) și ia cea mai bună soluție contribuită, mai degrabă decât folosind o strategie split-apply-combine.
Termenul "split-apply-combine" a fost folosit de Wickham (2011) pentru a descrie o strategie de calcul statistic, dar captează perfect procesul multor proiecte de calcul umane. Strategia split-apply-combine este similară cu cadrul MapReduce dezvoltat la Google; pentru mai multe informații despre MapReduce, vezi Dean and Ghemawat (2004) și Dean and Ghemawat (2008) . Pentru mai multe despre alte arhitecturi de calcul distribuite, a se vedea Vo and Silvia (2016) . Capitolul 3 al Law and Ahn (2011) are o discuție despre proiectele cu pași mai complexi decât cei din acest capitol.
În proiectele de calcul uman pe care le-am discutat în capitol, participanții au fost conștienți de ceea ce se întâmpla. Unele alte proiecte, totuși, încearcă să surprindă "munca" care se întâmplă deja (similar cu eBird) și fără conștientizarea participanților. A se vedea, de exemplu, jocul ESP (Ahn and Dabbish 2004) și reCAPTCHA (Ahn et al. 2008) . Cu toate acestea, ambele proiecte ridică, de asemenea, întrebări etice deoarece participanții nu știu cum au fost utilizate datele lor (Zittrain 2008; Lung 2012) .
Inspirat de jocul ESP, mulți cercetători au încercat să dezvolte alte "jocuri cu un scop" (Ahn and Dabbish 2008) (adică "jocuri de calcul umane" (Pe-Than, Goh, and Lee 2015) ) care pot fi folosit pentru a rezolva o serie de alte probleme. Ceea ce au în comun aceste "jocuri cu un scop" este că încearcă să facă plăcut sarcinile implicate în calculul uman. Astfel, în timp ce jocul ESP împarte aceeași structură de split-apply-combine cu Galaxy Zoo, acesta diferă în modul în care participanții sunt motivați - distracție față de dorința de a ajuta știința. Pentru mai multe despre jocurile cu un scop, a se vedea Ahn and Dabbish (2008) .
Descrierea mea de Galaxy Zoo se bazează pe Nielsen (2012) , Adams (2012) , Clery (2011) și Hand (2010) , iar prezentarea obiectivelor de cercetare ale Galaxy Zoo a fost simplificată. Pentru mai multe informații despre istoria clasificării galaxiilor în astronomie și despre modul în care Galaxy Zoo continuă această tradiție, consultați Masters (2012) și Marshall, Lintott, and Fletcher (2015) . Bazându-se pe Galaxy Zoo, cercetătorii au completat Galaxy Zoo 2, care a colectat mai mult de 60 de milioane de clasificări morfologice mai complexe de la voluntari (Masters et al. 2011) . Mai mult, s-au dezvoltat probleme în afara morfologiei galaxiilor, inclusiv explorarea suprafeței Lunii, căutarea planetelor și transcrierea documentelor vechi. În prezent, toate proiectele lor sunt colectate pe site-ul Zooniverse (Cox et al. 2015) . Unul dintre proiectele Snapshot Serengeti oferă dovezi că proiectele de clasificare a imaginilor de tip Galaxy Zoo pot fi de asemenea făcute pentru cercetarea în domeniul mediului (Swanson et al. 2016) .
Pentru cercetătorii care intenționează să utilizeze o piață a muncii microtask (de exemplu, Amazon Mechanical Turk) pentru un proiect de calcul uman, Chandler, Paolacci, and Mueller (2013) și J. Wang, Ipeirotis, and Provost (2015) alte aspecte conexe. Porter, Verdery, and Gaddis (2016) oferă exemple și sfaturi axate în special pe utilizările piețelor muncii microtask pentru ceea ce numesc "augmentarea datelor". Linia dintre augmentarea datelor și colectarea datelor este oarecum neclară. Pentru mai multe informații despre colectarea și utilizarea etichetelor pentru învățarea supravegheată pentru text, a se vedea Grimmer and Stewart (2013) .
Cercetătorii interesați în crearea a ceea ce am numit sisteme computerizate asistate de calculator (de exemplu, sistemele care utilizează etichete umane pentru a pregăti un model de învățare a mașinilor) ar putea fi interesate de Shamir et al. (2014) (pentru un exemplu folosind audio) și Cheng and Bernstein (2015) . De asemenea, modelele de învățare automată din aceste proiecte pot fi solicitate prin apeluri deschise, prin care cercetătorii concurează pentru a crea modele de învățare mecanică cu cea mai mare performanță predictivă. De exemplu, echipa Galaxy Zoo a lansat un apel deschis și a găsit o nouă abordare care a depășit performanța dezvoltată de Banerji et al. (2010) ; vezi Dieleman, Willett, and Dambre (2015) pentru detalii.
Apelurile deschise nu sunt noi. De fapt, unul dintre cele mai cunoscute cereri deschise datează din 1714, când Parlamentul britanic a creat Premiul pentru Longitudine pentru oricine ar putea dezvolta un mod de determinare a longitudinii unei nave pe mare. Problema a lovit mulți dintre cei mai buni oameni de știință ai zilelor, inclusiv Isaac Newton, iar soluția câștigătoare a fost în cele din urmă depusă de John Harrison, un ceasornicar din mediul rural care a abordat problema diferit de oamenii de știință care s-au concentrat asupra unei soluții care ar implica cumva astronomia ; pentru mai multe informații, a se vedea Sobel (1996) . După cum ilustrează acest exemplu, un motiv pentru care apelurile deschise sunt considerate a funcționa atât de bine este că oferă acces la persoane cu perspective și abilități diferite (Boudreau and Lakhani 2013) . Vezi Hong and Page (2004) și Page (2008) pentru mai multe despre valoarea diversității în rezolvarea problemelor.
Fiecare dintre cazurile de apel deschise din capitol necesită o explicație suplimentară pentru motivul pentru care aparține acestei categorii. În primul rând, o modalitate prin care distingem între calculul uman și proiectele de apel deschis este dacă producția este o medie a tuturor soluțiilor (calculul uman) sau cea mai bună soluție (apel deschis). Premiul Netflix este oarecum dificil în această privință, deoarece cea mai bună soluție sa dovedit a fi o medie sofisticată a soluțiilor individuale, o abordare numită soluție de ansamblu (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Din perspectiva Netflix, totuși, tot ce trebuia să facă era să aleagă cea mai bună soluție. Pentru mai multe detalii despre premiul Netflix, vezi Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) și Feuerverger, He, and Khatri (2012) .
În al doilea rând, prin unele definiții ale calculelor umane (de exemplu, Ahn (2005) ), Foldit ar trebui considerat un proiect de calcul uman. Cu toate acestea, am ales să-l clasificăm ca un apel deschis, deoarece necesită abilități de specialitate (deși nu este neapărat o pregătire specializată) și ia cea mai bună soluție decât să utilizeze o strategie de tip split-apply-combine. Pentru mai multe despre Foldit vezi, Cooper et al. (2010) , Khatib et al. (2011) , și Andersen et al. (2012) ; descrierea mea de Foldit se bazează pe descrieri în Bohannon (2009) , Hand (2010) și Nielsen (2012) .
În cele din urmă, se poate susține că Peer-to-Patent este un exemplu de colectare a datelor distribuite. Am ales să o includ ca pe un apel deschis deoarece are o structură de tip concurs și sunt utilizate numai cele mai bune contribuții, în timp ce cu colectarea datelor distribuite ideea de contribuții bune și rele este mai puțin clară. Pentru mai multe despre Peer-to-Patent, vezi Noveck (2006) , Ledford (2007) , Noveck (2009) și Bestor and Hamp (2010) .
În ceea ce privește utilizarea apelurilor deschise în cercetarea socială, rezultate similare cu cele ale lui Glaeser et al. (2016) , sunt raportate în capitolul 10 din Mayer-Schönberger and Cukier (2013) prin care New York City a reușit să utilizeze modelarea predictivă pentru a produce câștiguri mari în productivitatea inspectorilor de locuințe. În New York City, aceste modele predictive au fost construite de angajații orașelor, dar în alte cazuri, se poate imagina că ar putea fi create sau îmbunătățite prin apeluri deschise (de exemplu, Glaeser et al. (2016) ). Cu toate acestea, o preocupare majoră cu utilizarea modelelor predictive pentru alocarea resurselor este că aceste modele au potențialul de a consolida părtinile existente. Mulți cercetători știu deja "gunoi în, gunoi" și cu modele predictive poate fi "părtinire, părtinire". Vezi Barocas and Selbst (2016) și O'Neil (2016) pentru mai multe despre pericolele modelelor predictive construite cu date de instruire părtinitoare.
O problemă care ar putea împiedica guvernele să utilizeze concursuri deschise este că acest lucru necesită eliberarea de date, ceea ce ar putea duce la încălcări ale confidențialității. Pentru mai multe informații despre confidențialitatea și eliberarea datelor în apelurile deschise, consultați Narayanan, Huey, and Felten (2016) și discuția din capitolul 6.
Pentru mai multe despre diferențele și asemănările dintre predicție și explicație, a se vedea Breiman (2001) , Shmueli (2010) , Watts (2014) și Kleinberg et al. (2015) . Pentru mai multe detalii cu privire la rolul de predicție în cercetarea socială, a se vedea Athey (2017) , Cederman and Weidmann (2017) , Hofman, Sharma, and Watts (2017) , ( ??? ) , și Yarkoni and Westfall (2017) .
Pentru o revizuire a proiectelor de apeluri deschise în biologie, inclusiv sfaturi de proiectare, a se vedea Saez-Rodriguez et al. (2016) .
Descrierea mea de eBird se bazează pe descrieri în Bhattacharjee (2005) , Robbins (2013) și Sullivan et al. (2014) . Pentru mai multe informații despre modul în care cercetătorii folosesc modele statistice pentru a analiza datele eBird, a se vedea Fink et al. (2010) și Hurlbert and Liang (2012) . Pentru mai multe informații despre estimarea abilităților participanților la eBird, a se vedea Kelling, Johnston, et al. (2015) . Pentru mai multe informații despre istoria științei cetățenilor în ornitologie, consultați Greenwood (2007) .
Pentru mai multe detalii despre Proiectul Malawi Journals, vezi Watkins and Swidler (2009) și Kaler, Watkins, and Angotti (2015) . Pentru mai multe despre un proiect conex în Africa de Sud, a se vedea Angotti and Sennott (2015) . Pentru mai multe exemple de cercetare care utilizează date din Proiectul Jurnalului din Malawi, vezi Kaler (2004) și Angotti et al. (2014) .
Abordarea mea de a oferi sfaturi de design a fost inductivă, bazată pe exemplele de proiecte de colaborare de succes și de succes pe care le-am auzit. A existat, de asemenea, un flux de încercări de cercetare pentru a aplica teorii mai generale psihologice sociale la proiectarea comunităților online care este relevantă pentru proiectarea proiectelor de colaborare în masa, a se vedea, de exemplu, Kraut et al. (2012) .
În ceea ce privește motivarea participanților, este destul de dificil să se (Cooper et al. 2010; Nov, Arazy, and Anderson 2011; Tuite et al. 2011; Raddick et al. 2013; Preist, Massung, and Coyle 2014) exact de ce oamenii participă la proiectele de colaborare în masă (Cooper et al. 2010; Nov, Arazy, and Anderson 2011; Tuite et al. 2011; Raddick et al. 2013; Preist, Massung, and Coyle 2014) . Dacă intenționați să motivați participanții cu plata pe o piață a forței de muncă microtasc (de exemplu, Amazon Mechanical Turk), Kittur et al. (2013) oferă câteva sfaturi.
În ceea ce privește surprinderea, pentru mai multe exemple de descoperiri neașteptate care provin din proiectele Zooiverse, vezi Marshall, Lintott, and Fletcher (2015) .
În ceea ce privește etica, câteva introduceri generale la problemele implicate sunt Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) și Zittrain (2008) . Pentru aspecte legate în mod specific de probleme juridice cu angajații mulțimii, a se vedea Felstiner (2011) . O'Connor (2013) abordează întrebări privind supravegherea etică a cercetării atunci când rolurile rolurilor cercetătorilor și participanților se estompează. Pentru problemele legate de schimbul de date, protejând în același timp participanții la proiectele științifice ale cetățenilor, a se vedea Bowser et al. (2014) . Atât Purdam (2014) și Windt and Humphreys (2016) au o discuție despre problemele etice în colectarea datelor distribuite. În cele din urmă, majoritatea proiectelor recunosc contribuțiile, dar nu dau credit participanților. În Foldit, jucătorii sunt adesea enumerați ca autori (Cooper et al. 2010; Khatib et al. 2011) . În alte proiecte de apel deschis, contribuabilul câștigător poate scrie adesea un document care descrie soluțiile lor (de exemplu, Bell, Koren, and Volinsky (2010) și Dieleman, Willett, and Dambre (2015) ).