Masowa współpraca łączy idee z naukami obywatelskimi , crowdsourcingiem i inteligencją zbiorową . Nauka obywatelska zwykle oznacza angażowanie "obywateli" (tj. Nienaukowców) w proces naukowy; więcej, zobacz Crain, Cooper, and Dickinson (2014) oraz Bonney et al. (2014) . Crowdsourcing zazwyczaj oznacza zwykle rozwiązywanie problemu w ramach organizacji, a zamiast tego zlecanie go tłumowi; więcej, zobacz Howe (2009) . Zbiorowa inteligencja zwykle oznacza grupy jednostek działających kolektywnie w sposób, który wydaje się inteligentny; więcej, zobacz Malone and Bernstein (2015) . Nielsen (2012) jest książkowym wprowadzeniem do potęgi masowej współpracy dla badań naukowych.
Istnieje wiele rodzajów masowej współpracy, które nie pasują dokładnie do trzech kategorii, które zaproponowałem, i myślę, że trzy z nich zasługują na szczególną uwagę, ponieważ mogą być przydatne w badaniach społecznych. Jednym z przykładów są rynki prognostyczne, w których uczestnicy kupują i wymieniają umowy, które są wymienialne na podstawie wyników, które mają miejsce na świecie. Prognozujące rynki są często wykorzystywane przez firmy i rządy do prognozowania, a także są wykorzystywane przez badaczy społecznych do przewidywania możliwości (Dreber et al. 2015) opublikowanych badań w psychologii (Dreber et al. 2015) . Przegląd rynków prognostycznych, patrz Wolfers and Zitzewitz (2004) oraz Arrow et al. (2008) .
Drugim przykładem, który nie pasuje do mojego schematu kategoryzacji, jest projekt PolyMath, w ramach którego badacze współpracowali z blogami i wiki w celu udowodnienia nowych twierdzeń matematycznych. Projekt PolyMath jest pod pewnymi względami podobny do nagrody Netflix, ale w tym projekcie uczestnicy aktywniej opierają się na rozwiązaniach cząstkowych innych osób. Aby uzyskać więcej informacji na temat projektu PolyMath, zobacz Gowers and Nielsen (2009) , Cranshaw and Kittur (2011) , Nielsen (2012) i Kloumann et al. (2016) .
Trzeci przykład, który nie pasuje do mojego schematu kategoryzacji, to mobilizacje zależne od czasu, takie jak Network Defence Projects Agency (DARPA) Network Challenge (np. Red Balloon Challenge). Więcej o tych wrażliwych na czas mobilizacjach zob. Pickard et al. (2011) , Tang et al. (2011) oraz Rutherford et al. (2013) .
Termin "obliczenia ludzkie" wywodzi się z pracy wykonywanej przez informatyków, a zrozumienie kontekstu tego badania poprawi twoją zdolność do wybierania problemów, które mogą być dla niego odpowiednie. W przypadku niektórych zadań komputery są niesamowicie potężne, a ich możliwości znacznie przekraczają możliwości nawet ekspertów. Na przykład w szachach komputery mogą pokonać nawet najlepszych arcymistrzów. Ale - i jest to mniej doceniane przez naukowców społecznych - dla innych zadań komputery są w rzeczywistości dużo gorsze od ludzi. Innymi słowy, teraz jesteś lepszy niż nawet najbardziej wyrafinowany komputer przy niektórych zadaniach związanych z przetwarzaniem obrazów, wideo, audio i tekstu. Informatycy pracujący nad tymi trudnymi komputerami - łatwymi dla człowieka zadaniami zdali sobie sprawę, że mogą włączyć ludzi w ich proces obliczeniowy. Oto, jak Luis von Ahn (2005) opisał ludzkie obliczenia, gdy po raz pierwszy ukuł termin w swojej rozprawie: "paradygmat wykorzystania ludzkiej mocy obliczeniowej do rozwiązywania problemów, których komputery nie potrafią jeszcze rozwiązać". Dla pełnej długości traktowania ludzkich obliczeń, w najbardziej ogólny sens tego terminu, zob. Law and Ahn (2011) .
Zgodnie z definicją zaproponowaną w Ahn (2005) Foldit - którą opisałem w części dotyczącej otwartych połączeń - można uznać za ludzki projekt obliczeniowy. Jednakże, postanawiam kategoryzować Foldit jako otwarte, ponieważ wymaga specjalistycznych umiejętności (choć niekoniecznie formalnego szkolenia) i bierze najlepsze rozwiązanie, zamiast korzystać ze strategii split-apply-combine.
Termin "split-apply-combine" został wykorzystany przez Wickham (2011) do opisania strategii obliczeń statystycznych, ale doskonale oddaje proces wielu ludzkich projektów obliczeniowych. Strategia split-apply-combine jest podobna do struktury MapReduce opracowanej w Google; Aby uzyskać więcej informacji na temat MapReduce, zobacz Dean and Ghemawat (2004) oraz Dean and Ghemawat (2008) . Aby uzyskać więcej informacji na temat innych architektur przetwarzania rozproszonego, zobacz Vo and Silvia (2016) . Rozdział 3 Law and Ahn (2011) omawia projekty o bardziej złożonych etapach łączenia niż te w tym rozdziale.
W projektach obliczeniowych dla ludzi, które omówiłem w rozdziale, uczestnicy byli świadomi tego, co się dzieje. Niektóre inne projekty starają się jednak uchwycić "pracę", która już się dzieje (podobna do eBird) i bez świadomości uczestników. Zobacz na przykład grę ESP (Ahn and Dabbish 2004) i reCAPTCHA (Ahn et al. 2008) . Jednak oba te projekty również podnoszą kwestie etyczne, ponieważ uczestnicy nie wiedzieli, w jaki sposób ich dane są wykorzystywane (Zittrain 2008; Lung 2012) .
Zainspirowani grą ESP, wielu badaczy próbowało opracować inne "gry mające cel" (Ahn and Dabbish 2008) (tj. "Gry obliczeniowe na bazie ludzi" (Pe-Than, Goh, and Lee 2015) ), które mogą być używane do rozwiązywania wielu innych problemów. To, co łączy te "gry z celem", polega na tym, że starają się, aby zadania związane z ludzkim obliczaniem były przyjemne. Tak więc, podczas gdy gra ESP dzieli tę samą strukturę split-apply-combine z Galaktycznym Zoo, różni się tym, jak uczestnicy są zmotywowani - zabawa w porównaniu do chęci pomagania nauce. Aby uzyskać więcej informacji o grach mających cel, zobacz Ahn and Dabbish (2008) .
Mój opis Galaxy Zoo opiera się na Nielsen (2012) , Adams (2012) , Clery (2011) i Hand (2010) , a moja prezentacja celów badawczych Galaxy Zoo została uproszczona. Aby dowiedzieć się więcej o historii klasyfikacji galaktyk w astronomii io tym, jak Galaxy Zoo kontynuuje tę tradycję, zobacz Masters (2012) i Marshall, Lintott, and Fletcher (2015) . W oparciu o Galaxy Zoo, naukowcy ukończyli Galaktyczne Zoo 2, które zebrało ponad 60 milionów bardziej złożonych klasyfikacji morfologicznych od ochotników (Masters et al. 2011) . Co więcej, rozgałęziali się oni na problemy spoza morfologii galaktyki, w tym na badanie powierzchni Księżyca, poszukiwanie planet i transkrypcję starych dokumentów. Obecnie wszystkie ich projekty są gromadzone na stronie internetowej Zooniverse (Cox et al. 2015) . Jeden z projektów - Snapshot Serengeti - dostarcza dowodów na to, że projekty klasyfikacji wizerunków Galaktycznego Zoo mogą być również wykonane dla badań środowiskowych (Swanson et al. 2016) .
Dla naukowców planujących wykorzystanie rynku pracy mikrotasku (np. Amazon Mechanical Turk) do projektu obliczeń ludzkich, Chandler, Paolacci, and Mueller (2013) oraz J. Wang, Ipeirotis, and Provost (2015) oferują dobre porady dotyczące projektowania zadań i inne powiązane kwestie. Porter, Verdery, and Gaddis (2016) przykłady i porady koncentrujące się w szczególności na wykorzystaniu rynków pracy mikrotasku do tego, co nazywają "rozszerzeniem danych". Linia między zwiększaniem danych a gromadzeniem danych jest nieco niewyraźna. Aby uzyskać więcej informacji na temat zbierania i używania etykiet do nadzorowanego uczenia się tekstu, zobacz Grimmer and Stewart (2013) .
Naukowcy zainteresowani stworzeniem tego, co nazywam komputerowymi komputerowymi systemami obliczeniowymi (np. Systemy wykorzystujące ludzkie etykiety do szkolenia modelu uczenia maszynowego) mogą być zainteresowani Shamir et al. (2014) (na przykład za pomocą dźwięku) oraz Cheng and Bernstein (2015) . Ponadto modele uczenia maszynowego w tych projektach mogą być zamówione z otwartymi zaproszeniami, dzięki czemu naukowcy konkurują o tworzenie modeli uczenia maszynowego o największej przewidywalności. Na przykład zespół Galaxy Zoo przeprowadził otwartą rozmowę i odkrył nowe podejście, które było lepsze od tego opracowanego w Banerji et al. (2010) ; patrz Dieleman, Willett, and Dambre (2015) celu uzyskania szczegółowych informacji.
Otwarte połączenia nie są nowe. W rzeczywistości jeden z najbardziej znanych otwartych połączeń powstał w 1714 roku, kiedy brytyjski parlament stworzył nagrodę Longitude Prize dla każdego, kto mógłby opracować sposób określania długości geograficznej statku na morzu. Problem ten zaskoczył wielu największych naukowców tamtych dni, w tym Izaaka Newtona, a zwycięskie rozwiązanie zostało ostatecznie przedstawione przez Johna Harrisona, zegarmistrza ze wsi, który podszedł do problemu w inny sposób niż naukowcy, którzy koncentrowali się na rozwiązaniu, które w jakiś sposób obejmowałoby astronomię. ; aby uzyskać więcej informacji, patrz Sobel (1996) . Jak pokazuje ten przykład, jednym z powodów, dla których otwarte zaproszenia są tak skuteczne, jest zapewnienie dostępu do osób o różnych perspektywach i umiejętnościach (Boudreau and Lakhani 2013) . Zobacz Hong and Page (2004) i Page (2008) więcej na temat wartości różnorodności w rozwiązywaniu problemów.
Każda z otwartych spraw w dziale wymaga nieco dalszych wyjaśnień, dlaczego należy do tej kategorii. Po pierwsze, jednym ze sposobów, w jaki rozróżnia się ludzkie obliczenia i projekty otwartego wywołania, jest to, czy dane wyjściowe są średnią ze wszystkich rozwiązań (obliczenia ludzkie), czy z najlepszego rozwiązania (połączenie otwarte). Nagroda Netflix jest pod tym względem nieco skomplikowana, ponieważ najlepszym rozwiązaniem okazała się wyrafinowana średnia indywidualnych rozwiązań, podejście nazwane rozwiązaniem zespołowym (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Jednak z punktu widzenia Netflix wszystko, co musieli zrobić, to wybrać najlepsze rozwiązanie. Więcej informacji na temat nagrody Netflix można znaleźć w: Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) oraz Feuerverger, He, and Khatri (2012) .
Po drugie, przez niektóre definicje obliczeń ludzkich (np. Ahn (2005) ), Foldit powinien być uważany za projekt obliczeniowy człowieka. Jednak zdecydowałem się zakwalifikować to jako otwarte zaproszenie, ponieważ wymaga ono specjalistycznych umiejętności (choć niekoniecznie specjalistycznego szkolenia) i wymaga najlepszego rozwiązania, zamiast stosowania strategii split-apply-combine. Więcej informacji na temat Foldit patrz, Cooper et al. (2010) , Khatib et al. (2011) oraz Andersen et al. (2012) ; mój opis Foldit opiera się na opisach w Bohannon (2009) , Hand (2010) i Nielsen (2012) .
Wreszcie, można argumentować, że Peer-to-Patent jest przykładem rozproszonego gromadzenia danych. Wybieram włączenie go jako otwartego zaproszenia, ponieważ ma on konstrukcję podobną do konkursu i wykorzystuje się tylko najlepszy wkład, podczas gdy w przypadku rozproszonego gromadzenia danych, idea dobrych i złych wkładów jest mniej jasna. Aby uzyskać więcej informacji na temat rozwiązania Peer-to-Patent, zobacz: Noveck (2006) , Ledford (2007) , Noveck (2009) oraz Bestor and Hamp (2010) .
Jeśli chodzi o wykorzystanie otwartych zaproszeń w badaniach społecznych, wyniki podobne do wyników Glaeser et al. (2016) , są opisane w rozdziale 10 Mayer-Schönberger and Cukier (2013) którym Nowy Jork był w stanie wykorzystać modelowanie predyktywne, aby uzyskać duże zyski w wydajności inspektorów mieszkaniowych. W Nowym Jorku te modele predykcyjne zostały zbudowane przez pracowników miejskich, ale w innych przypadkach można sobie wyobrazić, że można je stworzyć lub ulepszyć za pomocą otwartych połączeń (np. Glaeser et al. (2016) ). Jednak jednym z głównych problemów związanych z wykorzystaniem modeli predykcyjnych do alokacji zasobów jest to, że modele te mogą wzmocnić istniejące uprzedzenia. Wielu badaczy zna już "śmieci, wyrzucanie śmieci", a przy modelach predykcyjnych może to być "stronniczość, odchylenie". Zobacz Barocas and Selbst (2016) i O'Neil (2016) aby dowiedzieć się więcej o zagrożeniach związanych z modelami predykcyjnymi z stronniczymi danymi treningowymi.
Jednym z problemów, które mogą uniemożliwić rządom korzystanie z otwartych konkursów, jest to, że wymaga to wydania danych, co może prowadzić do naruszenia prywatności. Więcej informacji na temat prywatności i udostępniania danych w otwartych połączeniach można znaleźć w Narayanan, Huey, and Felten (2016) oraz w rozdziale 6.
Więcej informacji na temat różnic i podobieństw między przewidywaniami a wyjaśnieniami można znaleźć w Breiman (2001) , Shmueli (2010) , Watts (2014) i Kleinberg et al. (2015) . Więcej informacji na temat roli prognoz w badaniach społecznych można znaleźć w Athey (2017) , Cederman and Weidmann (2017) , Hofman, Sharma, and Watts (2017) , ( ??? ) oraz Yarkoni and Westfall (2017) .
Przegląd projektów otwartych w biologii, w tym porad dotyczących projektowania, można znaleźć w Saez-Rodriguez et al. (2016) .
Mój opis eBirda opiera się na opisach w Bhattacharjee (2005) , Robbins (2013) i Sullivan et al. (2014) . Więcej informacji o tym, jak naukowcy wykorzystują modele statystyczne do analizy danych eBird, patrz Fink et al. (2010) oraz Hurlbert and Liang (2012) . Aby dowiedzieć się więcej na temat oceny umiejętności uczestników eBird, zobacz Kelling, Johnston, et al. (2015) . Więcej informacji na temat historii nauki obywatelskiej w ornitologii można znaleźć w artykule Greenwood (2007) .
Więcej informacji na temat projektu Malawi Journals można znaleźć w Watkins and Swidler (2009) oraz Kaler, Watkins, and Angotti (2015) . Więcej informacji na temat powiązanych projektów w Afryce Południowej można znaleźć w Angotti and Sennott (2015) . Więcej przykładów badań wykorzystujących dane z projektu Malawi Journals znajduje się w Kaler (2004) i Angotti et al. (2014) .
Moje podejście do oferowania porad projektowych było indukcyjne, oparte na przykładach udanych i nieudanych projektów masowej współpracy, o których słyszałem. Pojawił się również ciąg prób badawczych zastosowania bardziej ogólnych społecznych teorii psychologicznych do projektowania społeczności internetowych, które są istotne dla projektowania projektów masowej współpracy, patrz na przykład Kraut et al. (2012) .
Jeśli chodzi o motywowanie uczestników, trudno jest dokładnie zrozumieć, dlaczego ludzie biorą udział w projektach masowej współpracy (Cooper et al. 2010; Nov, Arazy, and Anderson 2011; Tuite et al. 2011; Raddick et al. 2013; Preist, Massung, and Coyle 2014) . Jeśli planujesz zmotywować uczestników do wypłaty na rynku pracy mikrotasku (np. Amazon Mechanical Turk), Kittur et al. (2013) oferuje porady.
Jeśli chodzi o umożliwienie zaskoczenia, więcej przykładów nieoczekiwanych odkryć wychodzących z projektów Zooiverse, patrz Marshall, Lintott, and Fletcher (2015) .
Jeśli chodzi o etykę, niektóre ogólne ogólne wprowadzenie do poruszonych kwestii to Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) oraz Zittrain (2008) . W kwestiach związanych konkretnie z kwestiami prawnymi związanymi z pracownikami tłumu, patrz Felstiner (2011) . O'Connor (2013) zajmuje się kwestiami etycznego nadzoru nad badaniami, gdy zamazują się role badaczy i uczestników. W kwestiach związanych z udostępnianiem danych przy jednoczesnej ochronie uczestników projektów dotyczących wiedzy obywatelskiej patrz Bowser et al. (2014) . Zarówno Purdam (2014) i Windt and Humphreys (2016) prowadzą dyskusję na temat problemów etycznych związanych z rozproszonym gromadzeniem danych. W końcu większość projektów uznaje wkłady, ale nie przyznaje uczestnikom udziału w autorskich akcjach. W Foldit gracze są często wymienieni jako autor (Cooper et al. 2010; Khatib et al. 2011) . W innych projektach otwartego konkursu, zwycięski współautor może często napisać artykuł opisujący ich rozwiązania (np. Bell, Koren, and Volinsky (2010) oraz Dieleman, Willett, and Dambre (2015) ).