Масова співпраця поєднує ідеї з громадянською наукою , краудсорсинг та колективний інтелект . Громадянська наука зазвичай означає залучення "громадян" (тобто незнавців) до наукового процесу; Для отримання додаткової інформації див. Crain, Cooper, and Dickinson (2014) та Bonney et al. (2014) . Модернізація звичайно означає вирішення проблеми в організації, а не аутсорсинг для натовпу; Для отримання додаткової інформації див. Howe (2009) . Колективна розвідка зазвичай означає групи осіб, що діють колективно, таким чином, що вони здаються розумними; Для докладніше див. Malone and Bernstein (2015) . Nielsen (2012) - це введення в довідку про сили масового співробітництва для наукових досліджень.
Є багато типів масового співробітництва, які не підходять явно до трьох категорій, які я запропонував, і я думаю, що три з них заслуговують на особливу увагу, оскільки вони можуть бути корисними для соціальних досліджень. Одним з таких прикладів є прогнозування ринків, де учасники купують та торгують контрактами, які підлягають погашенню на основі результатів, що відбуваються у світі. Прогнозні ринки часто використовуються фірмами та урядами для прогнозування, і їх також використовували соціальні дослідники, щоб передбачити повторюваність опублікованих досліджень у галузі психології (Dreber et al. 2015) . Для ознайомлення з прогнозними ринками див. Wolfers and Zitzewitz (2004) та Arrow et al. (2008) .
Другий приклад, який не зовсім добре вписується в мою схему класифікації, - це проект PolyMath, де дослідники співпрацювали, використовуючи блоги та вікі, щоб довести нові математичні теореми. Проект PolyMath певною мірою аналогічний призу Netflix, але в цьому учаснику проекту більш активно будуються часткові рішення інших. Більш детальну інформацію про проект PolyMath див. У статті Gowers and Nielsen (2009) , Cranshaw and Kittur (2011) , Nielsen (2012) та Kloumann et al. (2016) . Kloumann et al. (2016) .
Третій приклад, який не зовсім добре вписується в мою схему класифікації, - це мобілізація, залежна від часу, така як Network Challenge агентства Advanced Research Projects Agency (DARPA) (тобто "Червона куля"). Більш детальну інформацію про ці часово-чутливі мобілізації див. Pickard et al. (2011) , Tang et al. (2011) , і Rutherford et al. (2013) .
Термін "обчислення людей" виходить з роботи, яку проводять комп'ютерні вчені, і розуміння контексту, що лежить в основі цього дослідження, покращить вашу здатність вибирати проблеми, які можуть бути придатними для цього. Для певних завдань, комп'ютери неймовірно потужні, з можливостями, які набагато перевищують можливості навіть експертних людей. Наприклад, в шахи, комп'ютери можуть побити навіть найкращих гросмейстерів. Але - і це не так добре оцінили соціальні вчені - для інших завдань, комп'ютери насправді набагато гірші, ніж люди. Інакше кажучи, зараз ви краще, ніж навіть найдосконаліший комп'ютер за певних завдань, пов'язаних із обробкою зображень, відео, аудіо та тексту. Комп'ютерні вчені, що працюють над цими важкодоступними комп'ютерами, легко виконують завдання людини, тому розуміли, що вони можуть включати людей у свій обчислювальний процес. Ось, як Луїс фон Ан (2005) описав розрахунки людей, коли вперше створив термін у своїй дисертації: "парадигма використання людської потужності обробки для вирішення проблем, які комп'ютери ще не можуть вирішити". Для книги довжини обробки людських обчислень, в найбільш загальне поняття цього терміну, див. Law and Ahn (2011) .
Відповідно до визначення, запропонованого в Ahn (2005) Foldit, який я описав у розділі про відкриті дзвінки, можна вважати проектом обчислення людей. Проте я вирішу класифікувати Foldit як відкритий дзвінок, оскільки він вимагає спеціальних навичок (хоча й не обов'язково формального навчання), і він приймає найкраще рішення, а не використовує стратегію split-apply-combine.
Термін "split-apply-combine" використовувався Wickham (2011) для опису стратегії статистичного обчислення, але він чудово фіксує процес багатьох обчислювальних проектів. Стратегія split-apply-combine подібна до Framework MapReduce, розробленої на Google; Для отримання додаткової інформації про MapReduce див. Dean and Ghemawat (2004) а також Dean and Ghemawat (2008) . Більше про інші архітектури розподілених обчислень див. Vo and Silvia (2016) . У Розділі 3 Law and Ahn (2011) обговорюються проекти з більш складними комбінаційними кроками, ніж у цьому розділі.
У проектах обчислення людей, які я обговорював у розділі, учасники знали про те, що відбувається. Деякі інші проекти, однак, прагнуть захоплення "роботи", яка вже відбувається (подібно до eBird) і без обізнаності учасників. Див, наприклад, гру ESP (Ahn and Dabbish 2004) і reCAPTCHA (Ahn et al. 2008) . Однак обидві ці проекти також піднімають етичні питання, оскільки учасники не знають, як їх дані використовуються (Zittrain 2008; Lung 2012) .
Натхненні гри ESP, багато дослідників намагалися розробити інші "ігри з ціллю" (Ahn and Dabbish 2008) (тобто "людські обчислювальні ігри" (Pe-Than, Goh, and Lee 2015) ), які можуть бути використовується для вирішення різноманітних інших проблем. Які ці "ігри з ціллю" мають спільне те, що вони намагаються зробити придатні завдання, пов'язані з обчисленням людини. Таким чином, в той час, як гра ESP використовує таку саму структуру split-apply-combine з Галактичним зоопарком, вона відрізняється тим, як учасники мотивовані - весело, ніж бажання допомогти науці. Більше про ігри з ціллю див. Ahn and Dabbish (2008) .
Мій опис галактичного зоопарку спирається на Nielsen (2012) , Adams (2012) , Clery (2011) та Hand (2010) , і моя презентація дослідницьких цілей Galaxy Zoo була спрощена. Докладніше про історію класифікації галактик в астрономії та про те, як Галактичний зоопарк продовжує цю традицію, див. Masters (2012) та Marshall, Lintott, and Fletcher (2015) . Будучи на Галактичному зоопарку, дослідники завершили Галактичний зоопарк 2, який зібрав понад 60 мільйонів складних морфологічних класифікацій від добровольців (Masters et al. 2011) . Крім того, вони розгадали проблеми поза морфологією галактики, включаючи вивчення поверхні Місяця, пошук планет і переписування старих документів. Наразі всі їхні проекти збираються на сайті Zooniverse (Cox et al. 2015) . Один з проектів - "Snapshot Serengeti" - свідчить про те, що проекти класифікації зображень Galaxy Zoo можуть також проводитись для досліджень в області навколишнього середовища (Swanson et al. 2016) .
Для дослідників, які планують використовувати ринок робочої сили (наприклад, Amazon Mechanical Turk) для обчислювального проекту, Chandler, Paolacci, and Mueller (2013) а також J. Wang, Ipeirotis, and Provost (2015) пропонують поради щодо розробки завдань і інші пов'язані питання. Porter, Verdery, and Gaddis (2016) наводять приклади та поради, орієнтовані саме на використання мікропрограм робочих ринків за те, що вони називають "збільшенням даних". Лінія між збільшенням даних та збором даних є дещо розмитим. Більш детальну інформацію про збирання та використання міток для керованого навчання для тексту див. У статті Grimmer and Stewart (2013) .
Дослідники, які зацікавлені у створенні того, що я назвав комп'ютерами системи обчислення людей (наприклад, системи, які використовують людські етикетки для навчання моделі машинного навчання), можуть бути зацікавлені в Shamir et al. (2014) (наприклад, використовуючи аудіо), а також Cheng and Bernstein (2015) . Крім того, моделі машинного навчання в цих проектах можуть бути запрошені за допомогою відкритих дзвінків, за якими дослідники конкурують із створенням моделей машинного навчання, що мають найбільшу прогностичну ефективність. Наприклад, команда Галактичного зоопарку провела відкритий дзвінок та знайшов новий підхід, який перевершив той, який був розроблений в Banerji et al. (2010) ; Dieleman, Willett, and Dambre (2015) див. докладніше.
Відкриті дзвінки не є новими. Фактично, один з найвідоміших відкритих дзвінків сягає 1714 р., Коли британський парламент створив премію "Довгота" для тих, хто може розробити спосіб визначення довготи судна на морі. Проблема була зупинена багатьма найбільшими вченими того часу, включаючи Ісаака Ньютона, і вирішальне рішення в кінцевому підсумку був представлений Джоном Харрісоном, годинником із сільської місцевості, який звернувся з цією проблемою по-різному до науковців, які були зосереджені на вирішенні, що якимось чином пов'язане з астрономією ; Для отримання додаткової інформації див. Sobel (1996) . Як видно з цього прикладу, одна з причин того, що відкриті дзвінки, на думку, працюють настільки добре, що вони забезпечують доступ до людей з різними перспективами та навичками (Boudreau and Lakhani 2013) . Докладніше про цінність різноманітності у вирішенні проблем можна дізнатись у статті " Hong and Page (2004) та " Page (2008) .
У кожному з випадків відкритого виклику в главі потрібно трохи пояснити, чому він належить до цієї категорії. По-перше, один спосіб, який я розрізняю між обчисленнями людей та проектами відкритих викликів, полягає в тому, чи є вихідним значенням середнє значення всіх рішень (обчислення людини) або найкращого рішення (відкритий виклик). Премія Netflix є дещо складною в цьому відношенні, оскільки найкращим рішенням став витончений середній показник окремих рішень, підхід, який називається рішенням ансамблю (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . З точки зору Netflix, все, що їм потрібно було зробити, було вибрати найкраще рішення. Більше про Приз Netflix див. Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , Feuerverger, He, and Khatri (2012) .
По-друге, за допомогою деяких визначень людського обчислення (наприклад, Ahn (2005) ), Foldit слід розглядати як обчислювальний проект людини. Тим не менш, я категоризую це як відкритий дзвінок, оскільки він вимагає спеціальних навичок (хоча це і не обов'язково спеціалізована підготовка), і це найкраще рішення, а не використання стратегії split-apply-combine. Детальніше про Foldit див. Cooper et al. (2010) , Khatib et al. (2011) , Andersen et al. (2012) ; мій опис Foldit спирається на описи в Bohannon (2009) , Hand (2010) та Nielsen (2012) .
Нарешті, можна було б стверджувати, що "Паритет" є прикладом розподіленого збору даних. Я хочу включити його як відкритий дзвінок, оскільки він має структуру, подібну до конкурсу, і використовуються лише найкращі внески, тоді як з розподіленими даними ідея хороших та поганих внесків є менш зрозумілою. Більш Noveck (2006) про Peer-to-Patent див. Noveck (2006) , Ledford (2007) , Noveck (2009) , Bestor and Hamp (2010) .
З точки зору використання відкритих дзвінків у соціальних дослідженнях результати аналогічні результатам роботи Glaeser et al. (2016) , Mayer-Schönberger and Cukier (2013) в главі 10 Mayer-Schönberger and Cukier (2013) Згідно з яким Нью-Йорк міг використовувати прогнозне моделювання для отримання великих вигод у продуктивності інспекторів житла. У Нью-Йорку ці прогнозні моделі були побудовані працівниками міста, але в інших випадках можна було б уявити, що їх можна створити або покращити за допомогою відкритих дзвінків (наприклад, Glaeser et al. (2016) ). Однак однією з головних проблем, пов'язаних з прогнозними моделями, які використовуються для розподілу ресурсів, є те, що ці моделі можуть посилити існуючі упередження. Багато дослідників вже знають "сміття в сміття", а з прогнозними моделями це може бути "упередженням, зміщенням". Див. Barocas and Selbst (2016) та O'Neil (2016) більше про небезпеку прогнозних моделей, побудованих з упередженими навчальними даними.
Одна з проблем, яка може завадити урядам використовувати відкриті конкурси, полягає в тому, що для цього вимагається звільнення даних, що може призвести до порушень конфіденційності. Докладніше про конфіденційність та звільнення даних у відкритих дзвінках див. Narayanan, Huey, and Felten (2016) та обговорення в розділі 6.
Більш детальну інформацію про відмінності та схожість між прогнозом та поясненням див. Breiman (2001) , Shmueli (2010) , Watts (2014) та Kleinberg et al. (2015) . Kleinberg et al. (2015) . Більш детальну інформацію про роль прогнозування в соціальних дослідженнях див. У статті Athey (2017) , Cederman and Weidmann (2017) , Hofman, Sharma, and Watts (2017) , ( ??? ) та Yarkoni and Westfall (2017) .
Для перегляду проектів відкритих викликів у галузі біології, включаючи поради щодо дизайну, див. Saez-Rodriguez et al. (2016) . Saez-Rodriguez et al. (2016) .
Мій опис eBird спирається на описи в Bhattacharjee (2005) , Robbins (2013) та Sullivan et al. (2014) . Докладніше про те, як дослідники використовують статистичні моделі для аналізу даних eBird, див. Fink et al. (2010) і Hurlbert and Liang (2012) . Детальніше про оцінку майстерності учасників eBird див. Kelling, Johnston, et al. (2015) . Kelling, Johnston, et al. (2015) . Детальніше про історію громадянської науки в орнітології див. Greenwood (2007) .
Більш Kaler, Watkins, and Angotti (2015) журнали" див. Watkins and Swidler (2009) та Kaler, Watkins, and Angotti (2015) . Докладніше про суміжний проект у Південній Африці див. У Angotti and Sennott (2015) . Для отримання додаткових прикладів дослідження з використанням даних проекту "Малаві журнали" див. Kaler (2004) та Angotti et al. (2014) .
Мій підхід до надання рекомендацій щодо дизайну був індуктивним, виходячи з прикладів успішних та невдалих масових проектів співпраці, про які я чув. Був також потік досліджень, спрямованих на застосування більш загальних соціально-психологічних теорій для розробки онлайнових спільнот, що має відношення до розробки проектів масового співробітництва, див., Наприклад, Kraut et al. (2012) .
Що стосується мотивації учасників, то насправді досить складно точно з'ясувати, чому люди беруть участь у проектах масового співробітництва (Cooper et al. 2010; Nov, Arazy, and Anderson 2011; Tuite et al. 2011; Raddick et al. 2013; Preist, Massung, and Coyle 2014) . Якщо ви плануєте заохотити учасників до оплати на ринку праці на мікропроцесі (наприклад, Amazon Mechanical Turk), Kittur et al. (2013) пропонує кілька порад.
Що стосується несподіванки, то для більш прикладів несподіваних відкриттів, що надходять із проектів Zooiverse, див. Marshall, Lintott, and Fletcher (2015) .
Що стосується етики, то деякі хороші загальні введення в ці питання - Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) , і Zittrain (2008) . З питаннями, що стосуються правових питань працівників натовпу, див. Felstiner (2011) . O'Connor (2013) розглядає питання про етичний нагляд за дослідженнями, коли роль дослідників та учасників розмивається. З питаннями щодо обміну даними, захищаючи учасників у проектах громадянського суспільства, див. Bowser et al. (2014) . Обидва Purdam (2014) і Windt and Humphreys (2016) обговорюють етичні проблеми в розподіленому зборі даних. Нарешті, більшість проектів визнають внески, але не дають учасникам авторський кредит. У Foldit гравці часто включаються до списку авторів (Cooper et al. 2010; Khatib et al. 2011) . В інших проектах відкритих викликів виграшний учасник часто може написати документ, що описує їхні рішення (наприклад, Bell, Koren, and Volinsky (2010) Dieleman, Willett, and Dambre (2015) ).