Массовое сотрудничество сочетает идеи науки граждан , краудсорсинга и коллективного интеллекта . Гражданская наука обычно подразумевает вовлечение «граждан» (то есть неспециалистов) в научный процесс; более подробно см. Crain, Cooper, and Dickinson (2014) и Bonney et al. (2014) . Краудсорсинг обычно означает проблему, обычно решаемую внутри организации, и вместо этого передать ее на аутсорсинг; подробнее см. Howe (2009) . Коллективная разведка обычно означает группы людей, действующих коллективно способами, которые кажутся разумными; более подробно см. Malone and Bernstein (2015) . Nielsen (2012) представляет собой книжное введение в силу массового сотрудничества для научных исследований.
Существует много типов массового сотрудничества, которые не соответствуют аккуратно в трех категориях, которые я предложил, и я думаю, что три из них заслуживают особого внимания, потому что они могут быть полезны в социальных исследованиях. Одним из примеров является рынок прогнозирования, где участники покупают и торгуют контракты, которые подлежат погашению на основе результатов, которые происходят в мире. Прогнозирование рынков часто используется фирмами и правительствами для прогнозирования, и они также используются социальными исследователями для прогнозирования воспроизводимости опубликованных исследований в области психологии (Dreber et al. 2015) . Обзор рынков прогнозов см. В Wolfers and Zitzewitz (2004) и Arrow et al. (2008) .
Второй пример, который не очень хорошо вписывается в мою схему категоризации, - это проект PolyMath, в котором исследователи сотрудничали с использованием блогов и вики, чтобы доказать новые математические теоремы. Проект PolyMath в некотором роде похож на приз Netflix, но в этом проекте участники более активно строились на частичных решениях других. Более подробно о проекте PolyMath см. Gowers and Nielsen (2009) , Cranshaw and Kittur (2011) , Nielsen (2012) и Kloumann et al. (2016) .
Третий пример, который не очень хорошо вписывается в мою схему категоризации, - это зависящие от времени мобилизации, такие как Сетевое задание Агентства по продвижению перспективных проектов обороны (DARPA) (т. Е. Challenge Red Balloon Challenge). Более подробно об этих чувствительных по времени мобилизациях см. Pickard et al. (2011) , Tang et al. (2011) , и Rutherford et al. (2013) .
Термин «человеческие вычисления» выходит за рамки работы, проделанной учеными-компьютерщиками, и понимание контекста этого исследования улучшит вашу способность выявлять проблемы, которые могут быть ему пригодны. Для определенных задач компьютеры невероятно мощны, а возможности намного превосходят возможности даже опытных людей. Например, в шахматах компьютеры могут победить даже лучших гроссмейстеров. Но - и это менее ценится социологами - для других задач компьютеры на самом деле намного хуже людей. Другими словами, сейчас вы лучше, чем даже самый сложный компьютер при определенных задачах, связанных с обработкой изображений, видео, аудио и текста. Ученые-компьютерщики, работающие над этими трудными задачами для компьютеров, легко поняли, что они могут включать людей в их вычислительный процесс. Вот как Луис фон Ан (2005) Luis von Ahn, (2005) описал человеческие вычисления, когда он впервые придумал термин в своей диссертации: «парадигма для использования вычислительной мощности человека для решения проблем, которые компьютеры еще не могут решить». Для изучения длины книги человеческих вычислений в наиболее общий смысл этого термина, см. Law and Ahn (2011) .
Согласно определению, предложенному в Ahn (2005) Foldit, который я описал в разделе об открытых вызовах, можно рассматривать как проект человеческих вычислений. Однако я предпочитаю классифицировать Foldit как открытый вызов, потому что он требует специальных навыков (хотя и не обязательно формального обучения), и он берет лучшее решение, а не использует стратегию split-apply-comb.
Термин «split-apply-comb» использовался Wickham (2011) для описания стратегии статистических вычислений, но он отлично отражает процесс многих проектов человеческих вычислений. Стратегия split-apply-comb похожа на структуру MapReduce, разработанную в Google; для получения дополнительной информации о MapReduce см. Dean and Ghemawat (2004) и Dean and Ghemawat (2008) . Более подробно о других распределенных вычислительных архитектурах см. Vo and Silvia (2016) . Глава 3 Law and Ahn (2011) обсуждает проекты с более сложными комбинационными шагами, чем в этой главе.
В проектах человеческих вычислений, которые я обсуждал в этой главе, участники знали о том, что происходит. Однако некоторые другие проекты направлены на то, чтобы зафиксировать «работу», которая уже происходит (аналогично eBird) и без участия участников. См., Например, игру ESP (Ahn and Dabbish 2004) и reCAPTCHA (Ahn et al. 2008) . Однако оба эти проекта также поднимают этические вопросы, потому что участники не знали, как их данные используются (Zittrain 2008; Lung 2012) .
Вдохновленные игрой ESP, многие исследователи пытались разработать другие «игры с целью» (Ahn and Dabbish 2008) (т. (Ahn and Dabbish 2008) «Человеческие расчетные игры» (Pe-Than, Goh, and Lee 2015) ), которые могут быть используется для решения множества других проблем. Что общего у этих «игр с целью» - это то, что они стараются сделать задачи, связанные с человеческими вычислениями, приятными. Таким образом, в то время как ESP Game разделяет одну и ту же структуру split-apply-comb с Galaxy Zoo, она отличается тем, как участники мотивированы - удовольствие от желания помочь науке. Подробнее об играх с целями см. Ahn and Dabbish (2008) .
Мое описание Galaxy Zoo опирается на Nielsen (2012) , Adams (2012) , Clery (2011) и Hand (2010) , и моя презентация целей исследований Galaxy Zoo была упрощена. Более подробно об истории классификации галактик в астрономии и о том, как Galaxy Zoo продолжает эту традицию, см. Masters (2012) и Marshall, Lintott, and Fletcher (2015) . Основываясь на зоопарке Галактики, исследователи завершили Galaxy Zoo 2, который собрал более 60 миллионов более сложных морфологических классификаций от добровольцев (Masters et al. 2011) . Кроме того, они разветвлялись в проблемы вне морфологии галактик, включая изучение поверхности Луны, поиск планет и переписывание старых документов. В настоящее время все их проекты собираются на веб-сайте Zooniverse (Cox et al. 2015) . Один из проектов - Snapshot Serengeti - свидетельствует о том, что проекты классификации изображений типа Galaxy Zoo также могут быть сделаны для экологических исследований (Swanson et al. 2016) .
Для исследователей, планирующих использовать рынок труда микрозадач (например, Amazon Mechanical Turk) для проекта человеческих вычислений, Chandler, Paolacci, and Mueller (2013) и J. Wang, Ipeirotis, and Provost (2015) предлагают хорошие советы по проектированию задач и другие связанные с этим вопросы. Porter, Verdery, and Gaddis (2016) предлагают примеры и рекомендации, ориентированные конкретно на использование рынков труда микротасков для того, что они называют «увеличением данных». Линия между увеличением данных и сбором данных несколько размыта. Подробнее о сборе и использовании меток для контролируемого обучения для текста см. Grimmer and Stewart (2013) .
Исследователи, заинтересованные в создании того, что я назвал компьютеризованными системами человеческих вычислений (например, системами, использующими человеческие метки для обучения модели машинного обучения), могут интересоваться Shamir et al. (2014) (например, с использованием аудио) и Cheng and Bernstein (2015) . Кроме того, модели машинного обучения в этих проектах могут быть запрошены с помощью открытых вызовов, в соответствии с которыми исследователи конкурируют за создание моделей машинного обучения с максимальной прогнозной производительностью. Например, команда Galaxy Zoo провела открытый вызов и нашла новый подход, который опередил тот, который был разработан в Banerji et al. (2010) ; см. Dieleman, Willett, and Dambre (2015) .
Открытые вызовы не новы. Фактически, один из самых известных открытых звонков восходит к 1714 году, когда британский парламент создал приз долготы для всех, кто мог бы разработать способ определения долготы корабля в море. Проблема поставила в тупик многих величайших ученых того времени, в том числе Исаака Ньютона, и победное решение было в конечном итоге представлено Джоном Харрисоном, часовым мастером из деревни, который подошел к проблеме иначе, чем ученые, которые были сосредоточены на решении, которое каким-то образом включало бы астрономию ; для получения дополнительной информации см. Sobel (1996) . Как показывает этот пример, одна из причин того, что открытые вызовы, как считается, работает так хорошо, заключается в том, что они предоставляют доступ людям с разными перспективами и навыками (Boudreau and Lakhani 2013) . См. Hong and Page (2004) и Page (2008) для получения дополнительной информации о ценности разнообразия в решении проблем.
Каждый из случаев открытых вызовов в главе требует немного дополнительного объяснения того, почему он относится к этой категории. Во-первых, один из способов, с помощью которого я различаю человеческие вычисления и проекты открытых вызовов, заключается в том, является ли выход средним из всех решений (человеческое вычисление) или наилучшим решением (открытый вызов). Премия Netflix несколько сложна в этом плане, потому что лучшим решением оказалось сложное среднее из индивидуальных решений, подход, называемый ансамблевым решением (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Однако с точки зрения Netflix все, что им нужно было сделать, это выбрать лучшее решение. Подробнее о премии Netflix см. Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , а также Feuerverger, He, and Khatri (2012) .
Во-вторых, некоторыми определениями человеческих вычислений (например, Ahn (2005) ), Foldit следует рассматривать как проект человеческих вычислений. Однако я предпочитаю классифицировать его как открытый вызов, потому что он требует специальных навыков (хотя и не обязательно специализированного обучения), и он берет лучшее решение, а не использует стратегию split-apply-comb. Более подробно о Foldit см., Cooper et al. (2010) , Khatib et al. (2011) , Andersen et al. (2012) ; мое описание Foldit опирается на описания в Bohannon (2009) , Hand (2010) и Nielsen (2012) .
Наконец, можно утверждать, что Peer-to-Patent является примером распределения распределенных данных. Я предпочитаю включать его в качестве открытого вызова, потому что он имеет структуру, подобную конкурсу, и используются только самые лучшие взносы, тогда как при распределенном сборе данных идея хороших и плохих вкладов менее ясна. Более подробно о Peer-to-Patent см. Noveck (2006) , Ledford (2007) , Noveck (2009) и Bestor and Hamp (2010) .
С точки зрения использования открытых вызовов в социальных исследованиях результаты, аналогичные результатам Glaeser et al. (2016) , приводятся в главе 10 Mayer-Schönberger and Cukier (2013) соответствии с которыми Нью-Йорк смог использовать интеллектуальное моделирование для получения больших успехов в производительности инспекторов жилья. В Нью-Йорке эти интеллектуальные модели были построены городскими служащими, но в других случаях можно было предположить, что их можно было бы создать или улучшить с помощью открытых вызовов (например, Glaeser et al. (2016) ). Однако одна из основных проблем с использованием прогнозирующих моделей, используемых для распределения ресурсов, заключается в том, что эти модели могут укрепить существующие предубеждения. Многие исследователи уже знают «мусор, мусор», а с прогностическими моделями это может быть «предубеждение», «предубеждение». См. Barocas and Selbst (2016) и O'Neil (2016) для получения дополнительной информации об опасностях созданных интеллектуальных моделей с предвзятыми данными обучения.
Одна из проблем, которая может помешать правительствам использовать открытые конкурсы, заключается в том, что для этого требуется выпуск данных, что может привести к нарушениям конфиденциальности. Для получения дополнительной информации о конфиденциальности и публикации данных в открытых вызовах см. Narayanan, Huey, and Felten (2016) и обсуждение в главе 6.
Более подробно о различиях и сходствах между предсказанием и объяснением см. Breiman (2001) , Shmueli (2010) , Watts (2014) и Kleinberg et al. (2015) . Более подробно о роли прогнозирования в социальных исследованиях см. Athey (2017) , Cederman and Weidmann (2017) , Hofman, Sharma, and Watts (2017) , ( ??? ) и Yarkoni and Westfall (2017) .
Для обзора проектов открытых вызовов в биологии, включая советы по дизайну, см. Saez-Rodriguez et al. (2016) .
Мое описание eBird опирается на описания в Bhattacharjee (2005) , Robbins (2013) и Sullivan et al. (2014) . Подробнее о том, как исследователи используют статистические модели для анализа данных eBird, см. Fink et al. (2010) и Hurlbert and Liang (2012) . Подробнее об оценке навыков участников eBird см. Kelling, Johnston, et al. (2015) . Более подробно об истории гражданской науки в орнитологии см. Greenwood (2007) .
Более подробно о проекте Malawi Journals см. Watkins and Swidler (2009) и Kaler, Watkins, and Angotti (2015) . Подробнее о соответствующем проекте в Южной Африке см. Angotti and Sennott (2015) . Дополнительные примеры исследований с использованием данных проекта Malawi Journals см. Kaler (2004) и Angotti et al. (2014) .
Мой подход к разработке рекомендаций по дизайну был индуктивным, основанный на примерах успешных и неудачных проектов коллективного сотрудничества, о которых я слышал. Был также поток попыток исследования применить более общие социально-психологические теории для создания онлайн-сообществ, которые имеют отношение к разработке проектов массового сотрудничества, см., Например, Kraut et al. (2012) .
Что касается мотивации участников, на самом деле довольно сложно определить, почему люди участвуют в проектах массового сотрудничества (Cooper et al. 2010; Nov, Arazy, and Anderson 2011; Tuite et al. 2011; Raddick et al. 2013; Preist, Massung, and Coyle 2014) . Если вы планируете мотивировать участников оплатой на рынке микрозадач (например, Amazon Mechanical Turk), Kittur et al. (2013) предлагает некоторые советы.
Что касается возможности сюрпризов, то для получения дополнительных примеров неожиданных открытий, выходящих из проектов Zooiverse, см. Marshall, Lintott, and Fletcher (2015) .
Что касается этики, то некоторые хорошие общие представления о связанных с этим проблемах - Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) и Zittrain (2008) . По вопросам, связанным с юридическими вопросами с сотрудниками толпы, см. Felstiner (2011) . O'Connor (2013) рассматривает вопросы об этическом надзоре за исследованиями, когда роли исследователей и участников размываются. По вопросам, связанным с совместным использованием данных, защищая участников проектов в области науки о гражданах, см. Bowser et al. (2014) . И Purdam (2014) и Windt and Humphreys (2016) обсуждают этические проблемы в распределенном сборе данных. Наконец, большинство проектов признают взносы, но не дают авторскому кредиту участникам. В Foldit игроки часто перечисляются как автор (Cooper et al. 2010; Khatib et al. 2011) . В других проектах с открытым вызовом выигрывающий вкладчик часто может написать документ, описывающий их решения (например, Bell, Koren, and Volinsky (2010) и Dieleman, Willett, and Dambre (2015) ).