Распределенный сбор данных возможен, и в будущем он, вероятно, будет включать в себя технологию и пассивное участие.
Как показывает eBird, распределенный сбор данных может использоваться для научных исследований. Кроме того, PhotoCity показывает, что проблемы, связанные с выборкой и качеством данных, потенциально разрешимы. Как распределить работу по сбору данных для социальных исследований? Один из примеров - работа Сьюзен Уоткинс и ее коллег по проекту Malawi Journals (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . В этом проекте 22 местных жителей, называемых «журналистами», «разговорные журналы», в которых подробно описывались разговоры, которые они слышали о СПИДе в повседневной жизни простых людей (на момент начала проекта около 15% взрослых в Малави были инфицированы ВИЧ (Bello, Chipeta, and Aberle-Grasse 2006) ). Из-за их статуса инсайдеров, эти журналисты смогли подслушать разговоры, которые могли быть недоступны Уоткинсу и ее западным исследовательским сотрудникам (я расскажу об этике этого позже в этой главе, когда я дам совет о разработке собственного проекта массового сотрудничества) , Данные из проекта Malawi Journals привели к ряду важных выводов. Например, до начала проекта многие аутсайдеры считали, что в странах Африки к югу от Сахары существует тишина о СПИДе, но разговорные журналы продемонстрировали, что это явно не так: журналисты подслушивали сотни обсуждений этой темы в таких разнообразных местах, как похороны, бары и церкви. Кроме того, характер этих разговоров помог исследователям лучше понять некоторую часть сопротивления использованию презервативов; способ использования презервативов в сообщениях общественного здравоохранения был несовместим с тем, как это обсуждалось в повседневной жизни (Tavory and Swidler 2009) .
Конечно, как и данные из eBird, данные из проекта Malawi Journals не идеальны, что подробно обсуждается Уоткинсом и его коллегами. Например, записанные разговоры не являются случайной выборкой всех возможных разговоров. Скорее, это неполная перепись разговоров о СПИДе. Что касается качества данных, исследователи полагали, что их журналисты были высококвалифицированными журналистами, о чем свидетельствует последовательность в журналах и журналах. То есть, поскольку достаточное количество журналистов было развернуто в достаточно небольшой обстановке и сосредоточено на конкретной теме, можно было использовать избыточность для оценки и обеспечения качества данных. Например, секс-работник под названием «Стелла» неоднократно появлялся в журналах четырех разных журналистов (Watkins and Swidler 2009) . В целях дальнейшего построения вашей интуиции в таблице 5.3 приведены другие примеры распределения распределенных данных для социальных исследований.
Собранные данные | Справка |
---|---|
Дискуссии о ВИЧ / СПИДе в Малави | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
Улица попрошайничает в Лондоне | Purdam (2014) |
Конфликтные события в Восточном Конго | Windt and Humphreys (2016) |
Экономическая деятельность в Нигерии и Либерии | Blumenstock, Keleher, and Reisinger (2016) |
Наблюдение за гриппом | Noort et al. (2015) |
Все примеры, описанные в этом разделе, включали активное участие: журналисты транслировали разговоры, которые они слышали; птицы подписали свои контрольные списки для птиц; или игроки загрузили свои фотографии. Но что, если участие было автоматическим и не требовало каких-либо конкретных навыков или времени для представления? Это обещание, которое предлагает «совместное восприятие» или «ориентированное на человека восприятие». Например, Pothole Patrol, проект ученых Массачусетского технологического института, установил акселерометры, оборудованные GPS, в семи кабинах такси в районе Бостона (Eriksson et al. 2008) . Поскольку движение по выбоине оставляет отчетливый сигнал акселерометра, эти устройства, когда они размещаются внутри движущихся такси, могут создавать карты выбоины Бостона. Конечно, такси не произвольно не проецирует дороги, но, учитывая достаточное количество такси, может быть достаточный охват для предоставления информации о значительных частях города. Второе преимущество пассивных систем, которые полагаются на технологии, заключается в том, что они дешифруют процесс внесения данных: хотя для этого требуется умение вносить вклад в eBird (поскольку вам нужно надежно идентифицировать виды птиц), он не требует особых навыков для вносят вклад в Patrol Patrol.
В будущем я подозреваю, что многие проекты по сбору данных начнут использовать возможности мобильных телефонов, которые уже переносятся миллиардами людей по всему миру. Эти телефоны уже имеют большое количество датчиков, важных для измерения, таких как микрофоны, камеры, устройства GPS и часы. Кроме того, они поддерживают сторонние приложения, позволяющие исследователям контролировать основные протоколы сбора данных. Наконец, они имеют подключение к Интернету, что позволяет им отключать данные, которые они собирают. Существует множество технических проблем: от неточных датчиков до ограниченного времени автономной работы, но эти проблемы, скорее всего, со временем уменьшатся по мере развития технологий. С другой стороны, проблемы, связанные с неприкосновенностью частной жизни и этикой, могут усложняться; Я вернусь к вопросам этики, когда я дам совет о разработке собственного массового сотрудничества.
В проектах распределенного сбора данных добровольцы предоставляют данные о мире. Этот подход уже успешно используется, и в будущем его использование, вероятно, будет связано с проблемами выборки и качества данных. К счастью, существующие проекты, такие как PhotoCity и Pothole Patrol, предлагают решения этих проблем. По мере того, как все больше проектов используют технологии, позволяющие использовать квалифицированное и пассивное участие, проекты по распределению данных должны значительно увеличиваться по масштабам, позволяя исследователям собирать данные, которые в прошлом были просто лишены ограничений.