Распределенный сбор данных возможен, и в будущем, скорее всего , связаны с технологией и пассивное участие.
Как показывает eBird, распределенных по сбору данных могут быть использованы для научных исследований. Кроме того, PhotoCity показывает, что проблемы, связанные с отбором проб и качества данных являются потенциально разрешимы.
Как может распределяться по сбору данных для работы социальных исследований? Прекрасный пример из работы Сьюзан Уоткинс и ее коллеги по проекту Малави Журналы (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . В этом проекте, 22 местные жители называемые "журналисты" -kept "разговорных журналов", которые записаны, в деталях, разговоры они подслушанные о СПИДе в повседневной жизни простых людей (в момент начала проекта, около 15% взрослого населения в Малави были инфицированы ВИЧ (Bello, Chipeta, and Aberle-Grasse 2006) ). Из-за их статуса инсайдерской, эти журналисты смогли подслушать разговоры, которые, возможно, были недоступны для Сьюзан Уоткинс и ее западных научных сотрудников (я буду обсуждать этику позже в этой главе, когда я предлагаю советы о разработке собственного проекта массового сотрудничества ). Данные из проекта Малави Журналы привело к ряду важных выводов. Например, до начала проекта, многие аутсайдеры считали, что там было молчание о СПИДе в Африке к югу от Сахары, но журналы показали, что это явно не тот случай: журналисты подслушали сотни разговоров на эту тему, в тех местах, столь же разнообразны, как похороны , баров и церквей. Кроме того, характер этих бесед помогли исследователям лучше понять некоторые из устойчивости к использованию презервативов; так что использование презервативов подставили в сообщениях общественного здравоохранения не согласуется с тем, как это обсуждалось в повседневной жизни (Tavory and Swidler 2009) .
Конечно, как и данные из eBird, данные из проекта Малави Журналы не является совершенным, вопрос подробно обсуждается в Watkins и его коллеги. Так, например, записанные разговоры не являются случайной выборкой из всех возможных разговоров. Скорее всего, они являются неполными перепись разговоров о СПИДе. С точки зрения качества данных, исследователи считают, что их журналисты были высококачественные журналисты, о чем свидетельствует согласованность в журналах и по журналам. Кроме того, когда достаточное количество журналистов размещены в достаточно малой настройки и отчеты сосредоточены на конкретной теме, избыточность стало возможным, что повышает доверие к качеству данных. Например, работник секс - бизнеса под названием "Stella" показал несколько раз в журналах четырех различных журналистов (Watkins and Swidler 2009) . Как это было в PhotoCity, использование избыточности является важным принципом для оценки и обеспечения качества данных в распределенных проектах по сбору данных. Для того, чтобы в дальнейшем строить свою интуицию, Таблица 5.3 показывает другие примеры распределенной сбора данных для социальных исследований.
Данные, собранные | цитирование |
---|---|
Дискуссии о ВИЧ / СПИДе в Малави | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
Попрошайничество в Лондоне | Purdam (2014) |
События Конфликт в Восточном Конго | Windt and Humphreys (2016) |
Экономическая активность в Нигерии и Либерии | Blumenstock, Keleher, and Reisinger (2016) |
эпиднадзора за гриппом | Noort et al. (2015) |
Все примеры, описанные в этом разделе привлекли активное участие: журналисты расшифрованы разговоры, что они услышаны; птицеловов загрузил свои бирдинг контрольные списки; или игроки могут загружать свои фотографии. Но что, если участие было автоматическим и не требует каких-либо конкретных навыков или времени, чтобы представить? Это обещание , предлагаемых " с участием зондирования" или "человек-ориентированных зондирования." Например, выбоина Patrol, проект учеными в MIT, установлены GPS - оборудованные акселерометры внутри семи такси в районе Бостона (Eriksson et al. 2008) и (Eriksson et al. 2008) . Из-за вождения над выбоины оставляет четкий сигнал акселерометра, эти устройства, при размещении внутри движущихся такси, могут создавать выбоину карты Бостона. Конечно, такси не случайно выборки дороги, но, учитывая достаточное количество такси, может быть достаточно покрытия, чтобы предоставить информацию о больших участках они города. Второе преимущество пассивных систем, которые полагаются на технологии заключается в том, что они де-умение процесс внести свой вклад данных: в то время как она требует навыка внести свой вклад в eBird (потому что вам нужно, чтобы иметь возможность надежно идентифицировать виды птиц), он не требует никаких специальных навыков для внести свой вклад в выбоину Patrol.
Забегая вперед, я подозреваю, что многие коллекции распределенных данных проектов начнут использовать возможности мобильных телефонов, которые уже ведутся миллиарды людей по всему миру. Эти телефоны уже имеют большое количество датчиков, важных для измерения, таких как микрофоны, камеры, GPS-устройства, и часы. Кроме того, эти мобильные телефоны поддерживают сторонние приложения, позволяющие исследователям некоторый контроль над базовыми протоколами сбора данных. Наконец, эти телефоны имеют Интернет-соединения, что делает возможным для них, чтобы разгрузить данные, которые они собирают. Существуют многочисленные технические проблемы от неточных датчиков до ограниченного времени автономной работы, но эти проблемы, скорее всего, уменьшаться с течением времени по мере развития технологии. Вопросы, связанные с личной жизни и этики, с другой стороны, могли бы получить более сложным по мере развития технологии; Я вернусь к вопросам этики, когда я предлагаю советы о разработке собственных сотрудничества масс.
В распределенных проектах по сбору данных, волонтеры предоставляют данные о мире. Такой подход уже успешно используется, и будущего использования, вероятно, придется обратиться выборки и качества данных проблем. К счастью, существующие проекты, такие как PhotoCity и выбоину Patrol предложить пути решения этих проблем. Поскольку все больше проектов воспользоваться преимуществами технологии, которая позволяет де-квалифицированных и пассивное участие, распределенных по сбору данных проектов должны резко увеличить в масштабе, что позволяет исследователям собирать данные, которые были просто покинуть пределы в прошлом.