Большие источники данных могут быть загружены с нежелательной и спама.
Некоторые исследователи считают, что большие источники данных, особенно онлайн-источники, являются первозданными, потому что они собираются автоматически. Фактически, люди, которые работали с большими источниками данных, знают, что они часто грязные . То есть они часто включают данные, которые не отражают реальных действий, представляющих интерес для исследователей. Большинство социологов уже знакомы с процессом очистки широкомасштабных данных социальных опросов, но очистка больших источников данных представляется сложнее. Я думаю, что основным источником этой трудности является то, что многие из этих больших источников данных никогда не предназначались для использования в исследованиях, поэтому они не собираются, не хранятся и не документируются таким образом, чтобы облегчить очистку данных.
Опасности грязных цифровых данных трассировки проиллюстрированы результатами исследования «Назад и коллеги» (2010) эмоционального ответа на атаки 11 сентября 2001 года, которые я кратко упомянул ранее в этой главе. Исследователи обычно изучают ответ на трагические события, используя ретроспективные данные, собранные в течение месяцев или даже лет. Но, Назад и коллеги нашли постоянный источник цифровых следов - отмеченные временем, автоматически записанные сообщения от 85 000 американских пейджеров, - и это позволило им изучить эмоциональный отклик на гораздо более тонкой шкале времени. Они создали минутную эмоциональную шкалу 11 сентября, кодируя эмоциональное содержание сообщений пейджера на процент слов, связанных с (1) грустью (например, «плач» и «печаль»), (2) беспокойство ( например, «обеспокоены» и «страшны») и (3) гнев (например, «ненависть» и «критическая»). Они обнаружили, что грусть и беспокойство колебались в течение дня без сильной картины, но в течение дня наблюдалось явное увеличение гнева. Это исследование, как представляется, является прекрасной иллюстрацией мощных источников данных: при использовании традиционных источников данных было бы невозможно получить такую временную шкалу с высоким разрешением немедленного ответа на непредвиденное событие.
Однако всего через год Синтия Пьюри (2011) Cynthia Pury, (2011) более внимательно изучила данные. Она обнаружила, что большое количество якобы злых сообщений генерировалось одним пейджером, и все они были одинаковыми. Вот что предположительно сердитые сообщения говорили:
"Перезагрузка NT машина [имя] в кабинет [имя] на [месте]: ФАТАЛЬНО: [дата и время]"
Эти сообщения были названы сердитыми, потому что они включали слово «КРИТИЧЕСКИЙ», который может в целом указывать на гнев, но в этом случае нет. Удаление сообщений, генерируемых этим единственным автоматическим пейджером, полностью устраняет явное увеличение гнева в течение дня (рисунок 2.4). Другими словами, основной результат в Back, Küfner, and Egloff (2010) был артефактом одного пейджера. Как показывает этот пример, относительно простой анализ относительно сложных и грязных данных может серьезно ошибиться.
В то время как грязные данные, которые создаются непреднамеренно, например, из одного шумного пейджера, могут быть обнаружены достаточно осторожным исследователем, есть также некоторые онлайн-системы, которые привлекают умышленных спамеров. Эти спамеры активно генерируют поддельные данные и часто мотивированы прибылью, очень трудной для скрытия их спама. Например, политическая деятельность в Twitter, по-видимому, включает по крайней мере некоторый разумно сложный спам, в результате чего некоторые политические причины намеренно становятся более популярными, чем они есть на самом деле (Ratkiewicz et al. 2011) . К сожалению, удаление этого намеренного спама может быть довольно сложным.
Конечно, то, что считается грязным, может зависеть, в частности, от исследовательского вопроса. Например, многие изменения в Википедию создаются автоматическими ботами (Geiger 2014) . Если вас интересует экология Википедии, то эти бот-созданные изменения важны. Но если вы заинтересованы в том, как люди вносят вклад в Википедию, тогда исключения, созданные ботом, должны быть исключены.
Нет единого статистического метода или подхода, который мог бы обеспечить достаточную очистку ваших грязных данных. В конце концов, я думаю, что лучший способ избежать обмана грязными данными - это как можно больше понять, как были созданы ваши данные.