Большие источники данных могут быть загружены с нежелательной и спама.
Некоторые исследователи считают, что большие источники данных, особенно из источников в Интернете, нетронутым, потому что они собираются автоматически. На самом деле, люди , которые работали с большими источниками данных знают , что они часто загрязнены. То есть, они часто включают в себя данные, которые не отражают реальные действия, представляющие интерес для исследователей. Многие социологи уже знакомы с процессом очистки крупномасштабного социального обследования данных, но очистка больших источников данных более сложно по двум причинам: 1) они не были созданы исследователями для исследователей и 2) исследователей, как правило, меньше понимания того, как они были созданы.
Опасности грязных цифровых данных трассировки иллюстрируются Назад и коллеги » (2010) исследования эмоциональной реакции на теракты 11 сентября 2001 г. Исследователи , как правило , изучают реакцию на трагические события с использованием ретроспективных данных , собранных в течение нескольких месяцев или даже лет. Но, Назад и его коллеги обнаружили, всегда на источник цифровых следов-на датируемые, автоматически записанные сообщения от 85000 американских пейджеры-и это позволило исследователям изучить эмоциональный отклик на гораздо более тонкой временной шкале. Назад и его коллеги создали поминутный эмоциональный график 11 сентября путем кодирования эмоциональное содержание пейджера сообщений на процент слов, связанных с (1) печаль (например, плач, горе), (2) тревоги (например, волновалась, страшно), и (3) гнев (например, ненависть, критический). Они обнаружили, что печаль и тревога колебались в течение всего дня без сильного рисунка, но что было поразительное увеличение гнева в течение всего дня. Это исследование, кажется, прекрасная иллюстрация силы всегда на источниках данных: с помощью стандартных методов было бы невозможно иметь такого высокого разрешения хронологию немедленного реагирования на неожиданное событие.
Только один год спустя, однако, Синтия Pury (2011) посмотрел на данные более тщательно. Она обнаружила, что большое количество якобы гневных сообщений были получены одним пейджером и все они были идентичны. Вот что сказал, что эти якобы гневные сообщения:
"Перезагрузка NT машина [имя] в кабинет [имя] на [месте]: ФАТАЛЬНО: [дата и время]"
Эти сообщения были помечены злюсь, потому что они включали в себя слово "Критическое", который обычно может указывать гнев, но не в этом случае. Удаление сообщений, генерируемых этой единой автоматизированной пейджера полностью исключает явное увеличение гнева за течение дня (рисунок 2.2). Другими словами, основной результат Back, Küfner, and Egloff (2010) был артефакт одного пейджера. Как показывает этот пример, относительно простой анализ относительно сложных и запутанных данных имеет потенциал, чтобы идти серьезно не так.
В то время как грязные данные, которые создаются непреднамеренно, например, от одной шумной пейджера-можно обнаружить с помощью достаточно тщательного исследователя, существуют также некоторые интернет-системы, которые привлекают умышленные спамеров. Эти спамеры активно генерируют ложные данные, и, часто мотивировано прибыли работать очень трудно, чтобы держать их рассылки спама скрыты. Например, политическая деятельность на Twitter , кажется, включает по крайней мере некоторые достаточно сложные спам, в результате чего некоторые политические причины намеренно сделан , чтобы выглядеть более популярным , чем они являются фактической (Ratkiewicz et al. 2011) и (Ratkiewicz et al. 2011) . Исследователи, работающие с данными, которые могут содержать намеренное спам сталкиваются с проблемой убедить свою аудиторию, что они обнаружены и удалены соответствующие спам.
И, наконец, то, что считается грязные данные могут зависеть тонкими способами ваших исследований вопросов. Например, многие правки в Википедии создаются с помощью автоматизированных роботов (Geiger 2014) . Если вы заинтересованы в экологии Википедии, то эти боты являются важными. Но, если вы заинтересованы в том, как люди внести свой вклад в Википедии, эти изменения, внесенные этими ботами должны быть исключены.
Лучшие способы, чтобы избежать в заблуждение грязных данных, чтобы понять, каким образом ваши данные были созданы для выполнения простого поискового анализа, такие как создание простых графиков рассеяния.