Великі джерела даних можуть бути завантажені з небажаною і спаму.
Деякі дослідники вважають, що великі джерела даних, особливо з джерел в Інтернеті, недоторканим, тому що вони збираються автоматично. Насправді, люди , які працювали з великими джерелами даних знають , що вони часто забруднені. Тобто, вони часто включають в себе дані, які не відображають реальні дії, що представляють інтерес для дослідників. Багато соціологів вже знайомі з процесом очищення великомасштабного соціального обстеження даних, але очистка великих джерел даних більш складно з двох причин: 1) вони не були створені дослідниками для дослідників і 2) дослідників, як правило, менше розуміння того, як вони були створені.
Небезпеки брудних цифрових даних трасування ілюструються Назад і колеги » (2010) дослідження емоційної реакції на теракти 11 вересня 2001 р Дослідники , як правило , вивчають реакцію на трагічні події з використанням ретроспективних даних , зібраних в протягом декількох місяців або навіть років. Але, Назад і його колеги виявили, завжди на джерело цифрових слідів-на датуються, автоматично записані повідомлення від 85000 американських пейджери-і це дозволило дослідникам вивчити емоційний відгук на набагато більш тонкої часовій шкалі. Назад і його колеги створили щохвилинний емоційний графік 11 вересня шляхом кодування емоційний зміст пейджера повідомлень на відсоток слів, пов'язаних з (1) печаль (наприклад, плач, горе), (2) тривоги (наприклад, хвилювалася, страшно), і (3) гнів (наприклад, ненависть, критичний). Вони виявили, що печаль і тривога коливалися протягом всього дня без сильного малюнка, але що було вражаюче збільшення гніву протягом всього дня. Це дослідження, здається, прекрасна ілюстрація сили завжди на джерелах даних: за допомогою стандартних методів було б неможливо мати такого високого дозволу хронологію негайного реагування на несподівана подія.
Тільки один рік по тому, проте, Синтія Pury (2011) подивився на дані більш ретельно. Вона виявила, що велика кількість нібито гнівних повідомлень було отримано одним пейджером і всі вони були ідентичні. Ось що сказав, що ці нібито гнівні повідомлення:
"Перезавантаження NT машина [ім'я] в кабінет [ім'я] на [місці]: фатальним: [дата і час]"
Ці повідомлення були помічені злюся, бо вони включали в себе слово "Критичне", який зазвичай може вказувати гнів, але не в цьому випадку. Видалення повідомлень, які генерує ця єдиної автоматизованої пейджера повністю виключає явне збільшення гніву за протягом дня (рисунок 2.2). Іншими словами, основний результат Back, Küfner, and Egloff (2010) був артефакт одного пейджера. Як показує цей приклад, відносно простий аналіз щодо складних і заплутаних даних має потенціал, щоб йти серйозно не так.
У той час як брудні дані, які створюються ненавмисно, наприклад, від однієї гучної пейджера-можна виявити за допомогою досить ретельного дослідника, існують також деякі інтернет-системи, які залучають умисні спамерів. Ці спамери активно генерують неправдиві дані, і, часто мотивовано прибутку працювати дуже важко, щоб тримати їх розсилки спаму приховані. Наприклад, політична діяльність на Twitter , здається, включає принаймні деякі досить складні спам, в результаті чого деякі політичні причини навмисно зроблений , щоб виглядати більш популярним , ніж вони є фактичною (Ratkiewicz et al. 2011) і (Ratkiewicz et al. 2011) . Дослідники, що працюють з даними, які можуть містити навмисне спам стикаються з проблемою переконати свою аудиторію, що вони виявлені і вилучені відповідні спам.
І, нарешті, те, що вважається брудні дані можуть залежати тонкими способами ваших досліджень питань. Наприклад, багато правки в Вікіпедії створюються з допомогою автоматизованих роботів (Geiger 2014) . Якщо ви зацікавлені в екології Вікіпедії, то ці боти є важливими. Але, якщо ви зацікавлені в тому, як люди внести свій внесок у Вікіпедії, ці зміни, внесені цими ботами повинні бути виключені.
Кращі способи, щоб уникнути в оману брудних даних, щоб зрозуміти, яким чином ваші дані були створені для виконання простого пошукового аналізу, такі як створення простих графіків розсіювання.