Великі джерела даних можуть бути завантажені з небажаною і спаму.
Деякі дослідники вважають, що великі джерела даних, особливо онлайн-джерела, є незайманими, оскільки вони збираються автоматично. Фактично люди, які працювали з великими джерелами даних, знають, що вони часто брудні . Тобто, вони часто включають дані, які не відображають реальних дій, що цікавлять дослідників. Більшість соціологів вже знайомі з процесом очищення великомасштабних даних соціальних опитувань, але прибирання великих джерел даних, здається, важче. Я думаю, що основним джерелом цієї труднощі є те, що багато хто з цих великих джерел даних ніколи не були призначені для використання в дослідженнях, і тому вони не збираються, не зберігаються та не документуються таким чином, щоб полегшити чищення даних.
Небезпека брудних цифрових даних слідкує за дослідженнями "Назад" та "Колеги" (2010) Про емоційну реакцію на напади 11 вересня 2001 р., Про що ми коротко згадували раніше у цьому розділі. Дослідники, як правило, вивчають реакцію на трагічні події, використовуючи ретроспективні дані, зібрані протягом місяців чи навіть років. Але Назад і колеги знайшли завжди джерело цифрових слідів - автоматично фіксовані повідомлення з 85 000 американських пейджерів, що дозволило їм вивчити емоційну відповідь на набагато більш тонке часові рамки. Вони створили хвилинну емоційну шкалу від 11 вересня, кодуючи емоційний вміст повідомлень пейджера у відсотках слів, пов'язаних з (1) смутком (наприклад, "плач" та "горе"), (2) тривогою ( наприклад, "турбує" і "боїться") і (3) гніву (наприклад, "ненавидіти" та "критично"). Вони виявили, що смуток і тривожність коливалися протягом усього дня без сильної картини, але протягом дня спостерігався вражаючий приріст гніву. Це дослідження, як видається, є прекрасним прикладом можливостей джерел даних завжди: якщо було використано традиційні джерела даних, було б неможливо отримати таку високу роздільну здатність термінів негайного реагування на несподівану подію.
Проте через рік, однак, Синтія Пурі (2011) уважно переглянула дані. Вона виявила, що велика кількість нібито розгніваних повідомлень було створено одним пейджер, і всі вони були однаковими. Ось що казали такі нібито злісні повідомлення:
"Перезавантаження NT машина [ім'я] в кабінет [ім'я] на [місці]: фатальним: [дата і час]"
Ці повідомлення були позначені злісними, оскільки вони включали слово "КРИТИЧНЕ", яке, як правило, означає гнів, але в цьому випадку це не так. Видалення повідомлень, згенерованих цим єдиним автоматичним пейджером, повністю усуває очевидне збільшення гніву протягом дня (малюнок 2.4). Інакше кажучи, основним результатом роботи Back, Küfner, and Egloff (2010) став артефакт одного пейджера. Як показує цей приклад, порівняно простий аналіз відносно складних і неясні даних може мати серйозні помилки.
Незважаючи на те, що брудні дані, які створюються ненавмисно, наприклад, що з одного шумного пейджера, можуть бути виявлені досить обережним дослідником, існують також деякі онлайн-системи, які залучають навмисних спамерів. Ці спамери активно генерують фальшиві дані, і дуже часто мотивація прибутку призводить до приховування спаму. Наприклад, політична діяльність на Twitter, здається, включає, принаймні, деякі досить розумні спами, внаслідок чого деякі політичні причини навмисно виглядають більш популярними, ніж вони насправді є (Ratkiewicz et al. 2011) . На жаль, видалення цього навмисного спаму може бути досить складним.
Звичайно те, що вважається брудними даними, може частково залежати від дослідницького питання. Наприклад, багато редагувань Wikipedia створено автоматизованими ботами (Geiger 2014) . Якщо ви зацікавлені в екології Вікіпедії, то ці бот-створені редакції важливі. Але якщо ви зацікавлені в тому, як люди допомагають Вікіпедії, то виключені зміни, створені ботом.
Немає єдиної статистичної методики або підходу, яка б гарантувала, що ви досить очистили брудні дані. Зрештою, я думаю, що найкращий спосіб уникнути обдурювання брудними даними полягає в тому, щоб максимально зрозуміти, як створюються ваші дані.