Големите източници на данни могат да бъдат натоварени с боклуци и спам.
Някои изследователи смятат, че големите източници на данни, особено онлайн източници, са девствени, защото се събират автоматично. Всъщност хората, които са работили с големи източници на данни, знаят, че често са мръсни . Това означава, че те често включват данни, които не отразяват реални действия от интерес за изследователите. Повечето социални учени вече са запознати с процеса на почистване на мащабни данни от социалното проучване, но почистването на големи източници на данни изглежда по-трудно. Мисля, че крайният източник на тази трудност е, че много от тези големи източници на данни никога не са били предназначени за изследване и така не се събират, съхраняват и документират по начин, който улеснява почистването на данните.
Опасностите от мръсни данни за цифровите следи са илюстрирани от проучването Back and colleagues (2010) на емоционалния отговор на нападенията от 11 септември 2001 г., което споменах накратко по-рано в главата. Изследователите обикновено изследват отговора на трагични събития, използвайки ретроспективни данни, събрани за месеци или дори години. Но Back и колегите си намериха винаги източник на цифрови следи - автоматичните записани съобщения от 85 000 американски пейджъри с таймаут, което им позволи да изучат емоционалния отговор в много по-фини времеви периоди. Те създадоха минута-по-минута емоционална хронология от 11 септември, като кодираха емоционалното съдържание на пейджърските послания с процента на думи, свързани с (1) тъга (напр. "Плач" и "скръб"), напр. "притеснен" и "страшен") и (3) гняв (напр. "омраза" и "критична"). Те установиха, че тъгата и безпокойството се променят през целия ден, без да има силен шанс, но имаше поразително увеличение на гнева през целия ден. Това изследване изглежда е прекрасна илюстрация на силата на постоянно достъпните източници на данни: ако се използват традиционни източници на данни, би било невъзможно да се получи такава хронология с висока резолюция на непосредствения отговор на неочаквано събитие.
Само една година по-късно, обаче, Синтия Пури (2011) разгледа данните по-внимателно. Тя открила, че голям брой от предполагаемите ядосани съобщения са били генерирани от един пейджър и всички те са идентични. Ето какво казаха онези предполагаемо ядосани съобщения:
"Reboot NT машина [име] в кабинета [име] в [място]: Критичен: [дата и час]"
Тези послания бяха означени с ярост, защото включиха думата "КРИТИЧНА", която обикновено може да показва гняв, но в този случай не е така. Премахването на генерираните от този автоматичен пейджър съобщения напълно премахва видимото увеличение на гнева в течение на деня (фигура 2.4). С други думи, основният резултат в Back, Küfner, and Egloff (2010) е един артефакт на един пейджър. Както илюстрира този пример, сравнително простият анализ на относително сложни и объркани данни има потенциал да се обърка сериозно.
Макар мръсните данни, които са създадени непреднамерено - например от един шумен пейджър - могат да бъдат открити от разумно внимателен изследовател, има и някои онлайн системи, които привличат умишлени спамъри. Тези спамъри активно генерират фалшиви данни и - често мотивирани от печалбата - работят много усилено, за да запазят скритите си спам. Например, политическата активност в Twitter изглежда включва поне някакъв сравнително сложен спам, при който някои политически причини се правят умишлено, за да изглеждат по-популярни, отколкото са в действителност (Ratkiewicz et al. 2011) . За съжаление премахването на този умишлен спам може да бъде доста трудно.
Разбира се, това, което се смята за мръсна, може да зависи отчасти от изследователския въпрос. Например много редакции на Уикипедия се създават от автоматизирани ботове (Geiger 2014) . Ако се интересувате от екологията на Уикипедия, тогава тези бот-създадени редакции са важни. Но ако се интересувате от това как хората допринасят за Уикипедия, тогава редактираните от бот редакции трябва да бъдат изключени.
Няма статистическа техника или подход, които да гарантират, че сте изминали достатъчно вашите мръсни данни. В крайна сметка мисля, че най-добрият начин да избегнете заблудата от мръсни данни е да разберете колкото е възможно повече как са създадени вашите данни.