Големи извори на податоци може да биде вчитан со ѓубре и спам.
Некои истражувачи веруваат дека големите извори на податоци, особено онлајн изворите, се чисти затоа што се собираат автоматски. Всушност, луѓето кои работеле со големи извори на податоци знаат дека често се валкани . Тоа е, тие често вклучуваат податоци кои не ги одразуваат вистинските активности од интерес за истражувачите. Повеќето општествени научници веќе се запознаени со процесот на чистење на податоците од социоекономските податоци, но се чини дека е тешко да се исчистат големите извори на податоци. Мислам дека крајниот извор на оваа тешкотија е дека многу од овие големи извори на податоци никогаш не биле наменети да се користат за истражување, и така тие не се собираат, складираат и документираат на начин кој го олеснува чистењето на податоците.
Опасностите од валканите податоци за дигитални траги се илустрирани во студијата Back and colleagues (2010) за емотивниот одговор на нападите од 11 септември 2001 година, што јас накусо го споменав порано во поглавјето. Истражувачите обично го проучуваат одговорот на трагичните настани користејќи ретроспективни податоци собрани во текот на неколку месеци или дури години. Но, Назад и колегите открија постојан извор на дигитални траги - автоматски снимени пораки од 85.000 американски пејџери, и со тоа им овозможија да го проучат емотивниот одговор во многу пофина временска рамка. Тие создадоа една минута по минута емоционална временска линија од 11 септември со кодирање на емотивната содржина на пејџер пораките со процент на зборови поврзани со (1) тага (на пример, "плачење" и "тага"), (2) анксиозност на пример, "загрижени" и "уплашени") и (3) лутина (на пример, "омраза" и "критична"). Тие откриле дека тагата и анксиозноста флуктуирале во текот на денот без силен модел, но дека во текот на денот имало забележително зголемување на гневот. Ова истражување се чини дека е одлична илустрација за моќта на извори на податоци секогаш: ако се користат традиционални извори на податоци, би било невозможно да се добие таква временска рамка со висока резолуција од непосреден одговор на неочекуван настан.
Сепак, една година подоцна, Синтија Пјури (2011) внимателно ги разгледа податоците. Таа откри дека голем број на наводно лути пораки биле генерирани од еден пејџер и сите биле идентични. Еве што велат тие наводно лути пораки:
"Рестартирај NT машина [име] во кабинетот на [име] на [адреса]: Критички: [датум и време]"
Овие пораки беа етикетирани како лути затоа што го вклучија зборот "КРИТИЧЕН", кој обично може да укаже на лутина, но во овој случај не. Отстранувањето на пораките генерирани од овој единствен автоматски пејџер целосно го елиминира очигледното зголемување на гневот во текот на денот (слика 2.4). Со други зборови, главниот резултат во Back, Küfner, and Egloff (2010) беше артефакт на една пејџерка. Како што покажува овој пример, релативно едноставната анализа на релативно сложени и неуредни податоци има потенцијал сериозно да погреши.
Додека валканите податоци што се создаваат ненамерно - како оние од една бучна пејџерка - можат да бидат откриени од страна на разумно внимателен истражувач, исто така има и некои онлајн системи кои привлекуваат намерни спамери. Овие спамери активно генерираат лажни податоци, и - често мотивирани од профит-работа многу тешко да се задржи нивната спам сокриени. На пример, политичката активност на Твитер, се чини, вклучува барем некој софистициран спам, при што некои политички причини се намерно направени да изгледаат попопуларни отколку што всушност се (Ratkiewicz et al. 2011) . За жал, отстранувањето на овој намерно спам може да биде доста тешко.
Се разбира, она што се смета за валкани податоци може делумно да зависи од истражувачкото прашање. На пример, многу промени на Википедија се креирани од автоматски ботови (Geiger 2014) . Ако сте заинтересирани за екологијата на Википедија, тогаш овие промени кои се создадени од бот се важни. Но, ако сте заинтересирани за тоа како луѓето придонесуваат за Википедија, тогаш промените создадени од бот треба да бидат исклучени.
Не постои единствена статистичка техника или пристап кој може да обезбеди дека сте доволно ги исчистиле валканите податоци. На крајот, мислам дека најдобар начин да се избегне да бидете измамени од валкани податоци е да се разбере што е можно повеќе за тоа како се создадени вашите податоци.