Duże źródła danych mogą być ładowane z śmieci i spam.
Niektórzy badacze uważają, że duże źródła danych, zwłaszcza źródła online, są nieskazitelne, ponieważ są gromadzone automatycznie. W rzeczywistości ludzie, którzy pracowali z dużymi źródłami danych, wiedzą, że są często brudni . Oznacza to, że często zawierają dane, które nie odzwierciedlają rzeczywistych działań interesujących badaczy. Większość naukowców społecznych jest już zaznajomiona z procesem oczyszczania danych ankietowych na dużą skalę, ale czyszczenie dużych źródeł danych wydaje się trudniejsze. Myślę, że ostatecznym źródłem tej trudności jest to, że wiele z tych dużych źródeł danych nigdy nie było przeznaczonych do badań, a więc nie są gromadzone, przechowywane i dokumentowane w sposób ułatwiający czyszczenie danych.
Niebezpieczeństwa związane z brudnymi danymi cyfrowymi są zilustrowane przez badanie Back and Coats (2010) emocjonalnej reakcji na ataki z 11 września 2001 r., O których wspominałem wcześniej w rozdziale. Badacze zwykle badają reakcję na tragiczne zdarzenia, wykorzystując dane retrospektywne zebrane w ciągu miesięcy lub nawet lat. Ale Back i współpracownicy znaleźli stałe źródło cyfrowych śladów - zapisane w czasie, automatycznie zapisujące wiadomości od 85 000 amerykańskich pagerów - i to pozwoliło im na badanie reakcji emocjonalnej w znacznie krótszym czasie. Stworzyli minutę po minucie emocjonalnego kalendarza 11 września, kodując zawartość emocjonalną wiadomości na pagerach przez procent słów związanych z (1) smutkiem (np. "Płacz" i "smutek"), (2) lękiem ( np. "zmartwiony" i "lękliwy") i (3) gniew (np. "nienawiść" i "krytyczny"). Odkryli, że smutek i niepokój zmieniają się w ciągu dnia bez silnego schematu, ale w ciągu dnia nastąpił wyraźny wzrost gniewu. Badania te wydają się być cudowną ilustracją potęgi źródeł danych, na których zawsze można polegać: gdyby użyto tradycyjnych źródeł danych, uzyskanie takiej osi czasu o wysokiej rozdzielczości w przypadku natychmiastowej reakcji na nieoczekiwane zdarzenie byłoby niemożliwe.
Jednak zaledwie rok później Cynthia Pury (2011) uważnie przyjrzała się danym. Odkryła, że duża liczba rzekomo wściekłych wiadomości została wygenerowana przez pojedynczy pager i wszystkie były identyczne. Oto co powiedzieli ci rzekomo rozgniewane wiadomości:
"Maszyna Reboot NT [nazwa] w szafie [nazwa] w [miejscu]: Krytyczna: [data i godzina]"
Wiadomości te były oznaczone jako "gniewne", ponieważ zawierały słowo "KRYTYCZNE", które ogólnie mogą oznaczać złość, ale w tym przypadku nie. Usunięcie wiadomości generowanych przez ten pojedynczy automatyczny pager całkowicie eliminuje widoczny wzrost gniewu w ciągu dnia (rysunek 2.4). Innymi słowy, główny wynik w Back, Küfner, and Egloff (2010) był artefaktem jednego pagera. Jak ilustruje ten przykład, stosunkowo prosta analiza stosunkowo złożonych i nieuporządkowanych danych może poważnie się zepsuć.
Podczas gdy brudne dane, które powstają w sposób niezamierzony - na przykład z głośnego pagera - mogą zostać wykryte przez rozsądnie uważnego badacza, istnieją również systemy online, które przyciągają zamierzonych spamerów. Ci spamerzy aktywnie generują fałszywe dane i często są zmotywowani przez zarobki, aby ukryć swoje spamowanie. Na przykład działalność polityczna na Twitterze wydaje się obejmować przynajmniej trochę wyrafinowanego spamu, w którym pewne przyczyny polityczne są celowo upowszechniane, aby wyglądały na bardziej popularne niż w rzeczywistości (Ratkiewicz et al. 2011) . Niestety usunięcie tego celowego spamu może być dość trudne.
Oczywiście to, co jest uważane za brudne dane, może częściowo zależeć od pytania badawczego. Na przykład wiele zmian w Wikipedii jest tworzonych przez automatyczne roboty (Geiger 2014) . Jeśli interesujesz się ekologią Wikipedii, to te edycje utworzone przez bota są ważne. Ale jeśli interesuje Cię sposób, w jaki ludzie przyczyniają się do Wikipedii, to należy wykluczyć edycje utworzone przez bota.
Nie ma jednej techniki statystycznej ani podejścia, które zapewni, że wystarczająco wyczyścisz brudne dane. Ostatecznie uważam, że najlepszym sposobem uniknięcia oszukiwania przez brudne dane jest jak największa wiedza na temat tworzenia danych.