Veliki izvori podataka mogu se učitati sa smećem i spam.
Neki istraživači vjeruju da su veliki izvori podataka, posebice on-line izvori, netaknute jer se prikupljaju automatski. Zapravo, ljudi koji su radili s velikim izvorima podataka znaju da su često prljavi . To jest, često uključuju podatke koji ne odražavaju stvarne akcije od interesa za istraživače. Većina društvenih znanstvenika već je upoznata s procesom čišćenja velikih podataka o društvenim istraživanjima, ali čišćenje velikih izvora podataka čini se teškim. Mislim da je krajnji izvor te poteškoće da mnogi od tih velikih izvora podataka nikad nisu bili namijenjeni za istraživanje, pa se ne prikupljaju, pohranjuju i dokumentiraju na način koji olakšava čišćenje podataka.
Opasnosti prljavih digitalnih podataka o tragovima ilustriraju Back and colleagues ' (2010) studija emocionalnog odgovora na napade 11. rujna 2001., što sam ukratko spomenuo ranije u poglavlju. Istraživači obično proučavaju odgovor na tragične događaje koristeći retrospektivne podatke prikupljene tijekom mjeseci ili čak godina. Ali, Back i kolege pronašli su uvijek izvor digitalnih tragova - vremenski obradenih, automatski snimljenih poruka od 85.000 američkih pagera - što im je omogućilo da proučavaju emocionalni odgovor na mnogo finoj vremenskoj skali. Stvorili su minutni minutni emocionalni vremenski redak 11. rujna tako što su označili emocionalni sadržaj pager poruka postotkom riječi povezanih s (1) tugom (npr. "Plač" i "žalost"), (2) anksioznost ( npr. "zabrinuti" i "strašni"), i (3) bijes (npr. "mrzak" i "kritična"). Otkrili su da tuga i tjeskoba fluktuiraju tijekom dana bez jakog uzorka, ali da je došlo do snažnog porasta gnjeva tijekom dana. Ovo istraživanje čini se prekrasnom ilustracijom snage uvijek dostupnih izvora podataka: ako su korišteni tradicionalni izvori podataka, bilo bi nemoguće dobiti takvu vremensku liniju visoke rezolucije neposrednog odgovora na neočekivani događaj.
Samo godinu dana kasnije Cynthia Pury (2011) pažljivije je pogledao podatke. Otkrila je da je velik broj navodno ljutih poruka generiran jednim pagerom i svi su bili identični. Evo što su navodno ljutite poruke rekle:
"Reboot NT stroj [ime] u kabinetu [naziv] na [lokaciji]: Kritični: [datum i vrijeme]"
Ove su poruke označene ljutitim jer su uključivale riječ "KRITIČNO", što obično može ukazivati na bijes, ali u ovom slučaju ne. Uklanjanje poruka generiranih ovim automatskim pagerom u potpunosti eliminira vidljivi porast ljutnje tijekom dana (slika 2.4). Drugim riječima, glavni rezultat u Back, Küfner, and Egloff (2010) bio je artefakt jednog pagera. Kao što pokazuje ovaj primjer, relativno jednostavna analiza relativno složenih i neurednih podataka može potencijalno ozbiljno pogriješiti.
Dok prljave podatke koji su nenamjerno stvoreni - kao što je to jedan od glasnih pagera - mogu otkriti razumno pažljivi istraživači, postoje i neki online sustavi koji privlače namjerne spamere. Ovi spameri aktivno stvaraju lažne podatke, i - često motivirani profitnim radom - vrlo teško zadržati svoje spamiranje skriveno. Na primjer, politička aktivnost na Twitteru uključuje barem neke razumno sofisticirane spamove, pri čemu neki politički uzroci namjerno postaju popularniji nego što zapravo jesu (Ratkiewicz et al. 2011) . Nažalost, uklanjanje ove namjerne spam poruke može biti prilično teško.
Naravno, ono što se smatra prljavim podacima može ovisiti, dijelom, o istraživačkom pitanju. Na primjer, mnoge uređivanja Wikipedije stvaraju automatizirani botovi (Geiger 2014) . Ako ste zainteresirani za ekologiju Wikipedije, onda su te botove stvorene izmjene važne. Ali ako ste zainteresirani za način na koji ljudi pridonose Wikipediji, tada bi uređivanja stvorena od botova trebala biti isključena.
Ne postoji niti jedna statistička tehnika ili pristup koji može osigurati dovoljno čišćenje vaših prljavih podataka. Na kraju, mislim da je najbolji način izbjegavanja zavaravanja prljavih podataka što bolje razumjeti način na koji su stvoreni podaci.