Veliki izvori podataka mogu biti učitan sa junk i spam.
Neki istraživači veruju da su veliki izvori podataka, posebno online izvori, čisti jer se automatski prikupljaju. Zapravo, ljudi koji su radili sa velikim izvorima podataka znaju da su često prljavi . To jest, oni često uključuju podatke koji ne odražavaju prave akcije od interesa za istraživače. Većina društvenih naučnika već je upoznata sa procesom čišćenja velikih podataka o socijalnom istraživanju, ali izgleda da je čišćenje velikih izvora podataka teže. Mislim da je krajnji izvor ove poteškoće taj što mnogi od ovih velikih izvora podataka nikada nisu imali nameru da se koriste za istraživanje, tako da se oni ne prikupljaju, čuvaju i dokumentuju na način koji olakšava čišćenje podataka.
Opasnost prljavih podataka o digitalnom tragovu ilustrovana je iz studije Back and colleagues (2010) o emocionalnom odgovoru na napade 11. septembra 2001. godine, o kojima sam kratko spomenuo ranije u poglavlju. Istraživači obično istražuju odgovor na tragične događaje koristeći retrospektivne podatke prikupljene tokom meseci ili čak godina. Ali, Back i kolege su pronašli izvor digitalnih tragova - automatsko snimljene poruke od 85.000 američkih pejdžera - što im je omogućilo da proučavaju emocionalni odgovor na mnogo finiji vremenski rok. Oni su stvorili minute od minute emocionalne vremenske linije 11. septembra šifriranjem emocionalnog sadržaja pejdžerskih poruka procentom reči koje se tiču (1) tuga (npr. "Plakanje" i "žalost"), (2) anksioznost npr. "zabrinuti" i "uplašeni") i (3) bes (npr. "mržnja" i "kritički"). Otkrili su da je tuga i anksioznost tokom dana nenajavljena bez jakog uzorka, ali da je tokom dana stvorio nagli porast besa. Izgleda da ovo istraživanje predstavlja izvrsnu ilustraciju moći izvornih izvora podataka: ukoliko bi se koristili tradicionalni izvori podataka, bilo bi nemoguće dobiti takav vremenski okvir visoke rezolucije za trenutni odgovor na neočekivan događaj.
Međutim, samo godinu dana kasnije, Cynthia Pury (2011) je pažljivo pogledala podatke. Otkrila je da je veliki broj navodno besnih poruka generisao jedan pejdžer i svi su bili identični. Evo šta su navodno ljute poruke rekle:
"Reboot NT stroj [ime] u kabinetu [ime] na [lokacija]: Critical: [datum i vrijeme]"
Ove poruke su bile označene ljutito zato što su uključivali riječ "KRITIČNA", koja uopšteno govori o besu ali u ovom slučaju ne. Uklanjanje poruka koje generiše ovaj pojedinačni automatizovani pejdžer potpuno eliminiše očigledan porast besa u toku dana (slika 2.4). Drugim rečima, glavni rezultat u Back, Küfner, and Egloff (2010) bio je artefakt jednog pejdžera. Kao što ovaj primer ilustruje, relativno jednostavna analiza relativno složenih i neuspješnih podataka ima potencijal da ozbiljno pogriješi.
Dok prljave podatke koji se stvaraju nenamjerno - poput onog iz jednog bučnog pejdžera - može biti otkriven od strane razumno pažljivog istraživača, postoje i neki onlajn sistemi koji privlače namerne spamere. Ovi spameri aktivno generišu lažne podatke i često motivišu profitnim radom veoma teško da se spamovanje zadrži. Na primjer, politička aktivnost na Twitter-u čini se da uključuje barem neku razumno sofisticiranu neželjenu poštu, pri čemu su neki politički uzroci namerno učinjeni da izgledaju popularnije nego što su zapravo bili (Ratkiewicz et al. 2011) . Nažalost, uklanjanje ove namerne neželjene pošte može biti prilično teško.
Naravno, ono što se smatraju prljavim podacima može djelimično zavisiti od istraživačkog pitanja. Na primjer, mnoge izmjene u Wikipediji kreirane su automatizovanim botovima (Geiger 2014) . Ako ste zainteresovani za ekologiju Vikipedije, onda su ove izmene botova važne. Ali ako ste zainteresovani za to kako ljudi doprinose Wikipedia-u, tada bi trebali biti isključeni izmeni botova.
Ne postoji pojedinačna statistička tehnika ili pristup koji može osigurati da ste dovoljno očistili svoje prljave podatke. Na kraju, mislim da je najbolji način da se izbjegne prevariti prljavim podacima da razumijete što više o tome kako su ti podaci stvoreni.