Veliki izvori podataka mogu biti učitan sa junk i spam.
Neki istraživači vjeruju da velika izvora podataka, posebno onih iz online izvora, su netaknute jer su automatski prikupljaju. U stvari, ljudi koji su radili s velikim izvorima podataka znaju da su često prljave. To je, oni često sadrže podatke koje ne odražavaju pravi akcije od interesa za istraživača. Mnogi sociolozi su već upoznati s procesom čišćenja podataka socijalne ankete velikih, ali čišćenje velika izvora podataka je teže iz dva razloga: 1) nisu stvorili istraživači za istraživače i 2) istraživači obično imaju manje razumijevanja o tome kako oni su stvoreni.
Opasnosti od prljavih podataka digitalne trag ilustruje natrag i kolege ' (2010) studija emocionalni odgovor na napade od 11. septembra, 2001. Istraživači obično prouči odgovor na tragične događaje pomoću retrospektivne podatke prikupljene tokom mjeseci ili čak godina. Ali, Back i kolege pronašli uvijek na izvor digitalnih tragova-u timestamped, automatski snimljene poruke od 85.000 američkih pejdžere-a Ovo je omogućilo istraživačima da proučavaju emocionalni odgovor na mnogo finije vremenski okvir. Povratak i kolege stvorili minutu po minutu emocionalni vremenski rok 11. septembra kodiranja emocionalni sadržaj pejdžera poruka koju je postotak riječi koje se odnose na (1) tuga (npr, plače, bol), (2) anksioznost (npr, zabrinuti, uplašeni), i (3) ljutnja (npr, mržnje, kritična). Oni su otkrili da tugu i anksioznost oscilirala tijekom cijelog dana bez jake obrazac, ali da je upečatljiv rast u besu tokom dana. izgleda divan ilustracija moć uvijek na izvore podataka ovog istraživanja: koristeći standardne metode da bi bilo nemoguće imati takav visoke rezolucije Timeline neposrednog odgovora na neočekivani događaj.
Samo godinu dana kasnije, međutim, Cynthia Pury (2011) pogledao podatke pažljivije. Ona je otkrila da je veliki broj navodno ljuti poruke su generira jedan pager i svi su bili identični. Evo šta oni navodno ljut poruka, rekao je:
"Reboot NT stroj [ime] u kabinetu [ime] na [lokacija]: Critical: [datum i vrijeme]"
Ove poruke su označeni ljuti jer su uključeni riječ "kritične", što može uglavnom ukazuju ljutnje, ali ne u ovom slučaju. Uklanjanje poruke koje generira ovaj jedan automatizirani pager potpuno eliminiše očigledan porast u ljutnju tokom dana (slika 2.2). Drugim riječima, glavni rezultat u Back, Küfner, and Egloff (2010) bio je artefakt jednog pejdžera. Kao što ovaj primjer pokazuje, relativno jednostavna analiza relativno složen i neuredan podataka ima potencijal da se ozbiljno nije u redu.
Iako prljave podataka koji se stvara nenamjerno-kao što je iz jedne bučnih pager-može se otkriti razumno pažljiv istraživač, postoje i neke online sisteme koji privlače namerno spameri. Ove spameri aktivno stvaraju lažne podatke, i-često motivirani profitom-rad vrlo teško zadržati svoje spam skriveno. Na primjer, politička aktivnost na Twitteru izgleda uključiti barem neke prilično sofisticirane spam, pri čemu su neki politički razlozi su namjerno napravljene tako da izgledaju više popularan nego stvarni su (Ratkiewicz et al. 2011) . Istraživači koji rade sa podacima koji mogu sadržavati namjerni spam suočavaju sa izazovom da ubedi svoje publike da su otkrivene i ukloniti relevantne spam.
Na kraju, ono što se smatra prljavi podaci mogu zavisiti u suptilne načine na istraživačka pitanja. Na primjer, mnoge izmjene u Wikipediji su stvorili automatizirani robota (Geiger 2014) . Ako ste zainteresovani u ekologiji Wikipedia, onda ovi botovi su važni. Ali, ako ste zainteresirani za to kako ljudi doprinose Wikipediji, ove izmjene od strane tih robota treba isključiti.
Najboljih načina da se izbegne zavara su prljavi podaci da shvate kako su vaši podaci stvoreni za obavljanje jednostavnih analiza istraživanja, kao što je izrada jednostavna scatter parcela.