Big viri podatkov lahko naložen z junk in spam.
Nekateri raziskovalci verjamejo, da so veliki viri podatkov, zlasti spletni viri, nedotakljivi, ker se samodejno zbirajo. Dejansko ljudje, ki so delali z velikimi viri podatkov, vedo, da so pogosto umazani . To pomeni, da pogosto vključujejo podatke, ki ne odražajo dejanskih dejavnosti v interesu raziskovalcev. Večina družboslovcev je že seznanjena s procesom čiščenja obsežnih podatkov o socialnih raziskavah, čiščenje velikih podatkovnih virov pa je težje. Mislim, da je glavni vir te težave, da mnogi od teh velikih virov podatkov nikoli niso bili namenjeni za raziskovanje, zato se ne zbirajo, shranjujejo in dokumentirajo na način, ki olajša čiščenje podatkov.
Nevarnosti umazanih podatkov o digitalni sledi ilustrira študija Back and colleagues (2010) o čustvenem odzivu na napade 11. septembra 2001, ki sem jih na kratko omenil v poglavju. Raziskovalci običajno preučujejo odziv na tragične dogodke z uporabo retrospektivnih podatkov, zbranih več mesecev ali celo let. Ampak, Back in sodelavci so našli vedno digitalni sledi - časovno označena, samodejno posneta sporočila 85.000 ameriških pagerjev, kar jim je omogočilo preučevanje čustvenega odziva na precej natančnejšem časovnem razporedu. Ustvarili so minuto za minuto čustveno časovno obdobje 11. septembra s kodiranjem čustvene vsebine pager sporočil z odstotkom besed, povezanih z (1) žalost (npr. "Jok" in "žalost"), (2) tesnoba ( npr. »zaskrbljeni« in »prestrašeni«) in (3) jeza (npr. »sovraštvo« in »kritično«). Ugotovili so, da je žalost in tesnoba nihala ves dan brez močnega vzorca, vendar je čez dan naraščala jeza. Zdi se, da je ta raziskava čudovita ilustracija moči izvornih podatkovnih virov: če bi bili uporabljeni tradicionalni viri podatkov, bi bilo nemogoče dobiti takšen časovni okvir za takojšnje odzivanje na nepričakovan dogodek.
Le leto kasneje pa je Cynthia Pury (2011) skrbno preučila podatke. Ugotovila je, da je veliko število domnevno jeznih sporočil ustvarilo samo en pečatnik in vsi so bili enaki. Evo tistih, ki so domnevno jezna sporočila:
"Reboot NT stroj [ime] v omari [ime] v [kraj]: KRITIČNA: [datum in čas]"
Ta sporočila so bila označena kot jezna, ker so vključevali besedo "CRITICAL", ki lahko na splošno kažejo jezo, vendar v tem primeru ne. Odstranjevanje sporočil, ki jih ustvari ta samodejni samodejni pager, popolnoma izniči navidezno povečanje jeze v teku dneva (slika 2.4). Z drugimi besedami, glavni rezultat v Back, Küfner, and Egloff (2010) je bil artefakt enega pajka. Kot ponazarja ta primer, sorazmerno preprosta analiza razmeroma zapletenih in grdih podatkov ima potencialno resno napako.
Medtem ko umazani podatki, ki se ustvarijo nenamerno, kot je tisti iz enega hrupnega pajka, lahko zazna precej previdni raziskovalec, obstajajo pa tudi spletni sistemi, ki privabljajo namerne pošiljatelje neželene elektronske pošte. Ti pošiljatelji neželene pošte aktivno ustvarjajo lažne podatke in so pogosto motivirani z dobičkom zelo težko ohraniti njihovo neželeno vsebino. Zdi se, da je na primer politična dejavnost na Cvrkutati vključevala vsaj nekaj precej sofisticiranega neželenega sporočila, pri čemer so nekateri politični vzroki namenoma bolj priljubljeni, kot so bili dejansko (Ratkiewicz et al. 2011) . Na žalost je odstranitev te namerne vsiljene pošte lahko precej težavna.
Seveda, kar se šteje za umazane podatke, je lahko delno odvisno od raziskovalnega vprašanja. Na primer, številne spremembe v Wikipediji so ustvarjene z avtomatskimi roboti (Geiger 2014) . Če vas zanimajo ekologija Wikipedije, so te spremembe, ki jih je ustvaril bot, pomembne. Ampak, če vas zanima, kako ljudje prispevajo k Wikipediji, potem je treba urejanje, ki ga je ustvaril bot, izključiti.
Ni ene statistične tehnike ali pristopa, ki bi lahko zagotovil, da ste dovolj očistili svoje umazane podatke. Na koncu menim, da je najboljši način, da se izogibate umazanim podatkom, razumeti, kolikor je mogoče, o tem, kako so bili ustvarjeni vaši podatki.