Big viri podatkov lahko naložen z junk in spam.
Nekateri raziskovalci menijo, da so veliki podatkovni viri, zlasti tisti iz spletnih virov nedotaknjene, ker se zbirajo samodejno. Dejstvo je, ljudje, ki so delali z velikimi podatkovnimi viri vedo, da so pogosto umazani. To pomeni, da pogosto vsebujejo podatke, ki ne odražajo dejanskih ukrepov v interesu raziskovalcev. Mnogi sociologi so že seznanjeni s procesom čiščenja podatkov družboslovne raziskave v velikem obsegu, vendar čiščenje velikih podatkovnih virov je iz dveh razlogov težje: 1), so raziskovalci za raziskovalce in 2), raziskovalci niso nastale na splošno manj razumeli, kako so bile ustvarjene.
Nevarnosti umazanih podatkov digitalnega sledovih so prikazane s Back in sodelavci " (2010) študija čustvenega odziva na napade 11. septembra 2001. Raziskovalci običajno preučili odziv na tragične dogodke z uporabo retrospektivne podatke, zbrane več mesecev ali celo let. Ampak, Back in sodelavci našel vedno-na vir digitalno sledovi-je s časovnim žigom, samodejno posnete sporočila od 85.000 ameriških pozivniki, in to omogočila raziskovalcem, da preučujejo čustveni odziv na veliko lepši roku. Nazaj in sodelavci ustvaril minute-by-minute čustveno časovni 11. septembra s kodiranjem čustveno vsebino pager sporočil za odstotek besed, povezanih z (1) žalost (na primer, jok, žalost), (2) strah (npr zaskrbljeni, prestrašeni), in (3), jeza (na primer, sovraštvo, kritična). Ugotovili so, da je žalost in tesnoba niha ves dan brez močne vzorec, ampak to je bilo presenetljivo povečanje jeze ves dan. Zdi se, da je čudovit prikaz moči vedno o virih podatkov te raziskave: z uporabo standardnih metod, da bi bilo nemogoče, da imajo tako visoke ločljivosti časovni neposredni primeru nepričakovanega dogodka.
Samo eno leto kasneje, pa je Cynthia Pury (2011) pogledal podatke bolj natančno. Je odkrila, da so bili številni domnevno jeznih sporočil nastane z enim pozivnik in so vsi enaki. Tukaj je tisto, kar ti menda jezni sporočila dejal:
"Reboot NT stroj [ime] v omari [ime] v [kraj]: KRITIČNA: [datum in čas]"
Ta sporočila so bila označena jezen, ker je bil tudi izraz "kritično", ki se lahko na splošno kažejo, jezo, vendar ne v tem primeru. Odstranjevanje sporočila, ki jih to eno avtomatsko pozivnik popolnoma odpravlja očitno povečanje jezo nad tekom dneva (slika 2.2). Z drugimi besedami, je glavni rezultat Back, Küfner, and Egloff (2010) je bil artefakt en pozivnik. Ker ta primer ponazarja, relativno enostavna analiza sorazmerno kompleksnih in neurejen podatkov ima potencial, da gre hudo narobe.
Medtem ko lahko pozivnik-umazani podatki, ki so ustvarjene nenamerno, kot iz enega hrupnem zaznati razmeroma skrbno raziskovalca, obstajajo tudi nekatere spletne sisteme, ki privabljajo namerne pošiljatelje neželene elektronske pošte. Te pošiljatelji aktivno ustvarjajo lažne podatke, in pogosto motivira pridobitni delo zelo težko, da bo njihov spam skriti. Na primer, se zdi politično delovanje na Twitter vsebovati vsaj malo razumno prefinjeno spam, pri čemer so nekateri politični vzroki namenoma narejen, da si bolj priljubljen kot pa dejansko so (Ratkiewicz et al. 2011) . Raziskovalci, ki delajo s podatki, ki lahko vsebujejo namerno spam soočajo z izzivom prepričati občinstvo, da so odkriti in odstraniti ustrezne spam.
In končno, kaj se šteje za umazane podatki se lahko zanesejo na subtilne načine, na vaša raziskovalna vprašanja. Na primer, veliko urejanja v Wikipediji z avtomatskimi nezaželeno ustvaril (Geiger 2014) . Če ste zainteresirani za ekologijo Wikipedije, potem se ti roboti so pomembne. Ampak, če ste zainteresirani, kako ljudje prispevajo k Wikipediji, ti popravki, ki jih je ta nezaželeno treba izključiti.
Najboljši način, da ne bi prevaral, ki so umazani podatki razumeti, kako so nastali vaši podatki za preprosto raziskovalno analizo, kot je izvedba preprostih scatter parcel.