Big adatforrások tölthető junk és spam.
Egyes kutatók úgy vélik, hogy a nagy adatforrások, különösen az online forrásokból, amelyek érintetlen mert automatikusan gyűjtött. Tény, hogy az emberek, akik már dolgoztak nagy adatforrások tudja, hogy gyakran piszkos. Azaz, gyakran olyan adatok, amelyek nem tükrözik a valós érdekében álló intézkedések kutatók. Számos társadalomtudós már jól ismerik a tisztítási folyamat nagyszabású társadalmi felmérés adatait, de a tisztítás nagy adatforrások nehezebb két okból: 1) nem voltak létre a kutatók kutatói és 2) a kutatók általában kevésbé megértése ők hozták létre.
Az veszélyei piszkos digitális nyomkövetési adatok illusztrálják Back és munkatársai (2010) vizsgálata az érzelmi válasz a támadások szeptember 11-én 2001. A kutatók általában tanulmányozzák a válasz tragikus események retrospektív adatok felhasználásával gyűjtött hónapok vagy akár évek is. De, vissza és munkatársai úgy találták, egy állandóan forrás digitális nyomok-a időpecsételt, automatikusan rögzített üzeneteket 85.000 amerikai személyhívó-, és ez lehetővé tette a kutatók számára, hogy tanulmányozza érzelmi válasz egy sokkal finomabb időskálán. Back és kollégái létre egy perc-by-perces érzelmi idővonal szeptember 11. a kódolás az érzelmi tartalmát a pager üzenetek százalékos szavak (1) szomorúság (pl, sírás, fájdalom), (2) szorongás (pl aggódnak, félelmetes) és (3) düh (pl gyűlölet, kritikus). Azt találták, hogy a szomorúság és a szorongás ingadozott egész nap nem egy erős minta, de ez nem volt feltűnő növekedése harag a nap folyamán. Ez a kutatás úgy tűnik, hogy egy csodálatos illusztrációja erejét always-on adatforrások: standard módszerekkel lehetetlen lenne, hogy egy ilyen nagy felbontású idővonal azonnali válaszként egy váratlan esemény.
Alig egy évvel később azonban, Cynthia Pury (2011) nézett az adatokat alaposabban. Azt tapasztaltuk, hogy a nagy számú az állítólag dühös üzenetek által generált egy lapozó és ezek mind azonosak. Itt van, amit azok állítólag dühös üzenetek azt mondta:
"Reboot NT gép [nevet] szekrénybe [nevet] a [hely]: Kritikus: [dátum és idő]"
Ezek az üzenetek jelölt dühös, mert benne van az a szó "kritikus", ami általában azt jelzik, harag, de nem ebben az esetben. Eltávolítása által előállított üzenetek ezen egyetlen automatizált pager teljesen kiküszöböli a látszólagos növekedését düh feletti a nap folyamán (2.2 ábra). Más szóval, a fő eredmény Back, Küfner, and Egloff (2010) volt egy tárgy egy pager. Amint ez a példa is mutatja, viszonylag egyszerű elemzése viszonylag bonyolult és rendetlen adatok potenciálisan rosszra.
Bár piszkos létrehozott adatokról akaratlanul-, mint egy zajos pager-kimutatható egy viszonylag óvatos kutató is vannak, néhány online rendszerek, amelyek vonzzák a szándékos spammerek. Ezek a spammerek aktívan generál hamis adatokat, és gyakran, nyereségvágyból munka nagyon nehéz tartani a spam rejtve. Például politikai aktivitás-en úgy tűnik, hogy legalább néhány ésszerű kifinomult spam, amelynek során egyes politikai okok szándékosan tett néz népszerűbb, mint a tényleges vannak (Ratkiewicz et al. 2011) . Dolgozó kutatók az adatokat, amelyek tartalmazhatnak szándékos spam komoly kihívást jelent a meggyőző a közönség, hogy az általuk észlelt és eltávolított vonatkozó spam.
Végül mi tekinthető piszkos adatok függhetnek finom módon a kutatási kérdések. Például sok szerkesztést Wikipedia által létrehozott automatizált robotok (Geiger 2014) . Ha érdekel az ökológia Wikipedia, akkor ezek a robotok fontosak. De, ha érdekli az emberek hogyan járulnak hozzá a Wikipedia, a módosításokat tett ilyen botok kell zárni.
A legjobb módja, hogy elkerüljék, hogy tévesszen meg piszkos adatok megértéséhez az adatok jöttek létre, hogy végre egyszerű feltáró elemzés, mint a hogy egyszerű pontdiagramokat.