Big adatforrások tölthető junk és spam.
Egyes kutatók úgy vélik, hogy a nagy adatforrások, különösen az online források, tiszta, mert automatikusan gyűjtik őket. Valójában azok, akik nagy adatforrásokkal dolgoztak, tudják, hogy gyakran piszkosak . Vagyis gyakran olyan adatokat tartalmaznak, amelyek nem tükrözik a kutatók érdeklődését. A legtöbb társadalomtudós már ismeri a nagyméretű társadalmi felmérési adatok tisztítási folyamatát, de a nagy adatforrások tisztítása nehezebbnek tűnik. Úgy vélem, hogy ennek a nehézségnek a legfőbb forrása az, hogy sok ilyen nagy adatforrást sohasem használtak fel kutatásra, így azokat nem gyűjtik össze, tárolják és dokumentálják oly módon, hogy megkönnyítsék az adatok tisztítását.
A piszkos digitális nyomkövetési adatok veszélyeit a 2001. szeptember 11-i támadások érzelmi reakciójának Back és munkatársai (2010) tanulmányozása szemlélteti, amelyet korábban a fejezetben röviden említettem. A kutatók tipikusan tanulmányozzák a tragikus eseményekre adott válaszokat a hónapok vagy évek során gyűjtött visszamenőleges adatok felhasználásával. Viszont Back és kollégái mindig megtalálhatják a digitális nyomok forrását - az időbélyegzett, automatikusan rögzített üzeneteket 85 000 amerikai pagerről - és ez lehetővé tette számukra, hogy érzelmi válaszokat tanuljanak egy sokkal finomabb időkereten. Szeptember 11-én egy perctől érkező érzelmi időzítést hoztak létre, amely a pager üzenetek érzelmi tartalmát kódolta (1) szomorúság (pl. "Sírás" és "fájdalom"), (2) szorongás pl. "aggódik" és "félelmetes"), és (3) harag (pl. "gyűlölet" és "kritikus"). Azt találták, hogy a szomorúság és a szorongás egész nap erős ingadozás nélkül ingadozik, de a düh folyamatosan nőtt a nap folyamán. Ez a kutatás csodálatos képet mutat a folyamatos adatforrások erejéről: ha hagyományos adatforrásokat használtak volna, akkor lehetetlen volna elérni, hogy egy ilyen váratlan esemény azonnali válaszának ilyen nagy felbontású idővonalát megszerezzék.
Csak egy évvel később Cynthia Pury (2011) gondosan megvizsgálta az adatokat. Felfedezte, hogy nagyszámú állítólagosan dühös üzenetet generált egyetlen pager, és mindegyik azonos volt. Ezek az állítólag dühös üzenetek:
"Reboot NT gép [nevet] szekrénybe [nevet] a [hely]: Kritikus: [dátum és idő]"
Ezek az üzenetek dühösek voltak, mert tartalmazták a "KRITIKUS" szót, ami általánosságban dühöt jelenthet, de ebben az esetben nem. Az egyetlen automatizált pager által generált üzenetek eltávolítása teljesen kiküszöböli a harag nyilvánvaló növekedését a nap folyamán (2.4. Ábra). Más szóval, a Back, Küfner, and Egloff (2010) fő eredmény egy pager tárgya volt. Amint ez a példa szemlélteti, a viszonylag összetett és rendetlen adatok viszonylag egyszerű elemzésének lehetősége komolyan rosszra tehető.
Míg a véletlenül létrehozott piszkos adatok - például egy zajos pager - észlelhető egy ésszerűen körültekintő kutatóval, vannak olyan online rendszerek is, amelyek szándékos spammereket vonzanak. Ezek a spammerek aktívan hamis adatot generálnak, és - gyakran a nyereség miatt motiválják a spammelést rejtve. Például a Twitter-ben végzett politikai tevékenység úgy tűnik, hogy legalább néhány ésszerűen kifinomult levélszemétet tartalmaz, amellyel egyes politikai okokat szándékosan arra (Ratkiewicz et al. 2011) hogy népszerűbbnek (Ratkiewicz et al. 2011) mint valójában (Ratkiewicz et al. 2011) . Sajnos e szándékos spam eltávolítása meglehetősen nehéz lehet.
Természetesen, hogy mi minősül piszkos adatoknak, részben függhet a kutatási kérdéstől. Például sok szerkesztést a Wikipédia számára automatizált botok hoznak létre (Geiger 2014) . Ha érdekli a Wikipédia ökológiája, akkor ezek a bot által létrehozott szerkesztések fontosak. De ha érdekli, hogyan járulnak hozzá az emberek a Wikipédiához, akkor a bot által létrehozott szerkesztéseket ki kell zárni.
Nincs egyetlen olyan statisztikai módszer vagy megközelítés, amely biztosítaná, hogy megfelelően tisztítsa meg a szennyezett adatokat. Végül azt gondolom, hogy a legmegfelelőbb módja annak, hogy elkerüljük a piszkos adatok becsapását, az, hogy megértsük a lehető legtöbbet az adatok létrehozásának módjáról.