Big andmeallikaid saab laadida rämps ja rämpsposti.
Mõned teadlased usuvad, et suured andmeallikad, eriti online-allikad, on põlised, kuna neid kogutakse automaatselt. Inimesed, kes on töötanud suurte andmeallikatega, teavad, et nad on tihti määrdunud . See tähendab, et need sisaldavad sageli andmeid, mis ei kajasta teadlastele huvi pakkuvaid tegelikke tegevusi. Enamik sotsiaalteadlastest on juba tuttav suuremahuliste sotsiaaluuringute andmete puhastamisprotsessiga, kuid suurte andmeallikate puhastamine tundub olevat raskem. Ma arvan, et selle probleemi lõplikuks allikaks on see, et paljud neist suurtest andmeallikadest ei olnud kunagi mõeldud teadustööks, mistõttu neid ei koguta, ei säilitata ega dokumenteerita viisil, mis hõlbustab andmete puhastamist.
Musta digitaalse jäljeandmete ohtusid illustreerib Back ja kolleegide (2010) uuring emotsionaalse vastuse kohta 11. septembri 2001. aasta rünnakutele, mida ma lühidalt mainisin peatükis varem. Uurijad uurivad tavaliselt reageeringuid traagilistele sündmustele, kasutades kuu või isegi aastaid kogutavaid tagasiulatuvaid andmeid. Aga Back ja kolleegid leidsid alati digitaalsete jälgede allika - ajatemplistatud, automaatselt salvestatud sõnumid 85 000 Ameerika pagersist - ja see võimaldas neil uurida emotsionaalset vastust tunduvalt pikemal ajaperioodil. Nad lõid 11. septembri mõttetu ajakirja, kodeerides piipariteadete emotsionaalset sisu protsentides (1) kurbus (nt "nutmine" ja "leina") seotud sõnad, (2) ärevus ( nt "mures" ja "hirmul") ja 3) viha (nt "vihkamine" ja "kriitiline"). Nad leidsid, et kurb ja ärevus kõikus päeva jooksul ilma tugevate mustereta, kuid kogu päeva jooksul oli viha märkimisväärselt suurenenud viha. See uurimus näib olevat imeline näide pidevalt sisestatud andmeallikate võimsusest: kui traditsioonilisi andmeallikaid oleks kasutatud, oleks olnud võimatu saada sellist kõrge resolutsiooniga ajakava, mis oleks viivitamatu reaktsioon ootamatule sündmusele.
Vaid aasta hiljem vaatas Cynthia Pury (2011) andmeid hoolikamalt. Ta avastas, et üks paljudest väidetavalt vihast sõnumid on loodud ühe piipari ja kõik need on identsed. Siin öeldi need väidetavalt vihased sõnumid:
"Reboot NT masin [nimi] kappi [nimi] on [Asukoht]: KRIITILINE: [kuupäev ja kellaaeg]"
Need sõnumid olid märgitud vihaseks, kuna nad sisaldasid sõna "CRITICAL", mis võib üldiselt viha viha, kuid sellisel juhul ei ole. Selle ühe automaatse piipari poolt genereeritud sõnumite eemaldamine kõrvaldab täiesti tühja päeva näilise kasvu (joonis 2.4). Teisisõnu oli Back, Küfner, and Egloff (2010) peamine tulemus ühe pedaja artefakt. Nagu see näide illustreerib, on suhteliselt keerukate suhteliselt keeruliste ja räpane andmete analüüs tõenäoliselt tõesti vale.
Ehkki mõistlikult hoolas teadlane tuvastab tahtmatult määrdunud määrdunud andmeid, nagu näiteks ühe müraga piipari abil, on ka mõned veebisüsteemid, mis meelitavad ligi tahtlikke rämpsposti. Need rämpspostiga töötajad loovad võltsitud andmed ja loovad rämpsposti varjamise eest tihti motiveeritud kasumitööga. Näiteks tundub, et poliitiline aktiivsus vidistama sisaldab vähemalt mõnda mõistlikult keerukat rämpsposti, mille tõttu mõningaid poliitilisi põhjuseid kavatsetakse otsida populaarsemaks kui tegelikult (Ratkiewicz et al. 2011) . Kahjuks võib selle tahtliku rämpsposti eemaldamine olla üsna raske.
Loomulikult peetakse räpane andmeid sõltuvaks osaliselt uurimisküsimusest. Näiteks autoriteeritud roboteid loovad palju muudatusi Wikipedias (Geiger 2014) . Kui olete huvitatud Wikipedia keskkonnast, siis on need bot-loodud muudatused olulised. Aga kui olete huvitatud sellest, kuidas inimesed Wikipediasse annavad, siis tuleks bot-loodud muudatused välja jätta.
Puudub ühtne statistiline meetod või lähenemisviis, mis tagab teie määrdunud andmete piisava puhastamise. Lõpuks arvan, et parim viis vältida seda, et määrdunud andmed on petlikud, on võimalikult palju teada, kuidas teie andmeid loodi.