Velké zdroje dat může být naloženo s nevyžádanou a spam.
Někteří vědci se domnívají, že velké zdroje dat, zejména on-line zdroje, jsou nedotčené, protože jsou shromažďovány automaticky. Ve skutečnosti lidé, kteří pracovali s velkými datovými zdroji, vědí, že jsou často špinaví . To znamená, že často obsahují údaje, které neodrážejí skutečné akce, které jsou pro výzkumníky zajímavé. Většina sociálních věd je již obeznámena s procesem čištění rozsáhlých dat sociálního průzkumu, ale vyčištění velkých datových zdrojů se jeví jako obtížnější. Myslím, že konečným zdrojem této obtíže je, že mnoho z těchto velkých zdrojů dat nikdy nebylo určeno k výzkumu, a proto nejsou shromažďovány, uchovávány a dokumentovány způsobem, který usnadňuje čištění dat.
Nebezpečí špinavých digitálních stopových údajů jsou ilustrována studiem Back and colleagues (2010) o emocionální reakci na útoky z 11. září 2001, kterou jsem stručně zmínil dříve v kapitole. Výzkumníci obvykle studují reakci na tragické události pomocí retrospektivních údajů shromážděných v průběhu měsíců nebo dokonce let. Ale Back a naši kolegové našli vždycky zdroj digitálních stop - automatické zaznamenávané zprávy od 85 000 amerických pagerů s časovým zpožděním - a to jim umožnilo studovat emocionální odezvu mnohem lépe. Vytvořili minutovou minutu citovou časovou osu 11. září kódováním emočního obsahu zpráv pagerů o procento slov souvisejících s (1) smutkem (např. "Plakat" a "smutek"), (2) úzkost ( např. "strach" a "strach") a (3) hněv (např. "nenávist" a "kritický"). Zjistili, že smutek a úzkost se během dne vyvíjely bez silného vzoru, ale že došlo k výraznému nárůstu hněvu po celý den. Tento výzkum se zdá být skvělým příkladem síly neustálých zdrojů dat: pokud by byly použity tradiční zdroje dat, bylo by nemožné získat takový časový rozvrh s vysokým rozlišením bezprostřední reakce na neočekávanou událost.
Jen o rok později však Cynthia Pury (2011) pozorněji prohlédla data. Zjistila, že velké množství údajně nahnevaných zpráv bylo generováno jediným pagerem a všichni byli totožní. Zde je to, co tyto údajně rozzlobené zprávy říkaly:
"Restart NT stroj [name] do skříně [název] na [místě]: Kritický: [datum a čas]"
Tyto zprávy byly označeny za rozhořčené, protože obsahovaly slovo "KRITICKÉ", což může obecně znamenat hněv, ale v tomto případě ne. Odstranění zpráv vygenerovaných tímto automatizovaným pagerem zcela eliminuje zjevný nárůst hněvu v průběhu dne (obrázek 2.4). Jinými slovy, hlavní výsledek Back, Küfner, and Egloff (2010) byl artefaktem jednoho pageru. Jak ukazuje tento příklad, poměrně jednoduchá analýza poměrně složitých a chaotických dat má potenciál jít vážně špatně.
Zatímco špinavá data, která jsou vytvořena neúmyslně - například z jednoho hlučného pageru - mohou být odhalena poměrně pečlivým výzkumníkem, existují také některé online systémy, které přitahují záměrné spamátory. Tito spamátoři aktivně vytvářejí falešné údaje a často motivované ziskem pracují velmi tvrdě, aby nedocházelo k jejich skrývání. Například politická aktivita na Twitteru zahrnuje alespoň nějaký rozumně sofistikovaný spam, kdy některé politické příčiny jsou úmyslně (Ratkiewicz et al. 2011) tak, aby vypadaly více populárně než ve skutečnosti (Ratkiewicz et al. 2011) . Bohužel odstranění tohoto úmyslného spamu může být docela obtížné.
Samozřejmě, co je považováno za špinavé údaje, může částečně záviset na výzkumné otázce. Například mnoho editací na Wikipedii jsou vytvořeny automatizovanými boty (Geiger 2014) . Pokud máte zájem o ekologii Wikipedie, pak jsou tyto editace vytvořené boty důležité. Ale pokud máte zájem o to, jak lidé přispívají na Wikipedii, měly by být vyloučeny úpravy vytvořené boty.
Neexistuje jednotná statistická technika nebo přístup, který by zajistil, že jste dostatečně vyčistili špinavé údaje. Nakonec si myslím, že nejlepším způsobem, jak se vyhnout zneužití špinavými údaji, je co nejvíce pochopit, jak byly vaše data vytvořena.