Fonti di dati grandi possono essere caricati con spazzatura e spam.
Alcuni ricercatori ritengono che le grandi fonti di dati, in particolare le fonti online, siano incontaminate perché raccolte automaticamente. In effetti, le persone che hanno lavorato con le grandi fonti di dati sanno che sono spesso sporche . Cioè, spesso includono dati che non riflettono le azioni reali di interesse per i ricercatori. La maggior parte dei sociologi ha già familiarità con il processo di pulizia dei dati di indagine sociale su larga scala, ma la pulizia delle grandi fonti di dati sembra essere più difficile. Penso che l'ultima fonte di questa difficoltà è che molte di queste grandi fonti di dati non sono state pensate per essere utilizzate per la ricerca, e quindi non sono raccolte, archiviate e documentate in modo da facilitare la pulizia dei dati.
I pericoli dei dati di traccia digitali sporchi sono illustrati dallo studio di Back and colleagues (2010) sulla risposta emotiva agli attacchi dell'11 settembre 2001, che ho brevemente menzionato in precedenza nel capitolo. I ricercatori tipicamente studiano la risposta a eventi tragici utilizzando dati retrospettivi raccolti nell'arco di mesi o addirittura anni. Ma, Back e colleghi hanno trovato una fonte sempre attiva di tracce digitali - i messaggi timestamp, registrati automaticamente da 85.000 cercapersone americani - e questo ha permesso loro di studiare la risposta emotiva in un lasso di tempo molto più preciso. Hanno creato una cronologia emotiva minuto per minuto dell'11 settembre codificando il contenuto emotivo dei messaggi del cercapersone in base alla percentuale di parole relative alla (1) tristezza (ad esempio, "pianto" e "dolore"), (2) ansia ( ad es., "preoccupato" e "pauroso"), e (3) rabbia (es. "odio" e "critico"). Hanno scoperto che la tristezza e l'ansia fluttuavano per tutto il giorno senza uno schema forte, ma che c'era un notevole aumento di rabbia durante il giorno. Questa ricerca sembra essere una meravigliosa dimostrazione della potenza delle fonti di dati sempre attive: se fossero state utilizzate fonti di dati tradizionali, sarebbe stato impossibile ottenere una tempistica ad alta risoluzione della risposta immediata a un evento imprevisto.
Solo un anno dopo, tuttavia, Cynthia Pury (2011) esaminato i dati con maggiore attenzione. Scoprì che un gran numero di messaggi apparentemente arrabbiati erano generati da un solo cercapersone e erano tutti identici. Ecco cosa hanno detto quei messaggi apparentemente arrabbiati:
"Riavviare la macchina NT [nome] nel gabinetto [nome] a [luogo]: CRITICA: [data e ora]"
Questi messaggi erano etichettati come arrabbiati perché includevano la parola "CRITICO", che può generalmente indicare rabbia, ma in questo caso no. La rimozione dei messaggi generati da questo singolo cercapersone automatizzato elimina completamente l'apparente aumento di rabbia nel corso della giornata (figura 2.4). In altre parole, il risultato principale in Back, Küfner, and Egloff (2010) era un artefatto di un cercapersone. Come illustra questo esempio, un'analisi relativamente semplice di dati relativamente complessi e disordinati ha il potenziale di andare seriamente male.
Mentre i dati sporchi creati involontariamente - come quello da un cercapersone rumoroso - possono essere rilevati da un ricercatore ragionevolmente attento, ci sono anche alcuni sistemi online che attirano gli spammer intenzionali. Questi spammer generano attivamente dati falsi e, spesso motivati da profitti, lavorano duramente per tenere nascosto il loro spamming. Ad esempio, l'attività politica su Twitter sembra includere almeno uno spam ragionevolmente sofisticato, per cui alcune cause politiche sono intenzionalmente fatte per apparire più popolari di quanto non siano in realtà (Ratkiewicz et al. 2011) . Sfortunatamente, rimuovere questo spam intenzionale può essere abbastanza difficile.
Ovviamente ciò che è considerato un dato sporco può dipendere, in parte, dalla domanda di ricerca. Ad esempio, molte modifiche a Wikipedia sono create da robot automatizzati (Geiger 2014) . Se sei interessato all'ecologia di Wikipedia, allora queste modifiche create dai bot sono importanti. Ma se sei interessato a come gli umani contribuiscono a Wikipedia, le modifiche create dai bot dovrebbero essere escluse.
Non esiste un'unica tecnica o approccio statistico che possa garantire di aver sufficientemente pulito i dati sporchi. Alla fine, penso che il modo migliore per evitare di essere ingannati dai dati sporchi è capire il più possibile su come sono stati creati i tuoi dati.