Fontes de datos grandes poden ser cargados con lixo e spam.
Algúns investigadores cren que as fontes de datos grandes, especialmente aqueles de fontes en liña, son impecables, porque son recollidos automaticamente. En realidade, as persoas que traballaron con fontes de datos grandes saben que son moitas veces sucio. É dicir, a miúdo inclúen datos que non reflicten accións reais de interese para os investigadores. Moitos científicos sociais xa están familiarizados co proceso de limpeza en larga escala de datos de investigación social, pero a limpeza fontes de datos grandes é máis difícil por dúas razóns: 1) non foron creados por investigadores para investigadores e 2) os investigadores xeralmente teñen menos comprensión de como eles foron creados.
Os perigos de datos de seguimento dixital sucios son ilustrados por Back e os seus colegas ' (2010) estudo da resposta emocional aos ataques do 11 de setembro de 2001. Os investigadores normalmente estudar a resposta a eventos tráxicos utilizando datos retrospectivos recollidos ao longo de meses ou mesmo anos. Pero Back e os seus colegas descubriron unha mensaxe de always-on-fonte do dixital vestixios o timestamped, gravados automaticamente desde 85.000 estadounidenses pagers, e isto permitiu que os investigadores para estudar a resposta emocional nunha escala de tempo moito máis fina. Volver e compañeiros crearon unha liña do tempo emocional minuto a minuto de 11 de setembro codificando o contido emocional das mensaxes de pager pola porcentaxe de palabras relacionadas con (1) a tristeza (por exemplo, choro, dor), (2) a ansiedade (por exemplo, preocupado, medo), e (3) a rabia (por exemplo, o odio, a crítica). Descubriron que tristeza e ansiedade flutuou durante todo o día sen un patrón forte, pero que non había un aumento notable na rabia ao longo do día. Esta investigación parece ser unha ilustración marabillosa do poder de sempre-en fontes de datos: a usar métodos estándar que sería imposible ter un tal programa de alta resolución da resposta inmediata a un evento inesperado.
Só un ano despois, con todo, Cynthia Pury (2011) analizaron os datos de máis coidado. Ela descubriu que un gran número de mensaxes supostamente irritados foron xerados por un único pager e eles foron todos idénticos. Aquí está o que estas mensaxes supostamente raivosos dixo:
"Reiniciar a máquina NT [nome] no despacho [nome] en [local]: Crítica: [data e hora]"
Estas mensaxes foron marcadas con rabia porque incluíron a palabra "crítica", o que pode xeralmente indican rabia, pero non neste caso. Eliminar as mensaxes xeradas por esta única pager automatizado elimina completamente o aumento aparente da rabia ao longo do día (Figura 2.2). Noutras palabras, o principal resultado en Back, Küfner, and Egloff (2010) era un artefacto dun buscapersoas. Como este exemplo ilustra, a análise relativamente simple dos datos relativamente complexas e confusas ten o potencial para ir moi mal.
Aínda que os datos sucios que son creados de forma non intencionada, como desde un pager barulhento-pode ser detectado por un investigador algún coidado, hai tamén algúns sistemas en liña que atraen spammer intencionais. Estes spammers xeran datos activamente falsos, e, moitas veces motivados polo beneficio-traballo moi duro para manter a súa spam oculto. Por exemplo, a actividade política en Twitter parece incluír, polo menos, algúns spam razoablemente sofisticados, polo cal algunhas causas políticas son intencionalmente feitas para parecer máis populares do que real son (Ratkiewicz et al. 2011) . Investigadores que traballan con datos que poidan conter o spam intencional afrontan o reto de convencer ao público de que eles teñan detectado e eliminado Spam relevante.
Finalmente, o que se considera de datos sucios pode depender de forma sutil nas súas cuestións de investigación. Por exemplo, moitas edicións Wikipedia son creados por bots automatizados (Geiger 2014) . Se che interesa na ecoloxía da Wikipedia, a continuación, eses bots son importantes. Pero, se vostede está interesado en como os seres humanos contribúen á Wikipedia, estas edicións feitas por eses bots deben ser eliminados.
As mellores formas de evitar ser enganado por datos sucios son para entender como os seus datos foron creados para executar análise exploratoria simple, como facer gráficos de dispersión simple.