Fontes de datos grandes poden ser cargados con lixo e spam.
Algúns investigadores consideran que as grandes fontes de datos, especialmente as fontes en liña, son prósperas porque son recollidas automaticamente. De feito, as persoas que traballaron con grandes fontes de datos saben que adoitan estar sucios . É dicir, inclúen con frecuencia datos que non reflicten accións reais de interese para os investigadores. A maioría dos científicos sociais xa están familiarizados co proceso de limpar os datos de investigación social a gran escala, pero a limpeza de fontes de datos grandes parece ser máis difícil. Creo que a principal fonte desta dificultade é que moitas destas grandes fontes de datos nunca foron destinadas a ser utilizadas para a investigación, polo que non se recollen, almacenan e documentan de forma que facilite a limpeza de datos.
Os perigos dos datos de seguimento dixital sucio son ilustrados polo estudo de Back and colleagues (2010) da resposta emocional aos ataques do 11 de setembro de 2001, que mencionei brevemente no capítulo anterior. Os investigadores adoitan estudar a resposta a eventos tráxicos utilizando datos retrospectivos recompilados durante meses ou ata anos. Pero, Back e os seus colegas atoparon unha fonte sempre de trazas dixitais: a marca de tempo, mensaxes automáticamente gravadas de 85.000 buscadores estadounidenses e isto permitíuselle estudar a resposta emocional nun período de tempo moito máis sinxelo. Eles crearon un cronograma emocional minuto a minuto do 11 de setembro codificando o contido emocional das mensaxes de buscapersonas pola porcentaxe de palabras relacionadas con (1) tristeza (por exemplo, "choro" e "pena"), (2) ansiedade ( por exemplo, "preocupado" e "temeroso"), e (3) rabia (por exemplo, "odio" e "crítico"). Descubriron que a tristeza ea ansiedade fluctuaban durante todo o día sen un forte patrón, pero que houbo un sorprendente aumento da rabia durante todo o día. Esta investigación parece ser unha ilustración marabillosa do poder de fontes de datos sempre dispoñibles: se se utilizasen fontes de datos tradicionais, sería imposible obter unha cronoloxía de alta resolución da resposta inmediata a un evento inesperado.
Só un ano máis tarde, con todo, Cynthia Pury (2011) analizou os datos con máis coidado. Ela descubriu que unha gran cantidade de mensaxes supuestamente irritadas foron xeradas por un único buscapersonas e todas elas eran idénticas. Velaquí o que dixeron estas mensaxes de rabia:
"Reiniciar a máquina NT [nome] no despacho [nome] en [local]: Crítica: [data e hora]"
Estas mensaxes foron marcadas con rabia porque incluían a palabra "CRÍTICA", que xeralmente pode indicar rabia, pero neste caso non. Eliminando as mensaxes xeradas por este buscador automático completamente elimina o incremento aparente da rabia ao longo do día (figura 2.4). Noutras palabras, o resultado principal en Back, Küfner, and Egloff (2010) foi un artefacto dun buscapersoas. Como este exemplo ilustra, a análise relativamente sinxela de datos relativamente complexos e desordenados ten o potencial de estar moi mal.
Mentres os datos sucios que se crean involuntariamente, como por exemplo o dun buscador ruidoso, poden ser detectados por un investigador razoablemente atento, tamén hai algúns sistemas en liña que atraen os spammers intencionais. Estes spammers activamente xeran datos falsos e, moitas veces motivados polo traballo lucrativo, son moi difíciles de manter oculto o spam. Por exemplo, a actividade política en Twitter parece incluír polo menos un spam de xeito razoablemente sofisticado, polo que algunhas causas políticas fanse intencionalmente máis populares do que en realidade (Ratkiewicz et al. 2011) . Desafortunadamente, eliminar este spam intencional pode ser bastante difícil.
Por suposto, o que se considera datos sucios pode depender, en parte, da pregunta de investigación. Por exemplo, moitas modificacións na Wikipedia créanse por robots automatizados (Geiger 2014) . Se estás interesado na ecoloxía da Wikipedia, estas edicións creadas por bot son importantes. Pero se vostede está interesado en como os humanos contribúen á Wikipedia, entón as edicións creadas por bot deberían ser excluídas.
Non hai ningunha técnica ou enfoque estatístico único que poida garantir que limpas os datos sucios suficientemente. Ao final, creo que a mellor forma de evitar enganar os datos sucios é comprender o máximo posible sobre como se crearon os datos.