Grandes fuentes de datos pueden ser cargados con basura y spam.
Algunos investigadores creen que las fuentes de datos grandes, especialmente los procedentes de fuentes en línea, son impecables, ya que se recogen de forma automática. De hecho, las personas que han trabajado con fuentes de datos grandes saben que son con frecuencia sucio. Es decir, que con frecuencia incluyen datos que no reflejan las acciones reales de interés para los investigadores. Muchos científicos sociales que ya están familiarizados con el proceso de limpieza a gran escala de datos de la encuesta social, pero la limpieza de grandes fuentes de datos es más difícil por dos razones: 1) no fueron creados por los investigadores para investigadores y 2) los investigadores generalmente tienen menos comprensión de cómo que fueron creados.
Los peligros de datos de rastreo digital de sucios se ilustran por Back y colegas (2010) estudio de la respuesta emocional a los ataques del 11 de septiembre de 2001. Los investigadores suelen estudiar la respuesta a los eventos trágicos utilizando datos retrospectivos recopilados durante meses o incluso años. Pero, de nuevo y sus colegas encontraron una mensajería siempre-en fuente de huellas digitales, la marca de tiempo, registrados automáticamente de 85.000 estadounidenses buscapersonas, y esto permitió a los investigadores a estudiar la respuesta emocional en una escala de tiempo mucho más fina. Espalda y sus colegas crearon una línea de tiempo emocional minuto a minuto del 11 de septiembre al codificar el contenido emocional de los mensajes de buscapersonas por el porcentaje de palabras relacionadas con (1) la tristeza (por ejemplo, el llanto, el dolor), (2) la ansiedad (por ejemplo, , miedo), y (3) la ira preocupados (por ejemplo, el odio, la crítica). Ellos encontraron que la tristeza y la ansiedad fluctuaron durante todo el día sin un patrón fuerte, pero que hubo un aumento notable en la ira durante todo el día. Esta investigación parece ser una maravillosa ilustración del poder de siempre en las fuentes de datos: usando métodos estándar que sería imposible tener una alta resolución de línea de tiempo de la respuesta inmediata a un evento inesperado tales.
Justo un año después, sin embargo, Cynthia Pury (2011) observó los datos con más cuidado. Ella descubrió que un gran número de los mensajes supuestamente enojados fueron generados por un único localizador y todos eran idénticos. Esto es lo que dijeron esos mensajes supuestamente de ira:
"Reinicio del equipo NT [nombre] en el gabinete de [nombre] en [lugar]: CRÍTICA: [fecha y hora]"
Estos mensajes se marcaron enojado porque incluían la palabra "crítico", lo que puede indicar la ira general pero no lo hace en este caso. La eliminación de los mensajes generados por este localizador automatizado solo elimina por completo el aumento aparente de la ira en el transcurso del día (Figura 2.2). En otras palabras, el resultado principal de Back, Küfner, and Egloff (2010) era un artefacto de un buscapersonas. Como ilustra este ejemplo, el análisis relativamente simple de los datos relativamente complejos y desordenados tiene el potencial de ir muy mal.
Mientras que los datos sucios que se crea sin querer-como de un ruidoso localizador pueden ser detectados por un investigador razonablemente cuidado, también hay algunos sistemas en línea que atraen a los spammers intencionales. Estos spammers generan datos de forma activa falsos, y, a menudo motivados por el ánimo de un trabajo muy duro para mantener su correo basura oculta. Por ejemplo, la actividad política en Twitter parece incluir al menos algo de spam razonablemente sofisticado, por lo que algunas de las causas políticas se hacen intencionalmente para parecer más populares de lo que son reales (Ratkiewicz et al. 2011) . Los investigadores que trabajan con datos que puedan contener el spam intencional se enfrentan al reto de convencer a su audiencia que han detectado y eliminado el spam relevante.
Finalmente, lo que se considera los datos sucios pueden depender de maneras sutiles en sus preguntas de investigación. Por ejemplo, muchas ediciones en Wikipedia son creados por los robots automatizados (Geiger 2014) . Si usted está interesado en la ecología de Wikipedia, a continuación, estos robots son importantes. Pero, si usted está interesado en cómo los seres humanos contribuyen a Wikipedia, estas ediciones hechas por estos robots deben ser excluidos.
Las mejores formas de evitar ser engañado por los datos sucios son entender cómo se crearon los datos para realizar análisis exploratorio simple, como hacer gráficos de dispersión simples.