Grandes fuentes de datos pueden ser cargados con basura y spam.
Algunos investigadores creen que las fuentes de big data, especialmente las fuentes en línea, son prístinas porque se recopilan automáticamente. De hecho, las personas que han trabajado con fuentes de big data saben que con frecuencia están sucias . Es decir, con frecuencia incluyen datos que no reflejan acciones reales de interés para los investigadores. La mayoría de los científicos sociales ya están familiarizados con el proceso de limpieza de datos de encuestas sociales a gran escala, pero la limpieza de grandes fuentes de datos parece ser más difícil. Creo que la fuente principal de esta dificultad es que muchas de estas grandes fuentes de datos nunca se utilizaron para la investigación, por lo que no se recopilan, almacenan y documentan de una manera que facilite la limpieza de datos.
Los peligros de los datos sucios de rastreo digital se ilustran en el estudio de Back y colegas (2010) de la respuesta emocional a los ataques del 11 de septiembre de 2001, que mencioné brevemente anteriormente en el capítulo. Los investigadores generalmente estudian la respuesta a eventos trágicos utilizando datos retrospectivos recopilados durante meses o incluso años. Sin embargo, Back y sus colegas encontraron una fuente siempre activa de rastros digitales, los mensajes grabados de forma automática y con fecha de 85,000 buscapersonas estadounidenses, y esto les permitió estudiar la respuesta emocional en una escala de tiempo mucho más fina. Crearon un cronograma emocional minuto a minuto del 11 de septiembre al codificar el contenido emocional de los mensajes de buscapersonas por el porcentaje de palabras relacionadas con (1) tristeza (por ejemplo, "llanto" y "pena"), (2) ansiedad ( por ejemplo, "preocupado" y "temeroso"), y (3) enojo (por ejemplo, "odio" y "crítico"). Descubrieron que la tristeza y la ansiedad fluctuaron a lo largo del día sin un patrón fuerte, pero que hubo un aumento sorprendente de la ira durante todo el día. Esta investigación parece ser una maravillosa ilustración del poder de las fuentes de datos siempre activas: si se hubieran utilizado fuentes de datos tradicionales, hubiera sido imposible obtener una línea de tiempo de tan alta resolución de la respuesta inmediata a un evento inesperado.
Sin embargo, solo un año después, Cynthia Pury (2011) examinó los datos con más cuidado. Ella descubrió que una gran cantidad de mensajes supuestamente enojados fueron generados por un solo buscapersonas y todos eran idénticos. Esto es lo que dijeron esos mensajes supuestamente enojados:
"Reinicio del equipo NT [nombre] en el gabinete de [nombre] en [lugar]: CRÍTICA: [fecha y hora]"
Estos mensajes fueron etiquetados como enojados porque incluían la palabra "CRÍTICA", que generalmente puede indicar ira, pero en este caso no. La eliminación de los mensajes generados por este único buscapersonas automatizado elimina por completo el aparente aumento de ira a lo largo del día (figura 2.4). En otras palabras, el resultado principal en Back, Küfner, and Egloff (2010) fue un artefacto de un buscapersonas. Como lo ilustra este ejemplo, el análisis relativamente simple de datos relativamente complejos y desordenados tiene el potencial de ir en serio error.
Si bien los datos sucios que se crean involuntariamente, como los de un localizador ruidoso, pueden ser detectados por un investigador razonablemente cuidadoso, también hay algunos sistemas en línea que atraen a los spammers intencionales. Estos spammers generan activamente datos falsos y, a menudo motivados por el lucro, trabajan muy duro para mantener ocultos sus correos no deseados. Por ejemplo, la actividad política en Twitter parece incluir al menos un correo no deseado razonablemente sofisticado, por el cual se hacen intencionalmente algunas causas políticas para parecer más populares de lo que realmente son (Ratkiewicz et al. 2011) . Desafortunadamente, eliminar este spam intencional puede ser bastante difícil.
Por supuesto, lo que se considera datos sucios puede depender, en parte, de la pregunta de investigación. Por ejemplo, muchas modificaciones a Wikipedia son creadas por robots automatizados (Geiger 2014) . Si está interesado en la ecología de Wikipedia, entonces estas ediciones creadas por bot son importantes. Pero si le interesa cómo los humanos contribuyen a la Wikipedia, entonces las ediciones creadas por el bot deben ser excluidas.
No existe una sola técnica o enfoque estadístico que pueda garantizar que haya limpiado suficientemente sus datos sucios. Al final, creo que la mejor manera de evitar ser engañado por los datos sucios es comprender todo lo posible sobre cómo se crearon sus datos.