Sources de données Big peuvent être chargés avec l' ordure et le spam.
Certains chercheurs croient que les grandes sources de données, en particulier les sources en ligne, sont vierges parce qu'elles sont recueillies automatiquement. En fait, les personnes qui ont travaillé avec de grandes sources de données savent qu'elles sont souvent sales . Autrement dit, ils incluent souvent des données qui ne reflètent pas de véritables actions d'intérêt pour les chercheurs. La plupart des spécialistes des sciences sociales connaissent déjà le processus de nettoyage des données d'enquêtes sociales à grande échelle, mais le nettoyage des grandes sources de données semble plus difficile. Je pense que la source ultime de cette difficulté est que bon nombre de ces sources de données volumineuses n'ont jamais été utilisées à des fins de recherche et qu'elles ne sont donc pas collectées, stockées et documentées de manière à faciliter le nettoyage des données.
Les dangers des données de trace numériques sales sont illustrés par l'étude de Back et ses collègues (2010) sur la réponse émotionnelle aux attentats du 11 septembre 2001, que j'ai brièvement mentionnée plus tôt dans le chapitre. Les chercheurs étudient généralement la réaction à des événements tragiques à l'aide de données rétrospectives recueillies au fil des mois, voire des années. Mais Back et ses collègues ont trouvé une source permanente de traces numériques - les messages enregistrés automatiquement et temporellement dans 85 000 téléavertisseurs américains - ce qui leur a permis d'étudier la réponse émotionnelle à une échelle de temps beaucoup plus fine. Ils ont créé une chronologie émotionnelle minute par minute du 11 septembre en codant le contenu émotionnel des messages de téléavertisseur par le pourcentage de mots liés à (1) la tristesse (par exemple, «pleurer» et «chagrin»), (2) l'anxiété ( par exemple, "inquiet" et "craintif"), et (3) la colère (par exemple, "haine" et "critique"). Ils ont constaté que la tristesse et l'anxiété fluctuent tout au long de la journée sans une forte tendance, mais qu'il y avait une augmentation frappante de la colère tout au long de la journée. Cette recherche semble être une merveilleuse illustration de la puissance des sources de données permanentes: si des sources de données traditionnelles avaient été utilisées, il aurait été impossible d'obtenir un tel calendrier à haute résolution de la réponse immédiate à un événement inattendu.
Cependant, un an plus tard, Cynthia Pury (2011) examiné les données plus attentivement. Elle a découvert qu'un grand nombre de messages soi-disant en colère étaient générés par un seul téléavertisseur et qu'ils étaient tous identiques. Voici ce que ces messages soi-disant en colère ont dit:
"Reboot NT machine [nom] dans l'armoire [nom] à [lieu]: CRITIQUE: [date et heure]"
Ces messages ont été étiquetés comme étant en colère parce qu'ils contenaient le mot «CRITIQUE», ce qui peut généralement indiquer la colère, mais dans ce cas non. La suppression des messages générés par ce téléavertisseur automatique unique élimine complètement l'augmentation apparente de la colère au cours de la journée (figure 2.4). En d'autres termes, le résultat principal dans Back, Küfner, and Egloff (2010) était un artefact d'un pagineur. Comme l'illustre cet exemple, une analyse relativement simple de données relativement complexes et en désordre risque d'être sérieusement faussée.
Alors que des données sales créées involontairement - comme celles provenant d'un téléavertisseur bruyant - peuvent être détectées par un chercheur raisonnablement prudent, il existe aussi des systèmes en ligne qui attirent les spammeurs intentionnels. Ces spammeurs génèrent activement de fausses données et, souvent motivés par le profit, travaillent très dur pour dissimuler leurs spams. Par exemple, l'activité politique sur Twitter semble inclure au moins quelques spams raisonnablement sophistiqués, dans lesquels certaines causes politiques sont intentionnellement rendues plus populaires qu'elles ne le sont en réalité (Ratkiewicz et al. 2011) . Malheureusement, supprimer ce spam intentionnel peut être assez difficile.
Bien sûr, ce qui est considéré comme une donnée sale peut dépendre, en partie, de la question de recherche. Par exemple, de nombreuses modifications apportées à Wikipédia sont créées par des robots automatisés (Geiger 2014) . Si vous êtes intéressé par l'écologie de Wikipedia, ces modifications créées par les robots sont importantes. Mais si vous êtes intéressé par la façon dont les humains contribuent à Wikipedia, alors les modifications créées par le bot doivent être exclues.
Il n'y a pas de technique ou d'approche statistique unique qui puisse garantir que vous avez suffisamment nettoyé vos données sales. En fin de compte, je pense que la meilleure façon d'éviter d'être berné par des données sales est de comprendre autant que possible la façon dont vos données ont été créées.