2.3.2.6 sale

Sources de données Big peuvent être chargés avec l' ordure et le spam.

Certains chercheurs pensent que les sources de données de grandes, en particulier ceux provenant de sources en ligne, sont vierges car elles sont collectées automatiquement. En fait, les gens qui ont travaillé avec des sources de données grands savent qu'ils sont souvent sales. Autrement dit, ils comprennent souvent des données qui ne reflètent pas les actions réelles d'intérêt pour les chercheurs. De nombreux chercheurs en sciences sociales sont déjà familiers avec le processus de nettoyage des données de l'enquête sociale à grande échelle, mais le nettoyage des sources de données gros est plus difficile pour deux raisons: 1) ils ne sont pas créés par des chercheurs pour les chercheurs et 2) les chercheurs ont généralement moins de compréhension de la façon dont ils ont été créés.

Les dangers de données de trace numérique sales sont illustrés par Retour et ses collègues (2010) étude de la réponse émotionnelle aux attentats du 11 Septembre, 2001. Les chercheurs étudient généralement la réponse aux événements tragiques en utilisant des données rétrospectives collectées au fil des mois, voire des années. Mais, Retour et ses collègues ont trouvé un message source inépuisable de traces numériques-le horodaté, enregistrées automatiquement à partir de 85.000 américains pagers et ce qui a permis aux chercheurs d'étudier la réponse émotionnelle sur une échelle de temps beaucoup plus fine. Retour et ses collègues ont créé une chronologie émotionnelle minute par minute du 11 Septembre en codant le contenu émotionnel des messages de téléavertisseur par le pourcentage de mots liés à (1) la tristesse (par exemple, les pleurs, la douleur), (2) l'anxiété (par exemple, inquiet, peur), et (3) la colère (par exemple, la haine, critique). Ils ont constaté que la tristesse et l'anxiété ont fluctué tout au long de la journée sans un motif fort, mais il y avait une augmentation frappante de la colère tout au long de la journée. Cette recherche semble être une merveilleuse illustration de la puissance de toujours sur les sources de données: en utilisant des méthodes standard, il serait impossible d'avoir une telle haute résolution chronologie de la réponse immédiate à un événement inattendu.

Un an plus tard, cependant, Cynthia Pury (2011) a examiné les données plus attentivement. Elle a découvert qu'un grand nombre des messages soi-disant en colère ont été générés par un seul récepteur d'appel et ils étaient tous identiques. Voici ce que ces messages soi-disant en colère a déclaré:

"Reboot NT machine [nom] dans l'armoire [nom] à [lieu]: CRITIQUE: [date et heure]"

Ces messages ont été marqués en colère parce qu'ils comprenaient le mot «critique», qui peut généralement indiquer la colère, mais ne fonctionne pas dans ce cas. Retrait des messages générés par ce pager automatisé unique élimine complètement l'augmentation apparente de la colère au cours de la journée (Figure 2.2). En d' autres termes, le résultat principal Back, Küfner, and Egloff (2010) était un artefact d'un pager. Comme le montre cet exemple, relativement simple analyse des données relativement complexes et désordonnées a le potentiel pour aller très mal.

Figure 2.2: Tendances estimées dans la colère au cours du 11 Septembre 2001 sur la base de 85.000 pagers américains (Retour, Küfner et Egloff 2010; Pury 2011; Back, Küfner et Egloff 2011). A l'origine, Back, Küfner et Egloff (2010) a rapporté un motif de colère croissante tout au long de la journée. Cependant, la plupart de ces messages en colère apparents ont été générés par un seul téléavertisseur qui a envoyé à plusieurs reprises le message suivant: Reboot NT machine [nom] dans l'armoire [nom] à [lieu]: CRITIQUE: [date et heure]. Avec ce message supprimé, l'augmentation apparente de la colère disparaît (Pury 2011; Back, Küfner et Egloff 2011). Ce chiffre est une reproduction de la figure 1B en Pury (2011).

Figure 2.2: Tendances estimées dans la colère au cours du 11 Septembre 2001 sur la base de 85.000 pagers américains (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . A l' origine, Back, Küfner, and Egloff (2010) a rapporté un motif de colère croissante tout au long de la journée. Cependant, la plupart de ces messages en colère apparents ont été générés par un seul téléavertisseur qui a envoyé à plusieurs reprises le message suivant: «machine Reboot NT [nom] dans l'armoire [nom] à [lieu]: CRITIQUE: [date et heure]". Avec ce message supprimé, l'augmentation apparente de la colère disparaît (Pury 2011; Back, Küfner, and Egloff 2011) . Ce chiffre est une reproduction de la figure 1B en Pury (2011) .

Bien que les données sales qui est créé sans le vouloir, tels que d'un bruyant pager peuvent être détectés par un chercheur raisonnablement prudent, il y a aussi des systèmes en ligne qui attirent les spammeurs intentionnels. Ces spammeurs génèrent activement des données fausses, et, souvent motivées par le profit-travail très dur pour garder leur spamming caché. Par exemple, l' activité politique sur Twitter semble inclure au moins une partie du spam raisonnablement sophistiqué, où certaines causes politiques sont intentionnellement fait pour regarder plus populaires qu'ils sont réels (Ratkiewicz et al. 2011) , (Ratkiewicz et al. 2011) . Les chercheurs qui travaillent avec des données qui peuvent contenir du spam intentionnel sont confrontés au défi de convaincre leur public qu'ils ont détectés et supprimés spams pertinents.

Enfin, ce qui est considéré les données sales peuvent dépendre de façon subtile sur vos questions de recherche. Par exemple, de nombreuses modifications à Wikipedia sont créés par des robots automatisés (Geiger 2014) . Si vous êtes intéressé par l'écologie de Wikipedia, ces robots sont importants. Mais, si vous êtes intéressé par la façon dont les humains contribuent à Wikipedia, ces modifications apportées par ces robots devraient être exclus.

Les meilleurs moyens pour éviter d'être dupé par des données sales sont de comprendre comment vos données ont été créés pour effectuer une analyse exploratoire simple, comme faire des diagrammes de dispersion simples.