La dérive de la population, la dérive de l'utilisation et la dérive du système font qu'il est difficile d'utiliser les grandes sources de données pour étudier les tendances à long terme.
L'un des grands avantages de nombreuses sources de données volumineuses est qu'elles collectent des données au fil du temps. Les spécialistes des sciences sociales appellent ce type de données longitudinales de données sur les heures supplémentaires . Et, naturellement, les données longitudinales sont très importantes pour l'étude du changement. Cependant, pour mesurer le changement de manière fiable, le système de mesure lui-même doit être stable. Selon le sociologue Otis Dudley Duncan, «si vous voulez mesurer le changement, ne changez pas la mesure» (Fischer 2011) .
Malheureusement, de nombreux grands systèmes de données, en particulier les systèmes d'affaires, changent constamment, un processus que j'appellerai drift . En particulier, ces systèmes changent de trois manières principales: la dérive de la population (changement de qui les utilise), la dérive comportementale (changement dans la façon dont les gens les utilisent) et la dérive du système (changement dans le système lui-même). Les trois sources de dérive signifient que tout schéma dans une grande source de données pourrait être causé par un changement important dans le monde, ou pourrait être causé par une forme de dérive.
La première source de dérive-population dérivée-est causée par des changements dans l'utilisation du système, et ces changements peuvent survenir à la fois sur des échelles de temps courtes et longues. Par exemple, lors de l'élection présidentielle américaine de 2012, la proportion de tweets sur la politique écrits par des femmes a fluctué au jour le jour (Diaz et al. 2016) . Ainsi, ce qui pourrait sembler être un changement dans l'humeur du vers Twitter pourrait simplement être un changement dans la personne qui parle à tout moment. En plus de ces fluctuations à court terme, certains groupes démographiques ont adopté et abandonné Twitter à long terme.
En plus des changements dans la personne qui utilise un système, il y a aussi des changements dans la façon dont le système est utilisé, ce que j'appelle la dérive comportementale. Par exemple, lors des manifestations d'Occupy Gezi en Turquie en 2013, les protestataires ont changé leur utilisation de hashtags au fur et à mesure que la protestation évoluait. Voici comment Zeynep Tufekci (2014) décrit la dérive comportementale, qu'elle a pu détecter parce qu'elle observait un comportement sur Twitter et en personne:
"Ce qui s'est passé c'est que dès que la protestation est devenue l'histoire dominante, un grand nombre de personnes ... ont cessé d'utiliser les hashtags sauf pour attirer l'attention sur un nouveau phénomène ... Alors que les protestations continuaient et s'intensifiaient, les hashtags s'éteignaient. Les entrevues ont révélé deux raisons à cela. D'abord, une fois que tout le monde connaissait le sujet, le hashtag était à la fois superflu et inutile sur la plate-forme Twitter. Deuxièmement, les hashtags étaient considérés seulement comme utiles pour attirer l'attention sur un sujet particulier, pas pour en parler. "
Ainsi, les chercheurs qui étudiaient les manifestations en analysant les tweets avec les hashtags liées protestation-aurait un sens déformé de ce qui se passait à cause de cette dérive comportementale. Par exemple, ils pourraient croire que la discussion de la protestation a diminué bien avant qu'il en fait diminué.
Le troisième type de dérive est la dérive du système. Dans ce cas, ce ne sont pas les gens qui changent ou leur comportement qui change, mais le système lui-même qui change. Par exemple, au fil du temps, Facebook a augmenté la limite sur la longueur des mises à jour de statut. Ainsi, toute étude longitudinale des mises à jour de statut sera vulnérable aux artefacts causés par ce changement. La dérive du système est étroitement liée à un problème appelé confusion algorithmique, que je traiterai dans la section 2.3.8.
En conclusion, de nombreuses sources de données volumineuses sont en train de dériver en raison des changements dans la façon de les utiliser, dans la façon dont elles sont utilisées et dans le fonctionnement des systèmes. Ces sources de changement sont parfois des questions de recherche intéressantes, mais ces changements compliquent la capacité des grandes sources de données à suivre les changements à long terme au fil du temps.