2.3.2.4 dérivantes

La dérive de la population, la dérive de l' utilisation, et la dérive du système le rendent difficile à utiliser grande source de données pour étudier les tendances à long terme.

Un des grands avantages de nombreuses sources de données sont grandes qu'ils collectent des données au fil du temps. Les sociologues appellent ce genre de plus de temps données, des données longitudinales. Et, naturellement, les données longitudinales sont très importantes pour l'étude des changements. Afin de mesurer de manière fiable le changement, cependant, le système de mesure lui-même doit être stable. Dans les mots du sociologue Otis Dudley Duncan, «si vous voulez mesurer le changement, ne changez pas la mesure" (Fischer 2011) .

Malheureusement, de nombreux systèmes, surtout grande données système d'entreprise qui créent et captent les traces sont-numériques changent tout le temps, un processus que je vais appeler la dérive. En particulier, ces systèmes changent de trois façons principales: la dérive de la population (changement qui les utilise), la dérive comportementale (changement dans la façon dont les gens les utilisent), et la dérive du système (changement dans le système lui - même). Les trois sources de dérive signifient que tout motif dans les données de trace numérique pourrait être causé par un changement important dans le monde, ou il pourrait être causé par une certaine forme de dérive.

La première source de dérive population dérive est qui utilise le système, et cela change sur des échelles longues échelles de temps et de courte durée. Par exemple, de 2008 à présenter l'âge moyen des personnes sur les médias sociaux a augmenté. En plus de ces tendances à long terme, les personnes qui utilisent un système à tout moment varie. Par exemple, lors de l'élection présidentielle américaine de 2012 , la proportion de tweets à propos de la politique qui ont été écrits par des femmes a fluctué au jour le jour (Diaz et al. 2016) . Ainsi, ce qui pourrait sembler être un changement dans l'humeur du Twitter verset pourrait en fait juste des changements dans qui parlent à tout moment.

En plus des changements dans les personnes qui utilisent un système, il y a aussi des changements dans la façon dont le système est utilisé. Par exemple, au cours de la Occuper manifestations Gezi Park à Istanbul, en Turquie en 2013 manifestants ont changé leur utilisation des hashtags comme la manifestation a évolué. Voici comment Zeynep Tüfekçi (2014) décrit la dérive, qu'elle était capable de détecter parce qu'elle observait le comportement sur ​​Twitter et sur ​​le terrain:

"Ce qui était arrivé était que, dès que la protestation est devenue l'histoire dominante, un grand nombre de personnes. . . cessé d'utiliser les hashtags, sauf pour attirer l'attention sur un phénomène nouveau. . .. Alors que les protestations ont continué, et même intensifiés, les hashtags sont morts vers le bas. Les entrevues ont révélé deux raisons à cela. Tout d'abord, une fois que tout le monde connaissait le sujet, le hashtag était à la fois superflu et inutile sur la plate-forme Twitter caractère limité. Deuxièmement, les hashtags ont été vus seulement comme utile pour attirer l'attention sur un sujet particulier, non pas pour en parler ".

Ainsi, les chercheurs qui étudiaient les manifestations en analysant les tweets avec les hashtags liées protestation-aurait un sens déformé de ce qui se passait à cause de cette dérive comportementale. Par exemple, ils pourraient croire que la discussion de la protestation a diminué bien avant qu'il en fait diminué.

Le troisième type de dérive est la dérive du système. Dans ce cas, il ne sont pas les personnes changeant ou leur changement de comportement, mais le système lui-même en évolution. Par exemple, au fil du temps Facebook a augmenté la limite de la durée des mises à jour de statut. Ainsi, toute étude longitudinale des mises à jour de statut sera vulnérable à des artefacts causés par ce changement. la dérive du système est étroitement lié au problème appelé confusion algorithmique à laquelle nous nous tournons maintenant.