2.3.2.4 A la deriva

Desplazamiento de la población, la deriva de su uso, y la deriva del sistema hacen que sea difícil de usar fuente de datos grande como para estudiar las tendencias a largo plazo.

Una de las grandes ventajas de muchas fuentes de datos son grandes que recogen datos en el tiempo. Los científicos sociales llaman a este tipo de sobre-tiempo de los datos, los datos longitudinales. Y, naturalmente, los datos longitudinales son muy importantes para el estudio del cambio. Con el fin de medir con fiabilidad cambio, sin embargo, el sistema de medición en sí debe ser estable. En palabras del sociólogo Otis Dudley Duncan, "si se quiere medir el cambio, no cambie la medida" (Fischer 2011) .

Desafortunadamente, muchos sistemas de datos, especialmente las grandes sistema de negocios que crean y capturan las huellas digitales-están cambiando todo el tiempo, un proceso que voy a llamar a la deriva. En particular, estos sistemas cambian en tres formas principales: desplazamiento de la población (cambio en quién las utiliza), la deriva del comportamiento (cambio en cómo las personas están usando), y la deriva del sistema (cambio en el propio sistema). Las tres fuentes de la deriva significa que cualquier patrón de datos de rastreo digital podría ser causado por un cambio importante en el mundo, o podría ser causada por algún tipo de deriva.

La primera fuente de la deriva en la población de deriva es que está utilizando el sistema, y ​​esto cambia en escalas de tiempo largas y escalas de tiempo corto. Por ejemplo, desde 2008 hasta la actualidad el promedio de edad de las personas en las redes sociales se ha incrementado. Además de estas tendencias a largo plazo, las personas que utilizan un sistema en cualquier momento varía. Por ejemplo, durante la elección presidencial estadounidense de 2012, la proporción de los tweets acerca de la política que fueron escritos por mujeres fluctuó de un día a otro (Diaz et al. 2016) . Por lo tanto, lo que podría parecer un cambio en el estado de ánimo de la Twitter-verso en realidad podría ser sólo cambios en la que está hablando en todo momento.

Además de los cambios en la que está utilizando un sistema, hay también cambios en cómo se utiliza el sistema. Por ejemplo, durante las protestas en Gezi Park en Estambul, Turquía en 2013 manifestantes cambiaron su uso de hashtags como la protesta se desarrolló. Así es como Zeynep Tufekci (2014) describió la deriva, que fue capaz de detectar debido a que ella estaba observando el comportamiento en Twitter y en el suelo:

"Lo que había sucedido era que tan pronto como la protesta se convirtió en la historia dominante, un gran número de personas. . . dejado de usar los hashtags excepto para llamar la atención sobre un fenómeno nuevo. . .. Si bien las protestas continuaron, e incluso se intensificó, los hashtags se calmó. Las entrevistas revelaron dos razones para esto. En primer lugar, una vez que todo el mundo conocía el tema, el hashtag era a la vez superflua e inútil en la plataforma Twitter carácter limitado. En segundo lugar, los hashtags fueron vistos sólo como útil para atraer la atención sobre un tema en particular, no para hablar de ello ".

Por lo tanto, los investigadores que estudiaban las protestas mediante el análisis de tweets con hashtags relacionados con la protesta, tendrían un sentido distorsionado de lo que estaba ocurriendo a causa de esta deriva del comportamiento. Por ejemplo, pueden creer que la discusión de la protesta disminuyó mucho antes de que en realidad disminuyó.

El tercer tipo de deriva es la deriva del sistema. En este caso, no son las personas que cambian o su cambio de comportamiento, pero el propio sistema cambiante. Por ejemplo, con el tiempo Facebook ha aumentado el límite de la longitud de las actualizaciones de estado. Por lo tanto, cualquier estudio longitudinal de las actualizaciones de estado será vulnerable a los artefactos causados ​​por este cambio. la deriva sistema está estrechamente relacionado con un problema llamado confusión algorítmico a la que nos dirigimos ahora.