Bevölkerungsdrift, Nutzungsdrift und Systemdrift machen es schwierig, große Datenquellen zu nutzen, um langfristige Trends zu untersuchen.
Einer der großen Vorteile vieler großer Datenquellen ist, dass sie im Laufe der Zeit Daten sammeln. Sozialwissenschaftler bezeichnen diese Art von Daten über die Zeit als longitudinale Daten . Und natürlich sind longitudinale Daten sehr wichtig, um Veränderungen zu untersuchen. Um Veränderungen zuverlässig zu messen, muss das Messsystem selbst jedoch stabil sein. In den Worten des Soziologen Otis Dudley Duncan: "Wenn Sie Veränderungen messen wollen, ändern Sie das Maß nicht" (Fischer 2011) .
Leider ändern sich viele Big-Data-Systeme - insbesondere Business-Systeme - ständig, ein Prozess, den ich als Drift bezeichnen werde . Diese Systeme ändern sich vor allem auf dreierlei Weise: Bevölkerungsdrift (Veränderung des Nutzungsverhaltens), Verhaltensdrift (Veränderung des Nutzungsverhaltens) und Systemdrift (Veränderung des Systems selbst). Die drei Quellen der Drift bedeuten, dass jedes Muster in einer großen Datenquelle durch eine wichtige Veränderung in der Welt oder durch eine Form der Drift verursacht werden kann.
Die erste Quelle der Abdrift-Populationsdrift wird durch Änderungen in der Nutzung des Systems verursacht, und diese Änderungen können sowohl auf kurzen als auch auf langen Zeitskalen passieren. Zum Beispiel schwankte bei den US-Präsidentschaftswahlen von 2012 der Anteil der Tweets über Politik, die von Frauen geschrieben wurden, von Tag zu Tag (Diaz et al. 2016) . Was also eine Veränderung in der Stimmung des Twitter-Verses zu sein scheint, könnte eigentlich nur eine Veränderung dessen sein, wer gerade spricht. Zusätzlich zu diesen kurzfristigen Fluktuationen gab es einen langfristigen Trend, dass bestimmte demographische Gruppen Twitter annehmen und aufgeben.
Zusätzlich zu den Änderungen, wer ein System benutzt, gibt es auch Änderungen in der Art und Weise, wie das System benutzt wird, was ich Verhaltensdrift nenne. Während der Occupy Gezi-Proteste von 2013 in der Türkei änderten Protestierende ihre Verwendung von Hashtags, als sich der Protest entwickelte. So beschreibt Zeynep Tufekci (2014) die Verhaltensdrift, die sie feststellen konnte, weil sie Verhalten auf Twitter und persönlich beobachtete:
"Was passierte, war, dass, sobald der Protest zur dominierenden Geschichte wurde, viele Leute ... die Hashtags nicht mehr benutzten, um auf ein neues Phänomen aufmerksam zu machen ... Während die Proteste fortfuhren und sich sogar intensivierten, verstummten die Hashtags. Interviews ergaben zwei Gründe dafür. Erstens, sobald jeder das Thema kannte, war der Hashtag überflüssig und verschwenderisch auf der Charakter-limitierten Twitter-Plattform. Zweitens wurden Hashtags nur als nützlich angesehen, um Aufmerksamkeit auf ein bestimmtes Thema zu lenken, nicht um darüber zu sprechen. "
So Forscher, die die Proteste studierten von Tweets mit Protest im Zusammenhang mit Hashtags Analyse würde ein verzerrtes Sinn dessen, was wegen dieser Verhaltens Drift geschah. Zum Beispiel könnten sie glauben, dass die Diskussion über den Protest lange verringert, bevor es tatsächlich verringert.
Die dritte Art von Drift ist Systemdrift. In diesem Fall ändern sich nicht die Menschen oder ihr Verhalten ändert sich, sondern das System selbst verändert sich. Zum Beispiel hat Facebook im Laufe der Zeit das Limit für die Länge von Statusupdates erhöht. Daher ist jede Langzeitstudie von Statusaktualisierungen anfällig für Artefakte, die durch diese Änderung verursacht werden. Die Systemdrift hängt eng mit einem Problem zusammen, das als algorithmisches Confounding bezeichnet wird, auf das ich in Abschnitt 2.3.8 eingehen werde.
Zusammenfassend lässt sich sagen, dass viele große Datenquellen aufgrund von Veränderungen in der Nutzung, in der Art ihrer Nutzung und in der Funktionsweise der Systeme driften. Diese Quellen des Wandels sind manchmal interessante Forschungsfragen, aber diese Veränderungen erschweren die Fähigkeit großer Datenquellen, langfristige Veränderungen im Laufe der Zeit zu verfolgen.