Befolknings drift, användning drift och systemdrift gör det svårt att använda stora datakälla för att studera långsiktiga trender.
En av de stora fördelarna med många stora datakällor är att de samlar in data över tiden. Samhällsvetare kallar denna typ av över-tidsdata, longitudinella data. Och, naturligtvis, longitudinella data är mycket viktiga för att studera förändring. För att tillförlitligt mäta förändring måste emellertid mätsystemet själv vara stabil. För att citera sociologen Otis Dudley Duncan, "om du vill mäta förändring, inte ändrar åtgärden" (Fischer 2011) .
Tyvärr har många stora datasystem-särskilt affärssystem som skapar och fånga digitala spår-förändras hela tiden, en process som jag ringer drift. I synnerhet är dessa system ändras på tre sätt: befolkningen drift (förändring i vem som använder dem), beteende drift (förändring i hur människor använder dem), och systemdrift (förändring i själva systemet). De tre källorna till drift innebära att något mönster i digital spårningsdata kan orsakas av en viktig förändring i världen, eller det kan orsakas av någon form av drift.
Den första källan av drift-befolkningen drift-är vem som använder systemet, och detta förändrar på lång tidsskalor och korta tidsskalor. Till exempel, från 2008 för att presentera den genomsnittliga åldern för människor på sociala medier har ökat. Utöver dessa långsiktiga trender, de personer som använder ett system som helst varierar. Till exempel, under det amerikanska presidentvalet 2012 var andelen tweets om politik som var skrivna av kvinnor varierade från dag till dag (Diaz et al. 2016) . Således, vad som verkar vara en förändring i stämningen i Twitter-vers kan faktiskt bara bli förändringar i vem som pratar när som helst.
Förutom förändringar i vem som använder ett system, det finns också förändringar i hur systemet används. Till exempel, under upptar protester Gezi Park i Istanbul, Turkiet 2013 demonstranter ändrat sin användning av hashtags som protesten utvecklats. Här är hur Zeynep Tufekci (2014) beskrev drift, som hon kunde upptäcka eftersom hon observera beteende på Twitter och på marken:
"Vad hade hänt var att så fort som protesten blev den dominerande berättelsen, ett stort antal människor. . . slutat använda hashtags förutom att uppmärksamma ett nytt fenomen. . .. Även protesterna fortsatte och även intensifieras, de hashtags dog. Intervjuer visade två skäl till detta. Först när alla visste ämnet, hashtag var en gång överflödig och slösaktig på karaktären begränsade Twitter plattform. För det andra, var hashtags ses endast som användbara för att väcka uppmärksamhet till ett visst ämne, inte för att prata om det. "
Således skulle forskare som studerade protesterna genom att analysera tweets med protestrelaterade hashtags har en förvrängd uppfattning om vad som hände på grund av detta beteende drift. Till exempel kan de tror att diskussionen om protesten minskade långt innan det faktiskt minskat.
Den tredje typen av drift är systemet drift. I det här fallet är det inte de människor som förändrar eller deras beteende förändras, men själva systemet förändras. Till exempel, med tiden Facebook har ökat gränsen för längden på statusuppdateringar. Således kommer någon longitudinell studie av statusuppdateringar vara känsliga för artefakter som orsakas av denna förändring. Systemet avdrift är nära besläktad med problem som kallas algoritmisk confounding till vilken vi nu vänder.