2.3.2.4 Drifting

Befolknings drift, bruk drift og systemdrift gjør det vanskelig å bruke store datakilde for å studere langsiktige trender.

En av de store fordelene med mange store datakilder er at de samler inn data over tid. Samfunnsvitere kaller denne type over-time data, longitudinelle data. Og, naturligvis, longitudinelle data er meget viktig for å studere endring. For å måle pålitelig endring har imidlertid målesystemet i seg selv skal være stabil. I ordene til sosiolog Otis Dudley Duncan, "hvis du ønsker å måle endring, endrer ikke tiltaket" (Fischer 2011) .

Dessverre er mange store datasystemer-spesielt forretningssystem som skaper og fange digitale spor-er i endring hele tiden, en prosess som jeg vil kalle drift. Spesielt disse systemene endres på tre måter: befolkning drift (endring i hvem som bruker dem), atferdsmessige drift (endring i hvordan folk bruker dem), og systemet drift (endring i selve systemet). De tre kildene til drift bety at noe mønster i digitale spor data kan være forårsaket av en viktig endring i verden, eller det kan være forårsaket av noen form for drift.

Den første kilden til driv befolkningen driv er hvem som bruker systemet, og dette endrer seg på lange tidsskalaer og korte tidsskalaer. For eksempel fra 2008 for å presentere den gjennomsnittlige alderen på folk på sosiale medier har økt. I tillegg til disse langsiktige trender, folk som bruker et system til enhver tid varierer. For eksempel under det amerikanske presidentvalget i 2012 var andelen tweets om politikk som ble skrevet av kvinner variert fra dag til dag (Diaz et al. 2016) . Dermed hva som kan synes å være en endring i stemningen i Twitter-vers kan faktisk bare bli endringer i hvem som snakker når som helst.

I tillegg til endringer i hvem som bruker et system, er det også forandringer i hvordan systemet benyttes. For eksempel under Occupy Gezi Park protester i Istanbul, Tyrkia i 2013 demonstranter endret sin bruk av hashtags som protest utviklet seg. Slik Zeynep Tufekci (2014) beskrev drift, som hun var i stand til å oppdage fordi hun var å observere atferd på Twitter og på bakken:

"Hva hadde skjedd var at så snart protesten ble den dominerende historien, et stort antall mennesker. . . sluttet å bruke hashtags annet enn å trekke oppmerksomhet til et nytt fenomen. . .. Mens protestene fortsatte, og til og med intensivert, de hashtags stilnet. Intervjuer avdekket to grunner til dette. Først når alle visste emnet, hashtag var samtidig overflødig og bortkastet på begrenset karakter-Twitter-plattformen. For det andre hashtags ble bare sett som nyttig for å tiltrekke oppmerksomhet til et bestemt emne, ikke for å snakke om det. "

Dermed vil forskerne som studerte protestene ved å analysere tweets med protest-relaterte hashtags har en forvrengt oppfatning av hva som skjedde på grunn av dette atferds drift. For eksempel kan de tro at diskusjonen av protest redusert lenge før det faktisk redusert.

Den tredje typen drift er system drift. I dette tilfellet er det ikke folk endrer eller deres atferd endring, men selve systemet i endring. For eksempel, over tid Facebook har økt grense for lengden på statusoppdateringer. Dermed vil noen longitudinell studie av statusoppdateringer være sårbare for gjenstander som følge av denne endringen. System drift er nært knyttet til problemet kalt algoritmisk forvirrende som vi nå snu.