2.3.2.4 Drifting

Bevolking drift, het gebruik drift, en het systeem drift maken het moeilijk om big data source gebruiken om trends op lange termijn te bestuderen.

Een van de grote voordelen van veel grote gegevensbronnen zijn dat ze gegevens in de tijd te verzamelen. Sociale wetenschappers noemen dit soort over-time data, longitudinale gegevens. En natuurlijk longitudinale gegevens zijn zeer belangrijk voor het bestuderen van veranderingen. Om betrouwbaar te meten verandering echter het meetsysteem zelf moet stabiel zijn. In de woorden van socioloog Otis Dudley Duncan, "als je wilt verandering te meten, hebben de maatregel niet veranderen" (Fischer 2011) .

Helaas zijn veel big data-systemen, vooral business systeem dat te maken en vast te leggen digitale sporen-verandert de hele tijd, een proces dat ik drift bel. In het bijzonder, deze systemen te wijzigen op drie manieren: bevolking drift (verandering in wie ze is gebruikt), gedrags- drift (verandering in de manier waarop mensen worden ze met behulp van), en het systeem drift (verandering in het systeem zelf). De drie bronnen van drift dat elke patroon in digitale traceringsgegevens kan worden veroorzaakt door een belangrijke verandering in de wereld, of het kan worden veroorzaakt door een vorm van drift.

De eerste bron van drift-populatie drift-is die gebruik maakt van het systeem, en dit verandert op lange tijdschalen en korte tijdschalen. Bijvoorbeeld, vanaf 2008 tot heden de gemiddelde leeftijd van mensen op sociale media is toegenomen. Naast deze langetermijntrends, de gebruikers van een systeem op elk moment varieert. Bijvoorbeeld, tijdens de Amerikaanse presidentsverkiezingen van 2012 het aandeel van de tweets over politiek die werden geschreven door vrouwen schommelt van dag tot dag (Diaz et al. 2016) . Dus, wat zou kunnen lijken op een verandering in de stemming van de Twitter-vers zijn misschien wel gewoon veranderingen die spreekt op elk moment.

Naast veranderingen in die gebruikt een systeem, zijn er ook veranderingen in de manier waarop het systeem wordt gebruikt. Bijvoorbeeld, tijdens de Occupy Gezi Park protesten in Istanbul, Turkije in 2013 demonstranten hun gebruik van hashtags veranderd als protest geëvolueerd. Hier is hoe Zeynep Tüfekçi (2014) beschreef de drift, die ze in staat zijn op te sporen omdat ze het gedrag observeren op Twitter en op de grond was:

"Wat was er gebeurd was dat zodra het protest werd de dominante verhaal, grote aantallen mensen. . . gestopt met het gebruik van de hashtags, behalve om de aandacht te vestigen op een nieuw fenomeen. . .. Terwijl de protesten voortgezet en zelfs geïntensiveerd, de hashtags geluwd. Interviews onthulde twee redenen voor. Ten eerste, als iedereen het onderwerp kende, de hashtag was in een keer overbodig en verspilling op de tekens beperkt Twitter platform. Ten tweede werden hashtags alleen gezien als nuttig voor het aantrekken van de aandacht op een bepaald onderwerp, niet voor over te praten. "

Aldus onderzoekers die de protesten werden bestuderen door het analyseren van tweets met-protest-gerelateerde hashtags zou een vertekend gevoel van wat er gebeurde als gevolg van deze gedragsproblemen drift te hebben. Bijvoorbeeld, ze geloven dat de discussie over het protest afgenomen lang voordat het daadwerkelijk afgenomen.

De derde soort van drift is het systeem drift. In dit geval is het niet de mensen of veranderen hun gedrag veranderen, maar het systeem zelf veranderen. Bijvoorbeeld, in de tijd bij de limiet heeft verhoogd de lengte van status updates. Derhalve zal eventueel longitudinaal onderzoek statusupdates gevoelig voor artefacten veroorzaakt door deze verandering. Systeem drift is nauw verwant aan probleem dat algoritmische storende waar we nu over.