Populara derivaĵo, uzado drift kaj sistemo drift faras malfacile uzi grandajn datumojn por studi longtempajn tendencojn.
Unu el la grandaj avantaĝoj de multaj grandaj datumaj fontoj estas, ke ili kolektas datumojn tra la tempo. Sociaj scienculoj nomas ĉi tiun specon de datumaj longitudinalaj datumoj . Kaj, nature, longitudinalaj datumoj estas tre gravaj por studi ŝanĝon. Por fidinde mezuri ŝanĝon, tamen la mezura sistemo mem devas esti stabila. Laŭ vortoj de sociologo Otis Dudley Duncan, "se vi volas mezuri la ŝanĝon, ne ŝanĝu la mezuron" (Fischer 2011) .
Bedaŭrinde, multaj grandaj datumoj sistemoj-speciale negoco sistemoj-ŝanĝas la tutan tempon, procezo kiu mi vokos drivon. En aparta, ĉi tiuj sistemoj ŝanĝas en tri ĉefaj manieroj: populara movado (ŝanĝado en kiu uzas ilin), kondukta movado (ŝanĝo de kiel homoj uzas ilin), kaj sistemŝanĝadon (ŝanĝiĝas en la sistemo mem). La tri fontoj de derivaĵo signifas, ke ajna ŝablono en granda fonto de datumoj povus esti kaŭzita de grava ŝanĝo en la mondo, aŭ ĝi povus esti kaŭzita de iu formo de derivaĵo.
La unua fonto de drift-population drift-estas kaŭzita de ŝanĝoj en kiuj uzas la sistemon, kaj ĉi tiuj ŝanĝoj povas okazi en mallongaj kaj longaj tempoj. Ekzemple, dum la prezidanta elekto de Usono de 2012 la proporcio de tweets pri politikoj skribitaj de virinoj fluctuis de tago al tago (Diaz et al. 2016) . Tiel, kio ŝajnas esti ŝanĝo en la humoro de la Twitter-verso eble efektive nur ŝanĝo en kiu parolas en ajna momento. Krom ĉi tiuj baldaŭaj fluctuoj, ankaŭ estis longdaŭra tendenco de certaj demografiaj grupoj adoptantaj kaj forlasantaj Twitter.
Aldone al ŝanĝoj en kiuj uzas sistemon, ankaŭ ekzistas ŝanĝoj pri kiel uzas la sistemon, kiun mi nomas konduto dika. Ekzemple, dum la protestoj de Occupy Gezi en Turkio en 2013, protestantoj ŝanĝis sian uzadon de hashtags dum la protesto evoluis. Jen kiel Zeynep Tufekci (2014) priskribis la kondutan derivaĵon, kiun ŝi povis detekti, ĉar ŝi observis konduton en Twitter kaj en persono:
"Kio okazis, tuj kiam la protesto fariĝis la reganta historio, multe da homoj ... ĉesis uzi la hashtagojn krom nomi la atenton al nova fenomeno ... Dum la protestoj daŭris kaj eĉ intensiĝis, la hashtagoj mortis. Intervjuoj rivelis du kialojn por ĉi tio. Unue, unufoje ĉiuj sciis la temon, la hashtago estis tuj superflua kaj malŝparanta sur la karaktero-limigita Twitter-platformo. Dua, hashtags estis viditaj nur kiel utilaj por altiri atenton al aparta temo, ne por paroli pri ĝi. "
Tiel, esploristoj kiuj studis la protestoj analizante ĉirpetas per protesto-rilatajn hashtags havus distorsionada senson de kio okazis pro tio kondutaj derivas. Ekzemple, ili povus kredi, ke la diskutado pri la protesto malpliigis longe antaŭ ĝi efektive malpliiĝis.
La tria speco de derivaĵo estas sistemo drift. En ĉi tiu kazo, ĝi ne estas la homoj ŝanĝantaj aŭ ilia konduto ŝanĝiĝas, sed la sistemo mem ŝanĝiĝas. Ekzemple, kun la tempo, Facebook pliigis la limon dum la longeco de la ĝisdatigoj de statuso. Tiel, ĉiu longitudinala studo pri statusaj ĝisdatigoj estos vundebla al artefaktoj kaŭzitaj de ĉi tiu ŝanĝo. Sistema derivaĵo estas proksime rilata al problemo nomata algoritma konflikto, kiun mi kovros en sekcio 2.3.8.
Por fini, multaj grandaj datumaj fontoj derivas pro ŝanĝoj en kiuj uzas ilin, kiel ili estas uzataj, kaj kiel funkcias la sistemoj. Ĉi tiuj fontoj de ŝanĝo estas kelkfoje interesaj demandoj de esploro, sed ĉi tiuj ŝanĝoj komplikas la kapablon de grandaj fontoj de datumoj por spuri longajn ŝanĝojn laŭlonge de la tempo.