Дрейф населення, дрейф використання і дрейфу система робить його важко використовувати великий джерело даних для вивчення довгострокових тенденцій.
Одним з великих переваг багатьох великих джерел даних, які вони збирають дані протягом довгого часу. Соціологи називають цей вид більш часу даних, поздовжніх даних. І, природно, поздовжні дані дуже важливі для вивчення змін. Для того, щоб надійно вимірювати зміни, проте, сама система вимірювання повинна бути стабільною. За словами соціолога Otis Дадлі Дункан, "якщо ви хочете виміряти зміни, не змінюють міру" (Fischer 2011) .
На жаль, у багатьох системах, особливо великих обсягів даних бізнес - системи , які створюють і захоплювати цифрові сліди-змінюються весь час, процес , який я буду називати дрейфом. Зокрема, ці системи змінюються за трьома основними напрямками: дрейф населення (зміна хто їх використовує), поведінкові дрейф (зміна в тому , як люди використовують їх), і дрейф системи (зміна самої системи). Три джерела дрейфу означає, що будь-який шаблон в цифрових даних трасування може бути викликано важливою зміною в світі, або це може бути викликано тій чи іншій формі дрейфу.
Перше джерело дрейфовой населення дрейфу в тому, хто використовує систему, і це змінює на довгострокових тимчасових масштабах і коротких тимчасових масштабах. Наприклад, з 2008 по теперішній час середній вік людей в соціальних медіа збільшився. На додаток до цих довгострокових тенденцій, люди, які використовують систему в будь-який момент часу змінюється. Наприклад, під час виборів президента США 2012 року частка твітів про політику , які були написані жінками коливалися день у день (Diaz et al. 2016) і (Diaz et al. 2016) . Таким чином, те, що може здатися, що зміна в настрої Twitter-вірш фактично може бути просто зміни, які говорять в будь-який момент.
На додаток до змін в тому, хто використовує систему, є також зміни в тому, як використовується система. Наприклад, під час Займайте Gezi Парк протести в Стамбулі, Туреччина в 2013 році демонстранти змінили своє використання хештегов, як протест еволюціонував. Ось як Зейнеп Tufekci (2014) описав дрейф, який вона в змозі виявити , тому що вона спостерігала за поведінкою на Twitter і на землі:
"Те, що сталося, що як тільки акції стала домінуючою історія, велика кількість людей. , , припинили використання хештегів за винятком того, щоб привернути увагу до нового явища. , .. У той час як протести тривали, і навіть посилилися, що Hashtags вщухли. Інтерв'ю виявили дві причини для цього. По-перше, колись все знали по цій темі, хештегом був відразу ж зайвим і марнотратно на персонажа обмеженою платформі Twitter. По-друге, Hashtags були помічені тільки корисні для залучення уваги до тієї чи іншої теми, а не говорити про це ".
Таким чином, дослідники, які вивчали протести, аналізуючи Твіти протесту, пов'язаних з хештегом матиме спотворене відчуття того, що відбувається через це поведінкового дрейфу. Наприклад, вони можуть повірити, що обговорення протесту зменшилася задовго до того, як насправді зменшилася.
Третій вид дрейфу дрейф системи. У цьому випадку, це не люди, зміна або їх зміна поведінки, але сама система змінюється. Наприклад, протягом довгого часу або Facebook збільшив ліміт на довжині поновлення статусу. Таким чином, будь-який поздовжнє дослідження оновлень статусу будуть уразливі для артефактів, викликаних цією зміною. Дрейф система тісно пов'язана з проблемою під назвою алгоритмічна втручається, до якого ми зараз переходимо.