Дрейф населения, дрейф использования и дрейф системы затрудняют использование больших источников данных для изучения долгосрочных тенденций.
Одним из больших преимуществ многих крупных источников данных является то, что они собирают данные с течением времени. Социологи называют такие данные продольных данных за время перерыва . И, естественно, продольные данные очень важны для изучения изменений. Однако, чтобы надежно измерить изменения, сама измерительная система должна быть стабильной. По словам социолога Отиса Дадли Дункана, «если вы хотите измерить изменения, не меняйте меру» (Fischer 2011) .
К сожалению, многие большие системы данных, особенно бизнес-системы, постоянно меняются, процесс, который я назову дрейфом . В частности, эти системы меняются тремя основными способами: демографический дрейф (изменение в том, кто их использует), поведенческий дрейф (изменение в том, как люди используют их) и дрейф системы (изменение самой системы). Три источника дрейфа означают, что любая картина в большом источнике данных может быть вызвана важным изменением в мире или может быть вызвана некоторой формой дрейфа.
Первый источник дрейфа дрейфа - население вызвано изменениями в том, кто использует систему, и эти изменения могут произойти как в коротких, так и в длительных временных масштабах. Например, во время президентских выборов в США в 2012 году доля твитов о политике, которые были написаны женщинами, колебалась изо дня в день (Diaz et al. 2016) . Таким образом, может показаться, что изменение настроения в Twitter-стихе может быть просто изменением того, кто говорит в любой момент. В дополнение к этим краткосрочным колебаниям также наблюдается долгосрочная тенденция перехода некоторых демографических групп и отказа от Twitter.
В дополнение к изменениям в том, кто использует систему, есть также изменения в том, как используется система, которую я называю поведенческим дрейфом. Например, во время протестов «Занимайте Гези» в 2013 году протестующие изменили использование хэштагов в связи с протестом. Вот как Zeynep Tufekci (2014) описал поведенческий дрейф, который она смогла обнаружить, потому что она наблюдала поведение в Twitter и лично:
«То, что случилось, состояло в том, что, как только протест стал доминирующей историей, большое количество людей ... перестало использовать хэштаги, кроме как привлечь внимание к новому явлению ... Пока протесты продолжались и даже усилились, хэштеги утихли. Интервью выявили две причины для этого. Во-первых, когда все знали эту тему, хэштег был одновременно лишним и расточительным на платформе Twitter с ограниченным характером. Во-вторых, хэштаги были видны только как полезные для привлечения внимания к определенной теме, а не для разговоров об этом ».
Таким образом, исследователи, которые изучали протесты, анализируя твиты с протеста, связанных с Хештеги будет иметь искаженное ощущение того, что происходит из-за этого поведенческого дрейфа. Например, они могут поверить, что обсуждение протеста уменьшилось задолго до того, как на самом деле уменьшилось.
Третий вид дрейфа - системный дрейф. В этом случае меняются не люди, а их поведение меняется, но сама система меняется. Например, со временем Facebook увеличил лимит на количество обновлений статуса. Таким образом, любое продольное исследование обновлений статуса будет уязвимым для артефактов, вызванных этим изменением. Системный дрейф тесно связан с проблемой, называемой алгоритмическим смешением, которую я расскажу в разделе 2.3.8.
В заключение, многие большие источники данных дрейфуют из-за изменений в том, кто их использует, в том, как они используются, и о том, как работают системы. Эти источники изменений иногда представляют интересные исследовательские вопросы, но эти изменения усложняют способность больших источников данных отслеживать долгосрочные изменения с течением времени.