Drift populasi, drift penggunaan, dan drift sistem membuat sulit untuk menggunakan sumber data besar untuk mempelajari tren jangka panjang.
Salah satu keuntungan besar dari banyak sumber data besar adalah mereka mengumpulkan data dari waktu ke waktu. Ilmuwan sosial menyebut jenis data data longitudinal sepanjang waktu ini. Dan, tentu saja, data longitudinal sangat penting untuk mempelajari perubahan. Untuk mengukur perubahan yang andal, bagaimanapun, sistem pengukuran itu sendiri harus stabil. Dalam kata-kata sosiolog Otis Dudley Duncan, “jika Anda ingin mengukur perubahan, jangan ubah ukurannya” (Fischer 2011) .
Sayangnya, banyak sistem data besar - terutama sistem bisnis - berubah sepanjang waktu, sebuah proses yang akan saya sebut sebagai pergeseran . Secara khusus, sistem ini berubah dalam tiga cara utama: pergeseran populasi (perubahan siapa yang menggunakannya), pergeseran perilaku (perubahan dalam cara orang menggunakan mereka), dan sistem hanyut (perubahan dalam sistem itu sendiri). Tiga sumber drift berarti bahwa setiap pola dalam sumber data besar dapat disebabkan oleh perubahan penting di dunia, atau bisa juga disebabkan oleh beberapa bentuk drift.
Sumber pertama drift — penyimpangan populasi — disebabkan oleh perubahan pada siapa yang menggunakan sistem, dan perubahan ini dapat terjadi pada jangka waktu pendek dan panjang. Misalnya, selama pemilihan Presiden AS tahun 2012 proporsi tweet tentang politik yang ditulis oleh perempuan berfluktuasi dari hari ke hari (Diaz et al. 2016) . Dengan demikian, apa yang mungkin tampak sebagai perubahan dalam mood Twitter-verse mungkin sebenarnya hanyalah perubahan dalam siapa yang berbicara setiap saat. Selain fluktuasi jangka pendek ini, ada juga tren jangka panjang kelompok demografi tertentu yang mengadopsi dan meninggalkan Twitter.
Selain perubahan pada siapa yang menggunakan sistem, ada juga perubahan dalam bagaimana sistem digunakan, yang saya sebut perilaku drift. Misalnya, selama protes 2013 Occupy Gezi di Turki, pengunjuk rasa mengubah penggunaan tagar mereka ketika protes berkembang. Beginilah cara Zeynep Tufekci (2014) mendeskripsikan perilaku drift, yang dapat dia deteksi karena dia mengamati perilaku di Twitter dan secara pribadi:
“Apa yang terjadi adalah segera setelah protes menjadi cerita yang dominan, sejumlah besar orang ... berhenti menggunakan hashtag kecuali untuk menarik perhatian pada fenomena baru ... Sementara protes terus berlanjut, dan bahkan semakin intensif, hashtag itu mereda. Wawancara mengungkap dua alasan untuk ini. Pertama, setelah semua orang tahu topiknya, hashtag itu sekaligus berlebihan dan boros pada platform Twitter dengan karakter terbatas. Kedua, hashtag hanya dilihat berguna untuk menarik perhatian ke topik tertentu, bukan untuk membicarakannya. ”
Dengan demikian, para peneliti yang mempelajari protes dengan menganalisis tweet dengan hashtag terkait protes akan memiliki rasa terdistorsi apa yang terjadi karena pergeseran perilaku ini. Misalnya, mereka mungkin percaya bahwa pembahasan protes menurun jauh sebelum itu benar-benar menurun.
Jenis ketiga drift adalah sistem drift. Dalam hal ini, bukan orang yang berubah atau perilaku mereka berubah, tetapi sistem itu sendiri berubah. Sebagai contoh, seiring waktu Facebook telah meningkatkan batas pada panjang pembaruan status. Dengan demikian, setiap studi longitudinal tentang pembaruan status akan rentan terhadap artefak yang disebabkan oleh perubahan ini. Sistem drift terkait erat dengan masalah yang disebut confounding algoritmik, yang akan saya bahas di bagian 2.3.8.
Sebagai kesimpulan, banyak sumber data besar yang hanyut karena perubahan siapa yang menggunakannya, bagaimana mereka digunakan, dan bagaimana sistem bekerja. Sumber-sumber perubahan ini terkadang merupakan pertanyaan penelitian yang menarik, tetapi perubahan ini menyulitkan kemampuan sumber data besar untuk melacak perubahan jangka panjang dari waktu ke waktu.