Nüfus sapması, kullanımda sürüklenme ve sistem sürüklenmesi, uzun vadeli eğilimleri incelemek için büyük veri kaynaklarını kullanmakta zorlanmaktadır.
Birçok büyük veri kaynağının büyük avantajlarından biri, zaman içinde veri toplamasıdır. Sosyal bilimciler bu tür zaman-üstü veri boyuna veri diyorlar. Ve doğal olarak, boylamsal veriler değişimin incelenmesinde çok önemlidir. Ancak, değişimi güvenilir bir şekilde ölçmek için, ölçüm sisteminin kendisi sabit olmalıdır. Sosyolog Otis Dudley Duncan'ın ifadesiyle “değişimi ölçmek istiyorsanız, ölçüyü değiştirmeyin” (Fischer 2011) .
Ne yazık ki, birçok büyük veri sistemi (özellikle iş sistemleri) sürekli değişiyor, sürüklenmeyeceğim bir süreç. Özellikle, bu sistemler üç ana şekilde değişmektedir: nüfusun sürüklenmesi (bunları kullanan değişme), davranışsal sürüklenme (insanların onları nasıl kullandığı değişikliği) ve sistem sapması (sistemin kendisinde değişiklik). Üç kayma kaynağı, büyük bir veri kaynağındaki herhangi bir örüntüün, dünyadaki önemli bir değişikliğin neden olabileceği anlamına gelir, ya da bir çeşit sürüklenmeden kaynaklanabilir.
İlk kayma kaynağı - popülasyonun sapması - sistemi kimin kullandığı değişimlerden kaynaklanır ve bu değişiklikler hem kısa hem de uzun zaman aralıklarında gerçekleşebilir. Örneğin, 2012 ABD başkanlık seçimlerinde, kadınların yazdığı politikalarla ilgili tweetlerin oranı gün geçtikçe dalgalandı (Diaz et al. 2016) . Dolayısıyla, Twitter-ayetinin havasında bir değişiklik olarak görünen şey aslında sadece her an kimin konuştuğunun değişmesi olabilir. Bu kısa vadeli dalgalanmalara ek olarak, Twitter'ı benimseyen ve terk eden belirli demografik grupların uzun vadeli bir eğilimi de olmuştur.
Bir sistemi kimin kullandığını değiştirmenin yanı sıra, sistemin nasıl kullanıldığına dair, davranışsal sapma dediğim değişiklikler de vardır. Örneğin, 2013'teki Occupy Gezi protestoları sırasında protestocular protesto geliştikçe hashtag kullanımını değiştirdiler. Zeynep Tufekci'nin (2014) , Twitter'da ve kişisel olarak davranışlarını gözlemlediği için saptayabildiği davranışsal sapmayı nasıl tarif ettiği şöyle:
“Olan şey, protestoların baskın bir hikaye haline gelmesiyle, çok sayıda insanın… yeni bir fenomene dikkat çekmek dışında hashtagleri kullanmayı bırakmasıydı… Protestolar devam ederken ve hatta yoğunlaşırken, hashtagler öldü. Röportajlar bunun iki sebebini ortaya çıkardı. İlk olarak, herkes konuyu bildikten sonra, hashtag karakter sınırlamalı Twitter platformunda gereksiz ve gereksizdir. İkincisi, hashtagler sadece belirli bir konuya dikkat çekmek için yararlı göründüler, bunun hakkında konuşmak için değil. ”
Böylece, protesto ilgili hashtag'lerle tweets analiz ederek protesto öğrenim gören araştırmacılar, çünkü bu davranış sürüklenme neler olduğunu bir çarpık anlayışı olurdu. Örneğin, aslında azalmış önce protesto tartışma uzun azalma olduğuna inanıyoruz olabilir.
Üçüncü tür sürüklenme, sistem kaymasıdır. Bu durumda, insanların değişmesi veya davranışlarının değişmesi değil, sistemin kendisi değişiyor. Örneğin, zamanla Facebook, durum güncellemelerinin uzunluğundaki limiti artırdı. Böylelikle, durum güncellemeleri ile ilgili herhangi bir uzun süreli çalışma, bu değişikliğin neden olduğu eserlere karşı savunmasız olacaktır. Sistem sapması, 2.3.8. Bölümünde ele alacağım algoritmik karıştırıcı olarak adlandırılan bir problemle yakından ilgilidir.
Sonuç olarak, birçok büyük veri kaynağı, bunları kimin kullandığı, nasıl kullanıldığına ve sistemlerin nasıl çalıştığına bağlı değişiklikler nedeniyle sürükleniyor. Bu değişim kaynakları bazen ilginç araştırma sorularıdır, ancak bu değişiklikler büyük veri kaynaklarının zaman içinde uzun vadeli değişimleri takip etme yeteneğini zorlaştırmaktadır.