Dân số trôi dạt, trôi dạt sử dụng, và trôi dạt hệ thống làm cho nó khó khăn để sử dụng các nguồn dữ liệu lớn để nghiên cứu xu hướng dài hạn.
Một trong những lợi thế lớn của nhiều nguồn dữ liệu lớn là chúng thu thập dữ liệu theo thời gian. Các nhà khoa học xã hội gọi đây là loại dữ liệu theo chiều dọc dữ liệu theo thời gian. Và, tự nhiên, dữ liệu theo chiều dọc là rất quan trọng để nghiên cứu sự thay đổi. Tuy nhiên, để đo lường sự thay đổi đáng tin cậy, hệ thống đo lường phải ổn định. Theo lời của nhà xã hội học Otis Dudley Duncan, “nếu bạn muốn đo lường sự thay đổi, đừng thay đổi biện pháp” (Fischer 2011) .
Thật không may, nhiều hệ thống dữ liệu lớn - đặc biệt là các hệ thống kinh doanh - đang thay đổi mọi lúc, một quá trình mà tôi sẽ gọi là trôi dạt . Đặc biệt, các hệ thống này thay đổi theo ba cách chính: sự biến động dân số (thay đổi người đang sử dụng chúng), trôi dạt hành vi (thay đổi cách mọi người đang sử dụng chúng) và hệ thống trôi dạt (thay đổi hệ thống). Ba nguồn trôi dạt có nghĩa là bất kỳ mẫu nào trong một nguồn dữ liệu lớn có thể được gây ra bởi một thay đổi quan trọng trên thế giới, hoặc nó có thể do một dạng trôi dạt nào đó gây ra.
Nguồn trôi dạt đầu tiên - sự trôi dạt dân số - là do những thay đổi trong việc sử dụng hệ thống là gì, và những thay đổi này có thể xảy ra trên cả thời gian ngắn và dài. Ví dụ, trong cuộc bầu cử Tổng thống Mỹ năm 2012, tỷ lệ tweets về chính trị được viết bởi phụ nữ dao động từ ngày này sang ngày khác (Diaz et al. 2016) . Vì vậy, những gì có vẻ như là một sự thay đổi trong tâm trạng của Twitter-câu có thể thực sự chỉ là một sự thay đổi trong những người đang nói bất cứ lúc nào. Ngoài những biến động ngắn hạn này, xu hướng dài hạn của các nhóm nhân khẩu học nhất định đang áp dụng và từ bỏ Twitter.
Ngoài những thay đổi trong những người đang sử dụng một hệ thống, cũng có những thay đổi trong cách hệ thống được sử dụng, mà tôi gọi là hành vi trôi dạt. Ví dụ, trong cuộc biểu tình Chiếm đóng Gezi năm 2013 ở Thổ Nhĩ Kỳ, những người biểu tình đã thay đổi việc sử dụng thẻ bắt đầu bằng # khi cuộc biểu tình tiến hóa. Đây là cách Zeynep Tufekci (2014) mô tả hành vi trôi dạt, mà cô có thể phát hiện được vì cô đang quan sát hành vi trên Twitter và trực tiếp:
“Chuyện xảy ra là ngay sau khi cuộc biểu tình trở thành câu chuyện thống trị, nhiều người… ngừng sử dụng thẻ bắt đầu bằng cách thu hút sự chú ý đến hiện tượng mới… Trong khi các cuộc biểu tình tiếp tục, và thậm chí còn tăng cường, hashtags chết. Các cuộc phỏng vấn đã tiết lộ hai lý do cho việc này. Đầu tiên, một khi mọi người đều biết chủ đề, hashtag đã cùng một lúc không cần thiết và lãng phí trên nền tảng Twitter giới hạn ký tự. Thứ hai, hashtags chỉ được xem là hữu ích để thu hút sự chú ý đến một chủ đề cụ thể, không phải để nói về nó. ”
Do đó, các nhà nghiên cứu đang nghiên cứu các cuộc biểu tình bằng cách phân tích các tweet với hashtags cuộc biểu tình liên quan sẽ có một cảm giác bị bóp méo của những gì đã xảy ra do trôi dạt về hành vi này. Ví dụ, họ có thể tin rằng các cuộc thảo luận về các cuộc biểu tình giảm lâu trước khi nó thực sự giảm.
Loại trôi dạt thứ ba là hệ thống trôi dạt. Trong trường hợp này, nó không phải là những người thay đổi hoặc hành vi của họ thay đổi, nhưng bản thân hệ thống thay đổi. Ví dụ: theo thời gian, Facebook đã tăng giới hạn về độ dài của các cập nhật trạng thái. Do đó, bất kỳ nghiên cứu theo chiều dọc nào về cập nhật trạng thái sẽ dễ bị tổn thương bởi các hiện vật do sự thay đổi này gây ra. Hệ thống trôi dạt liên quan chặt chẽ đến một vấn đề được gọi là thuật toán nhiễu, mà tôi sẽ đề cập trong phần 2.3.8.
Để kết luận, nhiều nguồn dữ liệu lớn đang trôi dạt vì những thay đổi trong việc ai đang sử dụng chúng, trong cách chúng được sử dụng và cách thức hoạt động của các hệ thống. Những nguồn thay đổi này đôi khi là những câu hỏi nghiên cứu thú vị, nhưng những thay đổi này làm phức tạp khả năng của các nguồn dữ liệu lớn để theo dõi những thay đổi lâu dài theo thời gian.