Đo lường là nhiều ít có khả năng thay đổi hành vi trong các nguồn dữ liệu lớn.
Một thách thức trong việc nghiên cứu xã hội là mọi người có thể thay đổi hành vi của họ khi họ biết rằng họ đang bị quan sát bởi các nhà nghiên cứu. Các nhà khoa học xã hội nói chung gọi thay đổi hành vi này để đáp ứng với phản ứng nghiên cứu đo lường (Webb et al. 1966) . Một khía cạnh của dữ liệu lớn mà nhiều nhà nghiên cứu tìm thấy hứa hẹn là những người tham gia thường không nhận thức được rằng dữ liệu của họ đang bị bắt hoặc họ đã trở nên quá quen với việc thu thập dữ liệu này mà nó không còn thay đổi hành vi của họ. Bởi vì họ là không phản ứng, do đó, nhiều nguồn dữ liệu lớn có thể được sử dụng để nghiên cứu hành vi đó đã không thể sửa lại để đo chính xác trước đó. Ví dụ, Stephens-Davidowitz (2014) sử dụng sự phổ biến của thuật ngữ phân biệt chủng tộc trong các truy vấn tìm kiếm để đo animus chủng tộc ở các vùng khác nhau của Hoa Kỳ. Các không phản ứng và lớn (xem phần trước) bản chất của dữ liệu tìm kiếm cho phép đo đó sẽ là khó sử dụng các phương pháp khác, chẳng hạn như các cuộc điều tra.
Không phản ứng, tuy nhiên, không đảm bảo rằng những dữ liệu này bằng cách nào đó một cách trực tiếp phản ánh về hành vi hoặc thái độ của người dân. Ví dụ, như một người trả lời nói Newman et al. (2011) , "Nó không phải là tôi không có vấn đề, tôi chỉ không đặt chúng trên Facebook." Nói cách khác, mặc dù một số nguồn dữ liệu lớn là không phản ứng, họ không phải là luôn luôn miễn phí sai lệch mong muốn xã hội , xu hướng cho những người muốn thể hiện mình một cách tốt nhất có thể. Hơn nữa, như tôi sẽ mô tả chi tiết dưới đây, các nguồn dữ liệu đôi khi bị ảnh hưởng bởi các mục tiêu của chủ sở hữu nền tảng, một vấn đề được gọi là nhiễu thuật toán (mô tả chi tiết dưới đây).
Mặc dù không có phản ứng là thuận lợi cho việc nghiên cứu, theo dõi hành vi của người dân mà không cần sự đồng ý và nhận thức của họ đặt ra vấn đề đạo đức thảo luận dưới đây và chi tiết trong chương 6. Một phản ứng dữ dội nào chống lại giám sát kỹ thuật số tăng có thể dẫn hệ thống dữ liệu lớn để trở thành phản ứng mạnh hơn theo thời gian, và mạnh mẽ mối quan tâm về sự giám sát kỹ thuật số thậm chí có thể dẫn đến một số người cố gắng để lựa chọn ra các hệ thống dữ liệu lớn hoàn toàn, tăng lo ngại về việc không tính đại diện (được mô tả dưới đây hơn).
Ba đặc tính tốt của dữ liệu lớn cho nghiên cứu lớn xã hội, luôn luôn-on, và không phản ứng, thường phát sinh do các nguồn dữ liệu không được tạo ra bởi các nhà nghiên cứu cho nghiên cứu. Bây giờ, tôi sẽ lần lượt cho bảy thuộc tính của các nguồn dữ liệu lớn mà có hại cho nghiên cứu. Những tính năng này cũng có xu hướng phát sinh, vì dữ liệu này không được tạo ra bởi các nhà nghiên cứu cho nghiên cứu.