Pengukuran dalam sumber data besar jauh lebih kecil kemungkinannya untuk mengubah perilaku.
Salah satu tantangan dari penelitian sosial adalah bahwa orang dapat mengubah perilaku mereka ketika mereka tahu bahwa mereka sedang diamati oleh para peneliti. Ilmuwan sosial umumnya menyebut reaktivitas ini (Webb et al. 1966) . Misalnya, orang dapat lebih murah hati dalam studi laboratorium daripada studi lapangan karena pada awalnya mereka sangat sadar bahwa mereka sedang diamati (Levitt and List 2007a) . Salah satu aspek dari data besar yang banyak ditemukan oleh para peneliti adalah bahwa para peserta umumnya tidak menyadari bahwa data mereka sedang diambil atau mereka telah menjadi begitu terbiasa dengan pengumpulan data ini sehingga tidak lagi mengubah perilaku mereka. Karena peserta tidak reaktif , oleh karena itu, banyak sumber data besar dapat digunakan untuk mempelajari perilaku yang belum dapat menerima pengukuran yang akurat sebelumnya. Sebagai contoh, Stephens-Davidowitz (2014) menggunakan prevalensi istilah rasis dalam permintaan mesin pencari untuk mengukur animus rasial di berbagai wilayah di Amerika Serikat. Data yang tidak reaktif dan besar (lihat bagian 2.3.1) dari data pencarian memungkinkan pengukuran yang akan sulit menggunakan metode lain, seperti survei.
Nonreaktivitas, bagaimanapun, tidak memastikan bahwa data ini entah bagaimana merupakan cerminan langsung dari perilaku atau sikap orang. Sebagai contoh, sebagai salah satu responden dalam sebuah studi berbasis wawancara berkata, "Bukannya saya tidak memiliki masalah, saya hanya tidak menempatkan mereka di Facebook" (Newman et al. 2011) . Dengan kata lain, meskipun beberapa sumber data besar tidak reaktif, mereka tidak selalu bebas dari bias desirabilitas sosial, kecenderungan orang untuk ingin menampilkan diri mereka dengan cara sebaik mungkin. Selanjutnya, seperti yang akan saya jelaskan nanti di bab ini, perilaku yang ditangkap dalam sumber data besar kadang-kadang dipengaruhi oleh tujuan pemilik platform, masalah yang saya sebut gangguan algoritmik . Akhirnya, meskipun nonreaktivitas bermanfaat untuk penelitian, melacak perilaku orang tanpa persetujuan dan kesadaran mereka menimbulkan kekhawatiran etis yang akan saya jelaskan secara rinci dalam Bab 6.
Tiga sifat yang baru saja saya jelaskan — besar, selalu aktif, dan tidak reaktif — pada umumnya, tetapi tidak selalu, menguntungkan untuk penelitian sosial. Selanjutnya, saya akan beralih ke tujuh properti dari sumber data besar — tidak lengkap, tidak dapat diakses, tidak representatif, hanyut, membingungkan secara algoritme, kotor, dan sensitif — yang pada umumnya, tetapi tidak selalu, menciptakan masalah untuk penelitian.