Pengukuran dalam sumber data besar kemungkinan besar akan mengubah tingkah laku.
Satu cabaran penyelidikan sosial ialah orang boleh mengubah tingkah laku mereka apabila mereka tahu bahawa mereka sedang diperhatikan oleh penyelidik. Ahli-ahli sains sosial secara umumnya memanggil kereaktifan ini (Webb et al. 1966) . Sebagai contoh, orang boleh menjadi lebih murah hati dalam kajian makmal daripada kajian lapangan kerana pada (Levitt and List 2007a) mereka sangat menyedari bahawa mereka sedang diperhatikan (Levitt and List 2007a) . Satu aspek data besar yang banyak penyelidik menjanjikan adalah bahawa para peserta pada umumnya tidak menyedari bahawa data mereka sedang ditangkap atau mereka telah terbiasa dengan pengumpulan data ini bahawa ia tidak lagi mengubah tingkah laku mereka. Kerana peserta tidak aktif , oleh itu, banyak sumber data besar dapat digunakan untuk mempelajari tingkah laku yang belum dapat diterima dengan tepat sebelum ini. Sebagai contoh, Stephens-Davidowitz (2014) menggunakan kelaziman istilah perkauman dalam pertanyaan enjin carian untuk mengukur animus kaum di rantau-rantau lain di Amerika Syarikat. Sifat tidak aktif dan besar (lihat bahagian 2.3.1) membolehkan data carian membolehkan ukuran yang sukar menggunakan kaedah lain, seperti tinjauan.
Walau bagaimanapun, ketidakaktifan tidak memastikan data-data ini merupakan gambaran langsung terhadap tingkah laku atau sikap orang. Sebagai contoh, sebagai satu responden dalam kajian berasaskan temuduga berkata, "Bukannya saya tidak mempunyai masalah, saya tidak meletakkannya di Facebook" (Newman et al. 2011) . Dalam erti kata lain, walaupun beberapa sumber data besar tidak aktif, mereka tidak selalunya bebas daripada kecenderungan keinginan sosial, kecenderungan untuk orang ingin menunjukkan diri mereka dengan cara yang terbaik. Selanjutnya, seperti yang akan saya huraikan dalam bab ini, tingkah laku yang ditangkap dalam sumber data besar kadang-kadang terkena sasaran matlamat pemilik platform, satu isu yang saya panggil pemalsuan algoritma . Akhirnya, walaupun ketidakaktifan adalah berupaya untuk penyelidikan, mengesan tingkah laku orang tanpa persetujuan dan kesedaran mereka menimbulkan kebimbangan etika yang saya akan terangkan secara terperinci dalam bab 6.
Ketiga-tiga sifat yang saya baru-baru ini digambarkan-besar, selalu-aktif, dan tidak aktif-umumnya, tetapi tidak semestinya, berfaedah untuk penyelidikan sosial. Seterusnya, saya akan beralih kepada tujuh sifat sumber data yang besar-tidak lengkap, tidak boleh diakses, tidak mewakili, hanyut, secara algorithmically confounded, kotor, dan sensitif-yang umumnya, tetapi tidak semestinya, mewujudkan masalah untuk penyelidikan.