Pangukuran ing sumber data gedhe luwih cenderung ngganti prilaku.
Siji tantangan panaliten sosial yaiku yen wong bisa ngganti tingkah laku nalika ngerti yen dheweke lagi diamati dening peneliti. Para ilmuwan sosial umum nyebut keseimbangan kasebut (Webb et al. 1966) . Contone, wong bisa dadi luwih loma ing studi laboratorium tinimbang studi lapangan amarga ing mantan padha weruh yen dheweke lagi diamati (Levitt and List 2007a) . Siji aspek data amba sing akeh panaliti nemokake janji yaiku yen peserta umum ora weruh yen data sing ditangkep utawa wis dadi biyasane kanggo koleksi data iki sing ora ana maneh owah-owahan prilaku. Amarga peserta sing ora aktif , mula, akeh sumber data gedhe sing bisa digunakake kanggo sinau prilaku sing durung diakoni kanggo pangukuran sing akurat sadurunge. Contone, Stephens-Davidowitz (2014) migunakake prekara-prekara istilah racist ing pitakon mesin telusuran kanggo ngukur animus ras ing wilayah sing beda-beda ing Amerika Serikat. Sing ora aktif lan gedhe (pirsani bagéan 2.3.1) sipat data panelusuran bisa diaktifake sing bakal angel nggunakake metode liya, kayata survey.
Nonreactivity, Nanging, ora mesthekake yen data kasebut piye wae minangka bayangan langsung saka prilaku utawa sikap wong. Contone, minangka salah siji responden sajrone panaliten adhedhasar panemu, "Ora, aku ora duwe masalah, aku ora sijine Facebook" (Newman et al. 2011) . Ingkang sanès, sanadyan sapérangan sumber data ingkang ageng sanget mboten aktif, piyambakipun mboten sengaja mbebasaken bias kepengin sosial, kecenderungan para tiyang badhé nedahaken piyambak kanthi cara ingkang paling apik. Luwih, kaya sing bakal dak jelasake ing bab kasebut, prilaku sing ditangkep ing sumber data gedhe kadhangkala kena pengaruh gol panyedhiya platform, masalah sing bakal aku sebut perkiraan algoritma . Pungkasan, sanajan nonreactivity nguntungake kanggo riset, nelusuri prilaku wong tanpa idin lan kesadaran nimbulaké uneg-uneg etis sing aku bakal njlèntrèhaké kanthi rinci ing bab 6.
Ing telung sifat sing aku mung diterangake-gedhe, tansah-on, lan nonreactive-umume, nanging ora tansah, nguntungake kanggo riset sosial. Sabanjure, aku bakal nguripake pitung sumber gedhe data-ora lengkap, ora bisa diakses, non-perwakilan, drifting, algorithmically confounded, kotor, lan sensitif-sing umum, nanging ora mesthi, nggawe masalah kanggo riset.