Mjerenje velikih izvora podataka mnogo je manje vjerojatno da će promijeniti ponašanje.
Jedan od izazova društvenog istraživanja jest da ljudi mogu promijeniti svoje ponašanje kada znaju da ih promatraju istraživači. Socijalni znanstvenici općenito nazivaju ovu reaktivnost (Webb et al. 1966) . Na primjer, ljudi mogu biti velikodušniji u laboratorijskim studijama nego na terenskim studijama jer su u prvom dijelu vrlo svjesni da se promatraju (Levitt and List 2007a) . Jedan aspekt velikih podataka koji mnogi istraživači smatraju obećavajućim jest da sudionici općenito nisu svjesni da su njihovi podaci zarobljeni ili su postali tako naviknuti na prikupljanje podataka da više ne mijenja njihovo ponašanje. Budući da sudionici nisu reaktivni , stoga se mnogi izvori velikih podataka mogu koristiti za proučavanje ponašanja koje prije nije bilo prikladno za precizno mjerenje. Na primjer, Stephens-Davidowitz (2014) koristi prevalenciju rasističkih pojmova u upitima tražilice za mjerenje rasnih animusa u različitim područjima Sjedinjenih Država. Nereaktivni i veliki (vidi odjeljak 2.3.1) priroda podataka o pretraživanju omogućili su mjerenja koja bi bila teška pomoću drugih metoda, kao što su ankete.
Međutim, neaktivnost ne osigurava da ti podaci nekako izravno reflektiraju ponašanje ili stavove ljudi. Na primjer, kao jedan ispitanik u istraživanju na temelju intervjua, rekao je: "Nije da nemam problema, jednostavno ih ne stavljam na Facebook" (Newman et al. 2011) . Drugim riječima, iako neki veliki izvori podataka nisu reaktivni, oni nisu uvijek slobodni od pristranosti na društvenu poželjnost, tendencija da se ljudi žele predstaviti na najbolji mogući način. Nadalje, kao što ću kasnije opisati u ovom poglavlju, ponašanje zabilježeno u velikim izvorima podataka ponekad je pod utjecajem ciljeva vlasnika platforme, što ću nazvati algoritamskim zbunjenjem . Konačno, iako je nereaktivnost korisna za istraživanje, praćenje ponašanja ljudi bez njihovog pristanka i svjesnosti podiže etičke probleme koje ću detaljno opisati u 6. poglavlju.
Tri svojstva koja sam upravo opisao - velike, uvijek uključene i neaktivne - općenito su, ali ne uvijek, korisne za društvena istraživanja. Zatim ću se obratiti na sedam svojstava velikih izvora podataka - nepotpune, nedostupne, nepredstavljive, plutajuće, algoritamski zbunjene, prljave i osjetljive - koje općenito, ali ne uvijek, stvaraju probleme za istraživanje.