Matuojant didelius duomenų šaltinius daug mažiau tikėtina, kad jie pakeis elgesį.
Vienas iš socialinių tyrimų iššūkių yra tai, kad žmonės gali keisti savo elgesį, kai žino, kad tyrėjai juos stebi. Socialiniai mokslininkai paprastai vadina šį reaktyvumą (Webb et al. 1966) . Pavyzdžiui, žmonės gali būti daug dosnūs laboratoriniais tyrimais negu lauko tyrimai, nes pirmieji jie puikiai žino, kad jie yra stebimi (Levitt and List 2007a) . Vienas iš didelių duomenų, kuriuos daugelis mokslininkų nustato perspektyvūs, aspektas yra tai, kad dalyviai paprastai nežino, kad jų duomenys yra užfiksuoti arba jie taip pripratę prie šio duomenų rinkimo, kad jie daugiau nekeičia jų elgesio. Kadangi dalyviai yra nereaguoti , daugelis didelių duomenų šaltinių gali būti naudojami elgsenos tyrimui, kurio anksčiau nebuvo galima tiksliai išmatuoti. Pavyzdžiui, Stephens-Davidowitz (2014) naudojo rasistinių terminų paplitimą paieškos užklausose, kad Stephens-Davidowitz (2014) rasinius animus skirtinguose Jungtinių Amerikos Valstijų regionuose. Neaktyvūs ir dideli (žr. 2.3.1 skirsnį) paieškos duomenų įjungtų matavimų pobūdis, kurį būtų sunku atlikti naudojant kitus metodus, pvz., Apklausas.
Tačiau nereaktyvumas neužtikrina, kad šie duomenys kažkaip tiesiogiai atspindėtų žmonių elgesį ar požiūrį. Pavyzdžiui, kaip vienas respondentas interviu pagrįstame tyrime sakė: "Tai nėra tai, kad aš neturiu problemų, aš tiesiog nepaskelbiu" Facebook " (Newman et al. 2011) . Kitaip tariant, nors kai kurie dideli duomenų šaltiniai yra neaktyvūs, jie ne visuomet yra be socialinio pageidaujamo šališkumo, todėl žmonės nori kuo geriau pristatyti save. Be to, kaip aprašysiu vėliau skyriuje, didžiųjų duomenų šaltinių užfiksuotas elgesys kartais paveiktas platformos savininkų tikslų, problema, kurią aš vadinsiu algoritminiu sutrikimu . Galiausiai, nors reaktyvumas yra naudingas moksliniams tyrimams, žmonių elgesio stebėjimas be jų sutikimo ir sąmoningumo kelia etines problemas, kurias išsamiai aprašysiu 6 skyriuje.
Trys savybės, kurias aš ką tik apibūdino, yra dideli, visada ir neaktyvūs, paprastai, bet ne visada yra naudingi socialiniams tyrimams. Be to, aš kreipiuosi į septynias didelių duomenų šaltinių savybes - neišsami, nepasiekiami, nereprezentatyvūs, dreifuojantys, algoritminiai sugadinti, nešvarūs ir jautrūs, kurie apskritai, bet ne visada, kelia problemų tyrimams.