Ang pagsukat sa malaking mga mapagkukunan ng data ay mas malamang na baguhin ang pag-uugali.
Isang hamon sa panlipunang pananaliksik ay maaaring baguhin ng mga tao ang kanilang pag-uugali kapag alam nila na sinusunod sila ng mga mananaliksik. Ang mga siyentipiko sa pangkalahatan ay tinatawag na reaktibiti na ito (Webb et al. 1966) . Halimbawa, ang mga tao ay maaaring maging mas mapagbigay sa mga pag-aaral sa laboratoryo kaysa sa mga pag-aaral sa larangan dahil sa dating nalalaman nila na sinusunod sila (Levitt and List 2007a) . Ang isang aspeto ng malaking data na natutuklasan ng maraming mananaliksik ay ang mga kalahok ay karaniwang hindi alam na ang kanilang data ay nakuha o sila ay naging sanay sa koleksyon ng data na ito na hindi na ito nagbabago sa kanilang pag-uugali. Dahil ang mga kalahok ay di- aktibo , samakatuwid, maraming mga mapagkukunan ng malaking data ang maaaring magamit upang mag-aral ng pag-uugali na hindi pa napupunta sa tumpak na pagsukat dati. Halimbawa, ginamit ni Stephens-Davidowitz (2014) ang paglaganap ng mga tuntunin ng rasista sa mga query sa search engine upang masukat ang racial animus sa iba't ibang rehiyon ng Estados Unidos. Ang di-aktibo at malaki (tingnan ang seksyon 2.3.1) ang likas na katangian ng mga sukat na pinagana ng paghahanap ng data na mahirap gamitin ang iba pang mga pamamaraan, tulad ng mga survey.
Gayunman, ang di-aktibo ay hindi matiyak na ang mga datos na ito ay isang direktang pagmumuni-muni ng pag-uugali o pag-uugali ng mga tao. Halimbawa, bilang isang sumasagot sa isang pag-aaral na batay sa pakikipanayam ay nagsabi, "Hindi na wala akong problema, hindi ko lang inilagay ang mga ito sa Facebook" (Newman et al. 2011) . Sa ibang salita, kahit na ang ilang malaking pinagmumulan ng data ay di-aktibo, hindi laging sila ay walang bias sa pagiging kakaibang panlipunan, ang tendensya para sa mga tao na gustong ipakita ang kanilang sarili sa pinakamabuting posibleng paraan. Dagdag pa, tulad ng ilarawan ko sa ibang pagkakataon sa kabanata, ang pag-uugali na nakuha sa malaking mga mapagkukunan ng data ay minsan naapektuhan ng mga layunin ng mga may-ari ng platform, isang isyu na kukunin ko na tawag sa algorithmic confounding . Sa wakas, bagaman ang nonreactivity ay kapaki-pakinabang para sa pagsasaliksik, ang pagsubaybay sa pag-uugali ng mga tao nang walang pahintulot at kamalayan ay nagpapalawak ng mga alalahanin sa etika na ilalarawan ko nang detalyado sa kabanata 6.
Ang tatlong mga pag-aari na inilarawan ko lamang-malaki, palagi, at di-aktibo-ay karaniwang, ngunit hindi palaging, kapaki-pakinabang para sa panlipunang pananaliksik. Susunod, bubuksan ko ang pitong katangian ng mga malalaking pinagmumulan ng data-hindi kumpleto, hindi naa-access, hindi kinatawan, pag-anod, algorithmically confounded, marumi, at sensitibo-na sa pangkalahatan, ngunit hindi palaging, lumikha ng mga problema para sa pananaliksik.