Měření ve velkých zdrojích dat je mnohem méně pravděpodobné, že změní chování.
Jedna výzva společenského výzkumu spočívá v tom, že lidé mohou změnit své chování, když vědí, že je vědci sledují. Sociální vědci obecně nazývají tuto reaktivitu (Webb et al. 1966) . Například lidé mohou být štědřejší v laboratorních studiích než v terénních studiích, protože v prvním případě si velmi dobře uvědomují, že jsou pozorováni (Levitt and List 2007a) . Jeden aspekt velkých dat, který mnozí vědci najdou slibné, je, že účastníci obecně nevědí, že jejich data jsou zachycena, nebo se tak zvykli na tento sběr dat, že již nemění své chování. Vzhledem k tomu, že účastníci jsou nereaktivní , lze proto využít mnoha zdrojů velkých dat ke studiu chování, které dříve nebylo možné přesně měřit. Například Stephens-Davidowitz (2014) využil prevalenci rasistických termínů ve vyhledávacích dotazech k měření rasových animací v různých regionech Spojených států. Nereaktivní a velká (viz oddíl 2.3.1) povaha výsledků vyhledávání umožňujících měření, která by byla obtížná pomocí jiných metod, například průzkumů.
Nereaktivita však nezaručuje, že tyto údaje jsou nějakým způsobem přímým odrazem chování nebo postojů lidí. Například, jak jeden respondent v rozhovoru založil studium řekl: "To není to, že nemám problémy, já prostě není uvedení na Facebook" (Newman et al. 2011) . Jinými slovy, i když některé velké datové zdroje jsou nereaktivní, nejsou vždy osvobozeny od předpojatosti sociální touhy, tendence k tomu, aby se lidé chtěli prezentovat co nejlépe. Dále, jak to popíšu později v této kapitole, chování zachycené ve velkých zdrojích dat je někdy ovlivněno cíli vlastníků platformy, problém, který budu nazývat algoritmem . Konečně, i když nereaktivita je pro výzkum výhodná, sledování chování lidí bez jejich souhlasu a povědomí vyvolává etické obavy, které podrobně popíšu v kapitole 6.
Tři vlastnosti, které jsem právě popsal - velké, vždy a nereaktivní - jsou obecně, ale ne vždy, výhodné pro společenský výzkum. Dále se obrátím na sedm vlastností velkých datových zdrojů - neúplné, nepřístupné, nereprezentativní, unášené, algoritmicky zmatené, špinavé a citlivé -, které obecně, ale ne vždy, vytvářejí problémy pro výzkum.