Måling i store datakilder er mye mindre sannsynlig å endre atferd.
En utfordring med sosial forskning er at folk kan endre sin atferd når de vet at de blir observert av forskere. Sosialforskere kaller vanligvis denne reaktiviteten (Webb et al. 1966) . For eksempel kan folk være mer sjenerøse i laboratorieundersøkelser enn feltstudier fordi de i den tidligere er veldig oppmerksomme på at de blir observert (Levitt and List 2007a) . Et aspekt av store data som mange forskere finner lovende er at deltakerne generelt ikke er klar over at deres data blir tatt eller at de har blitt så vant til denne datainnsamlingen at det ikke lenger endrer sin oppførsel. Fordi deltakerne er ikke-reaktive , kan mange kilder til store data derfor brukes til å studere atferd som ikke har vært egnet til nøyaktig måling tidligere. For eksempel brukte Stephens-Davidowitz (2014) utbredelsen av rasistiske uttrykk i søkemotorforespørsler for å måle rasemessige animer i forskjellige regioner i USA. Den ikke-reaktive og store (se kapittel 2.3.1) karakteren av søkdataaktiverte målinger som ville være vanskelig å bruke andre metoder, for eksempel undersøkelser.
Ikke-reaktivitet sikrer imidlertid ikke at disse dataene på en eller annen måte er direkte refleksjon av folks atferd eller holdninger. For eksempel, som en respondent i en intervju-basert studie sa: "Det er ikke at jeg ikke har problemer, jeg bare ikke legger dem på Facebook" (Newman et al. 2011) . Med andre ord, selv om noen store datakilder er ikke-reaktive, er de ikke alltid fri for sosial ønskelighet, tendensen til at folk ønsker å presentere seg på best mulig måte. Videre, som jeg vil beskrive senere i kapitlet, blir oppførselen tatt i store datakilder noen ganger påvirket av målene til plattformseiere, et problem som jeg vil ringe til algoritmisk confounding . Til slutt, selv om ikke-reaktivitet er en fordel for forskning, sporer folks adferd uten deres samtykke og bevissthet, etiske bekymringer som jeg vil beskrive i detalj i kapittel 6.
De tre egenskapene jeg nettopp har beskrevet - stor, alltid på og ikke-reaktiv - er generelt, men ikke alltid, fordelaktig for samfunnsforskning. Deretter skal jeg henvende seg til de store datakilders sju egenskaper - ufullstendig, utilgjengelig, ikke-representativ, drivende, algoritmisk forvirret, skitten og sensitiv - som generelt, men ikke alltid, skaper problemer for forskning.