Måling i store datakilder er langt mindre tilbøjelige til at ændre adfærd.
En udfordring med social forskning er, at folk kan ændre deres adfærd, når de ved, at de overholdes af forskere. Socialforskere kalder generelt denne reaktivitet (Webb et al. 1966) . For eksempel kan folk være mere generøse i laboratorieundersøgelser end feltstudier, fordi de i det første er meget opmærksomme på, at de overholdes (Levitt and List 2007a) . Et aspekt af store data, som mange forskere finder lovende, er, at deltagerne generelt ikke er klar over, at deres data er ved at blive fanget, eller de er blevet så vant til denne dataindsamling, at det ikke længere ændrer deres adfærd. Fordi deltagerne er ikke-reaktive , kan mange kilder til store data derfor bruges til at studere adfærd, der ikke har været egnet til præcis måling tidligere. For eksempel brugte Stephens-Davidowitz (2014) forekomsten af racistiske udtryk i søgemaskineforespørgsler til måling af racemusik i forskellige regioner i USA. De ikke-reaktive og store (se afsnit 2.3.1) karakteren af de søgdataaktiverede målinger, der ville være vanskelige ved hjælp af andre metoder, såsom undersøgelser.
Nonreaktivitet sikrer imidlertid ikke, at disse data på en eller anden måde er en direkte afspejling af folks adfærd eller holdninger. For eksempel, som en respondent i en interviewbaseret undersøgelse sagde: "Det er ikke, at jeg ikke har problemer, jeg lægger dem ikke på Facebook" (Newman et al. 2011) . Med andre ord, selv om nogle store datakilder er ikke-reaktive, er de ikke altid fri for socialt ønskværdigt bias, tendensen til, at folk ønsker at præsentere sig bedst muligt. Yderligere, som jeg vil beskrive senere i kapitlet, er adfærden, der er fanget i store datakilder, undertiden påvirket af platformejerenes mål, et problem, jeg kalder algoritmisk confounding . Endelig, selv om ikke-reaktivitet er fordelagtig for forskning, sporer folks adfærd uden deres samtykke og bevidsthed ethiske bekymringer, som jeg vil beskrive i detaljer i kapitel 6.
De tre egenskaber, som jeg lige har beskrevet - stor, altid på og ikke-reaktive - er generelt, men ikke altid fordelagtige for social forskning. Dernæst vil jeg henvende mig til de store datakildernes syv egenskaber - ufuldstændige, utilgængelige, ikke-repræsentative, drivende, algoritmisk forvirrede, beskidte og følsomme - hvilket generelt men ikke altid skaber problemer for forskning.