Metingen in big data-bronnen is veel minder waarschijnlijk gedrag te veranderen.
Een uitdaging van sociaal onderzoek is dat mensen hun gedrag kunnen veranderen als ze weten dat ze door onderzoekers worden waargenomen. Sociale wetenschappers noemen dit over het algemeen deze reactiviteit (Webb et al. 1966) . Mensen kunnen bijvoorbeeld meer genereus zijn in laboratoriumonderzoek dan veldstudies, omdat ze zich in het eerste geval zeer bewust zijn van het feit dat ze worden geobserveerd (Levitt and List 2007a) . Een aspect van big data dat veel onderzoekers veelbelovend vinden, is dat deelnemers zich over het algemeen niet realiseren dat hun gegevens worden vastgelegd of dat ze zo gewend zijn geraakt aan deze gegevensverzameling dat ze hun gedrag niet langer veranderen. Omdat deelnemers niet- reactief zijn , kunnen daarom veel bronnen van big data worden gebruikt om gedrag te bestuderen dat eerder niet geschikt was voor nauwkeurige metingen. Stephens-Davidowitz (2014) gebruikte bijvoorbeeld de prevalentie van racistische termen in zoekopdrachten van zoekmachines om raciale animus te meten in verschillende regio's van de Verenigde Staten. De niet-reactieve en grote (zie paragraaf 2.3.1) aard van de zoekgegevens maakte metingen mogelijk die moeilijk zouden zijn met andere methoden, zoals enquêtes.
Niet-reactiviteit garandeert echter niet dat deze gegevens op de een of andere manier een directe weerspiegeling zijn van het gedrag of de houding van mensen. Bijvoorbeeld, zoals een respondent in een op interviews gebaseerde studie zei: "Het is niet dat ik geen problemen heb, ik zet ze gewoon niet op Facebook" (Newman et al. 2011) . Met andere woorden, hoewel sommige big data-bronnen niet-reactief zijn, zijn ze niet altijd vrij van voorkeur voor sociale wenselijkheid, de neiging van mensen om zichzelf op de best mogelijke manier te presenteren. Verder, zoals ik verderop in het hoofdstuk zal beschrijven, wordt het gedrag dat in big data-bronnen wordt vastgelegd soms beïnvloed door de doelen van platformeigenaren, een kwestie die ik algoritmische verstoringen zal noemen. Ten slotte, hoewel niet-reactiviteit voordelig is voor onderzoek, werpt het volgen van het gedrag van mensen zonder hun toestemming en bewustzijn ethische bezwaren op die ik in hoofdstuk 6 in detail zal beschrijven.
De drie eigenschappen die ik zojuist heb beschreven - groot, altijd aan en niet-reactief - zijn over het algemeen, maar niet altijd, voordelig voor sociaal onderzoek. Vervolgens ga ik naar de zeven eigenschappen van big data-bronnen - onvolledig, ontoegankelijk, niet-representatief, afdrijvend, algoritmisch verward, vies en gevoelig - die in het algemeen, maar niet altijd, problemen veroorzaken voor onderzoek.