La misurazione in grandi fonti di dati è molto meno probabile che cambi il comportamento.
Una delle sfide della ricerca sociale è che le persone possono cambiare comportamento quando sanno di essere osservate dai ricercatori. In genere gli scienziati sociali chiamano questa reattività (Webb et al. 1966) . Ad esempio, le persone possono essere più generose negli studi di laboratorio che negli studi sul campo, perché nel primo caso sono molto consapevoli di essere osservate (Levitt and List 2007a) . Un aspetto dei big data che molti ricercatori ritengono promettente è che i partecipanti non sono generalmente consapevoli che i loro dati vengono catturati o che sono così abituati a questa raccolta di dati da non modificare più il loro comportamento. Poiché i partecipanti non sono reattivi , quindi, molte fonti di big data possono essere utilizzate per studiare un comportamento che non è stato in grado di misurare in precedenza. Ad esempio, Stephens-Davidowitz (2014) usato la prevalenza dei termini razzisti nelle query sui motori di ricerca per misurare l'animus razziale in diverse regioni degli Stati Uniti. La natura non reattiva e di grandi dimensioni (vedere la sezione 2.3.1) dei dati di ricerca ha consentito misure che sarebbero state difficili utilizzando altri metodi, come i sondaggi.
La non reattività, tuttavia, non garantisce che questi dati siano in qualche modo un riflesso diretto del comportamento o degli atteggiamenti delle persone. Ad esempio, come un intervistato in uno studio basato su interviste ha detto: "Non è che non abbia problemi, non li sto semplicemente mettendo su Facebook" (Newman et al. 2011) . In altre parole, anche se alcune grandi fonti di dati non sono reattive, non sono sempre prive di pregiudizi di desiderabilità sociale, la tendenza per le persone a voler presentarsi nel miglior modo possibile. Inoltre, come descriverò più avanti nel capitolo, il comportamento catturato nelle grandi fonti di dati è a volte influenzato dagli obiettivi dei proprietari di piattaforme, un problema che chiamerò confusione algoritmica . Infine, anche se la non reattività è vantaggiosa per la ricerca, il monitoraggio del comportamento delle persone senza il loro consenso e consapevolezza solleva preoccupazioni etiche che descriverò in dettaglio nel capitolo 6.
Le tre proprietà che ho appena descritto - grandi, sempre attive e non reattive - sono generalmente, ma non sempre, vantaggiose per la ricerca sociale. Successivamente, passerò alle sette proprietà delle fonti di big data - incomplete, inaccessibili, non rappresentative, alla deriva, algoritmicamente confuse, sporche e sensibili - che generalmente, ma non sempre, creano problemi per la ricerca.