La misurazione è molto meno probabile per cambiare il comportamento in grandi fonti di dati.
Una sfida della ricerca sociale è che le persone possono cambiare il loro comportamento quando sanno che essi vengono osservati dai ricercatori. I sociologi generalmente chiamano questo cambiamento di comportamento in risposta alla reattività misura ricercatore (Webb et al. 1966) . Un aspetto di grande dati che molti ricercatore trovare promettente è che i partecipanti non sono generalmente consapevoli del fatto che i loro dati vengono catturati o sono diventati così abituati a questa raccolta di dati che non è più il loro comportamento cambia. Poiché sono non reattivi, pertanto, numerose fonti di dati grandi possono essere utilizzati per studiare il comportamento che non è stato modificabile di misurazione accurata precedenza. Ad esempio, Stephens-Davidowitz (2014) utilizza la prevalenza di termini razzisti nelle query dei motori di ricerca per misurare animus razziali in diverse regioni degli Stati Uniti. La natura non reattivi e grandi (vedi paragrafo precedente) dei dati di ricerca le misure che sarebbero difficili utilizzando altri metodi, come ad esempio sondaggi abilitato.
Non-reattività, tuttavia, non garantiscono che questi dati sono in qualche modo una diretta riflessione di comportamenti o atteggiamenti delle persone. Ad esempio, come un partecipante detto Newman et al. (2011) , "Non è che io non ho problemi, sto solo non li mettono su Facebook." In altre parole, anche se alcuni grandi fonti di dati sono non reattivi, non sono sempre liberi di desiderabilità sociale , la tendenza delle persone a voler presentarsi nel miglior modo possibile. Inoltre, come descriverò più in basso, queste fonti di dati a volte sono influenzati dagli obiettivi dei proprietari della piattaforma, un problema chiamato confusione algoritmico (descritto più avanti).
Anche se non reattività è vantaggioso per la ricerca, il monitoraggio il comportamento delle persone senza il loro consenso e la consapevolezza solleva preoccupazioni etiche discussi di seguito e in dettaglio nel capitolo 6. reazione pubblica contro una maggiore sorveglianza digitale potrebbe portare sistemi di dati grandi per diventare più reattivi nel corso del tempo, e forte preoccupazione per la sorveglianza digitale potrebbe anche portare alcune persone a tentare di opt-out di grandi sistemi di dati completamente, aumentando le preoccupazioni circa non rappresentatività (descritto più avanti).
Queste tre buone proprietà di grandi dati per la ricerca-grande sociali, always-on, e non reattivo-generalmente derivare dal fatto che queste fonti di dati non sono stati creati dai ricercatori per la ricerca. Ora, mi rivolgo ai sette proprietà delle grandi fonti di dati che fanno male per la ricerca. Queste caratteristiche tendono a derivare dal fatto che questi dati non è stato creato dai ricercatori per la ricerca.