La mesura en grans fonts de dades és molt menys probable que canviïn el comportament.
Un dels reptes de la investigació social és que les persones poden canviar el seu comportament quan saben que els investigadors els observen. Els científics socials en general anomenen aquesta reactivitat (Webb et al. 1966) . Per exemple, les persones poden ser més generoses en els estudis de laboratori que en els estudis de camp, ja que en els primers saben que estan sent observats (Levitt and List 2007a) . Un dels aspectes de les grans dades que prometen molts investigadors és que, en general, els participants no són conscients que les seves dades s'estan capturant o s'hagin acostumat a aquesta recopilació de dades que ja no canvia el seu comportament. Atès que els participants no són reactius , per tant, es poden utilitzar moltes fonts de grans dades per estudiar comportaments que abans no s'havien pogut aplicar a una mesura precisa. Per exemple, Stephens-Davidowitz (2014) utilitzar la prevalença de termes racistes en consultes de motors de cerca per mesurar l'animus racial en diferents regions dels Estats Units. La naturalesa no reactiva i gran (vegeu la secció 2.3.1) de les dades de cerca ha permès mesurar que seria difícil utilitzar altres mètodes, com enquestes.
La no-reactivitat, però, no garanteix que aquestes dades reflecteixin d'alguna manera el comportament o actitud de les persones. Per exemple, com va dir un entrevistat en un estudi basat en entrevista, "No és que no tingueu problemes, no els estic posant a Facebook" (Newman et al. 2011) . Dit d'una altra manera, tot i que algunes grans fonts de dades no són reactives, no sempre estan exemptes d'un desequilibri social desitjable, la tendència de la gent a voler presentar-se de la millor manera possible. A més, com vaig a descriure més endavant al capítol, el comportament capturat en grans fonts de dades a vegades es veu afectat pels objectius dels propietaris de la plataforma, un problema que anomenaré confusió algorítmica . Finalment, si bé la no-reactivitat és avantatjosa per a la investigació, el seguiment del comportament de les persones sense el seu consentiment i consciència planteja preocupacions ètiques que vaig a descriure amb detall en el capítol 6.
Les tres propietats que acabo de descriure: grans, sempre-i no reactives-generalment són, però no sempre, avantatjoses per a la investigació social. A continuació, recorreré a les set propietats de grans fonts de dades: incompleta, inaccessible, no representativa, a la deriva, algoritmicamente confosa, bruta i sensible, que generalment, però no sempre, generen problemes per a la recerca.