La medición en fuentes de big data es mucho menos probable que cambie el comportamiento.
Un desafío de la investigación social es que las personas pueden cambiar su comportamiento cuando saben que los observan los investigadores. Los científicos sociales generalmente llaman a esta reactividad (Webb et al. 1966) . Por ejemplo, las personas pueden ser más generosas en los estudios de laboratorio que en los estudios de campo porque en el primero son muy conscientes de que están siendo observados (Levitt and List 2007a) . Un aspecto del big data que muchos investigadores encuentran prometedor es que los participantes generalmente no son conscientes de que se están capturando sus datos o se han acostumbrado tanto a esta recopilación de datos que ya no cambia su comportamiento. Debido a que los participantes no son reactivos , por lo tanto, se pueden usar muchas fuentes de big data para estudiar el comportamiento que no ha sido susceptible de una medición precisa previamente. Por ejemplo, Stephens-Davidowitz (2014) utilizó la prevalencia de términos racistas en las consultas de los motores de búsqueda para medir el animus racial en diferentes regiones de los Estados Unidos. La naturaleza no reactiva y grande (ver sección 2.3.1) de los datos de búsqueda permitió mediciones que serían difíciles de usar con otros métodos, como las encuestas.
La falta de reactividad, sin embargo, no garantiza que estos datos sean de alguna manera un reflejo directo del comportamiento o las actitudes de las personas. Por ejemplo, como dijo un encuestado en un estudio basado en entrevistas, "No es que no tenga problemas, simplemente no los estoy poniendo en Facebook" (Newman et al. 2011) . En otras palabras, a pesar de que algunas fuentes de datos grandes no son reactivas, no siempre están libres del sesgo de deseabilidad social, la tendencia de las personas a querer presentarse de la mejor manera posible. Además, como describiré más adelante en este capítulo, el comportamiento capturado en las fuentes de big data a veces se ve afectado por los objetivos de los propietarios de la plataforma, un problema que denominaré confusión algorítmica . Finalmente, aunque la no reactividad es ventajosa para la investigación, el seguimiento del comportamiento de las personas sin su consentimiento y conciencia despierta preocupaciones éticas que describiré en detalle en el capítulo 6.
Las tres propiedades que acabo de describir -grandes, siempre encendidas y no reactivas- son generalmente, pero no siempre, ventajosas para la investigación social. A continuación, me referiré a las siete propiedades de las grandes fuentes de datos: incompletas, inaccesibles, no representativas, variables, algorítmicamente confusas, sucias y sensibles, que generalmente, pero no siempre, crean problemas para la investigación.