A medición en grandes fontes de datos é moito menos probable que cambie o comportamento.
Un desafío da investigación social é que as persoas poden cambiar o seu comportamento cando saben que están sendo observadas polos investigadores. Os científicos sociais adoitan chamar a reactividade (Webb et al. 1966) . Por exemplo, as persoas poden ser máis xenerosas en estudos de laboratorio que estudos de campo porque na primeira son moi conscientes de que están a ser observados (Levitt and List 2007a) . Un aspecto dos grandes datos que moitos investigadores atopan prometedoras é que os participantes xeralmente non son conscientes de que os seus datos están sendo capturados ou se acostumaron a esta colección de datos que xa non cambia o seu comportamento. Porque os participantes non son reactivos , polo tanto, moitas fontes de grandes datos pódense empregar para estudar un comportamento que non foi susceptible de medición preciso previamente. Por exemplo, Stephens-Davidowitz (2014) usou a prevalencia de termos racistas nas consultas de motores de busca para medir a animación racial en diferentes rexións dos Estados Unidos. A natureza non reactiva e grande (ver sección 2.3.1) dos datos de busca permitiron medir que sería difícil usar outros métodos, como enquisas.
Non reactividade, porén, non garante que estes datos sexan, de algunha maneira, un reflexo directo do comportamento ou actitudes das persoas. Por exemplo, como un entrevistado nun estudo baseado na entrevista dixo: "Non é que non teña problemas, non estou poñendo estes en Facebook" (Newman et al. 2011) . Noutras palabras, a pesar de que algunhas grandes fontes de datos non son reactivas, non sempre están libres de sesgo de desexo social, a tendencia de que as persoas queiran presentarse de maneira óptima. Ademais, como vou describir máis tarde no capítulo, o comportamento capturado en grandes fontes de datos ás veces é afectado polos obxectivos dos propietarios de plataformas, un problema que eu chamaría confusión algorítmica . Finalmente, aínda que a non reactividade é vantaxosa para a investigación, o seguimento do comportamento das persoas sen o seu consentimento e conciencia suscita preocupacións éticas que describirei detalladamente no capítulo 6.
As tres propiedades que acabo de describir: grandes, sempre e non reactivas, son xeralmente, pero non sempre, vantaxosas para a investigación social. A continuación, vou recorrer ás sete propiedades das grandes fontes de datos: incompletas, inaccesibles, non representativas, á deriva, algoritmicamente confundidas, sucias e sensibles -que en xeral, pero non sempre, crean problemas para a investigación.