Las grandes fuentes de datos están en todas partes, pero usarlas para la investigación social puede ser complicado. En mi experiencia, hay algo así como una regla de "no almuerzo gratis" para los datos: si no pones mucho trabajo recogiéndolo, entonces probablemente tendrás que poner mucho trabajo para pensarlo y analizándolo
Las grandes fuentes de datos de hoy -y probablemente mañana- tenderán a tener 10 características. Tres de estos son generalmente (pero no siempre) útiles para la investigación: grandes, siempre activos y no reactivos. Siete son generalmente (pero no siempre) problemáticos para la investigación: incompletos, inaccesibles, no representativos, a la deriva, algorítmicamente confusos, sucios y sensibles. Muchas de estas características surgen en última instancia porque las grandes fuentes de datos no se crearon con el propósito de la investigación social.
Basado en las ideas de este capítulo, creo que hay tres formas principales en que las fuentes de big data serán más valiosas para la investigación social. Primero, pueden permitir a los investigadores decidir entre predicciones teóricas competitivas. Ejemplos de este tipo de trabajo incluyen Farber (2015) (taxistas de Nueva York) y King, Pan, and Roberts (2013) (censura en China). En segundo lugar, las grandes fuentes de datos pueden permitir una mejor medición de la política a través de la predicción inmediata. Un ejemplo de este tipo de trabajo es Ginsberg et al. (2009) (Google Flu Trends). Finalmente, las fuentes de datos grandes pueden ayudar a los investigadores a realizar estimaciones causales sin ejecutar experimentos. Ejemplos de este tipo de trabajo son Mas and Moretti (2009) (efectos de pares sobre la productividad) y Einav et al. (2015) (efecto del precio inicial en subastas en eBay). Cada uno de estos enfoques, sin embargo, tiende a requerir que los investigadores aporten mucho a los datos, como la definición de una cantidad que es importante estimar o dos teorías que hacen predicciones competitivas. Por lo tanto, creo que la mejor manera de pensar qué pueden hacer las grandes fuentes de datos es que pueden ayudar a los investigadores que pueden hacer preguntas interesantes e importantes.
Antes de concluir, creo que vale la pena considerar que las fuentes de datos grandes pueden tener un efecto importante en la relación entre los datos y la teoría. Hasta ahora, este capítulo ha adoptado el enfoque de la investigación empírica impulsada por la teoría. Pero las grandes fuentes de datos también permiten a los investigadores realizar teorizaciones empíricas . Es decir, a través de la acumulación cuidadosa de hechos, patrones y acertijos empíricos, los investigadores pueden construir nuevas teorías. Esta aproximación alternativa a la teoría basada en datos no es nueva, y Barney Glaser y Anselm Strauss (1967) articularon con mayor fuerza con su llamado a la teoría fundamentada . Sin embargo, este enfoque basado en los datos no implica "el final de la teoría", como se ha afirmado en algunos de los trabajos periodísticos sobre investigación en la era digital (Anderson 2008) . Más bien, a medida que cambia el entorno de datos, deberíamos esperar un reequilibrio en la relación entre los datos y la teoría. En un mundo donde la recopilación de datos era costosa, tenía sentido recopilar solo los datos que las teorías sugieren que serían los más útiles. Pero, en un mundo donde enormes cantidades de datos ya están disponibles de forma gratuita, tiene sentido probar también un enfoque (Goldberg 2015) datos (Goldberg 2015) .
Como lo he demostrado en este capítulo, los investigadores pueden aprender mucho observando a las personas. En los próximos tres capítulos, describiré cómo podemos aprender más y cosas diferentes si adaptamos nuestra recopilación de datos e interactuamos con las personas más directamente al hacerles preguntas (capítulo 3), ejecutar experimentos (capítulo 4) e incluso involucrarlos en el proceso de investigación directamente (capítulo 5).