Los grandes datos son creados y recopilados por empresas y gobiernos para fines distintos de la investigación. El uso de estos datos para investigación, por lo tanto, requiere reutilización.
La primera forma en que muchas personas se encuentran con la investigación social en la era digital es a través de lo que a menudo se llama big data . A pesar del uso generalizado de este término, no hay consenso acerca de qué son los grandes datos. Sin embargo, una de las definiciones más comunes de Big Data se centra en los "3 Vs": volumen, variedad y velocidad. A grandes rasgos, hay una gran cantidad de datos, en una variedad de formatos, y se está creando constantemente. Algunos fanáticos de Big Data también agregan otras "V" como Veracidad y Valor, mientras que algunos críticos agregan Vs como Vague y Vacuous. En lugar de las 3 "Vs" (o las 5 "Vs" o las 7 "Vs"), para fines de investigación social, creo que un mejor lugar para comenzar son las 5 "Ws": Quién, Qué, Dónde, Cuándo , y por qué. De hecho, creo que muchos de los desafíos y oportunidades creados por las fuentes de big data proceden de una sola "W": por qué.
En la era analógica, la mayoría de los datos que se utilizaron para la investigación social se creó con el propósito de hacer investigación. Sin embargo, en la era digital, las empresas y los gobiernos están creando una gran cantidad de datos para fines distintos de la investigación, como la prestación de servicios, la generación de beneficios y la administración de leyes. Las personas creativas, sin embargo, se han dado cuenta de que puede reutilizar los datos corporativos y gubernamentales para la investigación. Pensando en la analogía del arte en el capítulo 1, así como Duchamp reutilizó un objeto encontrado para crear arte, los científicos ahora pueden reutilizar los datos encontrados para crear investigación.
Si bien hay indudablemente grandes oportunidades para reutilizar, el uso de datos que no se crearon con fines de investigación también presenta nuevos desafíos. Compare, por ejemplo, un servicio de redes sociales, como Twitter, con una encuesta de opinión pública tradicional, como la Encuesta social general. Los principales objetivos de Twitter son proporcionar un servicio a sus usuarios y obtener ganancias. La Encuesta social general, por otro lado, se centra en la creación de datos de propósito general para la investigación social, en particular para la investigación de la opinión pública. Esta diferencia de objetivos significa que los datos creados por Twitter y los creados por la Encuesta Social General tienen diferentes propiedades, aunque ambas pueden utilizarse para estudiar la opinión pública. Twitter opera a una escala y velocidad que la Encuesta Social General no puede igualar, pero, a diferencia de la Encuesta Social General, Twitter no muestra cuidadosamente a los usuarios y no trabaja duro para mantener la comparabilidad en el tiempo. Debido a que estas dos fuentes de datos son tan diferentes, no tiene sentido decir que la Encuesta Social General es mejor que Twitter o viceversa. Si desea medidas horarias del estado de ánimo global (por ejemplo, Golder and Macy (2011) ), Twitter es el mejor. Por otro lado, si desea comprender los cambios a largo plazo en la polarización de las actitudes en los Estados Unidos (p. Ej., DiMaggio, Evans, and Bryson (1996) ), entonces la Encuesta social general es la mejor opción. De manera más general, en lugar de intentar argumentar que las fuentes de datos grandes son mejores o peores que otros tipos de datos, este capítulo tratará de aclarar para qué tipo de investigación se cuestionan las grandes fuentes de datos que tienen propiedades atractivas y para qué tipos de preguntas podrían no ser ideal.
Al pensar en las fuentes de grandes volúmenes de datos, muchos investigadores se centran inmediatamente en los datos en línea creados y recopilados por las empresas, como registros de motores de búsqueda y publicaciones en redes sociales. Sin embargo, este enfoque estrecho deja fuera otras dos fuentes importantes de big data. En primer lugar, cada vez más las grandes fuentes de datos corporativos provienen de dispositivos digitales en el mundo físico. Por ejemplo, en este capítulo, le contaré sobre un estudio que reformuló los datos de los supermercados para estudiar cómo la productividad de sus compañeros se ve afectada por la productividad de los trabajadores (Mas and Moretti 2009) . Luego, en capítulos posteriores, le contaré sobre los investigadores que utilizaron registros de llamadas de teléfonos móviles (Blumenstock, Cadamuro, and On 2015) y datos de facturación creados por compañías eléctricas (Allcott 2015) . Como ilustran estos ejemplos, las fuentes corporativas de big data son más que solo un comportamiento en línea.
La segunda fuente importante de grandes datos omitidos por un enfoque estrecho en el comportamiento en línea son los datos creados por los gobiernos. Estos datos del gobierno, que los investigadores llaman registros administrativos del gobierno , incluyen cosas tales como registros de impuestos, registros escolares y registros de estadísticas vitales (por ejemplo, registros de nacimientos y muertes). Los gobiernos han estado creando este tipo de datos para, en algunos casos, cientos de años, y los científicos sociales los han estado explotando durante casi tanto tiempo como ha habido científicos sociales. Sin embargo, lo que ha cambiado es la digitalización, que ha hecho que sea más fácil para los gobiernos recopilar, transmitir, almacenar y analizar datos. Por ejemplo, en este capítulo, le contaré sobre un estudio que reutilizó datos de medidores de taxis digitales del gobierno de la Ciudad de Nueva York para abordar un debate fundamental en economía laboral (Farber 2015) . Luego, en capítulos posteriores, le contaré cómo se usaron los registros de votación recopilados por el gobierno en una encuesta (Ansolabehere and Hersh 2012) y un experimento (Bond et al. 2012) .
Creo que la idea de reutilizar es fundamental para aprender de las fuentes de big data, por lo que, antes de hablar más específicamente sobre las propiedades de las fuentes de big data (sección 2.3) y cómo se pueden usar en la investigación (sección 2.4), me gustaría para ofrecer dos consejos generales sobre la reutilización. En primer lugar, puede ser tentador pensar en el contraste que configuré como entre datos "encontrados" y datos "diseñados". Eso está cerca, pero no está del todo bien. Aunque, desde la perspectiva de los investigadores, las "fuentes de datos grandes" se "encuentran", no solo caen del cielo. En cambio, las fuentes de datos que "encuentran" los investigadores son diseñadas por alguien para algún propósito. Debido a que los datos "encontrados" están diseñados por alguien, siempre recomiendo que intente comprender todo lo posible sobre las personas y los procesos que crearon sus datos. En segundo lugar, cuando está reutilizando datos, a menudo es extremadamente útil imaginar el conjunto de datos ideal para su problema y luego comparar ese conjunto de datos ideal con el que está utilizando. Si no recopiló sus datos usted mismo, es probable que haya diferencias importantes entre lo que quiere y lo que tiene. Al notar estas diferencias, ayudará a aclarar qué puede y qué no puede aprender de los datos que tiene, y podría sugerirle nuevos datos que debe recopilar.
En mi experiencia, los científicos sociales y los científicos de datos tienden a abordar la reutilización de manera muy diferente. Los científicos sociales, que están acostumbrados a trabajar con datos diseñados para la investigación, generalmente son rápidos en señalar los problemas con los datos reutilizados al tiempo que ignoran sus puntos fuertes. Por otro lado, los científicos de datos son rápidos en señalar los beneficios de los datos reutilizados mientras ignoran sus debilidades. Naturalmente, el mejor enfoque es un híbrido. Es decir, los investigadores deben comprender las características de las fuentes de big data, buenas y malas, y luego descubrir cómo aprender de ellas. Y ese es el plan para el resto de este capítulo. En la próxima sección, describiré diez características comunes de las fuentes de big data. Luego, en la siguiente sección, describiré tres enfoques de investigación que pueden funcionar bien con dichos datos.