Grandes volúmenes de datos son creados y recopilados por los gobiernos para fines distintos de la investigación. El uso de estos datos para la investigación, por lo tanto, requiere de reutilización.
Una visión idealizada de la investigación social imagina un científico que tiene una idea y luego la recopilación de datos para probar esta idea. Este estilo de investigación conduce a un ajuste apretado entre la pregunta de investigación y de datos, pero es limitada debido a que un investigador individual a menudo no tienen los recursos necesarios para recopilar los datos que necesitan, como los datos grandes, ricos y representativos a nivel nacional. encuestas sociales a gran escala, por lo tanto, una gran cantidad de investigación social en el pasado se ha utilizado, como la Encuesta Social General (GSS), el Estudio Nacional de Elecciones Americana (ANES), y el Estudio sobre el ISR (PSID). Estos encuesta a gran escala son generalmente dirigido por un equipo de investigadores y que están diseñados para crear datos que pueden ser utilizados por muchos investigadores. Debido a los objetivos de estos estudios a gran escala, el gran cuidado se pone en el diseño de la colección de datos y la preparación de los datos resultantes para su uso por los investigadores. Estos datos son por los investigadores y para los investigadores.
La mayor parte de la investigación social utilizando fuentes digitales de edad, sin embargo, es fundamentalmente diferente. En lugar de utilizar los datos recogidos por los investigadores y para los investigadores, que utiliza fuentes de datos que se crearon y recaudados por las empresas y los gobiernos para sus propios fines, como obtener una ganancia, proporcionando un servicio, o la administración de una ley. Estas fuentes de datos empresariales y gubernamentales han dado en llamar de datos grandes. Hacer investigación con grandes volúmenes de datos es diferente que hace la investigación con los datos que se creó originalmente para la investigación. Compárese, por ejemplo, un sitio web de redes sociales, como Twitter, con una encuesta tradicional de la opinión pública como la Encuesta Social General (GSS). Los principales objetivos de Twitter son para proporcionar un servicio a sus usuarios y para obtener un beneficio. En el proceso de lograr estos objetivos, Twitter crea datos que podrían ser útiles para el estudio de ciertos aspectos de la opinión pública. Pero, a diferencia de la Encuesta Social General (GSS), Twitter no se centra principalmente en la investigación social.
El término datos grande es frustrante vaga, y que agrupa a muchas cosas diferentes. A los efectos de la investigación social, creo que es útil distinguir entre dos tipos de fuentes de datos grandes:. Registros administrativos del gobierno y los registros administrativos de negocio registros administrativos del gobierno son los datos que son creados por los gobiernos como parte de sus actividades de rutina. Este tipo de registros han sido utilizados por los investigadores en el pasado, tales como los demógrafos estudian nacimiento, registros -pero matrimonio y de defunción gobiernos están recolectando y la liberación de los registros detallados en formas cada vez más analizables. Por ejemplo, el gobierno de la ciudad de Nueva York instalado medidores digitales dentro de cada taxi en la ciudad. Estos medidores registran todo tipo de datos sobre cada trayecto en taxi incluido el conductor, la hora de inicio y la ubicación, el tiempo de parada y la ubicación, y la tarifa. En un estudio que se lo diré más adelante en este capítulo, Henry Farber (2015) reutilizar estos datos para hacer frente a un debate fundamental en la economía del trabajo sobre la relación entre los salarios por hora y el número de horas trabajadas.
El segundo tipo principal de grandes volúmenes de datos para la investigación social es registros administrativos de negocio. Estos son los datos que visita cree y se recoge como parte de sus actividades de rutina. Estos registros administrativos de negocios a menudo se llaman huellas digitales, e incluyen cosas como registros de consultas del motor de búsqueda, mensajes de redes sociales, y llamar a los registros de los teléfonos móviles. Fundamentalmente, estos registros administrativos de negocios no son sólo acerca de la conducta en línea. Por ejemplo, las tiendas que utilizan escáneres de salida son la creación de medidas en tiempo real de la productividad del trabajador. En un estudio que te voy a decir más adelante en este capítulo, Alexandre Mas y Enrico Moretti (2009) reutilizar este supermercado de datos de salida para estudiar cómo la productividad de los trabajadores se ve afectado por la productividad de sus compañeros.
Como estos dos ejemplos ilustran, la idea de la reutilización es fundamental para el aprendizaje a partir de datos grandes. En mi experiencia, los científicos sociales y científicos de datos se aproximan a esta reutilización de manera muy diferente. Los científicos sociales, que están acostumbrados a trabajar con datos destinados a la investigación, son rápidos en señalar los problemas con los datos reutilizados sin tener en cuenta sus puntos fuertes. Por otra parte, los científicos de datos son rápidos en señalar los beneficios de los datos reutilizados sin tener en cuenta sus debilidades. Naturalmente, la mejor opción sería un híbrido. Es decir, los investigadores necesitan entender las características de estas nuevas fuentes de datos, tanto buenas como malas, y luego encontrar la manera de aprender de ellos. Y, ese es el plan para el resto de este capítulo. A continuación, describiré diez características comunes de los datos administrativos empresariales y gubernamentales. Después de eso, describiré tres enfoques de investigación que pueden ser utilizados con estos datos, los enfoques que están bien adaptados a las características de estos datos.