Big data son creados e recollidos polos gobernos para fins que non a investigación propósitos. Usando estes datos para a investigación, polo tanto, require reaproveitamento.
Unha visión idealizada da busca social imaxina un científico ter unha idea e, a continuación, a obtención de datos para probar esa idea. Este estilo de investigación conduce a un axuste axustado entre cuestión de investigación e de datos, pero é limitada porque un investigador individual moitas veces non teñen os recursos necesarios para recoller os datos que necesitan, como datos grandes, ricos e nacionalidade representativos. Polo tanto, unha morea de investigación social, no pasado, utilizados enquisas sociais en larga escala, tales como a Investigación Xeral Social (GSS), o Estudo Nacional de Eleccións americano (Anes) e Panel Study of Income Dynamics (PSID). Estes estudo a gran escala son xeralmente executados por un equipo de investigadores e están deseñados para crear datos que poden ser utilizados por moitos investigadores. Por mor dos obxectivos destes enquisas en larga escala, gran coidado é posto en proxecto a obtención de datos e preparar os datos resultantes para uso por investigadores. Estes datos son por investigadores e para os investigadores.
A maioría das investigacións sociais, utilizando fontes era dixital, con todo, é fundamentalmente diferente. En vez de usar os datos recollidos por investigadores e para os investigadores, el usa fontes de datos que foron creados e coleccionados por empresas e gobernos para os seus propios fins, como facer un beneficio, dando un servizo, ou a administración dunha lei. Estas fontes de datos empresariais e gobernamentais teñen que chegou a ser chamado big data. Facendo a investigación con big data é diferente do que fai a investigación con datos que foi orixinalmente creado para a investigación. Compare, por exemplo, un sitio de comunicación social, como Twitter, unha investigación tradicional opinión pública, como a General Social Survey (GSS). principais obxectivos de Twitter están a prestar un servizo aos seus usuarios e para facer un beneficio. No proceso de acadar estes obxectivos, Twitter crea datos que poden ser útiles para o estudo de certos aspectos da opinión pública. Pero, a diferenza do Xeneral Social Survey (GSS), Twitter non é primariamente foco investigación social.
Os datos big prazo é frustrante vago, e agrupa moitas cousas distintas. Aos efectos da investigación social, eu creo que é útil distinguir entre dous tipos de fontes de datos grandes :. Rexistros administrativos do goberno e de negocios rexistros administrativos do Goberno rexistros administrativos son datos que son creados polos gobernos, como parte das súas actividades de rutina. Estes tipos de rexistros foron utilizados por investigadores no pasado, como os demógrafos estudan nacemento, rexistros-pero o matrimonio e defunción gobernos están cada vez máis a obtención e liberación de rexistros detallados en formas analisáveis. Por exemplo, o goberno de Nova York instalados Medidores dixitais dentro de cada taxi na cidade. Estes medidores gravar todo tipo de datos sobre cada taxi incluíndo o condutor, a data de inicio e localización, o tempo de parada e localización, ea tarifa. Nun estudo que eu vou che dicir máis adiante neste capítulo, Henry Farber (2015) reaproveitado estes datos para resolver un debate fundamental na economía do traballo sobre a relación entre os salarios por hora eo número de horas traballadas.
A segunda principal tipo de big data para a investigación social e empresariais rexistros administrativos. Estes son os datos que as empresas crean e recollen como parte das súas actividades de rutina. Estes rexistros administrativos de empresas son moitas veces chamado de vestixios dixitais, e inclúen cousas como rexistros de consulta do buscador, mensaxes de comunicación social, e rexistros de chamadas desde teléfonos móbiles. Criticamente, estes rexistros administrativos de empresas non só sobre o comportamento en liña. Por exemplo, as tendas que utilizan escáneres de check-out están creando medidas en tempo real de produtividade do traballador. Nun estudo que eu vou falar máis adiante neste capítulo, Alexandre Pero e Enrico Moretti (2009) reaproveitado esta supermercados datos de check-out para estudar como a produtividade dos traballadores é impactado pola produtividade dos seus compañeiros.
Como ambos estes exemplos ilustran, a idea de reaproveitamento é fundamental para a aprendizaxe a partir de datos grandes. Na miña experiencia, os científicos sociais e científicos de datos achegamento a esta redefinición de obxectivos de forma moi diferente. Os científicos sociais, que están afeitos a traballar con datos destinados á investigación, son rápidos en apuntar os problemas con datos reaproveitado, ignorando os seus puntos fortes. Por outra banda, os científicos de datos son rápidos en apuntar as vantaxes de datos reaproveitado, ignorando as súas debilidades. Por suposto, a mellor visión sería un híbrido. É dicir, os investigadores teñen comprender as características destas novas fontes de datos de boas e malas e, a continuación, descubrir como aprender con eles. E, iso é o plan para o resto deste capítulo. Logo vou describir dez características comúns de empresas e do goberno datos administrativos. Despois diso, vou describir tres enfoques de investigación que poden ser usados con estes datos, enfoques que son ben adaptadas ás características destes datos.