Big data são criados e recolhidos pelos governos para fins que não a investigação propósitos. Usando esses dados para a pesquisa, portanto, requer reaproveitamento.
Uma visão idealizada da pesquisa social imagina um cientista ter uma idéia e, em seguida, a coleta de dados para testar essa ideia. Este estilo de pesquisa conduz a um ajuste apertado entre questão de pesquisa e de dados, mas é limitada porque um investigador individual muitas vezes não têm os recursos necessários para recolher os dados de que necessitam, tais como dados grandes, ricos e nacionalmente representativos. Portanto, um monte de investigação social, no passado, utilizados inquéritos sociais em larga escala, tais como a Pesquisa Geral Social (GSS), o Estudo Nacional de Eleições americano (ANES) e Panel Study of Income Dynamics (PSID). Estes estudo em grande escala são geralmente executados por uma equipe de pesquisadores e eles são projetados para criar dados que podem ser usados por muitos pesquisadores. Por causa dos objetivos desses inquéritos em larga escala, grande cuidado é colocado em projetar a coleta de dados e preparar os dados resultantes para uso por pesquisadores. Estes dados são por pesquisadores e para os investigadores.
A maioria das pesquisas sociais, utilizando fontes era digital, no entanto, é fundamentalmente diferente. Em vez de usar os dados coletados por pesquisadores e para os investigadores, ele usa fontes de dados que foram criados e colecionados por empresas e governos para seus próprios fins, como fazer um lucro, fornecendo um serviço, ou a administração de uma lei. Estas fontes de dados empresariais e governamentais têm vindo a ser chamado de big data. Fazendo a pesquisa com big data é diferente do que faz a pesquisa com dados que foi originalmente criado para a pesquisa. Compare, por exemplo, um site de mídia social, como Twitter, com uma pesquisa tradicional opinião pública, como a General Social Survey (GSS). principais objetivos do Twitter estão a prestar um serviço aos seus utilizadores e para fazer um lucro. No processo de alcançar estes objectivos, Twitter cria dados que podem ser úteis para o estudo de certos aspectos da opinião pública. Mas, ao contrário do General Social Survey (GSS), o Twitter não é primariamente focada em pesquisa social.
Os dados big prazo é frustrantemente vago, e agrupa muitas coisas diferentes. Para os fins da pesquisa social, eu acho que é útil distinguir entre dois tipos de fontes de dados grandes:. Registros administrativos do governo e de negócios registos administrativos do Governo registros administrativos são dados que são criados pelos governos, como parte de suas atividades de rotina. Esses tipos de registros têm sido utilizados por pesquisadores no passado, tais como os demógrafos estudam nascimento, registros-mas o casamento e óbito governos estão cada vez mais a coleta e liberação de registros detalhados em formas analisáveis. Por exemplo, o governo de Nova York instalados medidores digitais dentro de cada táxi na cidade. Estes medidores gravar todos os tipos de dados sobre cada táxi incluindo o condutor, a hora de início e localização, o tempo de paragem e localização, e a tarifa. Em um estudo que eu vou te dizer mais adiante neste capítulo, Henry Farber (2015) reaproveitado esses dados para resolver um debate fundamental na economia do trabalho sobre a relação entre os salários por hora e o número de horas trabalhadas.
O segundo principal tipo de big data para a pesquisa social é empresariais registros administrativos. Estes são os dados que os negócios criam e coletam como parte de suas atividades de rotina. Esses registros administrativos de negócios são muitas vezes chamado de vestígios digitais, e incluem coisas como logs de consulta do motor de busca, mensagens de mídia social, e registos de chamadas a partir de telefones móveis. Criticamente, esses registros administrativos de negócios não são apenas sobre o comportamento online. Por exemplo, as lojas que utilizam scanners de check-out estão criando medidas em tempo real de produtividade do trabalhador. Em um estudo que eu vou falar sobre mais adiante neste capítulo, Alexandre Mas e Enrico Moretti (2009) reaproveitado esta supermercados dados de check-out para estudar como a produtividade dos trabalhadores é impactado pela produtividade de seus pares.
Como ambos estes exemplos ilustram, a ideia de reaproveitamento é fundamental para a aprendizagem a partir de dados grandes. Na minha experiência, os cientistas sociais e cientistas de dados abordagem a esta redefinição de objetivos de forma muito diferente. Os cientistas sociais, que estão acostumados a trabalhar com dados destinados à investigação, são rápidos em apontar os problemas com dados reaproveitado, ignorando seus pontos fortes. Por outro lado, os cientistas de dados são rápidos em apontar os benefícios de dados reaproveitado, ignorando as suas fraquezas. Naturalmente, a melhor abordagem seria um híbrido. Ou seja, os pesquisadores precisam compreender as características destas novas fontes de dados de boas e más e, em seguida, descobrir como aprender com eles. E, isso é o plano para o restante deste capítulo. Em seguida, vou descrever dez características comuns de negócios e do governo dados administrativos. Depois disso, vou descrever três abordagens de pesquisa que podem ser usados com esses dados, abordagens que são bem adaptadas às características destes dados.