Grandes fontes de dados estão em toda parte, mas usá-las para pesquisa social pode ser complicado. Na minha experiência, há algo como uma regra de “sem almoço grátis” para dados: se você não colocar muito trabalho coletando, então você provavelmente terá que colocar um monte de trabalho, pense sobre isso e analisando.
As grandes fontes de dados de hoje - e provavelmente amanhã - tenderão a ter 10 características. Três delas são geralmente (mas nem sempre) úteis para pesquisa: grandes, sempre ativas e não-reativas. Sete são geralmente (mas nem sempre) problemáticas para a pesquisa: incompleta, inacessível, não representativa, flutuante, confundida por algoritmos, suja e sensível. Muitas dessas características acabam surgindo porque as grandes fontes de dados não foram criadas para fins de pesquisa social.
Com base nas ideias deste capítulo, acho que existem três maneiras principais pelas quais as fontes de big data serão mais valiosas para a pesquisa social. Primeiro, eles podem permitir que os pesquisadores decidam entre predições teóricas concorrentes. Exemplos desse tipo de trabalho incluem Farber (2015) (Taxistas de Nova York) e King, Pan, and Roberts (2013) (censura na China). Em segundo lugar, as fontes de big data podem permitir uma melhor medição da política por meio do nowcasting. Um exemplo desse tipo de trabalho é Ginsberg et al. (2009) (Google Tendências da Gripe). Por fim, fontes de big data podem ajudar os pesquisadores a fazer estimativas causais sem executar experimentos. Exemplos desse tipo de trabalho são Mas and Moretti (2009) (efeitos de pares sobre produtividade) e Einav et al. (2015) (efeito do preço inicial nos leilões no eBay). Cada uma dessas abordagens, no entanto, tende a exigir que os pesquisadores tragam muito para os dados, como a definição de uma quantidade que é importante para estimar ou duas teorias que fazem previsões conflitantes. Assim, acho que a melhor maneira de pensar sobre o que as grandes fontes de dados podem fazer é ajudar os pesquisadores que podem fazer perguntas interessantes e importantes.
Antes de concluir, acho que vale a pena considerar que fontes de big data podem ter um efeito importante na relação entre dados e teoria. Até agora, este capítulo adotou a abordagem da pesquisa empírica baseada em teoria. Mas grandes fontes de dados também permitem que os pesquisadores façam teorizações empiricamente dirigidas . Isto é, através do acúmulo cuidadoso de fatos empíricos, padrões e quebra-cabeças, os pesquisadores podem construir novas teorias. Essa abordagem alternativa à primeira teoria não é nova, e foi mais fortemente articulada por Barney Glaser e Anselm Strauss (1967) com seu apelo à teoria fundamentada . Essa abordagem de dados em primeiro lugar, no entanto, não implica “o fim da teoria”, como foi afirmado em parte do jornalismo em torno da pesquisa na era digital (Anderson 2008) . Em vez disso, como o ambiente de dados muda, devemos esperar um reequilíbrio na relação entre dados e teoria. Em um mundo onde a coleta de dados era cara, fazia sentido coletar apenas os dados que as teorias sugerem ser os mais úteis. Mas, em um mundo onde enormes quantidades de dados já estão disponíveis gratuitamente, faz sentido tentar também uma abordagem de dados em primeiro lugar (Goldberg 2015) .
Como mostrei neste capítulo, os pesquisadores podem aprender muito observando as pessoas. Nos próximos três capítulos, descreverei como podemos aprender mais e diferentes coisas se adaptarmos nossa coleta de dados e interagirmos mais diretamente com as pessoas, fazendo-lhes perguntas (capítulo 3), executando experimentos (capítulo 4) e até mesmo envolvendo-os. no processo de pesquisa diretamente (capítulo 5).