As grandes fontes de datos están en todas partes, pero utilizalos para a investigación social pode ser complicado. Na miña experiencia, hai algo así como unha regra de "non xantar libre" para os datos: se non colocar moito traballo recolléndoo, entón probabelmente terá que poñer moito traballo pensar niso e analizándoo.
As grandes fontes de datos de hoxe e, probablemente, mañá tenden a ter 10 características. Tres destes son, en xeral, (pero non sempre) útiles para a investigación: grandes, sempre-on e non reactivos. Sete son xeralmente (pero non sempre) problemáticos para a investigación: incompleta, inaccesible, non representativa, á deriva, algoritmicamente confundida, sucia e sensible. Moitas destas características xorden en última instancia porque non se crearon grandes fontes de datos para a investigación social.
Con base nas ideas deste capítulo, creo que hai tres xeitos principais de que as grandes fontes de datos serán máis valiosas para a investigación social. En primeiro lugar, poden permitir que os investigadores decidan entre predicións teóricas que compiten. Exemplos deste tipo de traballo inclúen Farber (2015) (taxistas de taxi de Nova York) e King, Pan, and Roberts (2013) (censura en China). En segundo lugar, as grandes fontes de datos poden permitir mellorar a medición da política a través de agora. Un exemplo deste tipo de traballo é Ginsberg et al. (2009) (Tendencias de Google Flu). Finalmente, as grandes fontes de datos poden axudar aos investigadores a facer estimacións causais sen executar experimentos. Exemplos deste tipo de traballo son Mas and Moretti (2009) (Efectos da produtividade entre pares) e Einav et al. (2015) (efecto do prezo inicial en poxas en eBay). Cada un destes enfoques, con todo, tende a esixir que os investigadores aporten moito aos datos, como a definición dunha cantidade que é importante para estimar ou dúas teorías que fan predicións competitivas. Deste xeito, creo que a mellor forma de pensar sobre que grandes fontes de datos pode facer é que poidan axudar aos investigadores que poidan facer preguntas interesantes e importantes.
Antes de concluír, creo que paga a pena considerar que as grandes fontes de datos poden ter un efecto importante na relación entre datos e teoría. Ata agora, este capítulo tomou o enfoque da investigación empírica dirixida pola teoría. Pero as grandes fontes de datos tamén permiten aos investigadores facer teorización impulsada empíricamente . É dicir, a través da acurada acumulación de feitos empíricos, patróns e crebacabezas, os investigadores poden construír novas teorías. Esta alternativa, a primeira aproximación á teoría non é nova e foi articulada con forza por Barney Glaser e Anselm Strauss (1967) coa súa convocatoria de teoría fundamentada . Non obstante, este enfoque de datos non implica "o final da teoría", como se afirmou nalgúns dos xornalistas en torno á investigación na era dixital (Anderson 2008) . Pola contra, a medida que o ambiente de datos cambia, deberiamos esperar unha reequilibración na relación entre datos e teoría. Nun mundo onde a recopilación de datos era caro, tiña sentido recoller só os datos que as teorías suxiren que serán os máis útiles. Non obstante, nun mundo onde enormes cantidades de datos xa están dispoñibles gratuitamente, tamén ten sentido probar un primeiro enfoque de datos (Goldberg 2015) .
Como se amosou neste capítulo, os investigadores poden aprender moito mirando xente. Nos próximos tres capítulos, vou describir como podemos aprender cousas máis e diferentes se adaptamos a nosa recopilación de datos e interactúanos coas persoas máis directamente facendo preguntas (capítulo 3), executando experimentos (capítulo 4) e ata os inclúen no proceso de investigación directamente (capítulo 5).