Les grans fonts de dades són a tot arreu, però utilitzar-les per a la recerca social pot ser complicat. En la meva experiència, hi ha alguna cosa així com una norma de "no hi ha dinar lliure" per a les dades: si no hi col·loqueu molta feina recopilant-lo, probablement hauríeu de fer molta feina per pensar-hi i analitzant-ho.
Les grans fonts de dades d'avui, i probablement demà, tendiran a tenir 10 característiques. Tres d'aquestes són generalment (però no sempre) útils per a la recerca: grans, sempre-on i no reactives. Set són generalment (però no sempre) problemàtiques per a la investigació: incompleta, inaccessible, no representativa, a la deriva, confusió algorítmica, bruta i sensible. Moltes d'aquestes característiques es presenten, en última instància, perquè no es van crear grans fonts de dades per a la investigació social.
A partir de les idees d'aquest capítol, crec que hi ha tres maneres principals de que les grans fonts de dades siguin més valuoses per a la investigació social. En primer lloc, poden permetre als investigadors decidir entre prediccions teòriques competidores. Exemples d'aquest tipus de treball inclouen Farber (2015) (taxistes de Nova York) i King, Pan, and Roberts (2013) (censura a la Xina). En segon lloc, les grans fonts de dades poden permetre millorar la mesura de les polítiques a través d'emissió de dades. Un exemple d'aquest tipus de treball és Ginsberg et al. (2009) (Google Flu Trends). Finalment, les grans fonts de dades poden ajudar els investigadors a fer estimacions causals sense executar experiments. Alguns exemples d'aquest tipus de treball són Mas and Moretti (2009) (efectes iguals a la productivitat) i Einav et al. (2015) (efecte del preu inicial en les subhastes a eBay). Cadascun d'aquests enfocaments solen requerir que els investigadors aportin molt a les dades, com ara la definició d'una quantitat important per estimar o dues teories que fan prediccions competidores. Per tant, crec que la millor manera de pensar què poden fer les grans fonts de dades és que poden ajudar els investigadors a fer preguntes interessants i importants.
Abans de concloure, crec que val la pena considerar que les grans fonts de dades poden tenir un efecte important sobre la relació entre dades i teoria. Fins ara, aquest capítol ha adoptat l'enfocament de la investigació empírica basada en la teoria. Però les grans fonts de dades també permeten als investigadors fer una teorització empírica . És a dir, mitjançant l'acurada acumulació de fets empírics, patrons i trencaclosques, els investigadors poden construir noves teories. Aquesta alternativa, la primera aproximació a la teoria no és nova, i va ser articulada amb força per Barney Glaser i Anselm Strauss (1967) amb la seva crida a la teoria fonamentada . No obstant això, aquest primer enfocament de dades no implica "el final de la teoria", tal com s'ha afirmat en alguns dels periodistes sobre la recerca en l'era digital (Anderson 2008) . Més aviat, a mesura que l'entorn de dades canvia, cal esperar un reequilibri en la relació entre dades i teoria. En un món on la recopilació de dades era costosa, tenia sentit recopilar només les dades que les teories suggereixen seran les més útils. Però, en un món on enormes quantitats de dades ja estan disponibles de forma gratuïta, també té sentit intentar un primer enfocament de dades (Goldberg 2015) .
Com he demostrat en aquest capítol, els investigadors poden aprendre molt veient la gent. En els propers tres capítols, vaig a descriure com podem aprendre coses diferents i diferents si adaptem la nostra recopilació de dades i interactuem amb les persones més directament fent-los preguntes (capítol 3), executant experiments (capítol 4) i fins i tot implicant-los en el procés de recerca directament (capítol 5).