Veliki izvori podataka su posvuda, ali njihovo korištenje za društvena istraživanja može biti lukav. Po mom iskustvu, postoji nešto poput "bez besplatnog ručka" za podatke: ako ne ulažete puno posla na prikupljanje, onda ćete vjerojatno morati mnogo raditi razmisliti o tome i analizirajući ga.
Veliki izvori podataka danas - i vjerojatno sutra - imaju tendenciju da imaju 10 obilježja. Tri od tih su općenito (ali ne uvijek) korisni za istraživanje: veliki, uvijek uključeni i nereaktivni. Sedam su općenito (ali ne uvijek) problematični za istraživanje: nepotpuni, nedostupni, nereprezentativni, pomični, algoritamski zbunjeni, prljavi i osjetljivi. U konačnici, mnoge od tih karakteristika nastaju zbog toga što nisu stvoreni veliki izvori podataka za potrebe društvenih istraživanja.
Na temelju ideja u ovom poglavlju mislim da postoje tri glavna načina na koji će veliki izvori podataka biti najvredniji za društvena istraživanja. Prvo, oni mogu omogućiti istraživačima odlučivanje između konkurentnih teorijskih predviđanja. Primjeri takvog posla su Farber (2015) (New York Taksisti) i King, Pan, and Roberts (2013) (cenzura u Kini). Drugo, veliki izvori podataka mogu omogućiti poboljšano mjerenje za politiku putem sadnog materijala. Primjer takve vrste rada je Ginsberg et al. (2009) (Google Raširenost gripe). Konačno, veliki izvori podataka mogu pomoći istraživačima da uzrokuju procjene bez pokretanja eksperimenata. Primjeri takvog posla su Mas and Moretti (2009) (peer učinci na produktivnost) i Einav et al. (2015) (učinak početne cijene na aukcijama na eBayu). Svaki od tih pristupa, međutim, zahtijeva od istraživača da donose puno podataka, kao što je definicija količine koja je važna za procjenu ili dvije teorije koje čine konkurentna predviđanja. Stoga, mislim da je najbolji način razmišljanja o tome koji veliki izvori podataka može učiniti da mogu pomoći istraživačima koji mogu postavljati zanimljiva i važna pitanja.
Prije zaključivanja, mislim da je vrijedno razmatrati da veliki izvori podataka mogu imati značajan utjecaj na odnos između podataka i teorije. Do sada je ovo poglavlje uzelo pristup empirijskim istraživanjima temeljenim na teoriji. No, veliki izvori podataka omogućuju istraživačima da empirijski upravljaju teorizacija . To jest, kroz pažljivu akumulaciju empirijskih činjenica, obrazaca i zagonetki, istraživači mogu izgraditi nove teorije. Ovaj alternativni pristup podatkovnom prvom pristupu teoriji nije nova, a Barney Glaser i Anselm Strauss (1967) najzahtjevnije artikuliraju svojim pozivom na utemeljenu teoriju . Međutim, ovaj prvi pristup podataka ne podrazumijeva "kraj teorije", kao što je tvrdio u nekom novinarstvu oko istraživanja u digitalnom dobu (Anderson 2008) . Umjesto toga, kako se podaci okoliša mijenjaju, trebali bismo rebalansirati u odnosu između podataka i teorije. U svijetu gdje je prikupljanje podataka bilo skupo, imalo je smisla prikupiti samo one podatke koje teorije sugeriraju bit će najkorisnije. No, u svijetu u kojemu su ogromne količine podataka već dostupne besplatno, ima smisla također pokušati dati prvi pristup (Goldberg 2015) .
Kao što sam pokazao u ovom poglavlju, istraživači mogu naučiti mnogo promatrajući ljude. U sljedeća tri poglavlja opisujem kako možemo naučiti više i više različitih stvari ako prilagodimo prikupljanje podataka i izravnije komunicirate s ljudima postavljanjem pitanja (3. poglavlje), pokretanjem eksperimenata (4. poglavlje), pa čak i uključivanjem njih u izravnom istraživanju (poglavlje 5).