Veliki izvori podataka su svuda, ali njihovo korišćenje za društvena istraživanja može biti nezgodno. Po mom iskustvu, postoji nešto poput pravila "bez besplatnog ručka" za podatke: ako ne uložite puno posla na prikupljanje, onda ćete vjerovatno morati staviti puno posla razmisliti o tome i analizirajući ga.
Veliki izvori podataka danas - i verovatno sutra - imaju tendenciju da imaju 10 karakteristika. Tri od ovih su uglavnom (ali ne uvek) korisna za istraživanje: velika, uvek i neaktivna. Sedam su generalno (ali ne uvek) problematične za istraživanje: nepotpune, nepristupačne, nepreprezentativne, drifting, algoritamski konfuzne, prljave i osjetljive. Mnoge od ovih karakteristika na kraju se pojavljuju zato što nisu stvoreni veliki izvori podataka u svrhu socijalnog istraživanja.
Na osnovu ideja iz ovog poglavlja, mislim da postoje tri glavna načina da će veliki izvori podataka biti najdragoceniji za društvena istraživanja. Prvo, oni mogu omogućiti istraživačima da odluče između konkurentskih teorijskih predviđanja. Primjeri ove vrste rada su Farber (2015) (New York Taxi drivers) i King, Pan, and Roberts (2013) (cenzura u Kini). Drugo, veliki izvori podataka mogu omogućiti poboljšano merenje za politiku kroz sada emitovanje. Primjer ovakve vrste posla je Ginsberg et al. (2009) (Google trendovi gripa). Konačno, veliki izvori podataka mogu pomoći istraživačima da uzrokuju uzročne procjene bez pokretanja eksperimenata. Primjeri ove vrste rada su Mas and Moretti (2009) (vršnjački efekti na produktivnost) i Einav et al. (2015) (efekat početne cene na aukcijama na eBayu). Međutim, svaki od ovih pristupa zahteva od istraživača da dostave dosta podataka, kao što je definicija količine koja je važna za procjenu ili dve teorije koje čine konkurentne predviđanja. Prema tome, mislim da je najbolji način razmišljanja o tome šta veliki izvori podataka mogu učiniti je da oni mogu pomoći istraživačima koji mogu postavljati zanimljiva i važna pitanja.
Pre nego što zaključim, mislim da je vredno razmisliti o tome da veliki izvori podataka mogu imati značajan uticaj na odnos podataka i teorije. Do sada je ovo poglavlje uzelo pristup teorijskim empirijskim istraživanjima. Ali veliki izvori podataka takođe omogućavaju istraživačima da emituju teorijski uticaj . To jest, kroz pažljivu akumulaciju empirijskih činjenica, obrasca i zagonetki, istraživači mogu izgraditi nove teorije. Ovaj alternativni, prvi podatak o pristupu teoriji nije nov, i to su najsnažnije artikulisali Barney Glaser i Anselm Strauss (1967) sa njihovim pozivom na osnovanu teoriju . Međutim, ovaj prvi podatak ne znači "kraj teorije", kako se tvrdi u nekom novinarstvu oko istraživanja u digitalnom dobu (Anderson 2008) . Umesto toga, kako se promjenjuje okruženje podataka, trebalo bi očekivati rebalans u odnosu između podataka i teorije. U svetu u kojem je prikupljanje podataka skupo, bilo je smisla prikupiti samo podatke koje su teorije predložile da će biti najpotrebnije. Ali, u svetu u kojem su ogromne količine podataka već dostupne besplatno, ima smisla i pokušati prvi pristup podataka (Goldberg 2015) .
Kao što sam pokazao u ovom poglavlju, istraživači mogu puno naučiti gledajući ljude. U naredna tri poglavlja ću opisati kako možemo saznati više i različitih stvari ako prilagodimo našu prikupljanje podataka i sarađujemo sa ljudima direktnije postavljanjem pitanja (poglavlje 3), izvođenjem eksperimenata (poglavlje 4) i čak uključivanjem njih direktno u istraživačkom procesu (poglavlje 5).