Veliki viri podatkov so povsod, vendar jih je za socialne raziskave lahko težavno. Po mojih izkušnjah obstaja nekaj takega, kot pravilo "brez brezplačnega kosila" za podatke: če ne boste vložili veliko dela, ki bi ga zbirali, potem boste verjetno morali veliko razmišljati o tem in analizira.
Veliki viri podatkov danes in verjetno jutri bodo imeli 10 značilnosti. Trije od teh so na splošno (vendar ne vedno) koristni za raziskave: velika, vedno in neaktivna. Sedem so na splošno (vendar ne vedno) problematične za raziskave: nepopolne, nedostopne, nepredstavljive, viseče, algoritmično zmedene, umazane in občutljive. Mnoge od teh značilnosti se končno pojavijo, ker za ustvarjanje socialnih raziskav niso bili ustvarjeni veliki viri podatkov.
Na podlagi idej iz tega poglavja mislim, da obstajajo trije glavni načini, da bodo veliki viri podatkov najbolj dragoceni za družbene raziskave. Prvič, lahko raziskovalcem omogočijo, da se odločijo med tekmovalnimi teoretskimi napovedmi. Primeri takšnega dela so Farber (2015) (New York Taxi drivers) in King, Pan, and Roberts (2013) (cenzura na Kitajskem). Drugič, veliki viri podatkov lahko omogočijo izboljšano merjenje za politiko s pomočjo zdajcastinga. Primer takega dela je Ginsberg et al. (2009) (Google Spremljanje gripe). Končno, veliki viri podatkov lahko raziskovalcem pomagajo pri izračunu vzročne ocene brez izvajanja eksperimentov. Primeri takšne vrste dela so Mas and Moretti (2009) (medsebojni učinki na produktivnost) in Einav et al. (2015) (učinek začetne cene na dražbe na eBayu). Vendar vsak od teh pristopov od raziskovalcev zahteva, da veliko prinesejo podatke, na primer opredelitev količine, ki je pomembna za oceno, ali dveh teorij, ki ustvarjajo konkurenčne napovedi. Tako mislim, da je najboljši način razmišljanja o tem, kakšni veliki viri podatkov lahko naredijo, je, da lahko pomagajo raziskovalcem, ki lahko postavljajo zanimiva in pomembna vprašanja.
Pred zaključkom mislim, da je vredno razmisliti, da lahko veliki viri podatkov pomembno vplivajo na razmerje med podatki in teorijo. Do zdaj je to poglavje prevzelo pristop teorijskega empiričnega raziskovanja. Toda veliki viri podatkov omogočajo raziskovalcem, da empirično vodijo teorijo . To pomeni, da lahko raziskovalci s skrbnim kopičenjem empiričnih dejstev, vzorcev in uganke gradijo nove teorije. Ta alternativa, prvi pristop do teorije, ni nov in ga je Barney Glaser in Anselm Strauss (1967) najpogosteje izrazila s svojim pozivom k utemeljeni teoriji . Vendar ta pristop do podatkov ne pomeni "konca teorije", kot je bilo navedeno v nekaterih novinarjih o raziskavah v digitalni dobi (Anderson 2008) . Namesto, kot se spreminja podatkovno okolje, bi morali pričakovati ponovno uravnoteženje razmerja med podatki in teorijo. V svetu, kjer je bilo zbiranje podatkov drago, je bilo smiselno zbirati samo podatke, ki jih predlagajo teorije, ki bodo najbolj uporabni. Toda v svetu, kjer so ogromne količine podatkov že na voljo brezplačno, je smiselno tudi poskusiti prvi pristop podatkov (Goldberg 2015) .
Kot sem že pokazal v tem poglavju, se raziskovalci lahko veliko naučijo z gledanjem ljudi. V naslednjih treh poglavjih bom opisal, kako se lahko naučimo več in drugačnih stvari, če prilagodimo zbiranje podatkov in jih neposredno povežemo z vprašanji (poglavje 3), izvajamo poskuse (poglavje 4) in jih celo vključimo neposredno v raziskovalnem procesu (poglavje 5).