Veľké zdroje údajov sú všade, ale ich využitie na sociálny výskum môže byť zložité. Podľa mojej skúsenosti existuje niečo ako pravidlo "žiadny voľný obed" pre dáta: ak nechcete veľa práce zhromažďovať, potom budete pravdepodobne musieť dať veľa práce premýšľať o tom a analyzovať ho.
Dnešné veľké zdroje údajov - a pravdepodobne zajtra - budú mať tendenciu mať 10 charakteristík. Tri z nich sú všeobecne (ale nie vždy) užitočné pre výskum: veľké, neustále a nereaktívne. Sedem je všeobecne (ale nie vždy) problematické pre výskum: neúplné, nedostupné, nereprezentatívne, unášané, algoritmicky zmätené, špinavé a citlivé. Mnohé z týchto charakteristík nakoniec vznikajú, pretože veľké zdroje údajov neboli vytvorené na účely sociálneho výskumu.
Na základe myšlienok v tejto kapitole si myslím, že existujú tri hlavné spôsoby, ako veľké zdroje údajov budú najcennejšie pre sociálny výskum. Po prvé, môžu umožniť výskumníkom rozhodnúť sa medzi konkurenčnými teoretickými predpovediami. Medzi príklady tohto druhu práce patria Farber (2015) ( Farber (2015) New Yorku) a King, Pan, and Roberts (2013) (cenzúra v Číne). Po druhé, veľké zdroje údajov môžu umožniť lepšie meranie politiky prostredníctvom technológie nowcasting. Príkladom tohto druhu práce je Ginsberg et al. (2009) (Chrípkové trendy Google). A napokon, veľké zdroje údajov môžu výskumníkom pomôcť pri tvorbe kauzálnych odhadov bez pokusov. Príkladmi takejto práce sú Mas and Moretti (2009) (peer effects on productivity) a Einav et al. (2015) (vplyv štartovacej ceny na aukcie na eBay). Každý z týchto prístupov má však tendenciu vyžadovať, aby výskumníci priniesli veľa údajov, napríklad definíciu množstva, ktoré je dôležité pre odhad, alebo dve teórie, ktoré vytvárajú konkurenčné predpovede. Preto si myslím, že najlepší spôsob, ako myslieť na to, čo môžu veľké zdroje údajov urobiť, je, že môžu pomôcť výskumníkom, ktorí môžu klásť zaujímavé a dôležité otázky.
Pred záverom si myslím, že stojí za zváženie, že veľké zdroje údajov môžu mať významný vplyv na vzťah medzi údajmi a teóriou. Doteraz táto kapitola zaujala prístup teoreticky orientovaného empirického výskumu. Ale veľké zdroje údajov tiež umožňujú výskumníkom robiť empiricky riadené teórie . To znamená, že prostredníctvom starostlivého zhromaždenia empirických skutočností, vzorov a hádaniek môžu výskumníci vytvárať nové teórie. Tento alternatívny prístup k teórii nie je nový a najnepriaznivejšie to vyjadril Barney Glaser a Anselm Strauss (1967) s ich žiadosťou o uzemnú teóriu . Prvý prístup k údajom však neznamená "koniec teórie", ako sa tvrdilo v časti žurnalistiky okolo výskumu v digitálnom veku (Anderson 2008) . Skôr, ako sa mení dátové prostredie, mali by sme očakávať rebalancovanie vzťahu medzi údajmi a teóriou. Vo svete, kde bolo zhromažďovanie údajov drahé, malo zmysel zhromažďovať iba tie údaje, ktoré teórie naznačujú, že budú najužitočnejšie. Ale vo svete, kde sú už k dispozícii obrovské množstvá údajov, má zmysel skúsiť aj prístup založený na údajoch (Goldberg 2015) .
Ako som ukázal v tejto kapitole, vedci sa môžu naučiť veľa sledovaním ľudí. V nasledujúcich troch kapitolách opíšem, ako sa môžeme naučiť viaceré a rôzne veci, ak prispôsobíme zhromažďovanie údajov a priamo komunikujeme s ľuďmi tým, že im položíme otázky (kapitola 3), vykonáme experimenty (kapitola 4) a dokonca ich zapojíme vo výskume priamo (kapitola 5).