Velké zdroje dat jsou všude, ale jejich využití pro společenský výzkum může být obtížné. Podle mých zkušeností je něco jako "žádný volný oběd" pravidlo pro data: pokud jste se dát do hodně práce shromažďování, pak budete pravděpodobně muset dát hodně práce myslet na to a analyzovat to.
Dnešní velké zdroje dat - a pravděpodobně i zítra - budou mít tendenci mít 10 charakteristik. Tři z nich jsou obecně (ale ne vždy) užitečné pro výzkum: velké, neustále a nereaktivní. Sedm je obecně (ale ne vždy) problematické pro výzkum: neúplné, nepřístupné, nereprezentativní, unášené, algoritmicky zmatené, špinavé a citlivé. Mnoho z těchto vlastností nakonec vzniklo, protože velké zdroje dat nebyly vytvořeny pro účely sociálního výzkumu.
Na základě myšlenek v této kapitole se domnívám, že existují tři hlavní způsoby, jak velké zdroje dat budou pro společenský výzkum nejdůležitější. Za prvé, mohou výzkumníkům umožnit rozhodnout se mezi konkurenčními teoretickými předpovědi. Příklady takového druhu práce zahrnují Farber (2015) (řidiči Taxi v New Yorku) a King, Pan, and Roberts (2013) (cenzura v Číně). Za druhé, velké zdroje dat mohou umožnit lepší měření pro politiku prostřednictvím technologie Nowcasting. Příkladem tohoto druhu práce je Ginsberg et al. (2009) (Chřipkové trendy Google). Konečně, velké zdroje dat mohou výzkumníkům pomoci provést kauzální odhady bez experimentů. Příklady takového druhu práce jsou Mas and Moretti (2009) (peer effects on productivity) a Einav et al. (2015) (vliv počáteční ceny na aukce na eBay). Každá z těchto přístupů však vede k tomu, že výzkumní pracovníci potřebují, aby přinesli mnoho údajů, například definici množství, které je důležité odhadnout, nebo dvou teorií, které vytvářejí konkurenční předpovědi. Myslím si, že nejlepší způsob, jak přemýšlet o tom, co mohou velké zdroje dat dělat, je, že mohou pomoci výzkumníkům, kteří mohou klást zajímavé a důležité otázky.
Před uzavřením se domnívám, že stojí za to zvážit, že velké zdroje dat mohou mít významný vliv na vztah mezi daty a teorií. Tato kapitola dosud zaujala teoreticky řízený empirický výzkum. Velké zdroje dat však umožňují vědcům také empiricky řízené teoretizace . To znamená, že pomocí pečlivé shromažďování empirických skutečností, vzorců a hádanek mohou vědci vybudovat nové teorie. Tento alternativní datový přístup k teorii není nový, a byl velmi silně formulován Barneyem Glaserem a Anselmem Straussem (1967) s jejich výzvou k zakotvené teorii . Tento přístup založený na datech však neznamená "konec teorie", jak se uvádí v některých novinách kolem výzkumu v digitálním věku (Anderson 2008) . Spíše, jak se mění datové prostředí, měli bychom očekávat rebalanci ve vztahu mezi daty a teorií. Ve světě, kde bylo shromažďování údajů nákladné, mělo smysl shromažďovat pouze ty údaje, které teorie naznačují, že budou nejužitečnější. Ale ve světě, kde je již k dispozici obrovské množství dat, je logické také zkusit datový přístup (Goldberg 2015) .
Jak jsem ukázal v této kapitole, vědci se mohou hodně naučit sledováním lidí. V následujících třech kapitolách popisuji, jak se můžeme naučit více a více různých věcí, pokud přizpůsobíme shromažďování údajů a přímo komunikujeme s lidmi tím, že jim položíme otázky (kapitola 3), spustíme experimenty (kapitola 4) a dokonce je zapojíme ve výzkumu přímo (kapitola 5).