V analogového věku, sběr dat o chování, kdo co dělá, když-bylo drahé, a proto je poměrně vzácné. Nyní, v digitálním věku, je chování miliard lidí jsou zaznamenány, uchovávány, a analyzable. Například pokaždé, když kliknete na webové stránky, volat na mobilní telefon, nebo platit za něco s vaší kreditní karty, digitální záznam o svém chování je vytvořen a uložen podniku. Protože tyto údaje jsou vedlejším produktem každodenních činností lidí, oni jsou často nazýváni digitální stopy. Kromě těchto stop držených podniky, vlády mají také neuvěřitelně bohaté údaje o lidi i podniky, údaje, které jsou často digitalizován a analyzable. Dohromady tyto obchodní a vládní záznamy jsou často nazývány velkých objemů dat.
Stále stoupá záplava zpracování velkých objemů dat znamená, že jsme se posunuli ze světa, kde behaviorální data byla vzácná do světa, kde behaviorální data jsou hojné. Ale protože tyto typy dat jsou relativně nové, nešťastné množství výzkumu jejich použití vypadá vědců slepě honí dostupných údajů. V této kapitole, místo toho nabízí principiální přístup k pochopení různé zdroje dat a jak mohou být použity. Tento bohatší pochopení by mělo pomoci lépe odpovídaly vašim výzkumné otázky vhodných zdrojů dat. Nebo, pokud se tyto stávající zdroje chybí, přesvědčit shromažďovat svá data pomocí myšlenek v budoucích kapitolách.
Prvním krokem k učení se z velkého údajů je uvědomit si, že to je součástí širšího kategorie údajů, který byl použit pro sociální výzkum na mnoho let: pozorovacích dat. Zhruba observační údaje jsou veškeré údaje, které vyplývá z pozorování sociální systém bez zásahu do nějakým způsobem. Surový způsob, jak přemýšlet o tom, že observační údaje je vše, co nezahrnuje mluvit s lidmi (např průzkumy, téma kapitoly 3) nebo měnící se prostředí lidí (např experimenty, téma kapitoly 4). Tedy, kromě obchodních a vládních záznamů, observační data zahrnují rovněž věci, jako textu novinových článků a satelitních snímků.
Tato kapitola se skládá ze tří částí. Za prvé, v části 2.2, popisuji velkých objemů dat podrobněji a vyjasnit zásadní rozdíl mezi ním a údaje, které byly obecně používaného pro sociální výzkum v minulosti. Pak, v bodě 2.3, popisuji deset společné rysy velkých datových zdrojů. Pochopení těchto vlastností nám umožňuje rychle rozpoznat silné a slabé stránky stávajících zdrojů a pomůže nám využít nové zdroje, které budou vytvořeny v budoucnu. A konečně, v oddíle 2.4, popíši tři hlavní výzkumné strategie, které můžete použít k poučit z pozorovacích dat: Počítání věcí, předpovídání věcí a sbližování experiment.