V analogickém věku shromažďování údajů o chování - co dělá co a kdy - bylo drahé a proto relativně vzácné. Nyní v digitálním věku jsou chování miliard lidí zaznamenávány, ukládány a analyzovány. Například pokaždé, když kliknete na webové stránky, zavoláte na svůj mobilní telefon nebo zaplatíte něco s vaší kreditní kartou, digitální záznam vašeho chování je vytvořen a uložen v podniku. Protože tyto typy dat jsou vedlejším produktem každodenních činností lidí, jsou často označovány jako digitální stopy . Vedle těchto stop, které mají podniky, mají vlády také neuvěřitelně bohaté údaje o osobách i podnikání. Společně se tyto obchodní a vládní záznamy často nazývají velkými daty .
Stále rostoucí povodeň velkých dat znamená, že jsme se přestěhovali ze světa, kde byly údaje o chování do světa, kde jsou údaje o chování dostatečné, vzácné. První krok k učení z velkých dat si uvědomuje, že je součástí širší kategorie dat, která byla již mnoho let použita pro společenský výzkum: pozorovací údaje . Zhruba pozorovací data jsou data, která vyplývají z pozorování sociálního systému, aniž by nějakým způsobem zasáhly. Hrubý způsob, jak přemýšlet o tom, je to, že pozorovací údaje jsou vše, co nezahrnuje rozhovor s lidmi (např. Průzkumy, téma kapitoly 3) nebo změna prostředí člověka (např. Experimenty, téma 4). Takže kromě obchodních a vládních záznamů observační údaje obsahují také texty novinových článků a satelitních snímků.
Tato kapitola má tři části. Nejprve v kapitole 2.2 popisuji velké zdroje dat podrobněji a objasňuji zásadní rozdíl mezi nimi a údaji, které byly v minulosti typicky používány pro sociální výzkum. Poté v oddíle 2.3 popisuji deset společných charakteristik velkých datových zdrojů. Pochopení těchto vlastností umožňuje rychle rozpoznat silné a slabé stránky stávajících zdrojů a pomůže vám využít nové zdroje, které budou k dispozici v budoucnu. Konečně v části 2.4 popisuji tři hlavní výzkumné strategie, které můžete využít z poznávacích dat: počítat věci, předvídat věci a přiblížit experiment.