W erze analogowej, zbieranie danych na temat zachowań, kto co robi, kiedy-było drogie, a zatem stosunkowo rzadkie. Teraz, w erze cyfrowej, Zachowania miliardów ludzi są zapisywane, przechowywane i analyzable. Na przykład, za każdym razem po kliknięciu na stronie internetowej, wykonać połączenie na telefonie komórkowym lub płacić za coś, za pomocą karty kredytowej, zapis cyfrowy zachowaniu jest tworzony i przechowywany przez przedsiębiorstwo. Ponieważ te dane są produktem ubocznym działania każdego dnia ludzi, często nazywane są ślady cyfrowych. Oprócz tych śladów posiadanych przez przedsiębiorstwa, rządy mają także niezwykle bogate dane dotyczące zarówno ludzi, jak i przedsiębiorstw, dane, które często zdigitalizowane i analyzable. Wszystkie te dokumenty handlowe i rządowe są często nazywane duże ilości danych.
Stale rośnie powodzi dużym danych oznacza, że przeniósł się ze świata, gdzie dane behawioralne było rzadkością w świecie, w którym dane behawioralne jest obfite. Ale, ponieważ te typy danych są stosunkowo nowe, niefortunne ilość badań korzystania z nich wygląda naukowców ślepo goni dostępne dane. Ten rozdział, zamiast tego oferuje pryncypialne podejście do rozumienia różnych źródeł danych i jak można je wykorzystać. Ten bogatsze zrozumienie powinny pomóc lepiej dopasować swoje pytania badawcze do odpowiednich źródeł danych. Albo, jeżeli istniejące źródła brakuje, przekonać do zbierania danych przy użyciu własnych pomysłów w kolejnych rozdziałach.
Pierwszym krokiem do uczenia się od wielkiego danych jest uświadomienie sobie, że jest częścią szerszej kategorii danych, które zostały wykorzystane do badań społecznych przez wiele lat danych obserwacyjnych. Mniej więcej, dane obserwacyjne są wszelkie dane, które wynika z obserwacji systemu społecznego, nie uczestniczą w jakiś sposób. Surowy sposób myślenia o tym, że dane obserwacyjne jest wszystko, co nie wiąże się rozmawiać z ludźmi (np ankiet, temat rozdział 3) lub zmieniających się warunków Ludowej (np eksperymenty, temat rozdział 4). Tak więc, oprócz biznesowych i rządowych dokumenty, dane obserwacyjne obejmuje również takie rzeczy jak tekście artykułów prasowych i zdjęć satelitarnych.
Rozdział ten składa się z trzech części. Po pierwsze, w pkt 2.2, opiszę duże ilości danych w sposób bardziej szczegółowy i wyjaśnić zasadniczą różnicę między nim a danymi, które są na ogół wykorzystywane do badań społecznych w przeszłości. Następnie, w pkt 2.3, opiszę dziesięć wspólnych cech dużych źródeł danych. Zrozumienie tych cech pozwala nam szybko rozpoznać mocne i słabe strony istniejących źródeł i pomoże nam wykorzystać nowe źródła, które zostaną utworzone w przyszłości. Wreszcie, w sekcji 2.4, opiszę trzy główne strategie badawcze, których można użyć, aby dowiedzieć się na podstawie danych obserwacyjnych: liczenia rzeczy, rzeczy, prognozowania i zbliżenie eksperyment.