W analogowym wieku zbieranie danych o zachowaniu - kto robi co i kiedy - było drogie, a zatem stosunkowo rzadkie. Teraz, w epoce cyfrowej, zachowania miliardów ludzi są rejestrowane, przechowywane i analizowane. Na przykład za każdym razem, gdy klikniesz na stronę internetową, wykonasz połączenie za pomocą telefonu komórkowego lub zapłacisz za coś za pomocą karty kredytowej, cyfrowy zapis twojego zachowania zostanie stworzony i zapisany przez firmę. Ponieważ tego typu dane są produktem ubocznym codziennych czynności ludzi, często nazywane są cyfrowymi śladami . Oprócz śladów pozostawionych przez firmy, rządy mają także niezwykle bogate dane dotyczące zarówno ludzi, jak i firm. Te rejestry biznesowe i rządowe są często nazywane dużymi danymi .
Rosnąca powódź dużych zbiorów danych oznacza, że przenieśliśmy się ze świata, w którym dane behawioralne były ograniczone do świata, w którym dane dotyczące zachowań są obfite. Pierwszym krokiem do nauki na podstawie dużych danych jest uświadomienie sobie, że jest to część szerszej kategorii danych, które były wykorzystywane w badaniach społecznych przez wiele lat: dane obserwacyjne . Z grubsza dane obserwacyjne to jakiekolwiek dane, które wynikają z obserwacji systemu społecznego bez interwencji w jakiś sposób. Prostym sposobem na przemyślenie tego jest to, że dane obserwacyjne to wszystko, co nie wymaga rozmowy z ludźmi (np. Ankiety, temat z rozdziału 3) lub zmiany środowiska ludzi (np. Eksperymenty, temat z rozdziału 4). Tak więc oprócz danych biznesowych i rządowych dane obserwacyjne obejmują również tekst artykułów prasowych i zdjęć satelitarnych.
Ten rozdział składa się z trzech części. Po pierwsze, w sekcji 2.2 opisuję większe źródła danych bardziej szczegółowo i wyjaśniam zasadniczą różnicę między nimi a danymi, które zwykle były wykorzystywane w badaniach społecznych w przeszłości. Następnie, w sekcji 2.3, opisuję dziesięć powszechnych cech dużych źródeł danych. Zrozumienie tych cech umożliwia szybkie rozpoznanie mocnych i słabych stron istniejących źródeł i pomoże w wykorzystaniu nowych źródeł, które będą dostępne w przyszłości. Na koniec, w sekcji 2.4, opisuję trzy główne strategie badawcze, których można użyć do uczenia się na podstawie danych obserwacyjnych: liczenia rzeczy, prognozowania i przybliżania eksperymentu.