У аналогічному віці, збираючи дані про поведінку, хто робить те, що і коли-було дорого, і тому відносно рідко. Тепер у цифрову епоху, поведінка мільярдів людей записується, зберігається та аналізується. Наприклад, кожен раз, коли ви натискаєте веб-сайт, зателефонуєте на свій мобільний телефон або платите за щось за допомогою вашої кредитної картки, компанія створює та зберігає цифровий запис вашої поведінки. Оскільки ці типи даних є побічним продуктом повсякденних дій людей, їх часто називають цифровими слідами . На додаток до цих слідів, проведених підприємствами, уряди також мають надзвичайно багаті дані про людей та бізнес. Разом ці бізнесові та державні записи часто називаються великими даними .
Повсякденний ріст великих даних означає, що ми перейшли з світу, де поведінкові дані були дефіцитними у світі, де багато даних про поведінку. Першим кроком до вивчення великих даних є розуміння того, що це частина ширшої категорії даних, яка вже багато років використовується для соціальних досліджень: дані спостережень . Приблизно, дані спостережень - це будь-які дані, отримані внаслідок спостереження за соціальною системою без певного втручання. Глибокий спосіб думати про те, що дані спостережень - це все, що не вимагає спілкування з людьми (наприклад, опитування, тема розділу 3) або зміни середовища людей (наприклад, експерименти, тема розділу 4). Таким чином, на додачу до ділових та державних документів, дані спостережень включають також такі речі, як текст статті газети та супутникові фотографії.
Цей розділ складається з трьох частин. По-перше, у розділі 2.2 я докладніше описую великі джерела даних та з'ясовую основну різницю між ними та даними, які раніше використовувались для соціальних досліджень. Потім, у розділі 2.3, я описую десять загальних характеристик великих джерел даних. Розуміння цих характеристик дає змогу швидко визначити сильні та слабкі сторони існуючих джерел та допомогти вам використати нові джерела, які будуть доступні в майбутньому. Нарешті, у розділі 2.4 я описую три основні стратегії дослідження, які можна використовувати для вивчення даних спостережень: підрахунок речей, прогнозування речей та наближення експерименту.