Во аналогната ера, собирање на податоци за однесувањето - кој го прави она што, и кога - беше скапо, а со тоа и релативно ретко. Сега, во дигиталната ера, однесувањето на милијарди луѓе се евидентира, складира и анализира. На пример, секогаш кога ќе кликнете на веб-страница, правите повик на вашиот мобилен телефон или плаќате нешто со вашата кредитна картичка, дигиталниот запис за вашето однесување е создаден и зачуван од страна на бизнис. Бидејќи овие типови на податоци се нус-производ на секојдневните активности на луѓето, тие често се нарекуваат дигитални траги . Покрај овие траги што ги поседуваат бизнисите, владите, исто така, имаат неверојатно богати податоци за луѓето и бизнисите. Заедно овие деловни и државни записи се нарекуваат големи податоци .
Постојаниот поплава со големи податоци значи дека сме се преселиле од свет каде податоците за однесувањето беа ограничени во свет каде што податоците за однесувањето се бројни. Првиот чекор кон учењето од големите податоци е да се сфати дека е дел од една поширока категорија на податоци кои се користат за социјални истражувања за многу години: податоци за набљудување . Грубо, податоците од набљудувањето се сите податоци кои произлегуваат од набљудување на општествениот систем без интервенција на некој начин. Груб начин да се размислува за тоа е дека опсервациските податоци се сè што не вклучува разговор со луѓе (на пример, истражувања, тема од поглавје 3) или менување на средината на луѓето (на пример, експерименти, тема од поглавје 4). Така, во прилог на деловните и владините евиденции, опсервациските податоци, исто така, вклучуваат работи како текстот на статии во весници и сателитски фотографии.
Ова поглавје има три дела. Прво, во делот 2.2, ги опишувам изворите на големи податоци подетално и појаснувам фундаментална разлика меѓу нив и податоците кои во минатото обично се користеле за социјални истражувања. Потоа, во делот 2.3, опишувам десет заеднички карактеристики на големи извори на податоци. Разбирањето на овие карактеристики ви овозможува брзо да ги препознаете предностите и слабостите на постојните извори и ќе ви помогне да ги искористите новите извори што ќе бидат достапни во иднина. Конечно, во делот 2.4, опишувам три главни стратегии за истражување кои можете да ги користите за да научите од опсервациони податоци: броење работи, прогнозирање работи и приближување на експериментот.