Во аналогната ера, собирање на податоци за однесување кој што прави кога-е скапо, а со тоа, релативно ретки. Сега, во дигиталната ера, однесување на милијарди луѓе се регистрирани, складирани и analyzable. На пример, секој пат кога ќе кликнете на веб-сајт, да се направи повик на вашиот мобилен телефон, или да плаќаат за нешто со вашата кредитна картичка, дигитален запис на вашето однесување е создадена и се чуваат од страна на бизнис. Затоа што овие податоци се нус-производ на секојдневните активности на луѓето, тие често се нарекува дигитален траги. Во прилог на овие траги се одржа од страна на бизниси, на влади, исто така, имаат неверојатно богата податоци за двете луѓе и бизниси, податоци кои често се дигитализирани и analyzable. Заедно, овие бизнис и државни записи, често се нарекува големи податоци.
На постојано зголемување на поплава на големи податоци значи дека ние се преселија од еден свет каде што однесувањето на податоци беше малку на светот каде што податоци во врска со е обилен. Но, бидејќи овие типови на податоци се релативно нови, несреќна износ на истражување користење на нив изгледа како научници слепо си поигруваше со достапни податоци. Оваа глава, наместо тоа, нуди принципиелен пристап кон разбирање на различни извори на податоци и како тие може да се користи. Ова подлабоко разбирање треба да ви помогнат подобро да одговараат на вашите прашања за истражување на соодветни извори на податоци. Или, доколку такви постојните извори недостасуваат убеди да собирате вашите сопствени податоци со користење на идеи во иднина поглавја.
Првиот чекор за учење од големите податоци е да се сфати дека тоа е дел од една поширока категорија на податоци кои се користат за социјални истражувања за многу години: податоци од набљудувањата. Грубо, набљудување на податоци е секоја податоците кои произлегуваат од набљудување на општествениот систем без да интервенира на некој начин. А сурова начин да се размислува за тоа е дека податоци од набљудувањата е се она што не се однесуваат на разговор со луѓе (на пример, истражувања, тема на Глава 3) или менување на средини на луѓето (на пример, експерименти, тема на Глава 4). Така, во прилог на бизнис и владините податоци, податоци од набљудувањата исто така, вклучува работи како текстот на написи во дневните весници и сателитски снимки.
Ова поглавје има три дела. Прво, во Дел 2.2, јас го опишам големи податоци во повеќе детали и појасни фундаментална разлика помеѓу него и податоци кои се генерално се користи за социјални истражувања во минатото. Потоа, во Дел 2.3, јас го опишам десет заеднички карактеристики на големите извори на податоци. Разбирањето на овие карактеристики ни овозможува брзо да го признае предностите и слабостите на постојните извори и ќе ни помогне да се подигнат на нови извори кои ќе бидат создадени во иднина. Конечно, во Дел 2.4, јас го опишам три главни стратегии истражувања кои можете да го користите да се учи од набљудување на податоци: броење работи, прогнозирање работи, да се доближи експеримент.