У аналогном добу, прикупљање података о понашању-ко шта ради кад-је био скуп, и самим тим, релативно ретка. Сада, у дигиталном добу, је понашање милијарди људи снимају, складиште, и анализабле. На пример, сваки пут када кликнете на сајту, позивање на мобилном телефону, или платити за нешто са кредитном картицом, дигитални запис вашег понашања се ствара и чува бизниса. Јер ови подаци су нуспроизвод свакодневних радњи људи, они се често називају дигиталне трагове. Поред ових трагова држе предузећа, владе имају изузетно богату податке о људи и предузећа, податке, што је често дигитализовани и анализабле. Заједно ове пословне и владине евиденција се често називају велике податке.
Стално расте поплава великог података значи да смо преселили из света где понашања подаци су оскудни у свету где понашања подаци има у изобиљу. Али, пошто су ови типови подаци су релативно нови, несрећан број истраживања их користе изгледа као научника слепо јурили доступне податке. Ово поглавље, уместо тога, нуди принципијелну приступ за разумевање различитих извора података и како они могу да се користе. Ова богатији разумевање би требало да помогне да боље одговара на ваша питања истраживања на одговарајућим изворима података. Или, ако такви постоје извори недостаје, убедити да прикупи своје податке помоћу идеје у наредним поглављима.
Први корак у учењу од великог података је да се схвати да је део ширег категорије података који се користи за друштвена истраживања дуги низ година: посматрања података. Грубо, посматрања подаци су сви подаци који проистиче из посматрања друштвени систем без интервенције на неки начин. Сирова начин размишљања о томе је да посматрања података је све што не укључује разговор са људима (на пример, истраживања, на тему Поглавље 3) или промена окружења људи (нпр експерименте, тема Поглавље 4). Тако је, поред пословних и владине евиденције, посматрања подаци такође укључује ствари као што је текст новинских чланака и сателитским снимцима.
Ово поглавље има три дела. Прво, у члану 2.2, ја описати велике податке детаљније и разјаснити фундаменталну разлику између ње и података који су генерално користи за друштвена истраживања у прошлости. Затим, у одељку 2.3, ја описати десет заједничких карактеристика великих извора података. Разумевање ове карактеристике нам омогућава да брзо препознају предности и слабости постојећих извора и да ће нам помоћи да искористе нове изворе који ће настати у будућности. Коначно, у члану 2.4, ја описати три главна истраживања стратегије које можете користити да науче од посматрања података: Бројање ствари, предвиђања ствари, и приближавање експеримент.