У аналогном добу, сакупљање података о понашању - ко то ради шта и када је било скупо, а тиме и релативно ретко. Сада, у дигиталном добу, понашања милијарди људи се снимају, чувају и анализирају. На пример, сваки пут када кликнете на веб локацију, упутите позив на свој мобилни телефон или платите за нешто помоћу ваше кредитне картице, дигитални запис о вашем понашању креира и чува предузеће. Због тога што су ове врсте података нуспродукти свакодневних радњи људи, они се често називају дигиталним траговима . Поред ових трагова које држе предузећа, владе такође имају невероватно богате податке о људима и предузећима. Заједно ове послове и државни записи често се зову велики подаци .
Све већа поплава великих података значи да смо се преселили из свијета гдје су подаци о понашању били оскудни свијету гдје су бројни подаци о понашању бројни. Први корак у учењу из великих података је схватање да је део шире категорије података који се већ дуги низ година користи за друштвена истраживања: подаци о опсервацији . Очигледно, подаци посматрања су сви подаци који произлазе из посматрања социјалног система без интервенције на неки начин. Сирови начин размишљања о томе је да су подаци о опсервацији све што не укључује разговоре с људима (нпр. Истраживања, тема поглавља 3) или промена окружења људи (нпр. Експерименти, тема поглавља 4). Тако, поред пословних и државних записа, подаци о посматрању укључују и ствари попут текстова новинских чланака и сателитских фотографија.
Ово поглавље има три дијела. Прво, у одјељку 2.2, детаљније описујем велике изворе података и разјашњавам основну разлику између њих и података који су у прошлости обично кориштени за друштвена истраживања. Затим, у одјељку 2.3, описујем десет заједничких карактеристика великих извора података. Разумевање ових карактеристика омогућава вам да брзо препознате снаге и слабости постојећих извора и помогнете вам да искористите нове изворе који ће бити доступни у будућности. Најзад, у одељку 2.4, описујем три главне стратегије истраживања које можете користити за учење из опсервационих података: рачунање ствари, предвиђање ствари и апроксимирање експеримента.