Az analóg korszakban, a viselkedéssel kapcsolatos adatok gyűjtése - aki mit csinál, és mikor - drága, ezért viszonylag ritka. Most, a digitális korszakban, milliárdok viselkedését rögzítik, tárolják és elemezhetik. Például minden egyes alkalommal, amikor rákattint egy weboldalra, hívást kezdeményez mobiltelefonján vagy fizet valamit a hitelkártyájával, a vállalkozás viselkedése digitális rekordot hoz létre és tárol. Mivel ezek az adatok az emberek hétköznapi tevékenységének melléktermékei, gyakran digitális nyomoknak nevezik őket. A vállalatok által vezetett nyomok mellett a kormányok hihetetlenül gazdag adatokkal rendelkeznek mind az emberekről, mind a vállalkozásokról. Ezeket az üzleti és kormányzati nyilvántartásokat gyakran nagy adatoknak nevezik.
Az egyre növekvő nagy adatáramlás azt jelenti, hogy egy olyan világból költöztünk, ahol a viselkedési adatok szűkösek voltak ahhoz a világhoz, ahol a viselkedési adatok bőségesek. A nagy adatoktól való tanulás egyik első lépése, hogy felismeri, hogy része egy olyan szélesebb körű adatkategóriának, amelyet sok évig a társadalomkutatásban használtak: megfigyelési adatok . A megfigyelési adatok nagyjából olyan adatok, amelyek a szociális rendszer megfigyeléséből származnak, anélkül, hogy valamilyen módon beavatkoznának. Gondoskodni kell arról, hogy a megfigyelési adatok mindazok, amelyek nem tartalmazzák az emberekkel való beszélgetést (pl. Felmérések, a 3. fejezet témája) vagy az emberek környezetének megváltoztatása (pl. Kísérletek, a 4. fejezet témája). Így az üzleti és a kormányzati nyilvántartások mellett a megfigyelési adatok magukban foglalják az újságcikkek és a műholdas fényképek szövegét is.
Ez a fejezet három részből áll. Először is, a 2.2. Fejezetben részletesen ismertetem a nagy adatforrásokat, és tisztázzam az alapvető különbséget a köztük és a múltban jellemzően alkalmazott társadalmi kutatásokhoz. Ezután a 2.3. Szakaszban a nagy adatforrások tíz közös jellemzőjét ismertetem. Ezeknek a jellemzőknek a megértése lehetővé teszi, hogy gyorsan felismerje a meglévő források erősségeit és gyengeségeit, és segít a jövőben elérhető új források kihasználásában. Végül a 2.4 fejezetben három fő kutatási stratégiát ismertetek, amelyeket megfigyelési adatokból tanulhat: dolgok számolását, előrejelzést és kísérlet közelítését.