Analoogiaegas on käitumise kohta andmete kogumine - kes teeb mida ja millal - oli kallis ja seetõttu suhteliselt haruldane. Digitaalajastul salvestatakse, salvestatakse ja analüüsitakse miljardite inimeste käitumist. Näiteks kui veebisaidil klõpsate, helistate oma mobiiltelefonil või maksate oma krediitkaardiga midagi, teie ettevõte loob ja salvestab teie käitumise digitaalse kirje. Kuna sellised andmed on inimeste igapäevaste toimingute kõrvalsaadus, nimetatakse neid sageli digitaalseteks jälgedeks . Lisaks ettevõtetele hoitavatele jälgedele on valitsustel ka nii inimeste kui ka ettevõtete kohta väga rikkalikke andmeid. Üheskoos nimetatakse neid äri- ja valitsuse andmeid sageli suurteks andmeteks .
Suurte andmete pidev suurenev üleujutus tähendab, et oleme liikunud maailmast, kus käitumisandmeid oli piiratud maailmaga, kus käitumisandmeid on palju. Suureistest andmetest õppimise esimene samm on mõistmine, et see on osa laiemast kategooriast, mida on sotsiaalsete uuringute jaoks kasutatud paljude aastate jooksul: vaatlusandmeid . Ligikaudu on vaatlusandmed kõik andmed, mis tulenevad sotsiaalsüsteemi jälgimisest, kuid mingil viisil sekkumiseta. Toores mõtteviis on see, et vaatlusandmed on kõik, mis ei hõlma inimestega rääkimist (nt uuringud, 3. peatüki teema) või inimeste keskkondade muutmine (nt eksperimendid, 4. peatüki teema). Seega on lisaks äri- ja valitsemissektori andmetele vaatlusandmeid ka sellised asjad nagu ajaleheartiklite tekst ja satelliidifotosid.
Selles peatükis on kolm osa. Esiteks, punktis 2.2 kirjeldatakse üksikasjalikumalt suuri andmeallikaid ja selgitatakse nende olulist erinevust ja neid andmeid, mida varem kasutatakse sotsiaalsete uuringute jaoks. Seejärel kirjeldage punktis 2.3, suurte andmeallikate kümme ühist iseloomulikku tunnust. Nende tunnuste mõistmine võimaldab teil kiiresti ära tunda olemasolevate allikate tugevused ja nõrkused ning aitab teil kasutada tulevikus uusi allikaid. Lõpuks, jaotises 2.4 kirjeldan kolme peamist uurimisstrateegiat, mida saate uurimisandmete abil õppida: asjade loendamine, asjade prognoosimine ja katse lähendamine.