V analogni dobi, zbiranje podatkov o vedenju, kdo dela kaj, in kdaj je bil drag in zato sorazmerno redek. Zdaj se v digitalni dobi posnamejo, shranijo in analizirajo vedenja milijarde ljudi. Na primer, vsakič, ko kliknete na spletno mesto, pokličete na svoj mobilni telefon ali plačate za plačilo z vaše kreditne kartice, digitalno evidenco o vašem vedenju ustvari in shranjuje podjetje. Ker so te vrste podatkov nusprodukcija vsakdanjega delovanja ljudi, se pogosto imenujejo digitalne sledi . Poleg teh sledi, ki jih imajo podjetja, imajo vlade tudi neverjetno bogate podatke o ljudeh in podjetjih. Skupaj se ti poslovni in državni zapisi pogosto imenujejo veliki podatki .
Vedno naraščajoča poplava velikih podatkov pomeni, da smo se preselili iz sveta, kjer so bili vedenjski podatki omejeni na svet, kjer so vedenjski podatki številni. Prvi korak pri učenju iz velikih podatkov je ugotoviti, da je del širše kategorije podatkov, ki se že več let uporablja za družbene raziskave: opazovalni podatki . Približno, opazovalni podatki so vsi podatki, ki izhajajo iz opazovanja socialnega sistema, ne da bi kakorkoli posredovali. Surov način razmišljanja o tem je, da so opazovalni podatki vse, kar ne vključuje razgovora z ljudmi (npr. Ankete, temo poglavja 3) ali spreminjanje okolja (npr. Poskusi, tema poglavja 4). Tako poleg podatkov o poslovnih in državnih podatkih opazovalni podatki vključujejo tudi stvari, kot so časopisni članki in satelitske fotografije.
To poglavje ima tri dele. Najprej v razdelku 2.2 podrobneje opisujem velike vire podatkov in pojasnim osnovno razliko med njimi in podatki, ki so bili v preteklosti običajno uporabljeni za socialne raziskave. Nato v točki 2.3 opisujem deset skupnih značilnosti velikih podatkovnih virov. Razumevanje teh značilnosti omogoča hitro prepoznavanje prednosti in pomanjkljivosti obstoječih virov in vam bo pomagalo izkoristiti nove vire, ki bodo na voljo v prihodnosti. V razdelku 2.4 opisujem tri glavne raziskovalne strategije, ki jih lahko uporabite za učenje iz opazovalnih podatkov: štetje stvari, napovedovanje stvari in približevanje poskusu.