U analognoj dobi, prikupljanje podataka o ponašanju - tko čini što, i kada - bio skup, i stoga relativno rijedak. Sada, u digitalnom dobu, ponašanja milijardi ljudi bilježe se, pohranjuju i analiziraju. Na primjer, svaki put kad kliknete na web mjesto, nazovete na svom mobilnom telefonu ili plaćate nešto s kreditnom karticom, tvrtka stvara digitalni zapis vašeg ponašanja i pohranjuje ga. Budući da su te vrste podataka nusprodukt svakodnevnih aktivnosti ljudi, često ih nazivaju digitalni tragovi . Uz ove tragove koje drže tvrtke, vlade također imaju nevjerojatno bogate podatke o ljudima i tvrtkama. Zajedno ove poslovne i državne evidencije često nazivaju velikim podacima .
Sve veća poplava velikih podataka znači da smo se preselili iz svijeta u kojem su podaci o ponašanju bili slabi u svijetu u kojem su podaci o biheviorizmu bogati. Prvi korak u učenju iz velikih podataka jest shvaćanje da je dio šire kategorije podataka koji se godinama koristio za društvena istraživanja: opservacijski podaci . Opsežno, opservacijski podaci su svi podaci koji proizlaze iz promatranja društvenog sustava bez interveniranja na neki način. Neobican način razmišljanja o tome jest da su opservacijski podaci sve što ne uključuje razgovor s ljudima (npr. Ankete, temu 3. poglavlja) ili mijenjanje ljudskih okolina (npr. Eksperimenti, tema poglavlja 4). Dakle, osim poslovnih i državnih evidencija, opservacijski podaci također uključuju stvari poput teksta novinskih članaka i satelitskih fotografija.
Ovo poglavlje ima tri dijela. Prvo, u dijelu 2.2, detaljnije opisujem velike izvore podataka i razjasniti temeljnu razliku između njih i podataka koji su se u prošlosti obično koristili za društvena istraživanja. Zatim, u dijelu 2.3, opisujem deset zajedničkih značajki velikih izvora podataka. Razumijevanje ovih značajki omogućuje brzo prepoznavanje snage i slabosti postojećih izvora i pomoći će vam da iskoristite nove izvore koji će biti dostupni u budućnosti. Konačno, u odjeljku 2.4, opisujem tri glavne strategije istraživanja koje možete koristiti za učenje iz opservacijskih podataka: brojanje stvari, predviđanje stvari i približavanje eksperimenta.