În epoca analogică, colectarea datelor despre comportament - cine face ceea ce și când - a fost scump și, prin urmare, relativ rar. Acum, în era digitală, comportamentele a miliarde de oameni sunt înregistrate, stocate și analizate. De exemplu, de fiecare dată când faceți clic pe un site Web, efectuați un apel pe telefonul dvs. mobil sau plătiți ceva cu cardul dvs. de credit, o înregistrare digitală a comportamentului dvs. este creată și stocată de o afacere. Deoarece aceste tipuri de date sunt un produs secundar al acțiunilor de zi cu zi ale oamenilor, ele sunt deseori numite urme digitale . Pe lângă aceste urme ale întreprinderilor, guvernele au, de asemenea, date incredibil de bogate despre persoane și întreprinderi. Împreună aceste înregistrări de afaceri și de guvern sunt adesea numite date mari .
Inundațiile tot mai mari de date mari înseamnă că ne-am mutat dintr-o lume în care datele comportamentale erau limitate într-o lume în care datele comportamentale sunt abundente. Un prim pas spre învățarea de la date mari este realizarea faptului că face parte dintr-o categorie mai largă de date care a fost folosită de mulți ani pentru cercetarea socială: date observaționale . Aproximativ, datele observaționale sunt orice date care rezultă din observarea unui sistem social fără a interveni într-un fel. O modalitate grosolană de a gândi este că datele observaționale sunt tot ceea ce nu implică discutarea cu oamenii (de exemplu, anchete, subiectul capitolului 3) sau schimbarea mediilor oamenilor (de exemplu, experimente, tema capitolului 4). Astfel, pe lângă înregistrările comerciale și guvernamentale, datele observaționale includ, de asemenea, lucruri precum textul articolelor din ziare și fotografiile prin satelit.
Acest capitol are trei părți. În primul rând, în secțiunea 2.2, descriu mai detaliat sursele de date și clarifică o diferență fundamentală între ele și datele utilizate în mod obișnuit pentru cercetarea socială în trecut. Apoi, în secțiunea 2.3, descriu zece caracteristici comune ale surselor mari de date. Înțelegerea acestor caracteristici vă permite să recunoașteți rapid punctele forte și punctele slabe ale surselor existente și vă va ajuta să valorificați noile surse care vor fi disponibile în viitor. În cele din urmă, în secțiunea 2.4, descriu trei strategii principale de cercetare pe care le puteți folosi pentru a învăța din datele observaționale: numărarea lucrurilor, prognozarea lucrurilor și aproximarea unui experiment.