Nell'era analogica, raccogliendo dati sul comportamento, chi fa cosa e quando è costoso, e quindi relativamente raro. Ora, nell'era digitale, i comportamenti di miliardi di persone sono registrati, archiviati e analizzabili. Ad esempio, ogni volta che si fa clic su un sito Web, si effettua una chiamata sul proprio telefono cellulare o si paga per qualcosa con la carta di credito, una registrazione digitale del proprio comportamento viene creata e archiviata da un'azienda. Poiché questi tipi di dati sono un sottoprodotto delle azioni quotidiane delle persone, vengono spesso chiamate tracce digitali . Oltre a queste tracce possedute dalle aziende, i governi hanno anche dati incredibilmente ricchi su persone e aziende. Insieme, questi documenti aziendali e governativi sono spesso chiamati big data .
Il dilagare inarrestabile di grandi quantità di dati significa che siamo passati da un mondo in cui i dati comportamentali erano scarsi in un mondo in cui i dati comportamentali sono abbondanti. Un primo passo per imparare dai big data è rendersi conto che fa parte di una più ampia categoria di dati che è stata utilizzata per la ricerca sociale per molti anni: i dati osservativi . Approssimativamente, i dati osservativi sono dati che risultano dall'osservazione di un sistema sociale senza intervenire in alcun modo. Un modo grossolano di pensarci è che i dati osservazionali sono tutto ciò che non coinvolge il parlare con le persone (ad esempio, i sondaggi, l'argomento del capitolo 3) o il cambiamento degli ambienti delle persone (ad esempio, esperimenti, l'argomento del capitolo 4). Pertanto, oltre alle registrazioni aziendali e governative, i dati di osservazione includono anche cose come il testo di articoli di giornale e foto satellitari.
Questo capitolo ha tre parti. Innanzitutto, nella sezione 2.2, descrivo le grandi fonti di dati in modo più dettagliato e chiarisco una differenza fondamentale tra loro e i dati che sono stati in genere utilizzati per la ricerca sociale in passato. Quindi, nella sezione 2.3, descrivo dieci caratteristiche comuni delle fonti di Big Data. Comprendere queste caratteristiche consente di riconoscere rapidamente i punti di forza e di debolezza delle fonti esistenti e ti aiuterà a sfruttare le nuove fonti che saranno disponibili in futuro. Infine, nella sezione 2.4, descrivo tre principali strategie di ricerca che è possibile utilizzare per apprendere dai dati osservazionali: contare le cose, prevedere le cose e approssimare un esperimento.