En la analoga aĝo, kolektanta datumojn pri konduto - kiu faras kio, kaj kiam-estis multekosta, kaj sekve relative malofta. Nun, en la cifereca aĝo, la kondutoj de miliardoj da homoj estas registritaj, stokitaj kaj analizeblaj. Ekzemple, ĉiufoje kiam vi alklakas retejon, vokas vian poŝtelefonon aŭ pagas ion per via kreditkarto, cifereca rekordo de via konduto estas kreita kaj stokita de komerco. Ĉar ĉi tiuj specoj de datumoj estas subprodukto de la ĉiutagaj agoj de homoj, ili ofte nomas ciferecajn spurojn . Krom ĉi tiuj spuroj okupitaj de negocoj, registaroj ankaŭ havas nekredeble riĉajn datumojn pri homoj kaj komercoj. Kune ĉi tiuj komercaj registroj ofte nomiĝas grandaj datumoj .
La kreskanta inundo de grandaj datumoj signifas, ke ni moviĝis el mondo, kie kondukaj datumoj malabundiĝis al mondo, kie kondukaj datumoj abundas. Unua paŝo por lerni de grandaj datumoj rimarkas, ke ĝi estas parto de pli larĝa kategorio de datumoj, kiuj estis uzata por socia esploro dum multaj jaroj: observaj datumoj . Iom, observa datumo estas iuj datumoj, kiuj rezultas de observado de socia sistemo, sen interveni de iu maniero. Kruda maniero por pensi pri tio estas, ke observa datumo estas ĉio, kio ne implicas paroli kun homoj (ekz., Enketoj, la temo de ĉapitro 3) aŭ ŝanĝiĝado de medioj de homoj (ekz., Eksperimentoj, la temo de ĉapitro 4). Tiel, krom komercaj registaroj kaj registaroj, observaj datumoj ankaŭ inkluzivas aferojn kiel la teksto de ĵurnaloj kaj satelitaj fotoj.
Ĉi tiu ĉapitro havas tri partojn. Unue, en sekcio 2.2, mi priskribas grandajn datumojn pli detale kaj klarigas fundamentan diferencon inter ili kaj la datumoj, kiuj kutime uzis sociajn esplorojn en la pasinteco. Tiam, en sekcio 2.3, mi priskribas dek komunajn trajtojn de grandaj datumaj fontoj. Kompreni ĉi tiujn karakterizaĵojn ebligas al vi rapide rekoni la fortojn kaj malfortojn de ekzistantaj fontoj kaj helpos vin utiligi la novajn fontojn, kiuj estos disponeblaj en la estonteco. Fine, en la sekcio 2.4, mi priskribas tri ĉefajn esploradajn strategiojn, kiujn vi povas uzi por lerni de observaj datumoj: kalkulante aferojn, prognozojn kaj proksimigi eksperimenton.