En la analoga epoko, kolekti datumojn pri konduto-kiu faras kion kiam-estis multekostaj kaj do relative maloftaj. Nun, en la cifereca erao, la kondutoj de miliardoj da homoj estas registrita, stokitaj, kaj analizables. Ekzemple, ĉiufoje kiam vi klakas sur retejo, fari alvokon en via poŝtelefono, aŭ pagi por io kun via kredita karto, cifereca registro de via konduto estas kreita kaj stokita de negoco. Ĉar ĉi tiuj datumoj estas kromprodukto de popola ĉiutage agoj, ili ofte estas nomitaj ciferecan spuron. Krom tiuj spuroj tenita de entreprenoj, registaroj ankaŭ havas nekredeble riĉa datumojn pri ambaŭ personoj kaj entreprenoj, datumoj kiuj estas ofte digitalizado kaj analizables. Kune tiuj entreprenoj kaj registaraj dokumentoj estas ofte nomata granda datumo.
La ĉiam kreskanta fluo de grandaj datumoj signifas ke ni kopiis de mondo kie kondutismaj datumoj estis malabunda al mondo kie kondutismaj datumoj estas abunda. Sed, ĉar ĉi tiuj tipoj de datumoj estas relative nova, malfeliĉa kvanton de esplorado uzanta ilin aspektas kiel sciencistoj blinde postkuranta disponeblaj datumoj. Tiu ĉapitro, anstataŭe, proponas principan alproksimiĝo al kompreni la malsamajn fontojn de datumoj kaj kiel ili povas esti uzataj. Tiu riĉa kompreno devus helpi vin pli bone kongruas vian esploron demandoj al konvenaj fontoj de datumoj. Aŭ, se tia ekzistas fontoj mankas, konvinki vin kolekti vian propran datumon uzanta la ideoj en estonteco ĉapitroj.
Unua paŝo al lernanta de grandaj datumoj estas realigi ke ĝi estas parto de pli ampleksa kategorio de datumo kiu estis uzita por sociaj esploroj por multaj jaroj: observaj datumoj. Malglate, observaj datumoj estas ajna datumo kiu rezultas el observado socian sistemon sen interveni iel. Kruda maniero pensi pri ĝi estas ke observaj datumoj estas ĉio ke ne implikas parolas kun personoj (ekz, enketoj, la temo de ĉapitro 3) aŭ ŝanĝanta popolaj medioj (ekz, eksperimentoj, la temo de ĉapitro 4). Tiel, krom komerco kaj registaraj dokumentoj, observaj datumoj ankaŭ inkluzivas aferojn kiel la teksto de gazetartikoloj kaj satelito fotoj.
Ĉi tiu ĉapitro havas tri partojn. Unue, en Sekcio 2.2, mi priskribas grandajn datumojn pli detale kaj klarigi fundamenta diferenco inter ĝi kaj la datumoj kiuj estis ĝenerale uzita por sociaj esploroj en la pasinteco. Tiam, en Sekcio 2.3, mi priskribas dek komunajn trajtojn de granda datumoj fontoj. Komprenante tiuj karakterizaĵoj ebligas nin rapide rekoni la fortojn kaj malfortojn de ekzistantaj fontoj kaj helpos nin jungi la novaj fontoj kiuj estos kreitaj en la estonteco. Fine, en sekcio 2.4, mi priskribas tri ĉefajn esploro strategioj kiu vi povas uzi lerni de observaj datumoj: rakonti tion, prognozanta aferojn, kaj proksimigi eksperimento.