Analogiškai, duomenų rinkimas apie elgesį - kas kas ir ką daro, kas kainavo brangus, ir todėl yra gana retas. Dabar skaitmeniniame amžiuje užfiksuotos, saugomos ir analizuojamos milijardų žmonių elgsenos. Pavyzdžiui, kiekvieną kartą spustelėję svetainę, paskambinę mobiliajame telefone arba mokėdami už savo kredito kortelę, įmonės sukuria ir saugo skaitmeninę jūsų elgesio įrašą. Kadangi šie duomenų tipai yra žmonių kasdieninių veiksmų šalutinis produktas, jie dažnai vadinami skaitmeniniais pėdsakais . Be šių verslo trapų, vyriausybės taip pat turi neįtikėtinai turtingų duomenų apie žmones ir įmones. Kartu šiuos verslo ir valdžios įrašus dažnai vadina dideliais duomenimis .
Vis didėjantis didelių duomenų potvynis reiškia, kad mes persikėlėme iš pasaulio, kuriame elgesio duomenys buvo menki, į pasaulį, kuriame yra gausių elgesio duomenų. Pirmas žingsnis į mokymąsi iš didelių duomenų suprantamas kaip dalis platesnės kategorijos duomenų, naudojamų socialiniams tyrimams daugelį metų: stebėjimo duomenys . Apytiksliai stebėjimo duomenys yra bet kokie duomenys, gaunami stebint socialinę sistemą be tam tikros įtakos. Neapvarus būdas galvoti apie tai yra tai, kad stebėjimo duomenys yra visa tai, kas nereikalauja kalbėtis su žmonėmis (pvz., Apklausos, 3 skyriaus tema) arba žmonių aplinkos pokyčiai (pvz., Eksperimentai, 4 skyriaus tema). Taigi, be verslo ir valdžios įrašų, stebėjimo duomenys taip pat apima tokius dalykus kaip laikraščių straipsnių tekstas ir palydovinės nuotraukos.
Šis skyrius susideda iš trijų dalių. Pirma, 2.2 skirsnyje aš apibūdinau didelius duomenų šaltinius ir paaiškina esminį skirtumą tarp jų ir duomenų, kurie anksčiau buvo naudojami socialiniams tyrimams. Tada 2.3 skirsnyje aš apibūdina dešimt bendrų didelių duomenų šaltinių charakteristikų. Šių savybių supratimas leidžia greitai atpažinti esamų šaltinių stipriąsias ir silpnąsias puses ir padėti jums panaudoti naujus šaltinius, kurie ateityje bus prieinami. Galiausiai 2.4 skirsnyje aš apibūdina tris pagrindines mokslinių tyrimų strategijas, kurias galite naudoti norint pasimokyti iš stebimų duomenų: skaičiuoti dalykus, dalykų prognozavimą ir eksperimento suderinimą.