Analogas amžiaus, rinkti duomenis apie elgesį-kas ką daro, kai-buvo brangus, todėl gana reti. Dabar, skaitmeniniame amžiuje, milijardų žmonių elgesys yra registruojami, saugomi, ir Susigundžiau tyrimais. Pavyzdžiui, kiekvieną kartą, kai paspausite ant tinklalapyje, skambinti į savo mobilųjį telefoną, ar mokėti už kažką su savo kreditine kortele, skaitmeninis įrašas savo elgesį yra sukurta ir saugomi verslą. Kadangi šie duomenys yra šalutinis produktas Liaudies kiekvieną dieną veiksmus, jie dažnai vadinami skaitmeninių pėdsakų. Be šių pėdsakų turimų įmonių, vyriausybės taip pat turi neįtikėtinai turtingą duomenis apie žmonių ir įmonių, duomenys, kurie dažnai yra suskaitmeninta ir Susigundžiau tyrimais. Kartu šie verslo ir valdžios įrašai dažnai vadinamas didelis duomenis.
Nuolat auga potvynių didelis duomenų reiškia, kad mes persikėlė iš pasaulyje, kur elgsenos duomenys buvo nepakankami, kad pasaulyje, kur elgsenos duomenys yra gausu. Bet, kadangi šių tipų duomenų yra palyginti naujas, gaila suma tyrimų naudojant juos atrodo mokslininkų aklai vejasi turimus duomenis. Šiame skyriuje, vietoj to, siūlo principingą požiūrį siekiant suprasti skirtingus duomenų šaltinius ir kaip jie gali būti naudojami. Tai turtingesni supratimas turėtų padėti jums geriau atitiktų jūsų tyrimo klausimus į atitinkamas duomenų šaltiniais. Arba, jei tokie esami šaltiniai trūksta, įtikinti jums rinkti savo duomenis naudojant idėjas ateities skyriuose.
Pirmasis žingsnis siekiant mokytis iš didelių duomenų yra suprasti, kad tai yra dalis platesnės kategorijos duomenų, kad buvo naudojamas socialinių tyrimų daugelį metų Stebėjimo duomenys. Grubiai, stebėjimo duomenys yra visi duomenys, kuris atsiranda stebint socialinę sistemą be įsikišimo tam tikru būdu. Grubus būdas galvoti apie tai, kad stebėjimo duomenys yra viskas, kad nėra susijęs kalbėti su žmonėmis (pvz apklausas, 3 skyriaus tema) ar pakeisti žmonių aplinkoje (pvz, eksperimentus, 4 skyriaus tema). Taigi, be to, verslo ir vyriausybinių įrašų, stebėjimo duomenys taip pat apima tokius dalykus kaip laikraščių straipsnių ir palydovinių nuotraukų tekste.
Šis skyrius turi tris dalis. Pirma, 2.2 skirsnyje, aš aprašyti didelius duomenis išsamiau ir aiškiau esminis skirtumas tarp jo ir duomenų, kurie paprastai buvo naudojamas socialinių tyrimų praeityje. Tada 2.3 skyriuje, aš apibūdinti dešimt bendrų savybių didelių duomenų šaltiniais. Suprasti šias charakteristikas leidžia mums greitai atpažinti stipriąsias ir silpnąsias puses esamų šaltinių ir padės mums pasitelkti naujus šaltinius, bus sukurtas ateityje. Galiausiai, 2.4 skirsnyje, aš apibūdinti tris pagrindines mokslinių tyrimų strategijas, kad jūs galite naudoti norėdami sužinoti, iš stebėjimų duomenys: skaičiuojant dalykų, prognozavimo dalykų, ir suderinti eksperimentą.