У аналагавым ўзросце, збіраючы дадзеныя аб паводзінах, хто што робіць, і калі-было дорага, і таму параўнальна рэдка. Цяпер, у эпоху лічбавых тэхналогій, паводзіны мільярдаў людзей рэгіструюцца, захоўваюцца і аналізаванай. Напрыклад, кожны раз, калі вы націскаеце на вэб-сайце, зрабіць званок на свой мабільны тэлефон, або плаціць за нешта з вашай крэдытнай карты, лічбавай запісы вашых паводзін ствараецца і захоўваецца ў бізнэсе. Паколькі гэтыя тыпы дадзеных з'яўляюцца пабочным прадуктам паўсядзённых дзеянняў людзей, іх часта называюць лічбавыя сляды. У дадатак да гэтых слядах, якія праводзяцца прадпрыемствамі, урада таксама маюць неверагодна багатыя дадзеныя аб як людзей, так і прадпрыемстваў. Разам гэтыя дзелавыя і ўрадавыя дакументы часта называюць вялікія дадзеныя.
Пастаянна расце паток вялікіх аб'ёмаў дадзеных азначае, што мы перайшлі са свету, дзе дадзеныя аб паводзінах было мала ў свеце, дзе паводніцкія дадзеныя ў багацці. Першы крок да навучання з вялікіх дадзеных , разумеючы , што яна з'яўляецца часткай больш шырокай катэгорыі дадзеных , якія былі выкарыстаныя для сацыяльных даследаванняў у працягу многіх гадоў: дадзеныя назіранняў. Груба кажучы, дадзеныя назіранняў якія-небудзь дадзеныя, што вынікі назіранняў сацыяльную сістэму без умяшання ў нейкай меры. Грубы спосаб думаць пра гэта з'яўляецца тое, што дадзеныя назіранняў усё, што не звязана гаварыць з людзьмі (напрыклад, апытанні на тэму кіраўніка 3) або змяненне асяроддзя людзей (напрыклад, эксперыменты, тэма кіраўніка 4). Такім чынам, у дадатак да дзелавым і ўрадавых справаздачах, дадзеныя назіранняў таксама ўключае ў сябе такія рэчы, як тэкст газетных артыкулаў і спадарожнікавыя фатаграфій.
Гэтая кіраўнік складаецца з трох частак. Па-першае, у раздзеле 2.2, я апісваю вялікія крыніцы дадзеных, больш падрабязна і высветліць, прынцыповае адрозненне паміж імі і дадзенымі, якія, як правіла, былі выкарыстаны для сацыяльных даследаванняў у мінулым. Затым, у раздзеле 2.3, я апісваю дзесяць агульных характарыстык буйных крыніц дадзеных. Разуменне гэтых характарыстык дазваляе хутка распазнаваць моцныя і слабыя бакі існуючых крыніц і дапамогуць вам выкарыстоўваць новыя крыніцы, якія будуць даступныя ў будучыні. Нарэшце, у раздзеле 2.4, я апісваю тры асноўных стратэгій даследаванняў, якія вы можаце выкарыстоўваць, каб даведацца з дадзеных назіранняў: падлік рэчаў, прагназаванне рэчаў і апраксімуецца эксперымент.