Katika umri wa analog, kukusanya data juu ya tabia-ambaye anafanya nini, na wakati-ilikuwa ghali, na hivyo ni ya kawaida. Sasa, katika umri wa digital, tabia za mabilioni ya watu zimehifadhiwa, kuhifadhiwa, na kuchambuliwa. Kwa mfano, kila wakati unapofya kwenye tovuti, piga simu kwenye simu yako ya mkononi, au kulipa kitu kwa kadi yako ya mkopo, rekodi ya digital ya tabia yako imeundwa na kuhifadhiwa na biashara. Kwa sababu aina hizi za data ni byproduct ya vitendo vya kila siku vya watu, mara nyingi huitwa trafiki za digital . Mbali na athari hizi zilizofanywa na biashara, serikali pia zina data kubwa sana kuhusu watu na biashara. Pamoja hizi kumbukumbu za biashara na serikali mara nyingi huitwa data kubwa .
Mafuriko yanayoendelea ya data kubwa inamaanisha kwamba tumehamia kutoka ulimwenguni ambapo data ya tabia ya tabia haikuwepo na ulimwengu ambapo data ya tabia ni nyingi. Hatua ya kwanza ya kujifunza kutoka kwa data kubwa ni kutambua kwamba ni sehemu ya aina pana ya data ambayo imetumiwa kwa utafiti wa jamii kwa miaka mingi: data ya uchunguzi . Kwa kiasi kikubwa, data ya uchunguzi ni data yoyote inayotokana na kuchunguza mfumo wa kijamii bila kuingilia kati kwa namna fulani. Njia mbaya ya kufikiria ni kwamba data ya uchunguzi ni kila kitu ambacho hakihusishi kuzungumza na watu (kwa mfano, tafiti, suala la sura ya 3) au kubadilisha mazingira ya watu (kwa mfano, majaribio, sura ya 4). Hivyo, pamoja na kumbukumbu za biashara na serikali, data ya uchunguzi pia inajumuisha mambo kama maandishi ya gazeti na picha za satelaiti.
Sura hii ina sehemu tatu. Kwanza, katika kifungu cha 2.2, mimi huelezea vyanzo vyenye vya data kwa undani zaidi na kufafanua tofauti ya msingi kati yao na data ambayo kwa kawaida imekuwa kutumika kwa ajili ya utafiti wa kijamii katika siku za nyuma. Kisha, katika kifungu 2.3, mimi kuelezea tabia kumi ya kawaida ya vyanzo vya data kubwa. Kuelewa sifa hizi huwezesha kutambua haraka nguvu na udhaifu wa vyanzo vilivyopo na itasaidia kuunganisha vyanzo vipya ambavyo vitapatikana kwa siku zijazo. Hatimaye, katika kifungu 2.4, mimi kuelezea mbinu tatu za utafiti kuu ambazo unaweza kutumia kujifunza kutoka kwa data ya uchunguzi: kuhesabu vitu, kutabiri mambo, na kuzingatia jaribio.