Katika umri Analog, kukusanya data kuhusu tabia-nani anafanya nini wakati-ilikuwa ghali, na kwa hiyo, nadra. Sasa, katika umri digital, tabia ya mabilioni ya watu ni kumbukumbu, kuhifadhiwa, na analyzable. Kwa mfano, kila wakati bonyeza kwenye tovuti, kufanya wito juu ya kiini simu yako, au kulipa kwa kitu na kadi yako, rekodi digital ya tabia yako ni kuundwa na kuhifadhiwa na biashara. Kwa sababu hizi data ni by-product ya matendo ya watu kila siku, mara nyingi aitwaye athari digital. Mbali na athari hizi uliofanyika kwa biashara, serikali pia kuwa data incredibly tajiri kuhusu watu wote na biashara, data ambayo mara nyingi ni digitized na analyzable. Pamoja kumbukumbu hizi biashara na serikali mara nyingi huitwa data kubwa.
milele-kupanda mafuriko ya data kubwa ina maana kwamba tuna wakiongozwa kutoka dunia ambapo data kitabia na uhaba wa dunia ambapo data kitabia ni mengi. Lakini, kwa sababu hizi data aina ni kipya, bahati mbaya kiasi cha utafiti kwa kutumia yao inaonekana kama wanasayansi upofu Chasing takwimu zilizopo. Sura hii, badala yake, inatoa mbinu kanuni na kuelewa vyanzo mbalimbali vya data na jinsi gani wanaweza kutumika. Hii uelewa tajiri lazima kukusaidia bora mechi maswali yako utafiti wa vyanzo sahihi ya data. Au, kama vile vyanzo zilizopo ni kukosa, kuwashawishi kukusanya data yako mwenyewe kwa kutumia mawazo katika sura ya baadaye.
Hatua ya kwanza ya kujifunza kutoka data kubwa ni kutambua kwamba ni sehemu ya jamii pana ya data ambayo imekuwa kutumika kwa ajili ya utafiti wa kijamii kwa miaka mingi: uchunguzi data. Takribani, data za uchunguzi ni data yoyote inayosababishwa na kuchunguza mfumo wa kijamii bila kuingilia kwa namna fulani. njia ghafi kufikiri juu yake ni kwamba data za uchunguzi ni kila kitu kuwa haina kuhusisha kuzungumza na watu (kwa mfano, tafiti, mada ya Sura ya 3) au mabadiliko ya mazingira ya watu (kwa mfano, majaribio, mada ya sura ya 4). Hivyo, katika Mbali na kumbukumbu za biashara na serikali, data za uchunguzi pia ni pamoja na mambo kama maandishi ya makala gazeti na picha satellite.
Sura hii ina sehemu tatu. Kwanza, katika Sehemu ya 2.2, mimi kuelezea data big kwa undani zaidi na kufafanua tofauti ya msingi kati yake na data ambazo kwa ujumla zimetumika kwa ajili ya utafiti wa kijamii katika siku za nyuma. Kisha, katika Sehemu ya 2.3, mimi kuelezea sifa kumi ya kawaida ya vyanzo kubwa data. Uelewa wa sifa hizo unatuwezesha haraka kutambua uwezo na udhaifu wa vyanzo vilivyopo na itatusaidia kuunganisha vyanzo vipya kwamba zitapatikana katika siku zijazo. Hatimaye, katika Sehemu ya 2.4, mimi kuelezea mikakati mitatu ya utafiti kwamba unaweza kutumia ili kujifunza kutoka kwa data za uchunguzi: kuhesabu mambo, utabiri mambo, na approximating majaribio.