Data kubwa huundwa na kukusanywa na makampuni na serikali kwa madhumuni mengine isipokuwa utafiti. Kutumia data hii kwa ajili ya utafiti, kwa hiyo, inahitaji kurudia tena.
Njia ya kwanza ambayo watu wengi hukutana na utafiti wa jamii katika umri wa digital ni kupitia kile kinachojulikana kuwa data kubwa . Licha ya matumizi makubwa ya neno hili, hakuna makubaliano kuhusu data kubwa hata hivyo. Hata hivyo, moja ya ufafanuzi wa kawaida wa data kubwa inalenga katika "3 Vs": Volume, Tofauti, na Velocity. Kwa kiasi kikubwa, kuna data nyingi, kwa aina mbalimbali za muundo, na hutengenezwa mara kwa mara. Baadhi ya mashabiki wa data kubwa pia huongeza vingine vingine vya "Vs" kama vile Ukweli na Thamani, ambapo wakosoaji wengine huongeza VV kama Vague na Vuvu. Badala ya 3 "Vs" (au 5 "Vs" au 7 "Vs"), kwa madhumuni ya utafiti wa kijamii, nadhani mahali bora zaidi kuanza ni "Ws" 5: Nani, Nini, wapi, Wakati , na kwa nini. Kwa kweli, nadhani kwamba changamoto na fursa nyingi zinazoundwa na vyanzo vya data kubwa hufuata kutoka "W" moja tu: Kwa nini.
Katika umri wa analog, data nyingi zilizotumiwa kwa ajili ya utafiti wa kijamii ziliundwa kwa lengo la kufanya utafiti. Katika umri wa digital, hata hivyo, kiasi kikubwa cha data kinaundwa na makampuni na serikali kwa madhumuni mengine isipokuwa utafiti, kama vile kutoa huduma, kuzalisha faida, na kusimamia sheria. Watu wa ubunifu, hata hivyo, wamegundua kwamba unaweza kurudia data hii ya kampuni na serikali kwa ajili ya utafiti. Kufikiri nyuma ya ulinganisho wa sanaa katika sura ya 1, kama Duchamp alivyoongeza kitu kilichopatikana ili kuunda sanaa, wanasayansi wanaweza sasa kurudia data ili kuunda utafiti.
Ingawa kuna hakika fursa kubwa za kurudia tena, kutumia data ambazo hazikuundwa kwa madhumuni ya utafiti pia hutoa changamoto mpya. Linganisha, kwa mfano, huduma ya vyombo vya habari vya kijamii, kama Twitter, na utafiti wa jadi wa maoni ya umma, kama Utafiti wa Jamii Mkuu. Malengo makuu ya Twitter ni kutoa huduma kwa watumiaji wake na kufanya faida. Uchunguzi Mkuu wa Jamii, kwa upande mwingine, unalenga kujenga dhana ya jumla ya utafiti wa kijamii, hasa kwa utafiti wa maoni ya umma. Tofauti hii katika malengo inamaanisha kwamba data iliyoundwa na Twitter na ambayo imeundwa na Utafiti Mkuu wa Jamii ina mali tofauti, ingawa wote wanaweza kutumika kwa kujifunza maoni ya umma. Twitter inafanya kazi kwa kiwango na kasi ambayo Utafiti wa Jamii Mkuu hauwezi kulinganisha, lakini, tofauti na Utafiti wa Jamii Mkuu, Twitter haina kuchunguza watumiaji kwa makini na haifanyi kazi kwa bidii kudumisha kulinganisha kwa muda. Kwa sababu vyanzo hivi viwili vya data ni tofauti, haifai kusema kuwa Jumuiya ya Jamii ya jumla ni bora kuliko Twitter au kinyume chake. Ikiwa unataka hatua za kila saa za hali ya kimataifa (kwa mfano, Golder and Macy (2011) ), Twitter ni bora. Kwa upande mwingine, ikiwa unataka kuelewa mabadiliko ya muda mrefu katika ubaguzi wa tabia nchini Marekani (kwa mfano, DiMaggio, Evans, and Bryson (1996) ), basi Utafiti wa Jamii Mkuu ni chaguo bora zaidi. Kwa ujumla, badala ya kujaribu kusema kuwa vyanzo vya data kubwa ni bora au mbaya zaidi kuliko aina zingine za data, sura hii itajaribu kufafanua kwa aina gani ya maswali ya utafiti wa vyanzo vya data kubwa vina mali ya kuvutia na kwa aina gani ya maswali ambayo hawatakuwa nao bora.
Wakati wa kufikiri juu ya vyanzo vyenye vya data, watafiti wengi mara moja wanazingatia data za mtandao zilizoundwa na kukusanywa na makampuni, kama vile kumbukumbu za injini za utafutaji na posts za kijamii. Hata hivyo, lengo hili nyembamba linatoka nje vyanzo viwili muhimu vya data kubwa. Kwanza, vyanzo vyenye vyanzo vyenye ushirika vinatoka kwenye vifaa vya digital katika ulimwengu wa kimwili. Kwa mfano, katika sura hii, nitakuambia juu ya utafiti ambao ulijumuisha data ya maduka makubwa ya ukaguzi ili kujifunza jinsi uzalishaji wa mfanyakazi unavyoathiriwa na uzalishaji wa wenzao (Mas and Moretti 2009) . Kisha, katika sura za baadaye, nitakuambia kuhusu watafiti ambao walitumia rekodi za wito kutoka kwa simu za mkononi (Blumenstock, Cadamuro, and On 2015) na data ya kulipa yaliyoundwa na huduma za umeme (Allcott 2015) . Kama mifano hii inavyoonyesha, vyanzo vya data kubwa vya ushirika ni zaidi ya tabia tu ya mtandaoni.
Chanzo cha pili cha data kubwa kilichokosa kwa mtazamo mdogo kwenye tabia ya mtandao ni data iliyoundwa na serikali. Takwimu hizi za serikali, ambazo watafiti witoza rekodi za utawala wa serikali , hujumuisha vitu kama rekodi za kodi, rekodi za shule, na kumbukumbu za takwimu muhimu (kwa mfano, usajili wa kuzaliwa na vifo). Serikali zimeunda data hizi kwa wakati mwingine, mamia ya miaka, na wanasayansi wa kijamii wamekuwa wakitumia kwa muda mrefu kama kuna wanasayansi wa kijamii. Ni nini kilichobadilika, hata hivyo, ni ujaridadi, ambao umeifanya iwe rahisi sana kwa serikali kukusanya, kusambaza, kuhifadhi, na kuchambua data. Kwa mfano, katika sura hii, nitakuambia juu ya utafiti uliopanua data kutoka kwa mita za teksi za serikali ya New York City kwa ajili ya kukabiliana na mjadala wa msingi katika uchumi wa ajira (Farber 2015) . Kisha, katika sura za baadaye, nitakuambia jinsi kumbukumbu za kupiga kura za serikali zilizotumiwa katika utafiti (Ansolabehere and Hersh 2012) na jaribio (Bond et al. 2012) .
Nadhani wazo la kurudia ni msingi wa kujifunza kutoka kwa vyanzo vya data kubwa, na hivyo, kabla ya kuzungumza zaidi kuhusu mali ya vyanzo vya data kubwa (kifungu 2.3) na jinsi hizi zinaweza kutumika katika utafiti (kifungu 2.4), napenda kutoa vipande viwili vya ushauri wa jumla kuhusu kurudia tena. Kwanza, inaweza kuwashawishi kufikiri juu ya tofauti ambayo nimeweka ikiwa ni kati ya data "kupatikana" na data "iliyoundwa". Hiyo ni karibu, lakini si sawa kabisa. Hata ingawa, kutokana na mtazamo wa watafiti, vyanzo vingi vya data "hupatikana," hazianguka tu kutoka angani. Badala yake, vyanzo vya data ambavyo "hupatikana" na watafiti vinatengenezwa na mtu kwa kusudi fulani. Kwa sababu data "ya kupatikana" imeundwa na mtu, mimi daima kupendekeza kwamba kujaribu kuelewa iwezekanavyo kuhusu watu na taratibu ambazo ziliunda data yako. Pili, unapopia data mara nyingi, mara nyingi husaidia sana kufikiri dataset nzuri ya tatizo lako na kisha kulinganisha dasaset bora na ile unayoyotumia. Ikiwa haukukusanya data zako mwenyewe, kuna uwezekano wa kuwa tofauti muhimu kati ya unataka na kile ulicho nacho. Kufahamu tofauti hizi itasaidia kufafanua kile unachoweza na hauwezi kujifunza kutoka kwenye data uliyo nayo, na inaweza kupendekeza data mpya ambayo unapaswa kukusanya.
Katika uzoefu wangu, wanasayansi wa jamii na wanasayansi wa data huwa wanakabiliwa na kurudia tofauti sana. Wanasayansi wa jamii, ambao wamezoea kufanya kazi na data iliyopangwa kwa ajili ya utafiti, huwa wa haraka kuelezea matatizo na data iliyopunguzwa wakati hawakubali nguvu zake. Kwa upande mwingine, wanasayansi wa data ni kawaida kwa haraka kuelezea faida za data iliyopunguzwa wakati wa kupuuza udhaifu wake. Kwa kawaida, njia bora ni mseto. Hiyo ni, watafiti wanapaswa kuelewa sifa za vyanzo vya data kubwa-vyema na vibaya-na kisha ujue jinsi ya kujifunza kutoka kwao. Na, hiyo ndiyo mpango wa sura hii. Katika sehemu inayofuata, nitaelezea sifa kumi za kawaida za vyanzo vya data kubwa. Kisha, katika sehemu inayofuata, nitaelezea mbinu tatu za utafiti ambazo zinaweza kufanya kazi vizuri na data hiyo.