Data Big ni kuundwa na zilizokusanywa na serikali kwa madhumuni mengine zaidi ya utafiti. Kwa kutumia data hii kwa ajili ya utafiti, kwa hiyo, inahitaji repurposing.
mtazamo idealized ya utafiti wa kijamii anafikiria mwanasayansi kuwa na wazo na kisha kukusanya takwimu mtihani wazo hilo. Hii mtindo wa utafiti inaongoza kwa fit tight kati ya swali utafiti na data, lakini ni mdogo kwa sababu mtafiti binafsi mara nyingi hawana rasilimali zinazohitajika kukusanya takwimu wanahitaji, kama vile data kubwa, tajiri, na kitaifa mwakilishi. Kwa hivyo, mengi ya utafiti wa kijamii katika siku za nyuma ametumia kiasi kikubwa tafiti za kijamii, kama vile General Social Survey (GSS), American Utafiti Uchaguzi ya Taifa (ANES), na Jopo cha Utafiti wa Dynamics Mapato (PSID). Hizi utafiti kwa kiasi kikubwa kwa ujumla inayoendeshwa na timu ya watafiti na wao ni iliyoundwa kuunda data ambayo inaweza kutumika na watafiti wengi. Kwa sababu ya malengo ya hizi tafiti kwa kiasi kikubwa, tahadhari kubwa ni kuweka katika kubuni ukusanyaji wa takwimu na kuandaa data kusababisha kwa ajili ya matumizi na watafiti. Hizi data ni na watafiti na kwa watafiti.
Wengi utafiti wa kijamii kwa kutumia vyanzo vya digital umri, hata hivyo, ni tofauti kimsingi. Badala ya kutumia data zilizokusanywa na watafiti na kwa watafiti, inatumia data vyanzo kwamba viliumbwa na zilizokusanywa na biashara na serikali kwa madhumuni yao wenyewe kama vile kufanya faida, kutoa huduma, au kuendesha sheria. Biashara na serikali hizi vyanzo data wamekuja kuitwa data kubwa. Kufanya utafiti na data kubwa ni tofauti kuliko kufanya utafiti na data kwamba awali iliundwa kwa ajili ya utafiti. Kulinganisha, kwa mfano, kijamii vyombo vya habari tovuti, kama vile Twitter, na jadi utafiti maoni ya umma kama vile General Social Survey (GSS). Twitter ya malengo makuu ni kutoa huduma kwa watumiaji wake na kutengeneza faida. Katika mchakato wa kufikia malengo hayo, Twitter inajenga data kwamba inaweza kuwa na manufaa kwa ajili ya kusoma kwenye baadhi ya vipengele maoni ya umma. Lakini, tofauti na General Social Survey (GSS), Twitter si hasa ililenga katika utafiti wa kijamii.
mrefu data kubwa ni frustratingly vague, na ni makundi pamoja mambo mengi tofauti. Kwa madhumuni ya utafiti wa kijamii, nadhani ni muhimu kutofautisha kati ya aina mbili ya vyanzo kubwa data. Rekodi za serikali utawala na biashara kumbukumbu ya utawala Serikali kumbukumbu ya utawala ni takwimu ambazo ni kuundwa kwa serikali kama sehemu ya shughuli zao za kawaida. Hizi ni aina ya rekodi zimetumika na watafiti katika siku za nyuma-kama vile demographers kusoma kuzaliwa, ndoa, na kifo rekodi-lakini serikali zinazidi kukusanya na ikitoa rekodi ya kina katika aina analyzable. Kwa mfano, serikali New York City imewekwa mita digital ndani ya kila teksi katika mji. mita hizi kurekodi kila aina ya data kuhusu kila safari ya teksi ikiwa ni pamoja na dereva, wakati wa kuanza na eneo, stop muda na mahali, na nauli. Katika utafiti kwamba mimi nitakuambia baadaye katika sura hii, Henry Farber (2015) repurposed data hizi ili kushughulikia mjadala mkubwa katika uchumi kazi kuhusu uhusiano kati ya mshahara hourly na idadi ya masaa kazi.
Pili aina kuu ya data kubwa kwa ajili ya utafiti wa kijamii ni biashara utawala kumbukumbu. Hizi ni data kwamba biashara kujenga na kukusanya kama sehemu ya shughuli zao za kawaida. Biashara Kumbukumbu hizi za utawala ni mara nyingi huitwa athari digital, na pamoja na mambo kama search engine magogo swala, posts kijamii vyombo vya habari, na kuwaita rekodi kutoka simu za mkononi. Kwa kina, haya kumbukumbu za biashara za utawala si tu kuhusu tabia online. Kwa mfano, Maduka ya kwamba matumizi ya kuangalia-nje scanners ni kujenga hatua halisi wakati wa mfanyakazi tija. Katika utafiti kwamba mimi nitakuambia kuhusu baadaye katika sura hii, Alexandre Mas na Enrico Moretti (2009) repurposed hii maduka makubwa kuangalia-nje data kujifunza jinsi tija ya wafanyakazi ni wanashikiliwa na tija ya wenzao.
Kama wote wawili wa mifano hii mfano, wazo la repurposing ni msingi kwa kujifunza kutoka data kubwa. Katika uzoefu wangu, wanasayansi ya jamii na wanasayansi data mbinu ya hii repurposing tofauti sana. wanasayansi ya jamii, ambao wamezoea kufanya kazi na data iliyoundwa kwa ajili ya utafiti, ni haraka kwa kumweka nje matatizo na data repurposed wakati kupuuza uwezo wake. Kwa upande mwingine, wanasayansi data ni haraka kwa kumweka nje ya faida za data repurposed wakati kupuuza udhaifu wake. Kwa kawaida, mbinu bora itakuwa mseto. Yaani, watafiti haja ya kuelewa tabia ya vyanzo hivi jipya la data-nzuri na mbaya-na kisha kufikiri jinsi ya kujifunza kutoka kwao. Na, kwamba ni mpango kwa ajili ya salio ya sura hii. Next, nami kuelezea sifa kumi ya kawaida ya biashara na serikali data kiutawala. Baada ya hapo, nami kuelezea mbinu ya utafiti tatu ambayo inaweza kutumika kwa takwimu hizi, mbinu kwamba ni inafaa kwa tabia ya data hii.