Bila kujali data yako kubwa, labda haina maelezo unayotaka.
Vyanzo vya data vingi vingi havikwisha , kwa maana hawana taarifa ambayo utaitaka utafiti wako. Hii ni kipengele cha kawaida cha data ambazo zimeundwa kwa madhumuni mengine badala ya utafiti. Wanasayansi wengi wa kijamii tayari wamekuwa na uzoefu wa kushughulika na kutokwisha, kama vile utafiti uliopo ambao hauuliuliza swali lililohitajika. Kwa bahati mbaya, matatizo ya kutokamilika huwa yamezidi zaidi katika data kubwa. Katika uzoefu wangu, data kubwa huwa haipo aina tatu za habari zinazofaa kwa utafiti wa kijamii: maelezo ya idadi ya watu kuhusu washiriki, tabia kwenye majukwaa mengine, na data kufanya kazi za ujenzi wa kinadharia.
Kati ya aina tatu za kutofaulu, tatizo la data zisizokwisha kukamilika kwa ujenzi wa vifaa vya kinadharia ni ngumu zaidi kutatua. Na katika uzoefu wangu, mara nyingi hupuuzwa. Kwa kiasi kikubwa, ujenzi wa kinadharia ni mawazo yasiyofikiria ambayo wanasayansi wa kijamii wanajifunza na kufanya kazi ya ujenzi wa kinadharia ina maana ya kupendekeza njia fulani ya kukamata hiyo kwa data inayoonekana. Kwa bahati mbaya, mchakato huu rahisi wa kusikia mara nyingi huwa vigumu sana. Kwa mfano, hebu fikiria kujaribu kujaribu kwa uchunguzi madai ambayo inaonekana rahisi kwamba watu wenye akili zaidi wanapata pesa nyingi. Ili kupima dai hili, unahitaji kupima "akili." Lakini ni nini akili? Gardner (2011) alisema kuwa kuna aina nane ya akili. Na kuna kuna taratibu ambazo zinaweza kupima usahihi yoyote ya aina hizi za akili? Licha ya kiasi kikubwa cha kazi na wanasaikolojia, maswali haya bado hayana majibu mazuri.
Kwa hiyo, hata madai rahisi-watu ambao wana akili zaidi hupata pesa nyingi-inaweza kuwa vigumu kutathmini kwa uaminifu kwa sababu inaweza kuwa vigumu kufanya kazi za ujenzi wa nadharia katika data. Mifano nyingine ya ujenzi wa kinadharia ambayo ni muhimu lakini vigumu kufanya kazi ni pamoja na "kanuni," "mtaji wa kijamii," na "demokrasia." Wanasayansi wa jamii huita mechi kati ya ujenzi wa data na data ya kujenga uhalali (Cronbach and Meehl 1955) . Kama orodha hii fupi ya ujenzi inaonyesha, kujenga uhalali ni tatizo ambalo wanasayansi wa kijamii wamejitahidi kwa muda mrefu sana. Lakini katika uzoefu wangu, matatizo ya kujenga uhalali ni mkubwa zaidi wakati wa kufanya kazi na data ambazo hazikuundwa kwa madhumuni ya utafiti (Lazer 2015) .
Unapotathmini matokeo ya utafiti, njia moja ya haraka na muhimu ya kutathmini uhalali wa ujenzi ni kuchukua matokeo, ambayo kwa kawaida yanaelezwa kwa suala la ujenzi, na kuielezea tena kulingana na data iliyotumiwa. Kwa mfano, fikiria tafiti mbili za kufikiri ambazo zinadai kuwa watu ambao wana akili zaidi hupata pesa nyingi. Katika utafiti wa kwanza, mtafiti aligundua kwamba watu ambao wanajiunga vizuri kwenye mtihani wa matukio ya matukio ya Raven-mtihani uliojifunza vizuri wa uchunguzi wa akili (Carpenter, Just, and Shell 1990) - huwa na mapato ya juu ya taarifa juu ya kurudi kwa kodi. Katika utafiti wa pili, mtafiti aligundua kwamba watu kwenye Twitter ambao walitumia maneno ya muda mrefu zaidi huweza kutaja bidhaa za kifahari. Katika matukio hayo yote, watafiti hawa wanaweza kudai kuwa wameonyesha kwamba watu ambao wana akili zaidi hupata pesa nyingi. Hata hivyo, katika utafiti wa kwanza ujenzi wa kinadharia unafanywa vizuri na data, wakati wa pili hawako. Zaidi ya hayo, kama mfano huu unaonyesha, data zaidi haina kutatua matatizo kwa moja kwa moja na kujenga uhalali. Unapaswa kuwa na shaka matokeo ya utafiti wa pili ikiwa ni pamoja na tweets milioni, tweets bilioni, au tweets trilioni. Kwa watafiti hawajui na wazo la kujenga uhalali, meza 2.2 hutoa mifano ya tafiti ambazo zimefanya kazi za ujenzi wa kinadharia kwa kutumia data ya kufuatilia digital.
Chanzo cha data | Ujenzi wa kinadharia | Marejeleo |
---|---|---|
Maandishi ya barua pepe kutoka chuo kikuu (data ya mta tu) | Mahusiano ya kijamii | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Machapisho ya vyombo vya habari kwenye Weibo | Ushiriki wa kiraia | Zhang (2016) |
Kumbukumbu za barua pepe kutoka kwa kampuni (data ya meta na maandishi kamili) | Utamaduni unafaa katika shirika | Srivastava et al. (2017) |
Ingawa tatizo la data kamili ya kukamata ujenzi wa kinadharia ni vigumu sana kutatua, kuna ufumbuzi wa kawaida kwa aina nyingine za kawaida za kutokwisha kamili: habari zisizo kamili za idadi ya watu na taarifa isiyo kamili juu ya tabia kwenye majukwaa mengine. Suluhisho la kwanza ni kukusanya data unayohitaji; Nitakuambia kuhusu hilo katika sura ya 3 wakati nitakuambia kuhusu tafiti. Pili kuu ufumbuzi ni kufanya ni data wanasayansi wito user-sifa inference na wanasayansi jamii kupiga imputation. Kwa njia hii, watafiti hutumia habari wanayo na watu wengine ili kuathiri sifa za watu wengine. Suluhisho la tatu linalowezekana ni kuchanganya vyanzo vya data nyingi. Utaratibu huu wakati mwingine huitwa kuunganisha rekodi . Mfano wangu unaopenda kwa mchakato huu uliandikwa na Dunn (1946) katika aya ya kwanza sana ya karatasi ya kwanza kabisa iliyoandikwa kwenye ushirikiano wa rekodi:
"Kila mtu katika ulimwengu anaunda Kitabu cha Uzima. Kitabu hiki huanza na kuzaliwa na kuishia na kifo. Kurasa zake zinajumuisha kumbukumbu za matukio makuu katika maisha. Kuunganisha rekodi ni jina lililopewa utaratibu wa kukusanya kurasa za kitabu hiki kwa kiasi. "
Wakati Dunn aliandika kifungu hicho alikuwa anafikiri kwamba Kitabu cha Uzima kinaweza kujumuisha matukio makubwa ya maisha kama kuzaliwa, ndoa, talaka, na kifo. Hata hivyo, kwa kuwa habari nyingi kuhusu watu zimeandikwa, Kitabu cha Uzima kinaweza kuwa picha ya ajabu, ikiwa kurasa hizo tofauti (yaani, mbinu zetu za digital) zinaweza kufungwa pamoja. Kitabu hiki cha Uzima kinaweza kuwa rasilimali nzuri kwa watafiti. Lakini, pia inaweza kuitwa database ya uharibifu (Ohm 2010) , ambayo inaweza kutumika kwa kila aina ya madhumuni yasiyo ya uaminifu, kama nitakavyoelezea katika sura ya 6 (Maadili).