Hakuna jambo jinsi "kubwa" yako "data kubwa" pengine hana habari unataka.
Wengi kubwa ya vyanzo data ni pungufu, kwa maana kwamba wao hawana taarifa kwamba wewe unataka kwa ajili ya utafiti wako. Hii ni hulka ya kawaida ya data kwamba viliumbwa kwa madhumuni mengine zaidi ya utafiti. wanasayansi wengi wa kijamii tayari alikuwa na uzoefu wa kushughulika na incompleteness, kama vile utafiti zilizopo kwamba hakuwa na kuuliza swali alitaka. Kwa bahati mbaya, matatizo ya incompleteness huwa na kuwa uliokithiri zaidi katika data kubwa. Katika uzoefu wangu, data kubwa inaelekea kuwa kukosa aina tatu za taarifa muhimu kwa ajili ya utafiti wa jamii: idadi ya watu, tabia kwenye majukwaa mengine, na data za kuanza kutumia kubuni nadharia.
Yote matatu ya aina hizi za incompleteness ni kielelezo katika utafiti na Gueorgi Kossinets na Duncan Watts (2006) kuhusu mageuzi ya mtandao wa kijamii katika chuo kikuu. Kossinets na Watts ilianza na magogo email kutoka chuo kikuu, ambayo ilikuwa na taarifa sahihi kuhusu nani alimtuma barua pepe kwa nani wakati gani (watafiti hawakuwa na upatikanaji wa maudhui ya barua pepe). rekodi email Hizi sauti kama CCD ajabu, lakini, wao ni-licha ya kawaida yao na granularity-kimsingi pungufu. Kwa mfano, magogo email si ni pamoja na data kuhusu demografia ya wanafunzi, kama vile jinsia na umri. Zaidi ya hayo, magogo email si ni pamoja na taarifa kuhusu mawasiliano kupitia vyombo vya habari nyingine, kama vile simu, ujumbe wa maandishi, au mazungumzo ya uso kwa uso. Hatimaye, magogo email si moja kwa moja ni pamoja na taarifa kuhusu mahusiano, kubuni nadharia katika nadharia nyingi zilizopo. Baadaye katika sura, wakati mimi majadiliano juu ya mikakati ya utafiti, utaona jinsi Kossinets na Watts kutatuliwa matatizo haya.
Ya aina tatu ya incompleteness, tatizo la data haujakamilika za kuanza kutumia kubuni nadharia ni gumu kutatua, na katika uzoefu wangu, ni mara nyingi ajali kupuuzwa na data wanasayansi. Takribani, kubuni nadharia ni mawazo abstract kwamba wanasayansi wa jamii kujifunza, lakini kwa bahati mbaya, constructs hizi hawawezi daima unambiguously inavyoelezwa na kipimo. Kwa mfano, hebu fikiria kujaribu empirically mtihani madai inaonekana rahisi kwamba watu ambao ni zaidi ya akili kupata fedha zaidi. Ili mtihani dai hili ungependa haja ya kupima "akili." Lakini, ni nini akili? Kwa mfano, Gardner (2011) alisema kuwa ni kweli kuna nane aina mbalimbali ya akili. Na, je, kuna taratibu ambayo inaweza kupima usahihi yoyote ya aina hizi za upelelezi? Pamoja na kiasi kikubwa cha kazi na wanasaikolojia, maswali haya bado hawana majibu suala la utata. Hivyo, hata rahisi kiasi madai-watu ambao ni zaidi ya akili kulipwa zaidi fedha-inaweza kuwa vigumu kutathmini empirically kwa sababu inaweza kuwa vigumu za kuanza kutumia kubuni nadharia katika data. Mifano mingine ya kubuni nadharia ambazo ni muhimu lakini vigumu za kuanza kutumia ni pamoja na "kanuni", "mtaji wa kijamii," na "demokrasia." Wanasayansi za kijamii kuwaita mechi kati ya kubuni nadharia na data kujenga uhalali (Cronbach and Meehl 1955) . Na, kama orodha hii ya constructs unaonyesha, kujenga uhalali ni tatizo ambalo wanasayansi ya jamii Jihadi pamoja na kwa muda mrefu sana, hata wakati wao walikuwa wakifanya kazi na data kwamba zilikusanywa kwa madhumuni ya utafiti. Wakati wa kufanya kazi na data zilizokusanywa kwa madhumuni mengine zaidi ya utafiti, matatizo ya kujenga uhalali ni hata changamoto zaidi (Lazer 2015) .
Wakati wewe ni kusoma karatasi utafiti, njia moja ya haraka na muhimu kutathmini wasiwasi kuhusu kujenga uhalali ni kuchukua madai kuu katika karatasi, ambayo ni kawaida yaliyotolewa katika suala la constructs, na re-kueleza kuwa katika suala la data kutumika. Kwa mfano, fikiria tafiti mbili za kubuni ambayo wanadai kuonyesha kwamba watu zaidi akili kupata fedha zaidi:
Katika kesi zote, watafiti inaweza kudai kuwa wao umeonyesha kwamba watu zaidi akili kupata fedha zaidi. Lakini, katika utafiti wa kwanza kubuni nadharia ni vizuri zitekelezwe na data, na katika pili wao si. Zaidi ya hayo, kama mfano huu unaeleza, data zaidi haina moja kwa moja kutatua matatizo na kujenga uhalali. Unapaswa shaka matokeo ya kifani 2 iwe ni kushiriki milioni tweets, tweets bilioni, au tweets trilioni. Kwa watafiti si ukoo na wazo la kujenga uhalali, Jedwali 2.2 hutoa baadhi ya mifano ya masomo ambayo zitekelezwe kubuni nadharia kutumia data digital kuwaeleza.
Digital kuwaeleza | kinadharia kujenga | citation |
---|---|---|
email magogo kutoka chuo kikuu (meta-data tu) | mahusiano ya kijamii | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
posts kijamii vyombo vya habari juu ya Weibo | Civic ushiriki | Zhang (2016) |
email magogo kutoka kampuni (meta-data na maandishi kamili) | Utamaduni fit katika shirika | Goldberg et al. (2015) |
Ingawa tatizo la data haujakamilika kwa constructs operationalizing kinadharia ni vigumu kutatua, kuna ufumbuzi matatu ya kawaida na tatizo la haujakamilika idadi ya watu habari na maelezo pungufu juu ya tabia kwenye majukwaa mengine. kwanza ni kweli kukusanya data unahitaji; Nitakuambia kuhusu mfano wa kwamba katika Sura ya 3 wakati mimi kukuambia kuhusu tafiti. Kwa bahati mbaya, aina hii ya ukusanyaji wa takwimu si mara zote iwezekanavyo. Pili kuu ufumbuzi ni kufanya kile data wanasayansi wito user-sifa inference na nini wanasayansi ya jamii kuwaita imputation. Katika mbinu hii, watafiti kutumia habari kwamba wana juu ya baadhi ya watu na kudai sifa za watu wengine. tatu inawezekana ufumbuzi moja kutumiwa na Kossinets na Watts-alikuwa kuchanganya vyanzo mbalimbali data. Utaratibu huu ni wakati mwingine aitwaye kuunganisha au rekodi uhusiano. Mfano My favorite kwa ajili ya mchakato huu alikuwa mapendekezo katika aya ya kwanza ya karatasi ya kwanza kabisa kuwahi kuandikwa kwenye rekodi uhusiano (Dunn 1946) :
"Kila mtu katika dunia inajenga kitabu cha uzima. Kitabu Hii huanza na kuzaliwa na kuishia na kifo. kurasa zake ni linaloundwa na kumbukumbu za matukio kanuni katika maisha. Rekodi uhusiano ni jina aliyopewa mchakato wa kukusanyika kurasa za kitabu hiki katika kiasi. "
Kifungu hiki iliandikwa mwaka 1946, na wakati huo huo, watu walikuwa wakidhani kwamba kitabu cha uzima inaweza ni pamoja na matukio makubwa ya maisha kama kuzaliwa, ndoa, talaka, na kifo. Hata hivyo, sasa kiasi habari kuhusu watu ni kumbukumbu, kitabu cha uzima inaweza kuwa portrait incredibly kina, kama wale kurasa tofauti (yaani, athari yetu digital), inaweza amefungwa pamoja. Kitabu hiki cha Maisha inaweza kuwa rasilimali kubwa kwa watafiti. Lakini, kitabu cha uzima inaweza pia kuitwa database ya uharibifu (Ohm 2010) , ambayo inaweza kutumika kwa kila aina ya madhumuni unethical, kama ilivyoelezwa zaidi chini wakati mimi majadiliano juu ya hali nyeti ya habari zilizokusanywa na vyanzo big data chini na katika Sura ya 6 (maadili).