Rahisi kuhesabu inaweza kuwa ya kuvutia kama wewe kuchanganya swali mzuri na data nzuri.
Ingawa imewekwa kwa lugha ya kisasa, uchunguzi wa jamii ni kweli tu kuhesabu mambo. Katika umri wa data kubwa, watafiti wanaweza kuhesabu zaidi kuliko hapo awali, lakini hiyo haina maana kwamba wanapaswa kuanza tu kuhesabu haphazardly. Badala yake, watafiti wanapaswa kuuliza: Ni mambo gani yenye thamani ya kuhesabu? Hii inaweza kuonekana kama sura kabisa, lakini kuna baadhi ya mifumo ya jumla.
Mara nyingi wanafunzi huhamasisha utafiti wao wa kuhesabu kwa kusema: Nitahesabu kitu ambacho hakuna mtu aliyewahi kuhesabiwa hapo awali. Kwa mfano, mwanafunzi anaweza kusema kuwa watu wengi wamejifunza wahamiaji na watu wengi wamejifunza mapacha, lakini hakuna mtu amejifunza mapacha ya migeni. Katika uzoefu wangu, mkakati huu, ambao ninawahamasisha motisha kwa kutokuwepo , haifai kuwa na utafiti mzuri. Kuhamasishwa kwa kutokuwepo ni aina kama ya kusema kwamba kuna shimo huko, nami nitafanya kazi ngumu sana kuijaza. Lakini si kila shimo inahitaji kujazwa.
Badala ya kusisimua kwa kutokuwepo, nadhani mkakati bora ni kutafuta maswali ya utafiti ambayo ni muhimu au ya kuvutia (au kwa kweli wote wawili). Masharti haya yote ni ngumu sana kufafanua, lakini njia moja ya kufikiri kuhusu utafiti muhimu ni kwamba ina baadhi ya athari kupimwa au feeds katika uamuzi muhimu na watunga sera. Kwa mfano, kupima kiwango cha ukosefu wa ajira ni muhimu kwa sababu ni kiashiria cha uchumi kinachoongoza maamuzi ya sera. Kwa ujumla, nadhani kwamba watafiti wana hisia nzuri ya kile ambacho ni muhimu. Kwa hiyo, katika sehemu hii yote, nitakupa mifano miwili ambapo nadhani kuhesabu ni ya kuvutia. Katika kila kesi, watafiti hawakuhesabu hesabu; badala, walikuwa wakihesabu katika mazingira maalum ambayo yalitambua ufahamu muhimu katika mawazo zaidi kuhusu jinsi mifumo ya kijamii inavyofanya kazi. Kwa maneno mengine, mengi ya nini hufanya mazoezi haya ya kuhesabu ni ya kuvutia sio data yenyewe, inatoka kwa mawazo haya ya jumla.
Mfano mmoja wa uwezo rahisi wa kuhesabu unatoka kwa utafiti wa Henry Farber wa (2015) wa tabia ya madereva ya teksi ya New York. Ijapokuwa kundi hili haliwezi kuonekana kwa kuvutia, ni tovuti ya utafiti wa kimkakati ili kupima nadharia mbili za ushindani katika uchumi wa ajira. Kwa madhumuni ya utafiti wa Farber, kuna mambo mawili muhimu kuhusu mazingira ya kazi ya madereva ya teksi: (1) mshahara wao wa saa kwa kila siku hubadilishana kila siku, kulingana na sehemu kama hali ya hewa, na (2) saa za masaa kazi inaweza kubadilika kila siku kulingana na maamuzi yao. Sifa hizi zinaongoza swali la kuvutia kuhusu uhusiano kati ya mshahara wa saa na masaa uliofanywa. Mifano ya Neoclassical katika uchumi kutabiri kuwa madereva ya teksi atafanya kazi zaidi siku ambazo wana mishahara ya saa ya juu. Vinginevyo, mifano kutoka kwa uchumi wa tabia hutabiri sawa kabisa. Ikiwa madereva huweka lengo fulani la mapato-sema $ 100 kwa siku-na kazi mpaka lengo hilo limekutana, basi madereva wataishia kufanya kazi saa machache kwa siku ambazo wanapata zaidi. Kwa mfano, ikiwa ungekuwa mkulima, unaweza kuishia saa nne kwa siku nzuri ($ 25 kwa saa) na saa tano siku mbaya ($ 20 kwa saa). Kwa hivyo, madereva hufanya kazi zaidi kwa siku kwa mishahara ya juu ya saa (kama ilivyotabiriwa na mifano ya neoclassical) au saa zaidi kwa siku na mishahara ya chini ya saa (kama ilivyotabiriwa na mifano ya kiuchumi ya tabia)?
Ili kujibu swali hili Farber alinunua data kwenye safari ya kila teksi iliyochukuliwa na cabs ya New York City kutoka 2009 hadi 2013, data ambayo sasa inapatikana kwa umma. Takwimu hizi zilizokusanywa na mita za umeme ambazo mji unahitaji usisi kutumia-ni pamoja na taarifa kuhusu safari ya kila: kuanza wakati, kuanza eneo, wakati wa mwisho, mahali pa mwisho, nauli, na ncha (kama ncha ililipwa kwa kadi ya mkopo) . Kutumia data ya mita ya teksi, Farber iligundua kwamba madereva wengi hufanya kazi zaidi siku ambazo mishahara ni ya juu, sawa na nadharia ya neoclassical.
Mbali na uchunguzi huu kuu, Farber aliweza kutumia ukubwa wa data kwa ufahamu bora wa heterogeneity na mienendo. Aligundua kwamba, baada ya muda, madereva mapya kwa hatua kwa hatua kujifunza kufanya kazi zaidi masaa kwenye siku za mshahara wa juu (kwa mfano, wanajifunza kutenda kama mfano wa neoclassical unavyosema). Na madereva mapya ambao hufanya zaidi kama waliopata lengo ni zaidi ya kuacha madereva ya teksi. Matokeo haya yote ya hila zaidi, ambayo husaidia kuelezea tabia iliyoonekana ya madereva wa sasa, yaliwezekana tu kwa sababu ya ukubwa wa dataset. Hawakuweza kuchunguza katika masomo ya awali ambayo yalitumia karatasi za safari za karatasi kutoka kwa idadi ndogo ya madereva wa teksi kwa muda mfupi (Camerer et al. 1997) .
Utafiti wa Farber ulikuwa karibu na hali bora ya utafiti kwa kutumia chanzo kikubwa cha data kwa sababu data zilizokusanywa na jiji zilikuwa karibu na data ambayo Farber ingekusanya (tofauti moja ni kwamba Farber ingekuwa inataka data kwenye jumla mshahara-nauli pamoja na vidokezo-lakini data ya jiji tu ni pamoja na vidokezo zilizolipwa na kadi ya mkopo). Hata hivyo, data peke yake haitoshi. Ufunguo wa utafiti wa Farber ulileta swali la kuvutia kwa data, swali linalo na maana kubwa zaidi ya mazingira haya maalum.
Mfano wa pili wa kuhesabu vitu unatoka kwa utafiti wa Gary King, Jennifer Pan, na Molly Roberts (2013) juu ya udhibiti wa mtandaoni na serikali ya Kichina. Katika kesi hiyo, hata hivyo, watafiti walipaswa kukusanya data zao wenyewe kubwa na walipaswa kukabiliana na ukweli kwamba data zao hazikukamilishwa.
Mfalme na wenzi wenzake walikuwa wakiongozwa na ukweli kwamba vyombo vya habari vya kijamii nchini China vinachunguzwa na vifaa vya hali kubwa ambazo ni wazo la kuwa na maelfu ya watu. Watafiti na wananchi, hata hivyo, hawajui jinsi hizi censors huamua nini maudhui yanapaswa kufutwa. Wasomi wa China kwa kweli wana matarajio yanayopingana kuhusu aina gani za posts ambazo zinawezekana kufutwa. Wengine wanafikiri kwamba censors kuzingatia posts ambayo ni muhimu ya serikali, wakati wengine wanafikiri kuwa wanazingatia posts ambayo kuhimiza tabia ya pamoja, kama maandamano. Kuelezea ni mojawapo ya matarajio haya ni sahihi kwa jinsi watafiti wanavyoelewa China na serikali nyingine za mamlaka zinazohusika. Kwa hiyo, Mfalme na wenzake walitaka kulinganisha machapisho yaliyochapishwa na hatimaye kufutwa na machapisho yaliyochapishwa na kamwe hayakufutwa.
Kukusanya posts hizo zilihusisha ajabu uhandisi feat ya kutambaa zaidi ya 1,000 Kichina kijamii vyombo vya habari-kila mmoja kwa tofauti Layouts ukurasa wa kutafuta posts husika, na kisha kupitia upya nyadhifa hizi kuona ambao walikuwa hatimaye ilifutwa. Mbali na matatizo uhandisi kawaida kuhusishwa na kiwango kikubwa web-kutambaa, mradi huu alikuwa na changamoto Aliongeza kuwa zinahitajika kuwa haraka sana kwa sababu wengi censored posts ni kuchukuliwa chini katika chini ya masaa 24. Kwa maneno mengine, crawler polepole ingekuwa miss kura ya posts kwamba zilikaguliwa. Zaidi ya hayo, crawlers alikuwa na kufanya ukusanyaji hii data zote wakati kukwepa kugundua isije kijamii vyombo vya habari kuzuia upatikanaji au vinginevyo kubadilisha sera zao katika kukabiliana na masomo.
Wakati ambapo kazi hii kubwa ya uhandisi imekamilika, Mfalme na wenzake wamepata machapisho milioni 11 juu ya mada 85 tofauti yaliyothibitishwa, kila mmoja akiwa na kiwango cha uelewa. Kwa mfano, mada ya uelewa wa juu ni Ai Weiwei, msanii wa wasiwasi; mada ya uelewa wa kati ni shukrani na kupoteza thamani ya sarafu ya Kichina, na mada ya unyenyekevu mdogo ni Kombe la Dunia. Kati ya machapisho haya milioni 11, takribani milioni 2 imechukuliwa. Kwa kushangaza, Mfalme na wenzake waligundua kuwa machapisho kwenye mada nyeti yalikuwa yanachukuliwa mara kwa mara kidogo zaidi kuliko machapisho ya mada ya katikati na ya chini ya unyeti. Kwa maneno mengine, wachunguzi wa Kichina ni kuhusu uwezekano wa kuchunguza chapisho ambalo linasema Ai Weiwei kama chapisho ambalo linaelezea Kombe la Dunia. Matokeo haya hayashiriki wazo kwamba serikali inachunguza machapisho yote kwenye mada nyeti.
Hesabu hii rahisi ya kiwango cha udhibiti kwa mada inaweza kuwa ya kupotosha, hata hivyo. Kwa mfano, serikali inaweza kuchunguza machapisho ambayo yanasaidia Ai Weiwei, lakini iache machapisho ambayo yamekuwa muhimu kwake. Ili kutofautisha kati ya machapisho kwa makini zaidi, watafiti walihitaji kupima hisia za kila baada. Kwa bahati mbaya, licha ya kazi nyingi, mbinu kamili za automatiska ya kutambua hisia kutumia dictionaries zilizopo bado si nzuri sana katika hali nyingi (fikiria nyuma matatizo ya kujenga ratiba ya hisia ya Septemba 11, 2001 ilivyoelezwa katika kifungu 2.3.9). Kwa hiyo, Mfalme na wenzake walihitaji njia ya kuandika machapisho yao milioni 11 ya vyombo vya habari kuhusu kama walikuwa (1) muhimu ya serikali, (2) kuunga mkono hali, au (3) ripoti zisizofaa au za kweli kuhusu matukio. Hii inaonekana kama kazi kubwa, lakini wao kutatuliwa kwa kutumia hila kali ambayo ni ya kawaida katika sayansi ya data lakini ni nadra katika sayansi ya kijamii: kujifunza kujifunza ; angalia takwimu 2.5.
Kwanza, katika hatua inayojulikana kwa kawaida kama preprocessing, watafiti waongofu vyombo vya habari posts kijamii ndani ya tumbo hati mrefu, ambapo kulikuwa na mstari moja kwa kila hati na safu moja kwamba kumbukumbu kama baada zilizomo neno maalum (kwa mfano, maandamano au trafiki) . Kisha, kikundi cha wasaidizi wa utafiti mkono-kinachotajwa hisia ya sampuli ya machapisho. Kisha, walitumia data hii iliyosajiliwa kwa mkono ili kuunda mfano wa kujifunza mashine ambayo inaweza kusababisha hisia ya chapisho kulingana na sifa zake. Hatimaye, walitumia mfano huu ili kukadiria hisia za machapisho yote milioni 11.
Kwa hiyo, badala ya kusoma na kuandika machapisho milioni 11-ambayo ingekuwa haiwezekani-Mfalme na wenzake kwa jina la kibaraka idadi ndogo ya machapisho na kisha kutumika kujifunza kusimamiwa ili kukadiria hisia ya machapisho yote. Baada ya kukamilisha uchambuzi huu, waliweza kuhitimisha kuwa, kwa kushangaza, uwezekano wa chapisho kufutwa haukuhusishwa na ikiwa ni muhimu kwa hali au kuunga mkono hali.
Hatimaye, Mfalme na wenzi wenzake waligundua kwamba aina tatu tu za machapisho zilikuwa zimehifadhiwa mara kwa mara: ponografia, upinzani wa censeors, na wale ambao walikuwa na uwezo wa pamoja (yaani, uwezekano wa kuongoza kwa maandamano makubwa). Kwa kuchunguza idadi kubwa ya machapisho yaliyofutwa na machapisho ambayo hayajafutwa, Mfalme na wenzake waliweza kujifunza jinsi censors hufanya kazi kwa kuangalia na kuhesabu. Zaidi ya hayo, kielelezo cha mandhari ambayo itatokea katika kitabu hiki, mbinu ya kujifunza iliyosimamiwa ambayo walitumikia-kuandika mkono baadhi ya matokeo na kisha kujenga mtindo wa kujifunza mashine kwa alama ya mapumziko-inaonekana kuwa ya kawaida katika utafiti wa kijamii katika umri wa digital . Utaona picha sawa na takwimu 2.5 katika sura 3 (Kuuliza maswali) na 5 (Kujenga ushirikiano wa wingi); hii ni moja ya mawazo machache ambayo yanaonekana katika sura nyingi.
Mifano hizi-tabia ya kazi ya madereva ya teksi huko New York na tabia ya kijamii ya udhibiti wa vyombo vya habari ya serikali ya Kichina kuonyesha kuwa rahisi hesabu ya vyanzo vya data kubwa inaweza, katika hali fulani, kusababisha utafiti wa kuvutia na muhimu. Katika kesi zote mbili, hata hivyo, watafiti walipaswa kuleta maswali ya kuvutia kwa chanzo kikubwa cha data; data yenyewe haitoshi.