2.4.1.3 Udhibiti wa kijamii vyombo vya habari na serikali ya China

Watafiti scraped Kichina kijamii vyombo vya habari maeneo ya kujifunza udhibiti. Wao kushughulikiwa na incompleteness na latent-bainishi jinsi anavyojua.

Mbali na data kubwa kutumika katika mifano miwili ya awali, watafiti wanaweza pia kukusanya data zao wenyewe za uchunguzi, kama ilikuwa ajabu mfano kwa Gary King, Jennifer Pan, na Molly Roberts ' (2013) utafiti juu ya udhibiti na serikali ya China.

Kijamii posts vyombo vya habari nchini China ni ipitiwe na kubwa vyombo vya dola kuwa ni wazo ni pamoja na maelfu ya watu. Watafiti na wananchi, hata hivyo, kuwa na hisia kidogo ya jinsi censors hizi kuamua nini maudhui lazima ilifutwa kutoka vyombo vya habari kijamii. Wasomi wa China kweli kuwa matarajio ya kutatanisha kuhusu ambayo aina ya posts ni zaidi uwezekano wa kupata ilifutwa. Wengine wanafikiri kwamba censors kuzingatia posts ambayo ni muhimu wa hali huku wengine wanafikiri kuzingatia posts kwamba kuhimiza tabia ya pamoja, kama vile maandamano. Kuhesabia nje ambayo ya matarajio haya ni sahihi ina maana kwa ajili ya jinsi watafiti kuelewa China na mengine serikali za kimabavu kwamba kushiriki katika udhibiti. Hivyo, mfalme na wenzake walitaka kulinganisha posts kwamba walikuwa kuchapishwa na hatimaye ilifutwa kwa posts kwamba walikuwa kuchapishwa na kamwe ilifutwa.

Kukusanya posts hizo zilihusisha ajabu uhandisi feat ya kutambaa zaidi ya 1,000 Kichina kijamii vyombo vya habari-kila mmoja kwa tofauti Layouts ukurasa wa kutafuta posts husika, na kisha kupitia upya nyadhifa hizi kuona ambao walikuwa hatimaye ilifutwa. Mbali na matatizo uhandisi kawaida kuhusishwa na kiwango kikubwa web-kutambaa, mradi huu alikuwa na changamoto Aliongeza kuwa zinahitajika kuwa haraka sana kwa sababu wengi censored posts ni kuchukuliwa chini katika chini ya masaa 24. Kwa maneno mengine, crawler polepole ingekuwa miss kura ya posts kwamba zilikaguliwa. Zaidi ya hayo, crawlers alikuwa na kufanya ukusanyaji hii data zote wakati kukwepa kugundua isije kijamii vyombo vya habari kuzuia upatikanaji au vinginevyo kubadilisha sera zao katika kukabiliana na masomo.

Mara baada ya huu mkubwa uhandisi kazi kukamilika, King na wenzake alikuwa kupatikana kuhusu milioni 11 posts juu ya mada 85 tofauti waliokuwa kabla ya maalum kwa kuzingatia kiwango chao inatarajiwa ya unyeti. Kwa mfano, mada ya unyeti juu ni Ai Weiwei, msanii mpinzani; mada ya unyeti katikati ni shukrani na Kushuka kwa thamani ya sarafu ya China, na mada ya unyeti chini ni Kombe la Dunia. Ya nyadhifa hizi milioni 11 milioni 2 alikuwa censored, lakini posts juu ya mada nyeti sana zilikaguliwa kidogo tu mara nyingi zaidi kuliko posts juu ya mada kati na chini unyeti. Kwa maneno mengine, censors China ni kuhusu kama uwezekano wa kudhibiti baada ya kuwa anataja Ai Weiwei kama baada ya kuwa anataja Kombe la Dunia. Matokeo haya hakuwa na mechi wazo simplistic kwamba serikali censors posts zote juu ya mada nyeti.

Hii hesabu rahisi ya kiwango cha udhibiti na mada inaweza kuwa na kupotosha, hata hivyo. Kwa mfano, serikali inaweza kudhibiti posts kwamba ni kuunga mkono Ai Weiwei, lakini kuondoka posts ambayo ni muhimu kwake. Ili kutofautisha kati ya posts kwa makini zaidi, watafiti haja ya kupima mawazo ya kila post. Hivyo, njia moja ya kufikiri juu yake ni kwamba mawazo ya kila baada katika muhimu latent hulka ya kila post. Kwa bahati mbaya, licha ya kazi nyingi, mbinu automatiska kikamilifu ya kugundua kutokuwa kutumia Mkwawa awali iliyopo bado si nzuri sana katika hali nyingi (kufikiri nyuma kwa matatizo kujenga ratiba hisia ya Septemba 11, 2001 kutokana na Sehemu ya 2.3.2.6). Hivyo, mfalme na wenzake walihitaji njia ya studio yao milioni 11 kijamii vyombo vya habari posts ya kama walikuwa 1) muhimu ya serikali, 2) kuunga mkono serikali, au 3) lisilo au sahihi ripoti kuhusu matukio. Hii inaonekana kama kazi kubwa, lakini wao kutatuliwa yake kwa kutumia hila nguvu; moja ambayo ni ya kawaida katika data sayansi lakini kwa sasa nadra sana katika sayansi ya kijamii.

Kwanza, katika hatua kawaida inayoitwa kabla ya usindikaji, watafiti kubadilishwa posts kijamii vyombo vya habari ndani ya tumbo hati mrefu, ambapo kulikuwa na mstari mmoja kwa kila hati na safu moja kwamba kumbukumbu iwapo baada zilizomo neno maalum (kwa mfano, maandamano, trafiki, nk). Next, kundi la watafiti wasaidizi mkono-kinachoitwa kutokuwa ya sampuli ya goli. Kisha, Mfalme na wenzake kutumika hii mkono-kinachoitwa data kukadiria mashine kujifunza mfumo ambao ungeweza kudai kutokuwa wa baada kulingana na tabia yake. Hatimaye, walitumia mashine hii ya kujifunza mfano kukadiria mawazo ya posts zote milioni 11. Hivyo, badala ya manually kusoma na kuipatia posts milioni 11 (ambayo itakuwa ni logistically haiwezekani), wao manually kinachoitwa idadi ndogo ya posts na kisha kutumika kile wanasayansi data kuita kujifunza inasimamiwa na makisio makundi ya posts wote. Baada ya kukamilisha uchambuzi huu, King na wenzake walikuwa na uwezo wa kuhitimisha kwamba, kiasi fulani ya kushangaza, uwezekano wa baada ya kufutwa mara lisilohusiana na iwapo ilikuwa muhimu ya serikali au kuunga mkono serikali.

Kielelezo 2.3: Kilichorahisishwa schematic kwa utaratibu kutumika katika King, Pan, na Roberts (2013) kwa kukadiria mawazo ya Kichina posts milioni 11 kijamii vyombo vya habari. Kwanza, katika hatua kawaida inayoitwa kabla ya usindikaji, watafiti kubadilishwa kijamii vyombo vya habari posts ndani ya tumbo hati mrefu (tazama GRIMMER na Stewart (2013) kwa maelezo zaidi). Pili, watafiti mkono-coded mawazo ya sampuli ndogo ya posts. Tatu, watafiti mafunzo inasimamiwa kujifunza mfano wa kuainisha mawazo ya posts. Nne, watafiti kutumika inasimamiwa kujifunza mfano kukadiria mawazo ya posts wote. Angalia King, Pan, na Roberts (2013), Kiambatisho B kwa maelezo ya kina zaidi.

Kielelezo 2.3: Kilichorahisishwa schematic kwa utaratibu kutumika katika King, Pan, and Roberts (2013) kwa kukadiria mawazo ya Kichina posts milioni 11 kijamii vyombo vya habari. Kwanza, katika hatua kawaida inayoitwa kabla ya usindikaji, watafiti kubadilishwa kijamii vyombo vya habari posts ndani ya tumbo hati mrefu (tazama Grimmer and Stewart (2013) kwa maelezo zaidi). Pili, watafiti mkono-coded mawazo ya sampuli ndogo ya posts. Tatu, watafiti mafunzo inasimamiwa kujifunza mfano wa kuainisha mawazo ya posts. Nne, watafiti kutumika inasimamiwa kujifunza mfano kukadiria mawazo ya posts wote. Angalia King, Pan, and Roberts (2013) , Kiambatisho B kwa maelezo ya kina zaidi.

Katika mwisho, King na wenzake waligundua kuwa aina tatu tu ya posts walikuwa mara kwa mara censored: picha za uchi, upinzani wa censors, na wenye pamoja kitendo tarajiwa (yaani, uwezekano wa kusababisha maandamano makubwa). Kwa kuangalia idadi kubwa ya posts kwamba walikuwa ilifutwa na posts kwamba walikuwa si kuchapa, King na wenzake walikuwa na uwezo wa kujifunza jinsi censors kufanya kazi tu kwa kuangalia na kuhesabu. Katika utafiti baadae, kwa kweli moja kwa moja aliingilia kati katika Kichina kijamii vyombo vya habari mazingira kwa kujenga posts na maudhui kwa utaratibu tofauti na kupimia ambayo kupata censored (King, Pan, and Roberts 2014) . Tutajifunza zaidi kuhusu mbinu ya majaribio katika Sura ya 4. Zaidi ya hayo, kielelezo mandhari ambayo kutokea katika kitabu, haya matatizo-ambayo latent-sifa inference wakati mwingine kutatuliwa kwa inasimamiwa kujifunza-kugeuka kutoka kuwa ya kawaida sana katika utafiti wa kijamii katika digital umri. Utaona picha sawa na Kielelezo 2.3 katika Sura ya 3 (Kuuliza maswali) na 5 (Kujenga ushirikiano wingi); ni moja ya mawazo ya wachache kwamba inaonekana katika sura nyingi.

Yote matatu ya mifano-hizi tabia za kazi ya madereva teksi mjini New York, urafiki malezi na wanafunzi, na kijamii vyombo vya habari udhibiti tabia ya Kichina na serikali kuonyesha kwamba kiasi rahisi zoezi la kuhesabu data za uchunguzi inaweza kuwawezesha watafiti mtihani utabiri nadharia. Katika baadhi ya matukio, data kubwa inawezesha kufanya kuhesabu hii kiasi moja kwa moja (kama katika kesi ya New York Teksi). Katika kesi nyingine, watafiti unahitaji kukusanya yao data mwenyewe uchunguzi (kama katika kesi ya udhibiti Kichina); kukabiliana na incompleteness kwa kuunganisha data pamoja (kama katika kesi ya mtandao mageuzi); au kufanya aina fulani ya latent-bainishi inference (kama katika kesi ya udhibiti Kichina). Kama Natumaini mifano haya kuonyesha, kwa watafiti ambao wana uwezo wa kuuliza maswali ya kuvutia, big ana ahadi kubwa.