2.4.1.3 Censorship saka media sosial déning pamaréntah Cina

Peneliti scraped media sosial Chinese sinau censorship. Padha urusan karo incompleteness karo laten-sipat kesimpulan.

Saliyane ing data amba digunakake ing loro conto sadurungé, peneliti uga bisa ngumpulake data pangamatan dhewe, minangka iki apik gambaran dening Gary King, Jennifer Pan, lan Molly Roberts ' (2013) riset ing censorship dening pamaréntah Cina.

kiriman media sosial ing China sing censored dening apparatus negara gedhe tenan sing panginten kanggo kalebu puluhan ewu wong. Peneliti lan warga, Nanging, duwe sethitik raos carane censors iki arep apa kudu dibusak isi saka media sosial. Sarjana saka China bener duwe pangarepan bertentangan bab kang jinis saka kiriman sing paling kamungkinan kanggo dibusak. Sawetara sing censors fokus ing kiriman sing wigati saka negara nalika wong padha mikir fokus ing kiriman sing kasurung prilaku bebarengan, kayata mbantah. Mengetahui kang pangarepan iki bener nduwèni implikasi carane peneliti ngerti China lan pemerintah otoriter sing melu ing censorship. Mulane, King lan kolega wanted kanggo mbandhingaké kiriman kang diterbitaké lan sawisé dibusak kanggo kiriman kang diterbitaké lan tau dibusak.

Ngempalaken postingan iki melu ing engineering feat sange laying luwih saka 1,000 Chinese situs-saben media sosial karo kaca beda noto-nemokake kiriman sing cocog, lan banjur revisiting postingan iki kanggo ndeleng kang padha sawisé dibusak. Saliyane masalah engineering normal gadhah ukuran gedhe web-crawling, project iki wis tantangan ditambahaké sing perlu dadi arang banget cepet amarga akeh kiriman censored sing dijupuk mudhun kurang saka 24 jam. Ing tembung liyane, crawler alon bakal kantun persil saka kiriman sing padha censored. Salajengipun, ing CRAWLERS wis apa kabeh data iki nalika evading deteksi sedulur situs media sosial mblokir utawa digunakake ngganti kawicaksanan sing nanggepi sinau.

Sawise tugas engineering massive iki rampung, King lan kolega wis dijupuk bab 11 yuta posting ing 85 bedo sing padha wis kasebut adhedhasar tingkat samesthine sing sensitif. Contone, topik sensitivitas dhuwur Ai Weiwei, artis dissident; topik sensitivitas tengah iku pakurmatan lan devaluation saka itungan Cina, lan topik sensitivitas kurang Piala Donya. Saka cacah iki mau 11 yuta posting bab 2 yuta wis censored, nanging kiriman ing topik peka padha censored mung rada luwih kerep tinimbang kiriman ing topik sensitivitas tengah lan kurang. Ing tembung liyane, censors Cina bab kamungkinan kanggo sensor kirim kang nyebutake Ai Weiwei posting sing nyebataken Piala Donya. Temuan ora cocog idea simplistic sing pamaréntah censors kabeh postingan topik sensitif.

pitungan prasaja iki tingkat censorship dening topik bisa dadi Kinanthi, Nanging. Contone, pamaréntah bisa sensor kiriman sing nyengkuyung Ai Weiwei, nanging ninggalake kiriman sing wigati saka wong. Supaya kanggo mbedakake antarane kiriman liyane kasebut kanthi teliti, peneliti kudu ngukur sentimen saben kirim. Mangkono, salah siji cara kanggo mikir bab iku sing sentimen saben kirim ing fitur laten penting saben kirim. Sayange, senadyan akeh karya, cara kanthi otomatis deteksi sentimen nggunakake dictionaries wis ana sing isih ora apik banget ing akeh kahanan (mikir maneh masalah nggawe timeline emosi September 11, 2001 Section 2.3.2.6). Mulane, King lan kolega needed cara kanggo Label 11 yuta posting media sosial minangka kanggo apa padha 1) kritis negara, 2) prewangan saka negara, utawa 3) laporan salaras utawa faktual bab acara. Iki muni kaya proyek massive, nanging padha ditanggulangi nggunakake trick kuat; siji sing umum ing ilmu data nanging saiki relatif langka ing ilmu sosial.

First, ing langkah biasane disebut wis Processing, peneliti diowahi kiriman media sosial menyang matrik-term document, ngendi ana siji saben kanggo saben document lan siji asli sing direkam apa kirim sing tembung tartamtu (contone, protest, lalu lintas, lan sapiturute). Sabanjure, klompok asisten riset tangan-cap sentimen saka sampel saka post. Banjur, King lan kolega digunakake data tangan-cap iki kanggo ngira model learning mesin sing bisa infer sentimen kirim adhedhasar ciri. Akhire, padha digunakake model learning mesin kanggo ngira sentimen kabeh 11 yuta posting. Mangkono, tinimbang kanthi manual maca lan labeling 11 yuta posting (kang bakal logistically mokal), padha manual cap nomer cilik saka kiriman lan banjur digunakake apa data ilmuwan nelpon learning ngawasi kanggo ngira kategori kabeh postingan. Sasampunipun analisis iki, King lan kolega padha bisa nganakke sing, Luwih kaget, kemungkinan kirim kang dibusak ana ingkang boten mathuk kanggo apa iku kritis negara utawa prewangan saka negara.

Figure 2.3: diagrams Japanese prosedur digunakake ing King, Pan, lan Roberts (2013) kanggo ngitung sentimen saka 11 yuta posting media sosial Cina. First, ing langkah biasane disebut wis Processing, peneliti diowahi kiriman media sosial menyang matrik-term document (ndeleng Grimmer lan Stewart (2013) kanggo informasi sabanjuré). Kapindho, peneliti tangan-kode sentimen saka sampel cilik saka kiriman. Katelu, peneliti dilatih model learning ngawasi kanggo golongan sentimen saka kiriman. Papat, peneliti digunakake ing model learning ngawasi kanggo ngira sentimen kabeh postingan. Waca King, Pan, lan Roberts (2013), Lampiran B kanggo gambaran sing luwih rinci.

Figure 2.3: diagrams Japanese prosedur digunakake ing King, Pan, and Roberts (2013) kanggo ngitung sentimen saka 11 yuta posting media sosial Cina. First, ing langkah biasane disebut wis Processing, peneliti diowahi kiriman media sosial menyang matrik-term document (ndeleng Grimmer and Stewart (2013) kanggo informasi sabanjuré). Kapindho, peneliti tangan-kode sentimen saka sampel cilik saka kiriman. Katelu, peneliti dilatih model learning ngawasi kanggo golongan sentimen saka kiriman. Papat, peneliti digunakake ing model learning ngawasi kanggo ngira sentimen kabeh postingan. Waca King, Pan, and Roberts (2013) , Lampiran B kanggo gambaran sing luwih rinci.

Ing pungkasan, King lan kolega sing ditemokake mung telung jinis saka kiriman padha ajeg censored: porno, kritik saka censors, lan sing wis potensial tumindak bebarengan (IE, kamungkinan saka anjog kanggo mbantah gedhe-ukuran). Miturut ngisi nomer ageng saka kiriman sing padha dibusak lan kiriman sing padha ora dibusak, King lan kolega padha bisa sinau carane censors bisa mung nonton lan ngetang. Ing riset sakteruse, padha bener langsung campur menyang ekosistem media sosial Tionghoa nggawe tulisan nganggo isi runtut beda lan ukur kang njaluk censored (King, Pan, and Roberts 2014) . Kita bakal mangerteni sing luwih lengkap babagan cedhak eksperimen ing Bab 4. Luwih, foreshadowing tema sing bakal kelakon ing saindhenging buku, masalah-kang laten-ngubungake kesimpulan iki bisa kadhangkala bisa ditanggulangi kanthi ngawasi learning-ternyata dadi banget umum ing riset sosial ing umur digital. Sampeyan bakal ndeleng gambar banget padha Tokoh 2.3 ing Bab 3 (Takon pitakonan) lan 5 (Nggawe collaboration massa); iku salah siji saka sawetara gagasan sing katon ing macem-macem bab.

Kabeh telu conto-ing iki prilaku apa mendhoan pembalap ing New York, tatanan Persahabatan dening siswa, lan media sosial prilaku censorship pemerintah-show Cina sing pancacahan relatif prasaja saka data pangamatan bisa ngaktifake peneliti nyoba perkiraan teoritis. Ing sawetara kasus, data amba ngijini sampeyan kanggo nindakake pancacahan iki relatif langsung (minangka ing cilik saka New York Taxis). Ing kasus liyane, peneliti kudu ngumpulake data pangamatan dhewe (minangka ing cilik saka censorship Chinese); menehi hasil karo incompleteness dening gabung data bebarengan (minangka ing cilik saka évolusi jaringan); utawa Performing sawetara wangun laten-sipat kesimpulan (minangka ing cilik saka censorship Chinese). Nalika aku arep conto nuduhake, kanggo panliti sing bisa kanggo takon menarik, amba ngemu gedhe janji.