2.4.1.3 Ċensura tal-midja soċjali mill-gvern Ċiniż

Riċerkaturi mibruxa siti Ċiniż media soċjali għall-istudju ċensura. Huma ttrattati inkompletezza ma inferenza latenti-karatteristika.

Minbarra d-dejta kbar użata fiż-żewġ eżempji ta 'qabel, ir-riċerkaturi jistgħu wkoll jiġbru data ta' osservazzjoni tagħhom stess, kif kien wonderfully muri minn Gary Re, Jennifer Pan, u Molly Roberts " (2013) riċerka dwar iċ-ċensura mill-gvern Ċiniż.

postijiet soċjali media fiċ-Ċina huma ċensurati minn apparat statali enormi li huwa maħsub biex jinkludi għexieren ta 'eluf ta' nies. Riċerkaturi u ċ-ċittadini, madankollu, għandhom ftit sens ta 'kif dawn censors jiddeċiedu liema kontenut għandu jitħassar mill-midja soċjali. Skulari taċ-Ċina fil-fatt ikollhom aspettattivi konfliġġenti dwar liema tipi ta 'karigi huma aktar probabbli li tikseb mħassra. Xi wħud jaħsbu li censors jiffokaw fuq postijiet li huma kritiċi tal-istat filwaqt li oħrajn jaħsbu li jiffukaw fuq postijiet li jinkoraġġixxu mġiba kollettiv, bħal protesti. Jidhru liema minn dawn l-aspettattivi hija korretta għandha implikazzjonijiet dwar kif riċerkaturi jifhmu Ċina u l-gvernijiet awtoritarji oħra li jidħlu fl ċensura. Għalhekk, ir-Re u l-kollegi riedu biex iqabblu postijiet li kienu ppubblikati u sussegwentement mħassra għall-postijiet li ġew ippubblikati u qatt mħassra.

Ġbir ta 'dawn postijiet involuti l proeza inġinerija aqwa ta' crawling aktar minn 1,000 Ċiniż media soċjali websajts-kull wieħed bil-paġna differenti taqsim-konstatazzjoni postijiet rilevanti, u mbagħad reivedut dawn il-postijiet biex tara li ġew sussegwentement imħassra. Minbarra l-problemi ta 'inġinerija normali assoċjati mal skala kbira web crawling, dan il-proġett kellu l-isfida miżjud li kellha bżonn biex tkun estremament malajr minħabba karigi ċensurati ħafna huma meħuda isfel f'inqas minn 24 siegħa. Fi kliem ieħor, tkaxkir bil-mod titlifx lottijiet ta 'postijiet li kienu ċensurati. Barra minn hekk, il-crawlers kellha tagħmel dan kollu ġbir ta 'dejta filwaqt li jevadu iskoperta lest il-websajts tal-midja soċjali jimblokka l-aċċess jew inkella jbiddlu l-politiki tagħhom bi tweġiba għall-istudju.

Ladarba dan il-kompitu ta 'inġinerija massiva tlesta, ir-Re u l-kollegi kien kiseb madwar 11-il miljun postijiet fuq 85 suġġetti differenti li kienu speċifikata minn qabel msejsa fuq livell mistenni ta' sensittività tagħhom. Per eżempju, tema ta 'sensittività għolja huwa Ai Weiwei, l-artist dissident; suġġett ta 'sensittività tan-nofs huwa apprezzament u devalwazzjoni tal-munita Ċiniża, u suġġett ta' sensittività baxxa hija l-Tazza tad-Dinja. Ta 'dawn il-11-il miljun postijiet madwar 2 miljun kienu ġew ċensurati, iżda il-pożizzjoni dwar suġġetti sensittivi ħafna kienu ċensurati biss ftit aktar spiss milli karigi dwar suġġetti sensittività medju u baxx. Fi kliem ieħor, censors Ċiniżi huma dwar kif x'aktarx li jiċċensuraw post li ssemmi Ai Weiwei bħala post li ssemmi t-Tazza tad-Dinja. Dawn is-sejbiet ma kinux jaqblu mal-idea simplistiku li l-gvern censors postijiet kollha dwar suġġetti sensittivi.

Dan il-kalkolu sempliċi ta 'rata ċensura skond is-suġġett tista' tkun qarrieqa, madankollu. Per eżempju, il-gvern jista 'jiċċensuraw karigi li huma favur l Ai Weiwei, iżda jħallu postijiet li huma kritiċi minnu. Sabiex issir distinzjoni bejn postijiet aktar bir-reqqa, ir-riċerkaturi jeħtieġu biex ikejlu l-sentiment ta 'kull post. Għalhekk, mod wieħed biex jaħsbu dwar dan hija li l-sentiment ta 'kull post fl fattur latenti importanti ta' kull post. Sfortunatament, minkejja ħafna xogħol, metodi totalment awtomatizzati ta 'skoperta sentiment li jużaw dizzjunarji pre-eżistenti għadhom mhumiex tajbin ħafna f'ħafna sitwazzjonijiet (think lura għall-problemi li joħloq kronoliġika emozzjonali ta 11 Settembru, 2001 mis-Sezzjoni 2.3.2.6). Għalhekk, ir-Re u l-kollegi meħtieġa mod biex jittikkettjaw 11-il miljun karigi midja soċjali tagħhom dwar jekk kinux 1) kritika ta 'l-istat, 2) jappoġġja lill-istat, jew 3) rapporti irrilevanti jew fattwali dwar l-avvenimenti. Dan ħsejjes bħal xogħol enormi, iżda dawn solvuti billi tuża trick qawwija; waħda li hija komuni fix-xjenza tad-data iżda li bħalissa relattivament rari fix-xjenza soċjali.

L-ewwel, fi stadju tipikament tissejjaħ pre-proċessar, ir-riċerkaturi konvertiti-postijiet tal-midja soċjali fi matriċi dokument it-terminu, fejn kien hemm filliera waħda għal kull dokument u l-kolonna waħda li rreġistrat jekk il-posizzjoni li tinsab kelma speċifika (eż, protesta, traffiku, eċċ). Sussegwentement, grupp ta 'assistenti ta' riċerka bl-idejn ttikkettjati l-sentiment ta 'kampjun ta' posta. Imbagħad, ir-Re u l-kollegi użati din id-data ttikkettjati bl-idejn għall-istima ta 'mudell ta' tagħlim magna li tista 'jiddeduċu l-sentiment ta' post bbażat fuq il-karatteristiċi tiegħu. Fl-aħħarnett, huma użati dan il-mudell tat-tagħlim magna biex jistmaw l-sentiment ta '11-il miljun postijiet kollha. Għalhekk, aktar milli manwalment qari u tikkettar 11-il miljun postijiet (li jkun loġistikament impossibbli), huma manwalment ttikkettjati numru żgħir ta 'postijiet u mbagħad tintuża liema data xjenzati kieku ssejjaħ tagħlim taħt superviżjoni li jistmaw il-kategoriji tal-postijiet kollha. Wara li timtela din l-analiżi, ir-Re u l-kollegi setgħu tikkonkludi li, xi ftit sorprendenti, il-probabbiltà ta 'post ikun imħassar mingħajr konnessjoni ma' jekk kienx kritika tal-istat jew appoġġ ta 'l-istat.

Figura 2.3: skematika ssimplifikata għall-proċedura użata fl King, Pan, u Roberts (2013) għall-istima tal-sentiment ta '11-il miljun postijiet Ċiniż media soċjali. L-ewwel, fi stadju tipikament tissejjaħ pre-proċessar, ir-riċerkaturi konvertiti-postijiet soċjali media fi matriċi dokument ta 'żmien (ara GRIMMER u Stewart (2013) għal aktar informazzjoni). It-tieni nett, ir-riċerkaturi bl-idejn kodifikati l-sentiment ta 'kampjun żgħir ta' postijiet. It-tielet nett, ir-riċerkaturi mħarrġa mudell ta 'tagħlim taħt superviżjoni biex jikklassifikaw l-sentiment ta' karigi. Ir-raba ', ir-riċerkaturi użat il-mudell tat-tagħlim taħt superviżjoni biex jistmaw l-sentiment tal-postijiet kollha. Ara Re, Pan, u Roberts (2013), l-Appendiċi B għal deskrizzjoni aktar dettaljata.

Figura 2.3: skematika ssimplifikata għall-proċedura użata fl King, Pan, and Roberts (2013) għall-istima tal-sentiment ta '11-il miljun postijiet Ċiniż media soċjali. L-ewwel, fi stadju tipikament tissejjaħ pre-proċessar, ir-riċerkaturi konvertiti-postijiet soċjali media fi matriċi dokument ta 'żmien (ara Grimmer and Stewart (2013) għal aktar informazzjoni). It-tieni nett, ir-riċerkaturi bl-idejn kodifikati l-sentiment ta 'kampjun żgħir ta' postijiet. It-tielet nett, ir-riċerkaturi mħarrġa mudell ta 'tagħlim taħt superviżjoni biex jikklassifikaw l-sentiment ta' karigi. Ir-raba ', ir-riċerkaturi użat il-mudell tat-tagħlim taħt superviżjoni biex jistmaw l-sentiment tal-postijiet kollha. Ara King, Pan, and Roberts (2013) , l-Appendiċi B għal deskrizzjoni aktar dettaljata.

Fl-aħħar, ir-Re u l-kollegi skopra li biss tliet tipi ta 'karigi ġew ċensurati regolarment: pornografija, kritika ta' censors, u dawk li kellhom potenzjal ta 'azzjoni kollettiva (jiġifieri, il-possibbiltà ta' jwassal għal protesti fuq skala kbira). Billi tosserva numru kbir ta 'postijiet li kienu mħassra u postijiet li ma kinux mħassra, ir-Re u l-kollegi kienu kapaċi jitgħallmu kif l-censors taħdem biss billi jaraw u l-għadd. Fir-riċerka sussegwenti, huma attwalment direttament intervenew fil-ekosistema midja Ċiniża soċjali billi joħolqu postijiet b'kontenut sistematikament differenti u kejl li jiksbu ċensurati (King, Pan, and Roberts 2014) . Aħna se jitgħallmu aktar dwar approċċi sperimentali fil-Kapitolu 4. Barra minn hekk, foreshadowing tema li se jseħħu matul il-ktieb, dawn inferenza latenti-attribut problemi li xi kultant jistgħu jiġu solvuti bl sorveljat tagħlim tul il-dawran li jkun komuni ħafna fir-riċerka soċjali fil- era diġitali. Inti se tara stampi simili ħafna għall-Figura 2.3 fil-Kapitoli 3 (Tistaqsi mistoqsijiet) u 5 (Noħolqu kollaborazzjoni massa); huwa wieħed mill-ftit ideat li jidher fil-kapitoli multipli.

It-tlieta ta 'dawn il--eżempji l-imġiba tax-xogħol ta' sewwieqa tat-taksis fi New York, formazzjoni ħbiberija mill-istudenti, u l-midja soċjali ċensura imġiba tal-Ċiniż gvern juru li għadd relattivament sempliċi tad-dejta ta 'osservazzjoni jista' jippermetti lir-riċerkaturi li jittestjaw previżjonijiet teoretiku. F'xi każijiet, id-dejta kbar jgħinuk li tagħmel dan għadd relattivament direttament (bħal fil-każ ta 'New York Taxis). F'każijiet oħra, ir-riċerkaturi ser bżonn li jiġbru data ta 'osservazzjoni tagħhom stess (bħal fil-każ ta' ċensura Ċiniż); jittrattaw inkompletezza bl-inkorporazzjoni ta 'data flimkien (bħal fil-każ ta' evoluzzjoni tan-netwerk); jew li jwettaq xi forma ta 'inferenza latenti-karatteristika (bħal fil-każ ta' ċensura Ċiniż). Kif Nittama li dawn l-eżempji juru, għal riċerkaturi li huma kapaċi li jistaqsu mistoqsijiet interessanti, big promettenti kbira.