2.4.1.3 cinsura di a sucetà di cumunicazione da u guvernu Cinese

Circadori scraped siti suciale di cumunicazione cinese a studiari cinsura. È cusì cun TRANCIATO cu inference libérateur-trattu.

In più di i grandi di dati usatu ntê dui asempi pricidenti, circadori si ponu dinù fà sorte i so dati observational, comu fu diritta par Giannina King, Jennifer Pan, è Molly Roberts ' (2013) ricerca supra a forza di u guvernu Chinese.

Suciali di i posti di cumunicazione in Cina sò cinzurata par un apparatu statu tamantu chì si pinsava a nclùdiri decine di millaie di ghjente. Circadori è citadini, cumunqui, hannu pocu senzu di comu sti censors dicidiri quali cuntenutu di fassi sguassati da u suciali, di cumunicazione. Li studiusi di China intreccia me sforzi conflicting su chi li tipi di i posti sò anderà à prènniri sguassati. Certi pensanu che censors cunsacrà si à i posti chì sò critichi di lu Statu, mentri pensanu ch'elli cunsacrà si à i posti chì incuragisce un cumpurtamentu cullettiva, comu li prutesti. Millesimu fora ca di sti sforzi è currettu hà cunseguenze per quantu circadori capisce China è altre cullettività auturitariu chì impegnà in cinsura. Ghjè per quessa, u rè è i culleghi vulia a parauni di i posti chì funi publicati e appui macari ccu Villages à i posti chì funi publicati è mai sguassati.

Storia sti posti privitti la maravigghiusu ft geniu di rossu di più chè 1000 cinese a sucetà di cumunicazione siti-ogni cù i sfarenti pagina romantica-truvannu i posti Bandera di a, e poi revisiting sti posti à vede chi eranu finiti sguassati. 'N agghiunta a lu nurmali prublemi ingegneria assuciata cu granni scala Web-rossu, stu pruggettu a sfida aghjustatu chì hè vulsutu à esse assai viloci picchì tanti posti cinzurata sò purtati davanti à menu di 24 ore. Nta àutri paroli, una francese crawler lentu si parlerà carchi di i posti chì eranu cinzurata. In seguita, u crawlers avia a fari tuttu stu cullezzione di dati mentri evading dittizzioni paura chì i siti suciale di cumunicazione bluccà un accessu o macari cunnìti canciari lu pròpiu Pulitica a risposta à u studiu.

Na vota ca stu compitu ingegneria massiccia statua di u vegne finìu, re e culleghi uttinni circa 11 miliuna di i posti nantu à 85 temi sfarenti chì eranu pre-pricisatu basata annantu à u so livellu chì di stakeholder. Per esempiu, un tema di altu stakeholder hè Ai Weiwei, la artista Dissident; un sugettu di stakeholder media è attinzioni e devaluation di la muneta Chinese, è un sugettu di bassu stakeholder hè Cup le Monde. Di sti 11 milioni di i posti circa 2 milioni d 'avia statu cinzurata, ma posti nantu à i temi scherzu è fattivu foru cinzurata solu pocu più spessu chè posti nantu à i temi stakeholder medio e suttana. Nta àutri paroli, censors Chinese sò circa comu atta à censor un articulu chì ricorda Ai Weiwei comu un articulu chì ricorda Cup le Monde. Quessi li scuperti ùn hà truvatu l'idea simplistic chì u guvernu censors tutti i posti nantu à i temi fattivu.

Stu cuntu calculu di ragione cinsura pè argumenti pudia esse attizzava, parò. Pi isempiu, lu guvernu putissi censor i posti chì sò favurevule di Ai Weiwei, ma lascià i posti chì sò critichi di ellu. In modu a distinguiri tra i posti di più attente, i circadori bisognu di a misurari lu sintimentu di ogni articulu. Cusì, una manera di riflette à ghjè chi lu sintimentu di ogni articulu à una funzione libérateur mpurtanti d 'ogni articulu. Per disgrazia, malgradu a tantu travagliu, i metudi cumplettamente autumàtiche di dittizzioni sintimentu usannu dizionari pre-esistenti nun sunnu ancora assai bonu in tanti situazzioni (pari daretu à i prublemi facenu un tempu emutivu di settembre 11, 2001 da Section 2.3.2.6). Ghjè per quessa, u rè è i culleghi bisognu di na manera à incullà e so 11 miliuna di suciali i posti di cumunicazione comu a s'ellu si fussi 1) critica di u Statu, 2) favurevule di u Statu, o 3) raporti mpòrtanu, o inglese factual circa lu evenimenti. Stu populu corsu cum'è un impiegu massiccia, ma si solving lu usannu un putenti prighjuneru; unu chì hè cumunu in scenza data, ma si sighint abbastanza raru a scienza suciali.

Prima, in un passu di sòlitu chiamatu pre-lavuraturi, i circadori cunvirtuti la pusizioni suciali, di cumunicazione in una matrice documentu-tèrmini, induva ci era una fila di ogni documentu è una culonna ca havi ncidutu diversa p'agghicari 'articulu cunteni na parolla spicifici (per esempiu, prutesta, tràfficu, etc.). Next, un gruppu di assistenti di ricerca manu-tichittatu lu sintimentu di un campionu di st'articulu. Tandu, u rè è i culleghi usatu sta data, tichittati-manu à cuntà un mudellu di machine ca putìa infer lu sintimentu di a post basata annantu à u so caratteristiche. Infine, usàvanu stu mudellu di machine à cuntà lu sintimentu di tutti i 11 miliuni di posti. Cusì, chiu tostu di lettura manually e labelling 11 miliuna di i posti (chì saria logistically impussibile), ch'elli tichittatu manually nu nùmmaru nicu di i posti è tandu usatu ciò dati scentifichi ùn chjamate amparera tutoratu à cuntà i categorie di tutti i posti. Doppu Maìstru di stu analisi, re e culleghi rinisceru a cunchiùdiri ca, assai, assai, la prubbabbilitati di a post esse sguassati era unrelated à vede s'ella era critica di u Statu o favurevule di u Statu.

Figura 2.3: soulunatics simplificatu di u prucedimentu usatu in u rè, Pan, è Roberts (2013) a estimating lu sintimentu di 11 miliuna di pusizioni suciali, di cumunicazione Chinese. Prima, in un passu di sòlitu chiamatu pre-lavuraturi, i circadori cunvirtuti i posti di cumunicazione suciale in una matrice documentu-tèrmini (voir Grimmer e Stewart (2013) di più nantu à u corsu). Seconda, i circadori manu-scritte lu sintimentu di una piccula campionu di posti. Terzu, i circadori intrattene un mudellu amparera tutoratu à classify lu sintimentu di posti. Quartu, i circadori usatu u mudellu amparera tutoratu à cuntà lu sintimentu di tutti i posti. Voir la re, Pan, è Roberts (2013), penale B per una discrizzione più info.

Figura 2.3: soulunatics simplificatu di u prucedimentu usatu in King, Pan, and Roberts (2013) a estimating lu sintimentu di 11 miliuna di pusizioni suciali, di cumunicazione Chinese. Prima, in un passu di sòlitu chiamatu pre-lavuraturi, i circadori cunvirtuti i posti di cumunicazione suciale in una matrice documentu-tèrmini (voir Grimmer and Stewart (2013) di più nantu à u corsu). Seconda, i circadori manu-scritte lu sintimentu di una piccula campionu di posti. Terzu, i circadori intrattene un mudellu amparera tutoratu à classify lu sintimentu di posti. Quartu, i circadori usatu u mudellu amparera tutoratu à cuntà lu sintimentu di tutti i posti. Voir la King, Pan, and Roberts (2013) , penale B per una discrizzione più info.

In fine, u rè è i culleghi scupertu chì solu trè tippi di i posti sò rializati cinzurata: pornography, criticà censors, è quelli chì avianu e putinziali, azzione di u cullettivu (vale à dì, à a pussibilità di à pressu à prutesti large-scala). Par fighjulà un numaru salti di i posti chì eranu sguassati è i posti chì ùn erani sguassati, re e culleghi eranu capaci à amparà i censors travaglià appena da quandu vegu e cuntari. In allungamentu di ricerca, si intreccia direttamente, ntirvìnniru in u s'àrea di cumunicazione suciale cinese par furmà i posti cù cumpiacenza e misurari ripetuta è diffirenti ca prènniri cinzurata (King, Pan, and Roberts 2014) . Ci sarà amparà più nantu à spirimentali in Chapter 4. In seguita, foreshadowing un tema chì ti accade tuttu u libru, sti capatoghji-ca libérateur-attribuilla inference ponnu spissu èssiri solving cu tutoratu amparera di-Accantu fora à esse assai cumuni a ricerca suciale à u Culturale. You ti vede images assai simile à figure 2.3 in capitoli 3 (Metafonesi e dumande) è 5 (Criazioni cullaburazioni di massa); hè unu di li picca idei chi s'affaccia a multiplicità di capituli.

Tutti i trè di sti asempi-u cumpurtamentu di u travagliu di segne tassì in New York, la criazzioni d 'amicizia è di i studienti, è Tecnica cumpurtamentu di forza suciale di u guvernu-Fara Chinese chì abbastanza sèmplice cuntari di dati observational pò attivà i circadori à pruvà divi teorichi. In certi casi, big dati permette à voi di fà stu cuntari spinu, direttamenti (cum'è in u casu di New York TAXI). Nta àutri casi, circadori sicuru vi tuccherà à fà sorte i so dati observational (cum'è in u casu di cinsura cinese); trattari cu TRANCIATO par fusioni di dati insieme (cum'è in lu casu di lu prucessu di evoluzioni reta); o davanu certi forma di inference libérateur-fattu (comu a lu casu di cinsura cinese). Comu speru ca sti asempi mostranu, di circadori chì sò capaci à dumandà à e dumande ntirissanti, grande prese gran prumissa.