2.4.1.3 Сензура ВАО иҷтимоӣ аз ҷониби ҳукумати Чин

Тадқиқотчиён scraped сайтҳои иҷтимоӣ Чин таҳсил сензура. Онҳо бо номукаммал бо inference нињонї-хислат ҳал.

Илова бар ин ба маълумоти калон истифода дар ду мисол гузашта, муҳаққиқон низ метавонад маълумоти мушоњидавї худ ҷамъ, чунон ки олиҷаноб аз ҷониби Гари Подшоҳи, Ҷенифер пантуркист, ва Молли Робертс »тасвир шудааст (2013) таҳқиқоти илмӣ оид ба сензура аз ҷониби ҳукумати Чин.

Заметки ВАО иҷтимоӣ дар Чин аз тарафи дастгоҳи давлатӣ бузург аст, ки фикр дохил даҳҳо ҳазор нафар аз сензура. Тадқиқотчиён ва шаҳрвандон, аммо доранд, ба маънои каме, ки чӣ тавр аз ин censors қарор чӣ маводи бояд аз ВАО иҷтимоӣ нест. Олимон Чин дар асл доранд, интизориҳои ихтилофи ки дар бораи намуди Заметки эҳтимоли бештар ба даст нест. Баъзеҳо фикр мекунанд, ки дар бораи censors Заметки, ки ба давлат муҳим аст дар ҳоле ки дигарон фикр онҳо ба Заметки, ки ба ҳавасманд намудани рафтори коллективӣ, ба монанди Эътирози равона равона. Figuring берун, ки ин интизориҳои дуруст аст, таъсири барои чӣ муњаќќиќон фаҳмидани Чин ва дигар ҳукуматҳои худкома, ки дар сензура машғул шавад. Аз ин рӯ, Подшоҳ ва ҳамкорони мехост, ки нисбат ба Заметки, ки нашр шуданд ва баъдан тоза ба Заметки, ки нашр шуданд ва ҳеҷ гоҳ нест.

Ҷамъоварии ин Заметки иштирок фит муҳандисии аҷиб бипароканд беш аз 1000 сомонаҳои-ҳар як ВАО иҷтимоӣ Чин бо саҳифаи гуногун форматњо-ёфтани Заметки дахлдор, ва сипас онҳо ташриф ба ин Заметки дидани ки баъдан тоза карда шуданд. Илова бар ин ба мушкилоти муҳандисӣ муқаррарӣ бо миқёси калон веб-строка, ин лоиҳа мушкилоти афзуд, ки лозим бошад, хеле зуд, зеро бисёре аз Заметки сонсур мешаванд поён дар камтар аз 24 соат гирифта буд. Ба ибораи дигар, як crawler суст мебуд қуръа Заметки, ки сензура танг хоҳад шуд. Ғайр аз ин, crawlers буд, ба ҷо ҳамаи ин љамъоварии маълумот дар ҳоле ки саркашӣ ошкор мабодо сомонаҳои иҷтимоӣ дастрасӣ ё ба таври дигар тағйир сиёсати худро дар вокуниш ба омӯзиши.

Вақте ки ба ин вазифаи муҳандисӣ назаррас ба анҷом расонида шуд, шоҳ ва ҳамкорони тақрибан 11 миллион Заметки оид ба 85 мавзӯъҳои гуногун, ки қаблан муайян дар асоси сатҳи пешбинишавандаи онҳо ҳассосият буданд, ба даст оварда буд. Масалан, мавзӯи ҳассосияти баланди Ой Weiwei, рассом дигарандеши аст; як мавзӯи ҳассосият миёнаи миннатдорӣ ва беқурбшавии асъори Чин аст, ва як мавзӯи ҳассосияти пасти Ҷоми ҷаҳон аст. Аз ин 11 миллион записи қариб 2 миллион сензура буд, вале Заметки оид ба мавзӯъҳои ҳассос танҳо каме бештар аз Заметки оид ба мавзӯъҳои ҳассосият миёна ва паст сензура. Ба ибораи дигар, censors Чин ҳастанд, дар бораи ба сифати эҳтимоли сензор мансаби, ки зикр Ой Weiwei ҳамчун мансаби, ки гуфта мешавад дар Ҷоми Ҷаҳонӣ. Ин хулосаҳои кард идеяи содда, ки аз ҳукумат censors ҳамаи Заметки дар мавзӯъҳои ҳассос мувофиқ нест.

Ин ҳисоб оддӣ қурби сензура аз ҷониби мавзӯи метавонад гумроҳкунанда, вале. Масалан, ҳукумат то Заметки, ки ба тарафдорӣ Ой Weiwei, вале Заметки ки аз Ӯ интиқодӣ доранд тарк сензор. Бо мақсади ба фарқ байни Заметки бодиққат бештар, тадқиқотчиён лозим аст, ки чен кардани эҳсосоти ҳар як мансаби. Ҳамин тариқ, яке аз роҳҳои дар бораи он фикр аст, ки тамоюли њар як мансаби дар Хусусияти муҳими нињонї ҳар як мансаби. Мутаассифона, бо вуҷуди кори зиёд, усулҳои пурра автоматикунонидашудаи ошкор тамоюли истифодаи луғатҳои қаблан вуҷуддошта ҳанӯз ҳам дар бисёре аз вазъиятҳои хеле хуб нест (фикр бозгашт ба мушкилоти ташкили ҷадвали эҳсосӣ аз 11 сентябри соли 2001 аз боби 2.3.2.6). Аз ин рӯ, Подшоҳ ва ҳамкорони лозим роҳи ба дараҷаи 11 миллион записи ВАО иҷтимоии онҳо, ки оё онҳо 1 давлат муҳим буд), 2) дастгирӣ давлат, ё 3) ҳисоботи номарбуте ё воқеӣ дар бораи рӯйдодҳои. Ин садо ба монанди кори назаррас, аммо дар он ҳал бо истифода аз ҳиллаест, тавонои; яке ин аст, ки дар илм маълумоти умумї, вале дар айни замон нисбатан дар илм иљтимої нодир.

Якум, дар як қадами одатан даъват пеш аз коркард, муҳаққиқон ба Заметки ВАО иҷтимоӣ ба матритсаи ҳуҷҷати дарозмуддат, ки дар он буд, як сатр барои ҳар як ҳуҷҷат ва як сутун, ки ба қайд гирифта, ки оё баъди дорои як калима мушаххас нест, табдил (масалан, эътироз, ҳаракати нақлиёт ва ғайра). Сипас, як гурӯҳи ёрдамчиён тадқиқотӣ дасти нишонгузорӣ ба эҳсосоти як намуна аз мансаби. Сипас, Подшоҳ ва ҳамкорони истифода аз ин маълумот дасти нишонгузорӣ ба ҳисоб модели омӯзиши мошини, ки метавонад ба эҳсосоти як мансаби асоси хусусиятњои худ хулоса. Ниҳоят, онҳо ин модел омӯзиши мошини истифода бурда, барои ҳисоб кардани эҳсосоти ҳамаи Заметки 11 млн. Ҳамин тариқ, ба ҷои ба таври дастӣ хондан ва тамѓагузорї 11 млн записи (ки шавад logistically ғайриимкон), ки онҳо ба таври дастӣ нишонгузорӣ шумораи ками Заметки ва сипас истифода бурда он чӣ маълумоти олимон мебуд омӯзиши назорат даъват ҳисоб кардани категорияҳои ҳамаи Заметки. Баъд аз хатми ин таҳлил, Подшоҳ ва ҳамкорони қодир ба хулоса барорем, ки буданд, то ҳадде тааҷуб аст, ки эњтимолияти мансаби истодааст тоза ҷудои ба он, ки оё давлат муҳим ё дастгирӣ давлат буд.

Расми 2.3: нақшагии соддакардашудаи барои тартиби истифода дар Подшоҳи, пантуркист ва Робертс (2013) ба пешбинӣ намудани эҳсосоти 11 миллион записи ВАО иҷтимоии Чин. Якум, дар як қадами одатан даъват пеш аз коркард, муҳаққиқон ба Заметки ВАО иҷтимоӣ ба матритсаи ҳуҷҷати дарозмуддат табдил (ниг Grimmer ва Stewart (2013) барои маълумоти бештар нигаред). Дуюм, муҳаққиқон дасти кодгузоринашуда дар эҳсосоти як намунаи хурди Заметки. Сеюм, муњаќќиќон модели омӯзиши назорат барои ба гуруҳо ҷудо намудани эҳсосоти дидбонгоҳҳои таълим дода шаванд. Чорум, муҳаққиқон модели таълими назорат бурда мешавад, барои ҳисоб кардани эҳсосоти ҳамаи Заметки. Подшоҳ, пантуркист ва Робертс (2013), Замимаи B барои маълумоти муфассал нигаред.

Расми 2.3: нақшагии соддакардашудаи барои тартиби истифода дар King, Pan, and Roberts (2013) ба пешбинӣ намудани эҳсосоти 11 миллион записи ВАО иҷтимоии Чин. Якум, дар як қадами одатан даъват пеш аз коркард, муҳаққиқон ба Заметки ВАО иҷтимоӣ ба матритсаи ҳуҷҷати дарозмуддат табдил (ниг Grimmer and Stewart (2013) барои маълумоти бештар нигаред). Дуюм, муҳаққиқон дасти кодгузоринашуда дар эҳсосоти як намунаи хурди Заметки. Сеюм, муњаќќиќон модели омӯзиши назорат барои ба гуруҳо ҷудо намудани эҳсосоти дидбонгоҳҳои таълим дода шаванд. Чорум, муҳаққиқон модели таълими назорат бурда мешавад, барои ҳисоб кардани эҳсосоти ҳамаи Заметки. Бингар, ки King, Pan, and Roberts (2013) , Замимаи B барои маълумоти муфассал.

Дар охири, Подшоҳ ва ҳамкорони ошкор намояд, ки танҳо дар се навъи Заметки мунтазам сонсур шуд: порнография, танқиди censors, ва онҳое, ки дошт, нерўи амали дастаҷамъонаи (яъне, имконияти боиси эътирози-миқёси калон). Бо риояи шумораи зиёди дидбонгоҳҳои, ки ҳазф ва паёмҳои буданд, ки тоза нашудаанд, Подшоҳ ва ҳамкорони қодир ба ёд тавр censors танҳо аз ҷониби тамошо ва ҳисоби овозҳоро кор буданд. Дар таҳқиқоти минбаъда, ки онҳо дар асл бевосита ба экосистема ВАО иҷтимоӣ Чин аз тариқи эҷоди Заметки бо муҳтаво ва чен систематикӣ гуногун, ки даст сензура дахолат (King, Pan, and Roberts 2014) . Мо бештар дар бораи равишҳои таҷрибавӣ дар Боби 4. минбаъдаи ёд хоҳад кард, foreshadowing мавзӯъеро, ки дар тамоми китоб рӯй хоҳанд дод, ки ин мушкилот, ки дар inference нињонї-аттрибутӣ баъзан метавонад, бо ҳал карда шаванд назорат таълим берун шавад, дар тадқиқоти иҷтимоӣ дар хеле маъмул асри рақамӣ. Шумо хоҳед дид, тасвирҳои хеле монанд ба расми 2,3 дар бобҳои 3 (биталабед саволҳо) ва 5 (Таъсис додани ҳамкорӣ оммавӣ); ки ин яке аз чанд ғояҳои, ки дар бобҳои гуногун пайдо мешавад.

Ҳамаи ин се мисолҳои-рафтори кории ронандагони таксӣ дар Ню-Йорк, ташаккули дӯстӣ бо донишҷӯён ва васоити ахбори иљтимої рафтори сензура аз Чин ҳукумати нишон медиҳанд, ки овозҳо нисбатан содда маълумоти мушоњидавї метавонад муҳаққиқон имкон меозмояд пешгӯиҳо назариявӣ. Дар баъзе мавридҳо, маълумоти калон ба шумо имконияти ба кор дар ин ҳисоб нисбатан бевосита (тавре, ки дар сурати аз Ню-Йорк Таксиҳо). Дар ҳолатҳои дигар, муҳаққиқон бояд ба ҷамъоварии маълумоти мушоњидавї худ (тавре, ки дар сурати аз сензура Чин); мубориза бо номукаммал аз тарафи якҷоякунӣ маълумоти якҷоя (тавре, ки дар сурати эволютсия шабака); ё иљрои ягон намуди inference нињонї-хислат (тавре, ки дар сурати аз сензура Чин). Тавре ки ман умедворам, ин мисолҳо нишон медиҳанд, ки барои тадқиқотчиён, ки қодир ба саволҳои шавқовар мепурсанд, бузург медорад ваъдаи бузург.