Esploristoj skrapis ĉina sociaj rimedoj lokoj por studi cenzuras. Ili pritraktis nekompleteco kun latenta-trajto inferenco.
Krom la grandaj datumoj uzita en la du antaŭaj ekzemploj, esploristoj povas ankaŭ kolekti sian propran observaj datumoj, kiel estis mirinde ilustrita de Gary King, Jennifer Pano kaj Molly Roberts (2013) esplorado pri cenzuro fare de la ĉina registaro.
Sociaj rimedoj afiŝojn en Ĉinio estas cenzurita de enorma ŝtata aparato, kiu supozeble inkludas dekmiloj da homoj. Esploristoj kaj civitanoj, tamen, havas iom senco de kiel tiuj cenzuristoj decidi kion enhavo devus esti forviŝita el la sociaj komunikiloj. Erudiciuloj de Ĉinio efektive havas konfliktantaj atendojn pri kio specoj de fostoj estas plej verŝajna al get forigita. Iuj pensas ke cenzuristoj temigi afiŝojn kiuj estas kritikaj de la stato dum aliaj opinias ke ili temigi afiŝojn kiuj instigas kolektiva konduto, kiel protesto. Elŝeligi kiu el tiuj atendoj estas korekta havas implicojn por kiel esploristoj kompreni Ĉinio kaj aliaj aŭtoritataj registaroj kiuj okupiĝas cenzuras. Sekve, Reĝo kaj kolegoj volis kompari afiŝojn kiuj estis eldonitaj kaj poste redaktita al posts kiu estis eldonitaj kaj neniam forigita.
Kolektanta tiujn afiŝojn implikis la mirinda inĝenierio heroaĵo de rampanta pli ol 1,000 ĉinaj sociaj amaskomunikiloj retejoj-ĉiu kun malsamaj paĝo layouts-trovanta koncernajn afiŝojn, kaj tiam revisitando tiujn afiŝojn por vidi kiu estis poste redaktita. Krom la normalaj inĝenierio problemoj asociitaj kun grandskala ttt-rampanta, tiu projekto havis la aldonita defio kiu lin mankis por esti ekstreme rapida ĉar multaj cenzurita afiŝojn prenitaj malsupren en malpli ol 24 horoj. Alivorte, malrapida crawler devus maltrafi multaj posts kiu estis cenzurita. Plui, la vespoj devis fari ĉiujn ĉi datenkolektado dum eskapante detekto ke la sociaj amaskomunikilaraj retejoj bloki aliron aŭ alie ŝanĝi sian politikon en respondo al la studo.
Fojo ĉi amasa inĝenierio tasko estis kompletigita, King kaj kolegoj estis sukcesita pri 11 milionoj afiŝojn sur 85 malsamaj temoj kiuj estis pre-precizigita bazita sur ilia nivelo atendita de sentiveco. Ekzemple, temo de alta sentiveco estas Ai Weiwei, la disidento artisto; temo de meza sentemo estas aprezon kaj devaluación de la ĉina valuto, kaj temo de malalta sentiveco estas la Monda Pokalo. De tiuj 11 milionoj afiŝojn ĉirkaŭ 2 milionoj estis cenzurita, sed afiŝojn sur tre sentemaj temoj estis cenzurita nur iomete pli ofte ol afiŝojn sur meza kaj malalta sentiveco temoj. Alivorte, ĉino cenzuristoj cxirkauxas kiel verŝajna cenzuri post kiu mencias Ai Weiwei kiel fosto kiu mencias la Mondpokalo. Tiuj trovoj ne egalis la simplista ideo ke la registaro cenzuras ĉiujn afiŝojn sur sentemaj temoj.
Tiu simpla kalkulo de cenzuras imposto laŭ temo povus esti misgvida, tamen. Ekzemple, la registaro povus cenzuri afiŝojn kiuj estas helpema de Ai Weiwei, sed lasu afiŝojn kiuj estas kritikaj de li. Por distingi inter fostoj pli singarde, la esploristoj devas mezuri la senton de ĉiu posteno. Tiel, unu maniero pensi pri ĝi estas ke la sento de ĉiu posteno en grava latenta trajto de ĉiu posteno. Bedaŭrinde, malgraŭ multe da laboro, plene aŭtomatigitaj metodoj de sento detekto uzanta antaŭ- ekzistantaj vortaroj estas ankoraŭ ne tre bone en multaj situacioj (pensas reen al la problemoj krei emocian templinio de septembro 11, 2001 de Sekcio 2.3.2.6). Sekve, Reĝo kaj kolegoj devis vojon etiquetar liaj 11 milionoj sociaj rimedoj afiŝojn ĉu ili estis 1) kritikaj de la ŝtato, 2) helpema de la ŝtato, aŭ 3) senrilata aŭ fakta raportojn pri la eventoj. Ĉi sonas kiel amasa laboron, sed solvis gxin uzante potencan truko; kiu estas komuna en datumoj scienco sed nuntempe relative maloftaj en socia scienco.
Unue, en paŝo tipe nomata antaŭ-prilaborado, la esploristoj konvertis la sociaj rimedoj afiŝojn en dokumento limtempo matrico, kie estis unu linio por dokumenti kaj unu kolumno kiu gravuris ĉu afiŝo enhavis specifan vorton (ekz, protesto, trafiko, ktp). Sekva, grupo de esploro helpantoj mane etikedis la sento de specimeno de post. Tiam la Reĝo kaj kolegoj uzis tiun mane etikedis datumoj por taksi maŝinon lerna modelo kiu povus konkludi la sento de fosto bazita sur liaj karakterizaĵoj. Fine, oni uzis tiun maŝinon lerna modelo taksi la sento de ĉiu 11 milionoj afiŝojn. Tiel, anstataŭ permane legado kaj etiquetado 11 milionoj afiŝojn (kiu estus logísticamente neebla), ili permane etikedis malgranda nombro de artikoloj kaj tiam uzita kion datumoj sciencistoj vokus kontrolita lernado taksi la kategorioj de ĉiuj afiŝoj. Post kompletigi ĉi tiu analizo, la Reĝo kaj kolegoj povis konkludi ke, iom surprize, la probablo de afiŝo forviŝiĝos estis senrilata al ĉu ĝi estis kritika de la ŝtato aŭ helpemaj de la stato.
En la fino, King kaj kolegoj malkovris ke nur tri tipoj de fostoj estis regule cenzurita: pornografio, kritiko de cenzuristoj, kaj kiuj havis kolektivan agon potencialo (te, la ebleco de kondukante al grandskalaj protestoj). Observante grandegan numeron de posts kiu estis forigita kaj afiŝoj kiuj ne estis forigitaj, King kaj kolegoj povis lerni la cenzuristoj labori nur per observado kaj rakonti. En posta esplorado, ili fakte rekte intervenis en la ĉina socia amaskomunikilaro ekosistemo kreante afiŝojn kun sisteme malsama enhavo kaj mezura kiu akiras cenzurita (King, Pan, and Roberts 2014) . Ni lernos pli pri eksperimenta aliroj en Ĉapitro 4. Plu, prefigurando temo kiu okazos en la tuta libro, tiuj latentaj-atributo inferenco problemoj-kiu foje povas esti solvita per kontrolita lernado-rezulti esti tre komunaj en sociaj esploroj en la cifereca erao. Vi vidos fotojn tre simila al Figuro 2.3 en ĉapitroj 3 (Asking demandoj) kaj 5 (Creating maso kunlaborado); ĝi estas unu el la malmultaj ideoj kiuj aperas en multnombraj ĉapitroj.
Ĉiuj tri de ĉi tiuj ekzemploj-la laboranta konduto de taksiistoj en Novjorko, amikeco formado de studentoj kaj sociaj amaskomunikiloj cenzuras konduto de la ĉina registaro montras ke relative simpla nombrado de observaj datumoj povas ebligi esploristoj testi teoriaj antaŭdiroj. En iuj kazoj, granda datumo ebligas vin fari tion kalkula relative rekte (kiel en la kazo de Nov-Jorko Taksioj). En aliaj kazoj, esploristoj bezonos kolekti sian propran observaj datumoj (kiel en la kazo de ĉina cenzuras); trakti nekompleteco kunfandante datumoj kune (kiel en la kazo de retaj evoluado); aŭ plenumante iun formon de latenta-trajto inferenco (kiel en la kazo de ĉina cenzuro). Mi esperas tiuj ekzemploj montras, por esploristoj kiuj kapablas demandi interesaj demandoj, granda tenas grandan promeson.