Lêkolînvan tampona malperên medyaya civakî ya Chinese ji bo lêkolîna sansor kirin. Ew bi incompleteness bi analîzên potansîyel-jębirina daleqandin.
Li Amûdê ji bilî daneyên mezin tê bikaranîn di nava du wergerandî yên berê, lêkolîner dikare bi daneya observational xwe bi xwe kom dike, wek pir hêja ye ji aliyê Gary King, Jennifer Pan, û Molly Roberts 'wêneyî bû (2013) û lêkolînên li ser sansûra ji aliyê hikûmeta Chinese.
Mesajên medya civakî de li Çînê bi destê dezgehên dewletê pir xurt e, ku guman ji nav de bi deh hezaran kes tên sansûrkirin. Lêkolînvan û welatiyan, lê belê, xwedî wateya kêm e ku çawa ev qedexeya biryarê çi naverok divê ji medyaya civakî jêbirin. Alimên of China di rastiyê de me hêvîyên hevnegirtî yên li ser ku cûreyê posts in, bi îhtîmaleke mezin ji bo bi destxistina jêbirin. Hinek difikirin ku qedexeya li ser posts ku dewletê yên girîng û krîtîk in hinekên din jî bawer dikin ku ew li ser posts ku teşwîq helwestên kolektîf, wekî protestoyên Focus. Hesab ji yên ku li van hêviyên rast e de encamên çawa ji bo lêkolînerên fêm Çîn û din hikûmetên otorîter ku li sansor ve mijûl bibin. Loma, ya padîşah û hevkarên xwe xwest to compare posts ku hatin weşandin û jêbirin bo mesajan ku hatin weşandin û qet jêbirin.
Berhevkirina van mesajan tev li feat engineering hêja yên sîsik zêdetir ji 1,000 malperên-her di medya civakî de Chinese bi rûpel cuda Planên-peydakirina posts têkildar, û paşê Beken van Mesajên ji bo dîtina ku jêbirin bûn. Li Amûdê ji bilî pirsgirêkên engineering normal re têkildar bi pîvaneke mezin web-crawling, vê projeyê di warê diyar kir ku ew pêwîst be, gelek bi lez ji ber ku gelek posts sansûr bi xwe jî li kêmtir ji 24 saetan girtin. Bi gotineke din, a crawler hêdî dê gelek posts ku sansûr kirin bêriya. Din, ji peydaker hebû ji bo ku ez hemû ev berhevkirina daneyên dema êşkuj detection da ku malperên medyaya civakî ya astengkirina an na guherîn di siyaseta wan de li bersiva vê lêkolînê.
Carekê vî karî engineering mezin temam bû, King û hevalên xwe li ser 11 milyon posts li ser 85 mesajên cuda ku pre-bişinî li ser asta Bahçelî xwe yên bi hestiyar bûn standibûn. Ji bo nimûne, a mijara hesasiyetê bilind Ai Weiwei, hunermend li dijî rêjîmê de ye; teze ji hestiyariya navîn bi teqdîr û bêqîmet kirina pereyan li Chinese e, û mijara hesasiyetê nizm di Kûpaya Cîhanê ye. Ji van 11 milyon posts li ser 2 milyon sansûr kiribû, di heman demê de peyamên li ser mijarên pir hesas tenê bi sivikî gelek caran posts li ser hesasiyetên navîn û kêm sansûr kirin. Bi gotineke din, qedexeya Chinese in li ser wek îhtîmal e ku sansurê a post ku behsa Ai Weiwei wek post ku behsa World Cup. Ev netîce ew fikra ku Beğdê hikûmeta qedexeya hemû posts li ser mijarên hesas hev nagirin.
Ev hesabên yên sade rêjeya sansor destê teze dikare bibe şaş dike, lê belê. Ji bo nimûne, hikûmeta bibe posts ku piştevanî ya Ai Weiwei in, lê Mesajên ku ji wî krîtîk in bihêle bigre. Ji bo ku dixine di navbera posts bi baldarî, lêkolînerên ku divê ji bo pîvandinê de hesek ji her post. Bi vî awayî, yek rê ji bo li ser wê difikirim e ku, hesek ji her post di taybetmendiya herî girîng potansîyel, ji her post. Mixabin, tevî ku çiqas kar, rêbazên bi temamî automated naskirina hesta bikaranîna de ferhengên ji pre-heyî hê jî di gelek waran de pir baş ne (bawer dîsa ji bo pirsgirêkên afirandina an cedwela hest of September 11, 2001 ji Beþ 2.3.2.6). Loma, ya padîşah û hevalên pêwîst a rê ji bo bi etîket 11 milyon posts medya civakî de xwe bidin gelo ew 1 dewletê yên krîtîk de bûn), 2) Piştgiriyê ya dewletê, an 3) rapora belesebeb an bet yên di derbarê bûyeran de. Ev digre, dişibe karekî mezin, di heman demê de ew jî çareser bikaranîna trick bi hêz; yek e ku di zanistên welat hevbeş di heman demê de niha nisbeten Di zanistên civakî de kêm.
Yekem, di gava, bêhtirê caran bi navê pre-processing, lêkolîneran posts medya civakî de di nav matrix belge-term, li wir bû yek row ji bo her belgeyê de û yek stûna ku tomarkirin, gelo post de peyv bi taybetî li wir bîya (wek nimûne, protesto, trafîkê, û hwd.). Next, komeke ji asîstanên lêkolîn destê-şêwaza, hesek ya test ji post. Hingê, King û hevalên xwe bi kar anîn ev welat-destê etîketa bi texmîn a modela fêrbûna makîneyeke ku dikare hestên of a post li ser taybetmendiyên xwe nîşan dide. Bi kurtî, ew vê modelê fêrbûna makîneyeke ku ji bo hesap hesek ji all posts 11 milyon. Bi vî awayî, li şûna ku bi destan xwendin û etîketan de 11 milyon posts (ku dê di warê lojîstîkê de ne mimkun), ew bi destan hatine nîşankirin hejmarek piçûk a posts û paşê tê bikaranîn çi welat zanyar dê hînbûna bi çavdêrî û bang ji bo hesap kategoriyan hemû posts. Piştî bidawîkirina vê analîzê, King û hevalên xwe ji bo vê encamê, ku bûn, hinek ne ecêb e, ji sîlahan ji post ku hatiye jêbirin çêbû, gelo ev ji ku dewletê rexne an Piştgiriyê ya dewletê bû.
Di dawiyê de, King û hevalên dît ku tenê sê cureyên posts rêkûpêk sansûr kirin: pornoya, rexneyên ji qedexeya, û kesên ku potansiyela kolektîf (ango, bi îhtîmala sereke yên ji bo xwepêşandanên mezin). By çavderiyê de jimareke mezin ji posts ku deleted û posts bûn ku deleted ne bûn, King û hevalên xwe fêrî çawa qedexeya tenê bi temaşe û hêvî dike ku kar bûn. Di lêkolîna ku piştre, ew di rastiyê de yekser di nava ekosîstema medya civakî de Chinese destê afirandina posts bi naverok û bi pîvana sîstematîk cuda ku get sansûr mudaxele (King, Pan, and Roberts 2014) . Em der barê helwestên filma li Beşa 4. bêtir hîn bibin, KDP'ê a theme ku li seranserî pirtûkê de pêk bê, van pirsgirêkan-ku analîzên potansîyel-taybetmendiyê de carna dikarin bi bê çareserkirin sergêrî fêrbûna-berê xwe da ku bibin, di lêkolînên civakî de di pir temenê digital. Hûn dê bibînin pictures pir similar to Figure 2.3 li Chapters 3 (pirs) û 5 (Creating hevkariya komî); ev yek ji wan çend ramanên ku di beşên multiple xuya ye.
Hemû sê ji van wergerandî-a xebatê yên şofêrên texsiyan li New York, sazkirina dostaniya ji aliyê xwendekaran, û medya civakî de helwestên sansor ya Chinese hikûmeta-show ku hejmartina nisbî hêsan ya welat observational dikarin lêkolînerên çalak ji bo ceribandinê vereşiya teorîk. Di hin rewşan de, daneyên mezin dihêle ku hûn ji vê yekê bi hejmartina nisbeten rasterast (wek di doza New York Taxis). Di rewşên din de, lêkolîner hewceyê wê ji bo komkirin welat observational xwe bi xwe (ku di doza sansor Chinese); eleqedar bi incompleteness destê yedega welat bi hev re (wek ku di doza evolution network); an wekhev hin form of analîzên potansîyel-jębirina (wek di doza sansor Chinese). Wekî ku ez hêvî dikim ku ev wergerandî nîşanî me bide, ji bo lêkolînerên ku dikarin pirsên balkêş bipirsin, big xudanê soza mezin.