2.4.1.3 Ritskoðun á samfélagsmiðlunum af kínversku ríkisstjórnarinnar

Vísindamenn skafa kínverska félagslega fjölmiðla staður til að læra ritskoðun. Þeir brugðist við ófullkomnar með dulda-eiginleiki ályktun.

Í viðbót við stór gögn sem notuð eru í tveimur fyrri dæmum vísindamenn getur einnig safna eigin observational þeirra gagna, sem var frábærlega myndskreytt Gary King, Jennifer Pan, og Molly Roberts ' (2013) rannsókn á ritskoðun af kínversku ríkisstjórnarinnar.

Félagslegur Frá miðöldum innlegg í Kína eru bönnuð með gríðarlegum ríkisins tæki sem talið er að fela tugir þúsunda manna. Vísindamenn og borgarar hafa hins vegar lítið vit á því hvernig þessi censors ákveða hvaða efni ætti að vera eytt úr félagslega fjölmiðla. Fræðimenn Kína hafa í raun stangast væntingum um hvaða tegundir af færslum eru líklegastar til að fá eytt. Sumir telja að censors áherslu á innlegg sem eru mikilvæg þess ríkis á meðan aðrir telja að þeir leggja áherslu á innlegg sem hvetja sameiginlega hegðun, ss mótmæli. Vangaveltur út hver af þessum væntingum er rétt hefur áhrif á hvernig vísindamenn skilja Kína og öðrum authoritarian ríkisstjórnir sem stunda í ritskoðun. Því King og samstarfsmenn vildi bera innlegg sem voru birtar og síðan eytt færslum sem voru birtar og aldrei eytt.

Söfnun þessar færslur þátt ótrúlega verkfræði feat af skríðandi meira en 1.000 kínverska félagslega fjölmiðla vefsíður-hver með mismunandi page layout-finna viðeigandi innlegg, og þá Endurlit þessar færslur til að sjá sem voru síðan eytt. Í viðbót við venjulegar verkfræði vandamál í tengslum við stórum stíl vefnum skrið, þetta verkefni var bætt áskorun sem það þarf að vera mjög hratt því margir ritskoðuð innlegg eru tekin niður í minna en 24 klst. Með öðrum orðum, a hægur vefskriðillinn myndi missa fullt af innleggjum sem voru bönnuð. Ennfremur crawlers þurfti að gera allt þetta gagnasöfnun meðan evading uppgötvun svo félagslega fjölmiðla vefsíður loka fyrir aðgang eða á annan hátt breyta stefnu þeirra til að bregðast við rannsóknina.

Þegar þetta gríðarlega verkfræði verkefni var lokið, konungur og samstarfsmenn höfðu fengið um 11 milljónir innlegg á 85 mismunandi efni, sem voru fyrirfram ákveðnir á grundvelli búist stigi þeirra næmi. Til dæmis, a efni af hár næmi er Ai Weiwei, sem andófsmaðurinn listamaður; rakin í miðjum næmi er þakklæti og gengisþróun kínverska mynt, og rakin af lítilli næmi er World Cup. Af þessum 11 milljónum innlegg um 2 milljónir hefði verið ritskoðuð, en innlegg á mjög viðkvæm málefni voru metnir aðeins örlítið oftar en innlegg á miðju og lágt næmi efni. Með öðrum orðum, eru um það bil eins líklegt að ritskoða færslu sem minnst Ai Weiwei sem staða sem nefnir Heimsmeistaramótið kínverska censors. Þessar niðurstöður pössuðu ekki þeirri einföldu hugmynd að ríkisstjórnin censors öll innlegg á viðkvæm málefni.

Þessi einfalda útreikning ritskoðun gengi eftir efni gæti verið villandi, þó. Til dæmis, að ríkisstjórnin gæti ritskoða innlegg sem eru hlynntir Ai Weiwei, en láta innlegg sem eru gagnrýna hann. Til að greina á milli staða meira vandlega, vísindamenn þurfa að mæla viðhorf hvers færslu. Svona, ein leið til að hugsa um það er að á viðhorf hverrar færslu í mikilvægum duldum eiginleiki hverrar færslu. Því miður, þrátt fyrir mikla vinnu, fullkomlega sjálfvirkt aðferðir viðhorfskönnun greiningu með undirliggjandi orðabækur eru enn ekki mjög góð í mörgum tilfellum (hugsa til baka til þeirra vandamála búa tilfinningaleg Tímalína september 11, 2001 í kafla 2.3.2.6). Því King og samstarfsmenn þurfti leið til að merkja 11 milljónir þeirra félagslega fjölmiðla innlegg um hvort þeir væru 1) gagnrýninn þess ríkis, 2) stuðningsmeðferð þess ríkis, eða 3) óviðeigandi eða staðreyndir skýrslur um atburði. Þetta hljómar eins og a gegnheill starf, en þeir leysa það með öflugt bragð; einn sem er algengt í gögnum vísindum en nú tiltölulega sjaldgæfar í félagsvísindum.

First, í skrefi oftast kallaður pre-vinnslu, vísindamenn breytt félagslega fjölmiðla innlegg í skjal tíma fylkið, þar sem það var ein röð fyrir hvert skjal og einn dálkur sem skráð hvort staða innihélt ákveðna orð (td mótmæli, umferð, osfrv). Næst, hópur aðstoðarfólks rannsókna hönd-merkt á viðhorf á úrtaki færslu. Þá, King og samstarfsmenn notað þessa hönd-merkt gögn til að áætla vél nám líkan sem gæti álykta um viðhorf á færslu byggt á eiginleikum hans. Að lokum, þeir nota þetta nám vél líkan til að meta viðhorf allra 11 milljón færslum. Svona, frekar en með höndunum að lesa og merkingu 11 milljónir færslur (sem myndi vera skipulagslega ómögulegt), þeir merkt handvirkt fáeinum innlegg og síðan notað hvaða gögn vísindamenn myndu kalla stýrðan læra að meta flokka allra innlegg. Eftir að hafa lokið greiningu, King og samstarfsmenn gátu til að álykta að nokkuð á óvart, en líkurnar á færslu verði eytt var ótengd, hvort það væri mikilvægt þess ríkis eða stuðningsmeðferð þess ríkis.

Mynd 2.3: Einfölduð skýringarmynd fyrir aðferðinni sem er notuð í King, Pan, og Roberts (2013) til að meta viðhorf um 11 milljónir Kínverja samfélagsfærslur. First, í skrefi oftast kallaður pre-vinnslu, vísindamenn breytt félagslega fjölmiðla innlegg í skjal tíma fylki (sjá Grimmer og Stewart (2013) til að fá frekari upplýsingar). Í öðru lagi, vísindamenn Hand-dulmáli á viðhorf litlu úrtaki innlegg. Í þriðja lagi, vísindamenn þjálfaðir stýrðan læra líkan að flokka viðhorf innlegg. Fjórða, vísindamenn notað stýrðan læra líkan til að meta viðhorf allra innlegg. Sjá King, pönnu, og Roberts (2013), viðauka B fyrir nánari lýsingu.

Mynd 2.3: Einfölduð skýringarmynd fyrir aðferðinni sem er notuð í King, Pan, and Roberts (2013) til að meta viðhorf um 11 milljónir Kínverja samfélagsfærslur. First, í skrefi oftast kallaður pre-vinnslu, vísindamenn breytt félagslega fjölmiðla innlegg í skjal tíma fylki (sjá Grimmer and Stewart (2013) til að fá frekari upplýsingar). Í öðru lagi, vísindamenn Hand-dulmáli á viðhorf litlu úrtaki innlegg. Í þriðja lagi, vísindamenn þjálfaðir stýrðan læra líkan að flokka viðhorf innlegg. Fjórða, vísindamenn notað stýrðan læra líkan til að meta viðhorf allra innlegg. Sjá King, Pan, and Roberts (2013) , viðauka B fyrir nánari lýsingu.

Í the endir, konungur og samstarfsmenn komst að aðeins þrjár tegundir af innlegg voru reglulega bönnuð: klámi, gagnrýni censors, og þeir sem höfðu sameiginlega virknimætti ​​(þ.e. möguleiki á leiðir til stórfelldum mótmæli). Með því að fylgjast mikla fjölda innlegg sem voru eytt og innlegg sem voru ekki eytt, King og samstarfsmenn tókst að læra hvernig censors vinna bara með því að horfa og telja. Í síðari rannsóknum, þeir í raun beint greip í kínversku félagslega fjölmiðla vistkerfi með því að skapa innlegg með kerfisbundnum mismunandi efni og mæla sem fá ritskoðuð (King, Pan, and Roberts 2014) . Við munum læra meira um tilrauna nálgun í 4. kafla Frekari, foreshadowing þema sem mun eiga sér stað um bók, þessir duldum-eiginleiki ályktun vandamál-sem getur stundum leyst með eftirliti learning-snúa út að vera mjög algengt í félagslegri Rannsóknir í stafræna aldri. Þú munt sjá myndirnar mjög svipuð mynd 2.3 í 3. og 5. kafla (spyrja spurninga) (Búa massa samstarf); það er eitt af fáum hugmyndir sem birtist í mörgum köflum.

Allir þrír af þessum dæmum-vinnandi hegðun leigubílstjóra í New York, vináttu myndun nemenda, og félagslega fjölmiðla ritskoðun hegðun kínversk stjórnvöld mætt sem tiltölulega einfalt talning observational gögn geta gera vísindamönnum til að prófa fræðileg spá. Í sumum tilvikum, stór gögn er hægt að gera þetta talningu tiltölulega beint (eins og í tilviki New York Leigubílar). Í öðrum tilvikum, vísindamenn þarft að safna eigin observational þeirra gögn (eins og í tilviki kínverska ritskoðun); takast á við ófullkomnar því að sameina gögn saman (eins og í tilviki þróun net); eða framkvæma einhvers konar dulda-eiginleiki ályktun (eins og í tilviki kínverska ritskoðun). Eins og ég vona að þessi dæmi sýna, að vísindamenn sem eru færir um að spyrja áhugaverðar spurningar, stór miklir loforð.