2.4.1.3 Zensur vun de soziale Medien, déi vun der chinesescher Regierung

Fuerscher knappen Chinese soziale Medien Siten Zensur ze studéieren. Si koum mat wobäi mat Uklang-recommandéiert Ufank ware.

Zousätzlech zu de groussen Donnéeën am zwou virdrun Beispiller benotzt, kann Fuerscher och hir eege observational Donnéeën ze sammelen, wéi hei vum Gary Kinnek, Jennifer Pan, an Molly Roberts "illustréiert war (2013) Fuerschung op Zensur vun der chinesescher Regierung.

Sozial Medien posts an China sinn vun enger riseger Staatsapparat censored déi geduecht ass zéngdausende vu Leit ze gehéieren. Fuerscher a Bierger, awer, hunn wéineg Sënn vun, wéi dës censors décidéieren, wat den Inhalt vun de soziale Medien geläscht soll. Geléiert China hunn eigentlech contraire Erwaardungen un deen Aarte vun posts sinn héchstwahrscheinlech geläscht ze kréien. Verschiddener, dass censors op Funktiounen konzentréieren, déi kritesch vun der Staat sinn anerer Meenung si op Funktiounen konzentréieren, déi kollektiv Verhalen encouragéieren, wéi Protester. Mr eraus déi vun dësen Erwaardungen richteg ass Implikatioune fir wéi Fuerscher verstoen China an aner autoritär Regierungen dat am Zensur bedreiwen. Dofir, nach Kinnek a Kollegen posts ze vergläichen, datt publizéiert goufen an dono zu posts geläscht déi publizéiert goufen an ni geläscht.

dës posts Sammele Équipe der erstaunlech Ingenieur feat vu méi wéi 1.000 Chinese soziale Medien Websäite-eenzel mat verschiddene Säit Layout-Opklärung relevant posts ugelaf, an duerno dës posts Versammlungen ze gesinn, déi duerno nees geläscht goufen. Nieft der normal optimistesch Problemer mat grousser Skala Web-ugelaf verbonne no dësem Projet de notéiert Géigespiller datt et waren extrem séier ze sinn, well vill censored posts a manner wéi 24 Stonnen sinn geholl huet. An anere Wierder, wier e luesen CRAWLER vill posts eseu dass censored goufen. Weider no de ob all dës Donnéeën Kollektioun ze maachen iwwerdeems erkennen hannerzéien bewaacht de soziale Medien Websäite Zougang blockéieren oder soss an Äntwert op d'Etude hir Politik änneren.

Wann dës massive Ingenieur Aufgab fäerdeg war, Kinnek a Kollegen hu ronn 11 Milliounen posts op 85 verschidden Sujeten kritt dat baséiert op hir erwaart Niveau vun Empfindlechkeet Pre-uginn huet. Zum Beispill, ass e Sujet vun héich Empfindlechkeet Ai weiwei, den Dissident Kënschtler; engem Sujet vu Mëtt Empfindlechkeet ass Valorisatioun an Cyberkriminalitéit vun der chinesescher Währung, an engem Thema vun niddereg Empfindlechkeet ass den World Cup. Vun dëse 11 Milliounen posts ronn 2 Milliounen haten censored ginn, mä posts op héich sensiblen Themen goufen nëmmen liicht méi oft censored wéi posts op Mëtt an héich Empfindlechkeet Sujeten. An anere Wierder, si Chinese censors iwwer wéi wahrscheinlech e Post fir censor datt Ai weiwei als Post schreift, datt den World Cup schreift. Dës Conclusiounen rauszesichen der simplistesche Iddi Match datt d'Regierung all posts op sensibel Sujeten censors.

Dëst einfacht Berechnung vun Zensur Taux vum Sujet hätt iwwerdriwwen gin Ee. Zum Beispill kéint d'Regierung posts censor datt ënnerstëtzen vum Ai weiwei sinn, mee verlooss posts, datt vun him kritesch sinn. Fir tëscht posts méi virsiichteg ze z'ënnerscheeden, muss de Fuerscher d'Choix vun all Post ze moossen. Sou, eng Manéier fir doriwwer nozedenken ass dass de Choix vun all Post an eng wichteg Uklang Fonktioun vun all Post. Leider, trotz vill Aarbecht, voll automatiséiert Methode vun Choix erkennen benotzt Pre-bestehend Dictionnairen sinn nach net ganz gutt an vill Situatiounen (denken zréck un d'Problemer eng emotional Timeline vum September schafen 11, 2001 aus Section 2.3.2.6). Dofir, Kinnek a Kollegen eng Manéier waren hir 11 Milliounen soziale Medien posts wéi bis zu Label ob si sech 1) kritesch vun der Staat, 2) Fir vun der Staat, oder 3) Roll oder gewesen Rapporten iwwert d'Evenementer. Dat kléngt wéi e massive Aarbecht, mee si geléist et eng staark markéiert benotzt; een, datt am Donnéeën Wëssenschaft gemeinsam ass awer am Moment relativ seelen zu sozialen Wëssenschaft.

Éischt, generell an engem Schrëtt viraus-Veraarbechtung genannt, de Fuerscher an de soziale Medien posts an engem Dokument-Begrëff Matrixentgasung freeën, wou et eng Zeil fir all Dokument an eng Kolonn war dat opgeholl ob d'Post eng spezifesch Wuert aus (zB, Protest, Verkéier, etc.). Next, de Choix vun enger Prouf vun der Post engem Grupp vu Fuerschung Assistenten Hand-Label. Dunn, benotzt Kinnek a Kollegen dëser Hand-Label Daten enger Maschinn Léieren Modell ze schätzen, datt de Choix vun enger Post op hire Charakter baséiert soen hätt. Endlech, déi se dësem Modell Maschinn Léieren de Choix vun all 11 Milliounen posts ze schätzen. Sou, anstatt manuell Liesen a Etikette 11 Milliounen posts (déi logistesch onméiglech wier), se manuell eng kleng Zuel vun posts Fortgeschratten an dann benotzt wat Donnéeën Wëssenschaftler iwwerwaachter Léieren Opruff wier d'Kategorië vun all de Messagen ze schätzen. No dëser Analyse färdeg, huet de Kinnek a Kollegen kënnen dat ze schléissen, e bësse verwonnerlech, dass d'Wahrscheinlechkeet vun engem Post geläscht war allerdéngs net zu ob et kritesch vun der Staat oder ënnerstëtzen vum Staat.

Figur 2,3: Einfacht Sënn fir d'Prozedur benotzt zu Kinnek, Pan, an Roberts (2013) an de Choix vun 11 Millioune Chinese soziale Medien posts estimating. Éischt, an e Schrëtt typesch Pre-Veraarbechtung genannt, ëmgerechent de Fuerscher an de soziale Medien posts an engem Dokument-Begrëff Matrixentgasung (Grimmer an Stewart (2013) fir méi Informatiounen ze gesinn). Zweet, d'Fuerscher de Choix vun engem klengen Beispill vun posts Hand-kodéiert. Drëtt, trainéiert de Fuerscher engem iwwerwaachten Léieren Modell de Choix vun posts ze klassifizéieren. Véiert, benotzt d'Fuerscher der Opsiicht Léieren Modell de Choix vun all de Messagen ze schätzen. Zréck Kinnek, Pan, an Roberts (2013), Betriebspläng B fir eng méi détailléiert Beschreiwung.

Figur 2,3: Einfacht Sënn fir d'Prozedur benotzt zu King, Pan, and Roberts (2013) an de Choix vun 11 Millioune Chinese soziale Medien posts estimating. Éischt, an e Schrëtt typesch Pre-Veraarbechtung genannt, ëmgerechent de Fuerscher an de soziale Medien posts an engem Dokument-Begrëff Matrixentgasung (kuckt Grimmer and Stewart (2013) fir méi Informatiounen). Zweet, d'Fuerscher de Choix vun engem klengen Beispill vun posts Hand-kodéiert. Drëtt, trainéiert de Fuerscher engem iwwerwaachten Léieren Modell de Choix vun posts ze klassifizéieren. Véiert, benotzt d'Fuerscher der Opsiicht Léieren Modell de Choix vun all de Messagen ze schätzen. Zréck King, Pan, and Roberts (2013) , Betriebspläng B fir eng méi détailléiert Beschreiwung.

An um Enn, entdeckt Kinnek a Kollegen, datt nëmmen dräi Zorte vun posts regelméisseg censored goufen: klaut, Kritik vun censors, an deenen, déi kollektiv Aktioun Potential huet (dh, d'Méiglechkeet ze grouss-Skala Protestatioune vun Virwaat). Vun enger riseger Zuel vun posts observéieren datt geläscht an posts waren dat net geläscht goufen, Kinnek a Kollegen konnten ze léieren wéi d'censors Aarbecht just duerch kucken an ze zielen. Zu Kierzunge Fuerschung, si agegraff tatsächlech direkt an der chinesescher Ecosystem soziale Medie vun posts mat systematesch verschiddene Inhalt an Moossen, déi censored kréien schafen (King, Pan, and Roberts 2014) . Mir wäerten Agenda experimentell Approche am Kapitel léieren 4. Weider, e Sujet foreshadowing datt uechter d'Buch geschéie wäert, dës Uklang-Spezialfäegkeeten Ufank ware Problemer-deen heiansdo geléist ka mat iwwerwaachter Léieren-Tour aus ganz heefeg an déi sozial Fuerschung ze ginn an der digital Alter. Dir wäert gesinn, ganz ähnlech Biller 2,3 an Chapters 3 (Froen) an 5 (Créatioun Mass Zesummenaarbecht) ZŠit; et ass eng vun de puer Iddien, déi an Multiple Kapitelen schéngt.

All dräi vun dëse Beispiller-Aarbechtsgrupp Behuele vun Taxi Chauffeuren zu New York, Frëndschaft Opstellung vun de Studenten, a soziale Medien Zensur Behuele vun der chinesescher Regierung-weisen, datt relativ einfach Zielen vun observational Donnéeën Fuerscher aktivéiert kann theoretesch Prognosen ze testen. An e puer Fäll, erlaabt grouss Daten Dir dës Zielen relativ direkt ze maachen (wéi am Fall vun New York Taxis). An anere Fäll gëtt brauchen Fuerscher hir eege observational Donnéeën ze sammelen, (wéi am Fall vun Chinese Zensur); Laascht, wobäi vun Donnéeën wärd zesummen (wéi am Fall vum Reseau Evolutioun); oder besser eng Form vun Uklang-recommandéiert Ufank ware (wéi am Fall vun Chinese Zensur). Wéi ech dës Beispiller weisen hoffen, fir Fuerscher déi gebass sinn interessant Froen ze stellen, grouss grouss Verspriechen hält.