2.4.1.3 Sensur av sosiale medier av den kinesiske regjeringen

Forskere skrapt kinesiske sosiale medier nettsteder for å studere sensur. De jobbet med ufullstendigheter med latent-egenskap slutning.

I tillegg til de store data som brukes i de to foregående eksemplene, kan forskerne også samle sine egne observasjonsdata, som var fantastisk illustrert av Gary kong, Jennifer Pan, og Molly Roberts ' (2013) forskning på sensur av den kinesiske regjeringen.

Sosiale medier innlegg i Kina er sensurert av en enorm statsapparat som er tenkt å omfatte titusenvis av mennesker. Forskere og borgere, men har liten sans for hvordan disse sensorene bestemme hvilket innhold som skal slettes fra sosiale medier. Forskere i Kina faktisk har motstridende forventninger om hvilke typer innlegg er mest sannsynlig å bli slettet. Noen tror at sensuren fokusere på innlegg som er kritiske til staten, mens andre mener de fokuserer på innlegg som oppmuntrer kollektiv atferd, som for eksempel protester. Å finne ut hvilke av disse forventningene er riktig har implikasjoner for hvordan forskere forstå Kina og andre autoritære regimer som driver sensur. Derfor, konge og kolleger ønsket å sammenligne innlegg som ble publisert og deretter slettet til innlegg som ble publisert og aldri slettet.

Samle disse innleggene involvert fantastisk ingeniørbragd av krypende mer enn 1000 kinesiske sosiale medier nettsteder-hver med forskjellige sideoppsett-finne relevante innlegg, og deretter borti disse innleggene å se som senere ble slettet. I tillegg til de vanlige tekniske problemer forbundet med stor skala web-gjennomgang, dette prosjektet hadde den ekstra utfordringen at det måtte være ekstremt fort fordi mange sensurerte innlegg blir tatt ned på mindre enn 24 timer. Med andre ord vil en langsom crawler savner mange innlegg som ble sensurert. Videre robotene måtte gjøre alt dette datainnsamling mens unndra deteksjon lest sosiale medier nettsteder blokkere tilgang eller på annen måte endre sin politikk som svar på undersøkelsen.

Når denne massive Engineering Task ble gjennomført, hadde kongen og kolleger fått rundt 11 millioner innlegg på 85 ulike temaer som ble pre-spesifisert basert på forventet nivå av følsomhet. For eksempel, et tema av høy følsomhet er Ai Weiwei, den dissident artist; et tema av midten sensitivitet er takknemlighet og devaluering av den kinesiske valutaen, og et tema for lav følsomhet er VM. Av disse 11 millioner innlegg om lag 2 millioner hadde blitt sensurert, men innlegg om svært sensitive emner ble sensurert bare litt oftere enn innlegg på middels og lav følsomhet emner. Med andre ord, kinesiske sensuren er omtrent like sannsynlig å sensurere et innlegg som nevner Ai Weiwei som en post som nevner VM. Disse funnene samsvarte ikke med den forenklede ideen om at regjeringen sensurerer alle innlegg på sensitive emner.

Denne enkle beregning av sensur renten med tema kan være misvisende, men. For eksempel kan myndighetene sensurere innlegg som er støttende for Ai Weiwei, men la innlegg som er kritiske til ham. For å skille mellom innleggene mer nøye, må forskerne å måle følelser av hvert innlegg. Dermed en måte å tenke på det er at følelser av hvert innlegg i en viktig latent funksjon i hvert innlegg. Dessverre, til tross for mye arbeid, helautomatisk metoder for følelser deteksjon ved hjelp av pre-eksisterende ordbøker er fortsatt ikke veldig bra i mange situasjoner (tenker tilbake til de problemene som skaper en emosjonell tidslinje 11. september 2001 fra Seksjon 2.3.2.6). Derfor, konge og kolleger trengte en måte å merke sine 11 millioner sosiale medier innlegg om hvorvidt de var 1) kritisk til staten, 2) støttende av staten, eller 3) irrelevante eller faktiske rapporter om hendelser. Dette høres ut som en massiv jobb, men de løste det ved hjelp av en kraftig knep; en som er vanlig i datavitenskap, men i dag relativt sjelden i samfunnsfag.

Først i et trinn vanligvis kalles pre-prosessering, forskerne konvertert sosiale medier innlegg inn i et dokument-term matrise, hvor det var en rad for hvert dokument og en kolonne som registreres om stillingen inneholdt et bestemt ord (f.eks protest, trafikk, etc.). Neste, en gruppe av forskningsassistenter hånd-merket følelse av en prøve av innlegget. Deretter Kongen og kolleger brukte denne hånd merket data for å estimere en maskinlæring modell som kunne antyde følelse av et innlegg basert på dens egenskaper. Til slutt, de brukte denne maskinlæring modell for å beregne den oppfatningen av alle 11 millioner innlegg. I stedet for å manuelt lesing og merking 11 millioner innlegg (som ville være logistisk umulig), de manuelt merket et lite antall poster og deretter brukt hvilke data forskerne vil kalle veiledet læring å estimere kategorier av alle innleggene. Etter å ha fullført denne analysen, konge og kolleger var i stand til å konkludere med at noe overraskende, er sannsynligheten for en post blir slettet var urelatert til om det var kritisk til staten eller støttende av staten.

Figur 2.3: Forenklet skjematisk for prosedyren brukes i King, Pan, og Roberts (2013) for å estimere den oppfatningen av 11 millioner kinesere sosiale medier innlegg. Først i et trinn vanligvis kalles pre-prosessering, forskerne konvertert sosiale medier innlegg inn i et dokument-term matrise (se Grimmer og Stewart (2013) for mer informasjon). For det andre forskerne hånd-kodet følelse av et lite utvalg av innlegg. Tredje, forskerne trent en overvåket læring modell for å klassifisere følelse av innlegg. Fjerde, forskerne brukte overvåket læring modell for å beregne den oppfatningen av alle innleggene. Se konge, Pan, og Roberts (2013), Vedlegg B for en mer detaljert beskrivelse.

Figur 2.3: Forenklet skjematisk for prosedyren brukes i King, Pan, and Roberts (2013) for å estimere den oppfatningen av 11 millioner kinesere sosiale medier innlegg. Først i et trinn vanligvis kalles pre-prosessering, forskerne konvertert sosiale medier innlegg inn i et dokument-term matrise (se Grimmer and Stewart (2013) for mer informasjon). For det andre forskerne hånd-kodet følelse av et lite utvalg av innlegg. Tredje, forskerne trent en overvåket læring modell for å klassifisere følelse av innlegg. Fjerde, forskerne brukte overvåket læring modell for å beregne den oppfatningen av alle innleggene. Se King, Pan, and Roberts (2013) , Vedlegg B for en mer detaljert beskrivelse.

Til slutt, Kongen og kolleger oppdaget at bare tre typer innlegg ble regelmessig sensurert: pornografi, kritikk av sensorene, og de som hadde kollektiv handling potensial (dvs. muligheten for fører til store protester). Ved å observere et stort antall innlegg som ble slettet og innlegg som ikke ble slettet, konge og kolleger var i stand til å lære hvordan sensuren fungerer bare ved å se og telle. I senere forskning, de faktisk direkte grep inn i det kinesiske sosiale medier økosystem ved å lage innlegg med systematisk forskjellig innhold og måling som blir sensurert (King, Pan, and Roberts 2014) . Vi vil lære mer om eksperimentelle tilnærminger i kapittel 4. Videre foreshadowing et tema som vil skje gjennom hele boken, disse latent-attributtet slutningsproblemer-som noen ganger kan løses med veiledet lærings vise seg å være svært vanlig i samfunnsforskning i digitale tidsalder. Du vil se bilder svært lik figur 2.3 i kapittel 3 (Stille spørsmål) og 5 (Lage masse samarbeid); det er en av de få ideer som vises i flere kapitler.

Alle disse tre eksemplene-arbeids oppførselen til taxisjåfører i New York, vennskap dannelsen av studenter, og sosiale medier sensur oppførsel av den kinesiske regjeringen-show som relativt enkel telling av observasjonsdata kan aktivere forskere å teste teoretiske forutsigelser. I noen tilfeller, big data gjør det mulig å gjøre dette telling relativt direkte (som i tilfelle av New York Taxi). I andre tilfeller vil forskerne må samle sine egne observasjonsdata (som i tilfelle av kinesisk sensur); håndtere ufullstendighet ved å flette dataene sammen (som i tilfellet med nettverket evolusjon); eller utføre en eller annen form av latent-trekk slutning (som i tilfellet av kinesisk sensur). Som jeg håper disse eksemplene viser, for forskere som er i stand til å stille interessante spørsmål, store har store løftet.