2.4.1.3 Censur af sociale medier af den kinesiske regering

Forskere skrabet kinesiske sociale medier websteder til at studere censur. De behandlet ufuldstændige med latent-træk inferens.

Ud over de store data, der anvendes i de to foregående eksempler, kan forskerne også indsamle deres egne observationsdata, som var vidunderligt illustreret af Gary konge, Jennifer Pan, og Molly Roberts ' (2013) forskning i censur af den kinesiske regering.

Sociale medier indlæg i Kina bliver censureret af en enorm statsapparat, som menes at indeholde titusinder af mennesker. Forskere og borgere, men har meget lidt fornemmelse af, hvordan disse censorer beslutte, hvad indholdet bør slettes fra de sociale medier. Lærde i Kina faktisk har modstridende forventninger om, hvilke typer af stillinger er mest tilbøjelige til at få slettet. Nogle mener, at censorer fokus på stillinger, der er kritiske over for staten, mens andre mener, at de fokuserer på indlæg, der fremmer kollektive adfærd, såsom protester. Ud af hvilken af ​​disse forventninger er korrekt har konsekvenser for, hvordan forskere forstår Kina og andre autoritære regeringer, der deltager i censur. Derfor, konge og kolleger ønskede at sammenligne indlæg, der blev offentliggjort og efterfølgende slettet til stillinger, der blev offentliggjort og aldrig slettet.

Indsamling disse stillinger involverede fantastiske engineering feat af kravlende mere end 1.000 kinesiske sociale medier websteder-hver med forskellige sidelayouts-finde relevante stillinger, og derefter besøge igen disse stillinger for at se, som efterfølgende er blevet slettet. Ud over de normale ingeniørmæssige problemer i forbindelse med storstilet web-crawling, dette projekt havde den ekstra udfordring, at det skulle være ekstremt hurtigt, fordi mange censurerede indlæg er taget ned på mindre end 24 timer. Med andre ord ville en langsom crawler brænde masser af stillinger, der blev censureret. Endvidere de crawlere havde at gøre alt dette dataindsamling samtidig unddrage detektion lest de sociale medier websteder blokere adgangen eller på anden måde ændre deres politik som svar på undersøgelsen.

Når denne massive engineering opgave blev afsluttet, havde kongen og hans kolleger fået omkring 11 millioner stillinger på 85 forskellige emner, der var på forhånd fastsat på grundlag af deres forventede følsomhed. For eksempel, et emne af høj følsomhed er Ai Weiwei, den dissident kunstner; et emne af midterste følsomhed er påskønnelse og devaluering af den kinesiske valuta, og et emne af lav følsomhed er VM. Af disse 11 millioner indlæg omkring 2 millioner var blevet censureret, men indlæg på meget følsomme emner blev censureret kun lidt oftere end stillinger på midten og lav følsomhed emner. Med andre ord, kinesiske censorer er omkring så tilbøjelige til at censurere et indlæg, der nævner Ai Weiwei som et indlæg, der nævner VM. Disse resultater svarede ikke til forsimplede idé, at regeringen censurerer alle indlæg om følsomme emner.

Denne enkle beregning af censur sats efter emne kunne være vildledende, dog. For eksempel kan regeringen censurere indlæg, der støtter Ai Weiwei, men efterlader indlæg, der er kritiske over for ham. For at skelne mellem indlæg mere omhyggeligt, forskerne nødt til at måle stemningen af hvert indlæg. Således er en måde at tænke på det er, at den følelse af hvert indlæg i en vigtig latent træk ved hvert indlæg. Desværre, på trods af meget arbejde, fuldt automatiserede metoder til stemningen påvisning ved hjælp af allerede eksisterende ordbøger er stadig ikke særlig god i mange situationer (tænker tilbage på de problemer skaber en følelsesmæssig tidslinje 11. september 2001 fra afsnit 2.3.2.6). Derfor, konge og kolleger havde brug for en måde at mærke deres 11 millioner sociale medier indlæg om, hvorvidt de var 1) kritisk af staten, 2) støtter staten, eller 3) irrelevante eller faktuelle rapporter om begivenhederne. Det lyder som en massiv job, men de løste det ved hjælp af en kraftig trick; en, der er almindelig i data videnskab, men i øjeblikket relativt sjældne i samfundsvidenskab.

Først i et trin typisk kaldes forbehandling, forskerne konverteret stolperne sociale medier i et dokument sigt matrix, hvor der var én række for hvert dokument og en kolonne, der er registreret om stillingen indeholdt et bestemt ord (f.eks protest, trafik, etc.). Dernæst en gruppe af forskningsassistenter hånd-mærket stemningen af ​​en stikprøve af indlæg. Så, konge og kolleger brugte denne hånd-mærkede data til at estimere en maskine learning model, der kunne udlede den følelse af et indlæg baseret på dets egenskaber. Endelig har de brugt denne maskine læringsmodel at estimere den følelse af alle 11 millioner indlæg. Således, i stedet for manuelt at læse og mærkning 11 millioner indlæg (hvilket ville være logistisk umuligt), at de manuelt mærket et lille antal stillinger, og derefter bruges hvilke data forskerne ville kalde overvåget læring til at estimere de kategorier af alle de stillinger. Efter at have afsluttet denne analyse, konge og kolleger var i stand til at konkludere, at noget overraskende, idet sandsynligheden for et indlæg slettet var relateret til, om det var kritisk over for staten eller støtter staten.

Figur 2.3: Forenklet skematiske til den benyttede procedure i King, Pan, og Roberts (2013) til at estimere den følelse af 11 millioner kinesiske sociale medier indlæg. Først i et trin typisk kaldes forbehandling, forskerne konverterede de sociale medier stillinger til et dokument sigt matrix (se Grimmer og Stewart (2013) for mere information). For det andet, forskerne hånd-kodet den følelse af en lille prøve af stillinger. For det tredje, forskerne trænet en overvåget læringsmodel at klassificere den følelse af stillinger. For det fjerde, forskerne brugte den overvågede læringsmodel at estimere den følelse af alle de stillinger. Se konge, Pan, og Roberts (2013), appendiks B for en mere detaljeret beskrivelse.

Figur 2.3: Forenklet skematiske til den benyttede procedure i King, Pan, and Roberts (2013) til at estimere den følelse af 11 millioner kinesiske sociale medier indlæg. Først i et trin typisk kaldes forbehandling, forskerne konverterede de sociale medier stillinger til et dokument sigt matrix (se Grimmer and Stewart (2013) for mere information). For det andet, forskerne hånd-kodet den følelse af en lille prøve af stillinger. For det tredje, forskerne trænet en overvåget læringsmodel at klassificere den følelse af stillinger. For det fjerde, forskerne brugte den overvågede læringsmodel at estimere den følelse af alle de stillinger. Se King, Pan, and Roberts (2013) , appendiks B for en mere detaljeret beskrivelse.

I sidste ende, konge og kolleger opdagede, at kun tre typer af indlæg regelmæssigt blev censureret: pornografi, kritik af censorer, og dem, der havde kollektiv handling potentiale (dvs. mulighed for at føre til store protester). Ved at observere et stort antal stillinger, der blev slettet, og stillinger, der ikke blev slettet, konge og kolleger var i stand til at lære, hvordan censuren virker bare ved at se og tælle. I efterfølgende forskning, de rent faktisk direkte intervenerede i den kinesiske sociale medier økosystem ved at oprette stillinger med systematisk forskelligt indhold og måling, der bliver censureret (King, Pan, and Roberts 2014) . Vi vil lære mere om eksperimentelle tilgange i kapitel 4. Endvidere foregribelse et tema, der vil forekomme i hele bogen, disse latent-attribut inferens problemer-som undertiden kan løses med overvåget indlæring-vise sig at være meget almindelig i social forskning i digitale tidsalder. Du vil se billeder meget lig Figur 2.3 i kapitel 3 (Asking spørgsmål) og 5 (Oprettelse masse samarbejde); det er en af ​​de få ideer, som vises i flere kapitler.

Alle tre af disse eksempler-arbejdsmiljøet opførsel af taxachauffører i New York, dannelse venskab af studerende, og sociale medier censur adfærd kinesiske regering-show, der relativt simpel optælling af observationsdata kan aktivere forskerne til at teste teoretiske forudsigelser. I nogle tilfælde big data gør det muligt at gøre dette tælle relativt direkte (som i tilfældet med New York taxier). I andre tilfælde vil forskerne nødt til at indsamle deres egne observationsdata (som i tilfældet med kinesiske censur); behandle ufuldstændige ved at kombinere data sammen (som i tilfældet med netværket evolution); eller udfører en form af latent-træk inferens (som i tilfældet med kinesiske censur). Som jeg håber, at disse eksempler viser, for forskere, der er i stand til at stille interessante spørgsmål, big lover godt.