2.4.1.3 Censur av sociala medier av den kinesiska regeringen

Forskare skrapade kinesiska sociala medier för att studera censur. De behandlas ofullständighet med latent-drag slutledning.

Förutom de stora uppgifter som används i de två föregående exemplen, kan forskarna också hämta sina egna observationsdata, som var underbart illustreras av Gary King Jennifer Pan, och Molly Roberts (2013) forskning om censur av den kinesiska regeringen.

Sociala medier inlägg i Kina censureras av en enorm statsapparat som är tänkt att omfatta tiotusentals människor. Forskare och medborgare, men har lite känsla av hur dessa censorer bestämma vilket innehåll bör utgå från sociala medier. Forskare i Kina faktiskt har motstridiga förväntningar om vilka typer av tjänster är mest sannolikt att få bort. Vissa tror att censorer fokuserar på inlägg som är kritiska av staten medan andra tror att de fokuserar på inlägg som uppmuntrar kollektiva beteendet, såsom protester. Räkna ut vilken av dessa förväntningar är korrekt får konsekvenser för hur forskarna att förstå Kina och andra auktoritära regeringar som bedriver censur. Därför, kung och kollegor ville jämföra inlägg som offentliggjorts och därefter bort för att inlägg som publicerades och aldrig bort.

Samla dessa tjänster innefattade fantastiska engineering bedrift krypa mer än 1.000 kinesiska sociala medier webbplatser-var och en med olika sidlayouter undersöknings relevanta inlägg, och sedan gå tillbaka dessa tjänster för att se vilka senare togs bort. Förutom de vanliga tekniska problem i samband med storskalig web-krypande, hade detta projekt extra utmaning som det behövs för att vara extremt snabbt, eftersom många censurerade inlägg tas i mindre än 24 timmar. Med andra ord skulle en långsam sökrobot missar massor av inlägg som censurerades. Vidare, sökrobotar var tvungen att göra allt detta datainsamling samtidigt undgå upptäckt så att de sociala medier webbplatser blockera åtkomst eller på annat sätt ändra sin politik som svar på studien.

När denna massiva engineering uppgift avslutades, hade kung och kollegor som framkommit om 11 miljoner inlägg på 85 olika ämnen som var i förväg specificerade baserat på deras förväntade nivån av känslighet. Till exempel, är ett ämne av hög känslighet Ai Weiwei, dissidenten konstnären; ett ämne i medel känslighet är uppskattning och devalveringen av den kinesiska valutan, och ett ämne för låg känslighet är VM. Av dessa 11 miljoner inlägg cirka 2 miljoner hade censurerats, men inläggen på mycket känsliga ämnen censurerades endast något oftare än inlägg på mitten och låg känslighet ämnen. Med andra ord, kinesiska censorer är ungefär lika sannolikt att censurera ett inlägg som nämner Ai Weiwei som ett inlägg som nämner VM. Dessa fynd matchade inte den förenklade uppfattningen att regeringen censurerar alla inlägg på känsliga ämnen.

Denna enkla beräkning av censur hastighet efter ämne kan vara missvisande, dock. Till exempel kan regeringen censurera inlägg som är positiva till Ai Weiwei, men lämnar inlägg som är kritiska mot honom. För att skilja mellan stolpar mer noggrant, forskarna måste mäta känslan av varje inlägg. Således är ett sätt att tänka på det att känslan av varje inlägg i en viktig latent inslag i varje inlägg. Tyvärr, trots mycket arbete, helautomatiska metoder för känslor upptäckt med hjälp av redan existerande lexikon är fortfarande inte särskilt bra i många situationer (tänka tillbaka på de problem som skapar en känslomässig tidslinje den 11 september 2001, från avsnitt 2.3.2.6). Därför, kung och kollegor behövde ett sätt att märka sina 11 miljoner sociala medier inlägg om huruvida de var 1) kritisk av staten, 2) stödjande av staten, eller 3) irrelevanta eller faktiska rapporter om händelserna. Detta låter som en massiv jobb, men de löste det med hjälp av en kraftfull trick; en som är vanligt i datavetenskap men för närvarande relativt sällsynt i samhällsvetenskap.

Först, i ett steg typiskt kallas förbehandling, forskarna konverterade sociala medier inlägg i ett dokument sikt matris, där det fanns en rad för varje dokument och en kolumn som registreras om tjänsten innehöll ett visst ord (t.ex. protest, trafik, etc). Därefter en grupp av forskarassistenter hand märkt känslan av ett urval av inlägg. Då kungen och kollegor använde denna hand-märkta data för att uppskatta en maskininlärningsmodell som skulle kunna sluta sig till känslan av ett inlägg på grundval av dess egenskaper. Slutligen använde de denna maskin inlärningsmodell för att uppskatta känslan av alla 11 miljoner inlägg. I stället för manuell avläsning och märkning 11 miljoner inlägg (vilket skulle vara logistiskt omöjligt), de manuellt märkt ett litet antal tjänster och sedan användas vilka data forskare skulle kalla övervakad lära sig att uppskatta de kategorier av alla inlägg. Efter avslutad analys, kungen och hans kollegor kunde dra slutsatsen att något överraskande, varvid sannolikheten för en post raderad var kopplad till huruvida det var kritisk mot staten eller stödjande av staten.

Figur 2.3: Förenklat schema för förfarandet som används i King, Pan, och Roberts (2013) att uppskatta känslan av 11 miljoner kinesiska sociala medier inlägg. Först, i ett steg typiskt kallas förbehandling, forskarna omvandlas sociala medier tjänster till ett dokument sikt matris (se Grimmer och Stewart (2013) för mer information). För det andra, forskarna handkodade känslan av ett litet urval av inlägg. För det tredje, forskarna tränade en övervakad inlärningsmodell för att klassificera känslan av inlägg. Fjärde, forskarna använde övervakad inlärningsmodell för att uppskatta känslan av alla inlägg. Se King Pan, och Roberts (2013), Appendix B för en mer detaljerad beskrivning.

Figur 2.3: Förenklat schema för förfarandet som användes i King, Pan, and Roberts (2013) att uppskatta känslan av 11 miljoner kinesiska sociala medier inlägg. Först, i ett steg typiskt kallas förbehandling, forskarna omvandlas sociala medier tjänster till ett dokument sikt matris (se Grimmer and Stewart (2013) för mer information). För det andra, forskarna handkodade känslan av ett litet urval av inlägg. För det tredje, forskarna tränade en övervakad inlärningsmodell för att klassificera känslan av inlägg. Fjärde, forskarna använde övervakad inlärningsmodell för att uppskatta känslan av alla inlägg. Se King, Pan, and Roberts (2013) , Appendix B för en mer detaljerad beskrivning.

I slutändan, kungen och hans kollegor upptäckte att endast tre typer av tjänster regelbundet censurerat: pornografi, kritik av censurerar, och de som hade kollektiv aktionspotentialen (dvs möjligheten att leda till stora protester). Genom att observera ett stort antal tjänster som raderats och inlägg som inte tagits bort, kung och kollegor kunde lära hur censuren fungerar bara genom att titta på och räkna. I senare forskning, de faktiskt direkt ingrep i ​​den kinesiska sociala medier ekosystem genom att skapa inlägg med systematiskt olika innehåll och mätning som får censurerade (King, Pan, and Roberts 2014) . Vi kommer att lära mer om experimentella metoder i kapitel 4. Vidare förebådade ett tema som kommer att ske i hela boken, dessa latent-attribut slutlednings problem-som ibland kan lösas med övervakad inlärnings visar sig vara mycket vanliga i social forskning inom digital ålder. Du kommer att se bilder som liknar figur 2.3 i kapitel 3 (Ställa frågor) och 5 (Skapa mass samarbete); det är en av de få idéer som förekommer i flera kapitel.

Alla tre av dessa exempel-arbetsbeteende taxichaufförer i New York, vänskap bildandet av studenter, och sociala medier censur beteende den kinesiska regeringen visar att relativt enkel räkning av observationsdata kan det möjligt för forskare att testa teoretiska förutsägelser. I vissa fall, stora uppgifter kan du göra detta räknar relativt direkt (som i fallet med New York Taxi). I andra fall kommer forskarna att behöva hämta sina egna observationsdata (som i fallet med kinesiska censuren); itu med ofullständighet genom att slå samman data som tillsammans (som i fallet med nätverksutveckling); eller utför någon form av latent-trait inferens (som i fallet av kinesisk censur). Som jag hoppas att dessa exempel visar, för forskare som har möjlighet att ställa intressanta frågor, stora är mycket lovande.