2.4.1.3 Cenzūra socialinės žiniasklaidos Kinijos vyriausybės

Mokslininkai pavogta Kinijos socialinės žiniasklaidos svetainių studijuoti cenzūrą. Jie nagrinėjo neužbaigtumo su latentinis-bruožas išvadą.

Be didelių duomenų, naudojamų dviejų ankstesnių pavyzdžių, mokslininkai taip pat gali rinkti savo stebėjimų duomenis, kaip buvo nuostabiai iliustruoja Gary King, Jennifer keptuvėje, ir Molly Roberts " (2013) tyrimų dėl cenzūros Kinijos vyriausybės.

Socialinės žiniasklaidos pranešimų Kinijoje yra cenzūruojamas milžiniškas valstybės aparato, kuris, manoma, kad yra dešimtys tūkstančių žmonių. Mokslininkai ir piliečiai, tačiau turi mažai prasmės, kaip šie cenzoriai nuspręsti, kokį turinį, turėtų būti išbraukti iš socialinės žiniasklaidos. Mokslininkai Kinijos tikrųjų turi prieštaringų lūkesčių apie kokius postus būtų labiausiai tikėtina, kad ištrinta. Kai kurie galvoja, kad cenzoriai sutelkti dėmesį į žinučių, kurios yra svarbios valstybės, o kiti galvoja, kad jie sutelkti dėmesį į postus, kurie skatina kolektyvinę elgseną, pavyzdžiui, protestus. Suprasti, kuri iš šių lūkesčių, yra teisinga turi įtakos, kaip mokslininkai suprasti Kiniją ir kitas autoritarines vyriausybes, kurios užsiima cenzūra. Todėl karalius ir jo kolegos norėjo palyginti pranešimus, kurie buvo paskelbti, o paskui ištrintas į pareigas, kurie buvo paskelbti ir niekada ištrinti.

Renkant šiuos pranešimus dalyvauja nuostabų inžinerinį feat nuskaitymo daugiau nei 1000 Kinijos socialinės žiniasklaidos svetaines-su skirtingais puslapis maketai nustatymo atitinkamus pranešimus ir po to peržiūrint šiuos pranešimus ir pamatysite, kurie vėliau buvo ištrinta. Be įprastų inžinerinių problemų, susijusių su didelio masto interneto indeksavimo, šis projektas turėjo pridėtinę iššūkį, kad jis turėjo būti labai greitai, nes daug cenzūra pranešimų imtasi žemyn per mažiau nei 24 valandas. Kitaip tariant, lėtas skaitytuvas būtų praleisti daug pranešimų, kurie buvo cenzūruojamos. Be to, kad robotai turėjo atlikti visus šiuos duomenis kolekciją išvengti aptikimo Kad socialinės žiniasklaidos svetainių, blokuoti prieigą ar kitaip keisti savo politiką, reaguojant į studiją.

Kai šis masinis Engineering Task buvo baigtas, karalius ir jo kolegos gavo apie 11 mln pranešimus nuo 85 įvairių temų, kurios buvo iš anksto numatyti remiantis numatomu jų jautrumo lygį. Pavyzdžiui, iš didelio jautrumo temą Ai Weiwei, disidentas menininkas; iš viduriniosios jautrumo tema yra dėkingi ir devalvacija Kinijos valiuta, ir iš mažo jautrumo tema yra Pasaulio taurės. Iš šių 11 milijonų pranešimų apie 2 mln buvo cenzūruojamas, tačiau pranešimų apie labai jautrių temų buvo cenzūruojamas tik šiek tiek dažniau nei postuose vidutinio ir žemo jautrumo temomis. Kitaip tariant, Kinijos cenzoriai yra maždaug tiek pat tikėtina, kad cenzūruoti įrašą, kuris paminėtas Ai Weiwei kaip postą, kad minimas pasaulio čempionatą. Šie duomenys neatitiko supaprastintą idėją, kad vyriausybė cenzoriai visas žinutes jautrių temų.

Šis paprastas skaičiavimas cenzūros normą temoje gali būti klaidinantis, tačiau. Pavyzdžiui, vyriausybė gali cenzūruoti pranešimus, kurie prisidėtų Ai Weiwei, bet palikti pranešimus, kurie yra kritiškai jį. Siekiant atskirti žinučių atidžiau, mokslininkai reikia išmatuoti kiekvienos žinutės nuotaikas. Taigi, vienas būdas galvoti apie tai, kad kiekvienos žinutės nuotaikų svarbų latentinės funkcija kiekvienos žinutės. Deja, nepaisant daug darbo, pilnai automatizuotas metodai nuotaikos aptikimo naudojant iš anksto esamų žodynų vis dar nėra labai geras daugelyje situacijų (manau atgal į problemas sukuriant emocinį Chronologija rugsėjo 11, 2001 nuo 2.3.2.6 skirsnį). Todėl karalius ir jo kolegos reikia būdą ženklinti savo 11 milijonų socialinės žiniasklaidos pranešimus apie tai, ar jie buvo 1) kritinė valstybės, 2) remia valstybė, arba 3) nereikšmingus ar faktinių pranešimų apie įvykius. Tai skamba kaip masinis darbas, bet jie sprendžiami ją naudojant galingą apgauti; vienas, kad yra paplitusi duomenų mokslo, bet šiuo metu gana reta socialinių mokslų.

Pirma, žingsnis paprastai vadinamas iš anksto apdorojimas, mokslininkai konvertuoti socialinės žiniasklaidos pranešimus į dokumentą trukmės matrica, kur buvo viena eilutė kiekvieno dokumento ir vienas stulpelis, įrašyti ar postas yra specialus žodis (pvz, protestas, eismo, ir tt). Be to, iš mokslinių tyrimų padėjėjų grupė rankų paženklinti iš posto mėginio nuotaikas. Tada karalius ir jo kolegos naudojo šį rankų žymėto duomenis apskaičiuojame mašina mokymosi modelį, kuris galėtų daryti išvadą, kad postą remiantis jo charakteristikas nuotaikas. Galiausiai, jie pasinaudojo šia mašina mokymosi modelį įvertinti visų 11 milijonų žinučių nuotaikas. Taigi, o ne rankiniu būdu skaityti ir ženklinimo 11 mln pranešimai (kuris būtų logistiniu neįmanoma), jie rankiniu paženklinti mažą žinučių skaičių ir tada naudojamas, kokie duomenys mokslininkams vadinčiau prižiūrimą mokymąsi įvertinti visų žinučių kategorijas. Baigęs šią analizę, karalius ir jo kolegos galėjo padaryti išvadą, kad, kiek nenuostabu, kad iš posto, tikimybė būti ištrinta buvo nesusijęs su ar tai buvo labai svarbus valstybės ar remia valstybė.

2.3 pav Supaprastintas schematiškai už naudojamo King, Pan tvarka, ir Roberts (2013) įvertinant 11 mln Kinijos socialinės žiniasklaidos pranešimų nuotaikas. Pirma, žingsnis paprastai vadinamas iš anksto apdorojimas, mokslininkai konvertuoti socialinės žiniasklaidos pranešimus į dokumentą trukmės matrica (žr Grimmer Stewart (2013) Daugiau informacijos). Antra, mokslininkai rankų koduojami nedidelio imties žinučių nuotaikas. Trečia, mokslininkai apmokyti prižiūrimą mokymosi modelį klasifikuoti pareigybių nuotaikas. Ketvirta, mokslininkai panaudojo prižiūrimą mokymosi modelį įvertinti visų žinučių nuotaikas. Žiūrėti King, keptuvėje, ir Roberts (2013), B priedėlį dėl išsamesnio aprašymo.

2.3 pav Supaprastintas schematiškai už naudojamo tvarka King, Pan, and Roberts (2013) įvertinant 11 mln Kinijos socialinės žiniasklaidos pranešimų nuotaikas. Pirma, žingsnis paprastai vadinamas iš anksto apdorojimas, mokslininkai konvertuoti socialinės žiniasklaidos pranešimus į dokumentą trukmės matrica (žr Grimmer and Stewart (2013) Daugiau informacijos). Antra, mokslininkai rankų koduojami nedidelio imties žinučių nuotaikas. Trečia, mokslininkai apmokyti prižiūrimą mokymosi modelį klasifikuoti pareigybių nuotaikas. Ketvirta, mokslininkai panaudojo prižiūrimą mokymosi modelį įvertinti visų žinučių nuotaikas. Žiūrėti King, Pan, and Roberts (2013) , B priedėlį dėl išsamesnio aprašymo.

Galų gale, karalius ir jo kolegos atrado, kad tik trijų rūšių pranešimų buvo nuolat cenzūruojamas: pornografija, kritikos cenzūra, ir tie, kurie turėjo kolektyvinių veiksmų potencialą (ty iš pirmaujančių didelio masto protestų galimybė). Stebėdami didelį skaičių pranešimų, kad buvo ištrinta ir pranešimų, kad nebuvo ištrinti, karalius ir jo kolegos galėjo išmokti cenzoriai dirbti tiesiog žiūrėti ir skaičiuoti. Vėlesniais tyrimais, jie iš tikrųjų tiesiogiai įsikišo į Kinijos socialinės žiniasklaidos ekosistemos sukuriant naujus pranešimus su sistemingai skirtingo turinio ir matavimo kurie gauti cenzūruojamos (King, Pan, and Roberts 2014) . Mes daugiau sužinoti apie eksperimentinių metodų 4 skyriuje Be to, foreshadowing temą, kad įvyks visoje knygoje, šie latentinis atributų išvada problemos-kuris kartais gali būti išspręsta su prižiūrimas mokymosi pasirodyti esąs labai paplitusi socialinės tyrimai skaitmeninio amžiaus. Pamatysite nuotraukos labai panašus į 2.3 3 ir 5 skyriuose (klausinėti) pav (kūrimas masės bendradarbiavimą); ji yra viena iš nedaugelio idėjų, pasirodo keliais skyriuose.

Visi trys iš šių pavyzdžių-darbo elgesio taksi vairuotojų Niujorke, draugystė formavimo studentai, ir socialinės žiniasklaidos cenzūros elgesio Kinijos vyriausybės rodo, kad santykinai paprasta skaičiavimo stebėjimo duomenys gali suteikti mokslininkams išbandyti teorinius spėjimus. Kai kuriais atvejais, didelis duomenys leidžia jums tai padaryti skaičiavimo gana tiesiogiai (kaip Niujorko taksi atveju). Kitais atvejais, mokslininkai reikės surinkti savo stebėjimų duomenis (kaip ir kinų cenzūros atveju); susidoroti su neužbaigtumo sujungus duomenis kartu (kaip ir tinklo evoliucijos atveju); ar atliekant tam tikrą latentinis-bruožas išvadą formą (kaip ir kinų cenzūros atveju). Kaip Tikiuosi, kad šie pavyzdžiai rodo, mokslininkams, kurie galėtų paklausti įdomių klausimų, didelis teikia daug vilčių.