2.4.1.3 Cenzura društvenih medija od strane kineske vlade

Istraživači grebao Kineski društvenih medija da studira cenzure. Oni su se bavili nepotpunost sa latentnom-karakterna zaključak.

Osim velike količine podataka koji se koriste u prethodna dva primjera, istraživači mogu prikupljati svoje posmatranja podataka, kao što je divno ilustruje Gary King, Jennifer Pan, i Molly Roberts ' (2013) istraživanja o cenzuri od strane kineske vlade.

Društveni mediji poruke u Kini su cenzurirani od strane ogroman državni aparat koji se smatra da ima desetine hiljada ljudi. Istraživači i građani, međutim, imaju malo smisla kako ovih cenzora odlučiti šta sadržaj treba izbrisati iz društvenih medija. Stipendisti Kina zapravo imaju sukobljenih očekivanja o tome koje vrste poruke su najverovatnije da se briše. Neki misle da cenzori se fokusiraju na poruke koje su ključne države, dok drugi misle da se fokusiraju na poruke koje ohrabruju kolektivnog ponašanja, kao što su protesti. Shvatim što od tih očekivanja je ispravan ima implikacije za koliko istraživače razumiju Kina i druge autoritarne vlade da se uključe u cenzura. Stoga, King i kolege želio da usporedite poruke koje su objavljene i naknadno izbrisani na poruke koje su objavljene i nikada izbrisani.

Prikupljanje ovih poruka uključena je izvanredan inženjering podvig puzi više od 1.000 kineskih društvenih medija web stranica-svaka sa različitim stranice rasporeda za pronalaženje relevantnih poruke, a zatim vraćajući ove poruke da vidimo koji su naknadno izbrisani. Pored normalnog inženjerskih problema u vezi sa velikih razmjera web-Crawling, ovaj projekt je imao dodao izazov koji je trebalo da bude vrlo brzo, jer su mnogi cenzurirani poruke su srušeni u manje od 24 sata. Drugim riječima, spor Bageri bi propustio puno mjesta koja su cenzurirani. Nadalje, crawlers morao učiniti sve ovo za prikupljanje podataka, dok je izbjegao detekciju da ne web stranicama društvenih medija blokiraju pristup ili na drugi način promijeniti svoju politiku kao odgovor na studiju.

Nakon što je ovaj masivni inženjering zadatak završen, King i kolege dobila oko 11 miliona poruka na 85 različitih tema koje su prethodno navedene na osnovu očekivanog nivoa osjetljivosti. Na primjer, tema visoke osjetljivosti je Ai Weiwei je disident umjetnik; tema srednje osjetljivosti je uvažavanje i devalvacije kineske valute, i tema niske osjetljivosti je Svjetsko prvenstvo. Od tih 11 milijuna poruka oko 2 mil su cenzurirani, ali poruke na visoko osjetljivim temama samo malo češće su cenzurirani od postova na temama srednjeg i niskog osjetljivost. Drugim riječima, kineski cenzori oko veće šanse da cenzuriše post koji spominje Ai Weiwei kao post koji spominje Svjetskog kupa. Ovi rezultati ne odgovaraju pojednostavljeno ideju da vlada cenzuriše sve poruke o osjetljivim temama.

Ova jednostavna računica cenzure stope od tema mogla biti pogrešne, međutim. Na primjer, vlada bi mogla cenzuriše poruke koje podržavaju Ai Weiwei, ali ostaviti poruke koje su ključne za njega. Kako bi se razlikovati poruke pažljivije, istraživači su potrebna za mjerenje raspoloženje svakog post. Dakle, jedan od načina da razmislim o tome je da se raspoloženje svakog post u važnom latentne karakteristika svakog post. Nažalost, i pored mnogo posla, potpuno automatizovana metoda detekcije sentiment koristi već postojeće rječnike i dalje nije dobar u mnogim situacijama (mislim vratiti na probleme stvara emocionalni vremenski rok od 11. septembra, 2001. godine Odjeljak 2.3.2.6). Stoga, King i kolege potreban način da etiketiraju svoje 11 miliona poruka društvenih medija o tome da li su 1) kritični države, 2) podršku države, ili 3) irelevantan ili činjenične izvještaje o događajima. Ovo zvuči kao masivan posao, ali oni to riješiti pomoću moćne trik; onaj koji je uobičajen u nauci podataka, ali trenutno relativno rijetki u društvene nauke.

Prvo, u korak obično zove pred-obrade, istraživači su pretvorena u društveni mediji postove u dokument rok matrica, gdje je bio jedan red za svaki dokument i jedna kolona koja je snimala da li je post sadrži određenu riječ (npr, protest, saobraćaj, itd). Dalje, grupa istraživanja asistenata ručno označen osjećaj uzorku post. Zatim, King i kolege koristili ovu ruku-označeni podataka za procjenu modela učenja mašinu koja može zaključiti osjećaj post na osnovu njegovih karakteristika. Konačno, koristili su ovaj stroj model učenja procijeniti raspoloženje svih 11 miliona poruke. Stoga, umjesto da ručno čitanje i označavanje 11 miliona poruka (što bi bilo logistički nemoguće), oni ručno označen mali broj postova i zatim koristi koje podatke bi naučnici nazivaju nadzirane učenja procijeniti kategorije svih poruke. Nakon završetka ove analize, King i kolege mogli zaključiti da, pomalo iznenađujuće, verovatnoća poruka izbriše bilo nevezano da li je to bio kritičan prema državi ili podršku države.

Slika 2.3: Pojednostavljeni shematski za postupak koji se koriste u King, Pan, i Roberts (2013.) za procjenu sentiment 11 miliona kineskih društvenih medija poruke. Prvo, u korak obično zove pred-obrade, istraživači pretvoriti u poruke društvenih medija u dokument rok matrica (vidi Grimmer i Stewart (2013.) za više informacija). Drugo, istraživači su ručno kodirani osjećaj malom uzorku od poruke. Treće, istraživači su obučeni pod nadzorom model učenja za klasifikaciju raspoloženje poruke. Četvrto, istraživači su koristili nadgledane model učenja procijeniti raspoloženje svih poruke. Vidi King, Pan, i Roberts (2013), Dodatak B za detaljniji opis.

Slika 2.3: Pojednostavljeni shematski za postupak koji se koriste u King, Pan, and Roberts (2013) za procjenu sentiment 11 miliona kineskih društvenih medija poruke. Prvo, u korak obično zove pred-obrade, istraživači pretvoriti u poruke društvenih medija u dokument rok matrica (vidi Grimmer and Stewart (2013) za više informacija). Drugo, istraživači su ručno kodirani osjećaj malom uzorku od poruke. Treće, istraživači su obučeni pod nadzorom model učenja za klasifikaciju raspoloženje poruke. Četvrto, istraživači su koristili nadgledane model učenja procijeniti raspoloženje svih poruke. Vidi King, Pan, and Roberts (2013) , Dodatak B za detaljniji opis.

Na kraju, kralj i kolege otkrili su da je samo tri vrste poruka redovno su cenzurirani: pornografije, kritike cenzora, i onih koji su imali kolektivnu akciju potencijala (tj mogućnost da dovede do protesta velikih). Posmatranjem ogroman broj postova koji su izbrisani i poruke koje nisu izbrisani, King i kolege su bili u mogućnosti da biste saznali kako cenzori rade samo gledajući i brojanja. U kasnijim istraživanjima, oni zapravo direktno intervenirao u kineski mediji ekosistem socijalne stvaranjem poruke sa sistematski različitim sadržajem i mjerenja koja se cenzurirani (King, Pan, and Roberts 2014) . Mi ćemo naučiti više o eksperimentalnim pristupima u poglavlju 4. Nadalje, predskazju tema koja će se dogoditi u cijeloj knjizi, te latentne-atribut zaključak problemi-koji se ponekad može rešiti nadziranu učenja ispostavi da vrlo često u društvenim istraživanjima u digitalnom dobu. Vidjet ćete slike vrlo slična sliku 2.3 u poglavljima 3 (Postavljanje pitanja) i 5 (Stvaranje mase saradnja); to je jedna od rijetkih ideja koja se pojavljuje u više poglavlja.

Sva tri od ovih primera-radno ponašanje taksista u New Yorku, formiranje prijateljstvo studenata, a mediji cenzura ponašanje društvene kineske vlade pokazuju da relativno jednostavno prebrojavanje opservacijskih podataka može omogućiti istraživačima da testiraju teorijska predviđanja. U nekim slučajevima, velike količine podataka omogućava vam da to brojanje relativno direktno (kao u slučaju New York Taksi). U drugim slučajevima, istraživači će morati prikupiti svoje opservacijskih podataka (kao što je slučaj kineske cenzure); bave nepotpunosti spajanjem podataka zajedno (kao u slučaju evolucije mreže); ili obavlja neki oblik latentne-karakterna zaključak (kao u slučaju kineske cenzure). Kao Nadam se da ovi primjeri pokazuju, za istraživače koji su u mogućnosti da postavljaju zanimljiva pitanja, velika drži veliko obećanje.