2.4.1.3 Cenzúra sociálnych médií zo strany čínskej vlády

Výskumníci poškriabaný čínskych sociálnych sietí k štúdiu cenzúru. Oni sa zaoberal neúplnosti s latentného rysov záveru.

Okrem veľkých údaje použité v predchádzajúcich dvoch príkladoch, výskumníci môžu tiež vyberať svoje vlastné pozorovacie dáta, ako bolo nádherne ilustrovaný Gary King, Jennifer Pan, a Molly Roberts ' (2013) výskumu na cenzúre zo strany čínskej vlády.

Sociálne príspevky médií v Číne sú cenzurované obrovského štátneho aparátu, ktorý je myšlienka, aby zahŕňal desiatky tisíc ľudí. Výskumní pracovníci a občania však majú len malý zmysel, ako tieto cenzori rozhodnúť, aký obsah by mal byť odstránený zo sociálnych médií. Učenci Číny v skutočnosti majú konfliktné očakávania o tom, ktoré typy pracovných miest s najväčšou pravdepodobnosťou mazané. Niektorí si myslia, že cenzori sa zameriavajú na stĺpoch, ktoré sú kritické voči štátu, zatiaľ čo iní si myslia, že sa zameriavajú na miesta, ktoré podporujú kolektívne správanie, ako je napríklad protesty. Zistiť, ktoré z týchto očakávaní je správna má vplyv na to, ako vedci pochopiť Čínu a ďalšie autoritárske vlády, ktoré sa zapojili do cenzúry. Preto sa kráľ a jeho kolegovia chceli porovnať príspevky, ktoré boli publikované a následne odstránené, aby príspevky, ktoré boli zverejnené a nikdy odstránené.

Zhromažďovanie týchto príspevkov podieľajú úžasný inžiniersky čin plaziť viac ako 1000 čínskych sociálnych médií webových stránok-každá s inou stránkou rozloženie zistení relevantné príspevky, a potom prehodnotenie tieto miesta vidieť, ktoré boli následne odstránené. Okrem bežných technických problémov spojených s veľkom meradle webové plazenie, tento projekt mala väčší problém, ktorý je nutné ju veľmi rýchlo, pretože mnoho cenzorované stĺpiky sú odobraní v čase kratšie ako 24 hodín. Inými slovami, pomaly crawler by chýbať veľa miest, ktorá boli cenzurované. Ďalej sú roboti museli robiť všetky tieto údaje sa zbierajú a zároveň sa vyhnúť detekcii lesť webové stránky sociálnych médií blokovať prístup či inak meniť svoju politiku v reakcii na štúdiu.

Potom, čo bol tento masívny inžiniersky úloha dokončený, kráľ a jeho kolegovia získali asi 11 miliónov pracovných miest na 85 rôznych tém, ktoré boli vopred definované na základe ich očakávanú úroveň citlivosti. Napríklad téma vysokou citlivosťou je Ai Weiwei, disident umelec; téma stredná citlivosť je zhodnotenie a znehodnotenie čínskej meny, a témou nízkou citlivosťou je Svetový pohár. Z týchto 11 miliónov miest asi 2.000.000 bolo cenzurované, ale príspevky na vysoko citlivými témami boli cenzurované len o niečo častejšie ako príspevky na stredných a nízkych tém citlivosti. Inými slovami, čínski cenzori sú asi tak pravdepodobné, že cenzurovať príspevok, ktorý zmieňuje Aj Wej-weje ako poleno, ktoré spomína Svetový pohár. Tieto nálezy nezodpovedal zjednodušujúce predstavu, že vláda cenzori všetky príspevky týkajúce sa citlivých tém.

Tento jednoduchý výpočet cenzúra sadzby o téme by mohlo byť zavádzajúce, však. Napríklad by vláda mohla cenzurovať príspevky, ktoré podporujú Ai Weiwei, ale ponechať príspevky, ktoré sú kritické voči nemu. Aby bolo možné rozlíšiť medzi stĺpikmi starostlivejšie, výskumníci potrebujú merať sentiment každé pracovné miesto. Tak, jeden spôsob, ako premýšľať o tom, že sentiment každého príspevku v dôležitom latentného rysu každého príspevku. Bohužiaľ aj cez veľa práce, plne automatizované metódy detekcie sentimentu s použitím už existujúcich slovníkov sú stále nie sú príliš dobré v mnohých situáciách (myslím späť k problémom vytvára emocionálne časovú os 11. septembra 2001 zo sekcie 2.3.2.6). Preto sa kráľ a jeho kolegovia potrebovali spôsob, ako označovať svoje 11 miliónov sociálne príspevky médií o tom, či boli 1) kritický stav, 2) podporujú štátu alebo 3) irelevantné alebo vecných správ o udalostiach. Znie to ako obrovskú prácu, ale oni to vyriešil pomocou výkonného trik; ten, ktorý je bežný v dátovom vedy, ale v súčasnej dobe pomerne vzácny v sociálnych vedách.

Po prvé, v kroku typicky volal predspracovanie, výskumníci prevedené príspevky sociálnych médií do dokumentu termín matrice, kde bol jeden riadok pre každý dokument a jeden stĺpec, ktorý zaznamenal či post obsahoval určité slovo (napr protest, doprava, atď.). Ďalšia skupina asistentov ručne označený cit vzorky poštou. Potom kráľ a kolegovia použili túto hru značené údaje pre odhad študijné modelu stroj, ktorý by mohol usúdiť cit príspevku na základe svojich vlastností. Nakoniec, oni používali tento model, učenie stroje odhadnúť nálady všetkých 11 miliónov pracovných miest. Tak, skôr než manuálna čítanie a označovanie 11 miliónov pracovných miest (čo by bolo logisticky nemožné), čo sa ručne označený malý počet pracovných miest, a potom použiť, aké dáta vedci by vyžadovalo učenie s odhadnúť kategórie všetkých stĺpikov. Po dokončení tejto analýzy, kráľ a jeho kolegovia boli schopní dospieť k záveru, že trochu prekvapivé, že pravdepodobnosť, že príspevok bol zmazaný bol nespojený k či to bol kritický štátu alebo podporujú štátu.

Obrázok 2.3: Zjednodušená schéma pre proces použitý v King, Pán a Roberts (2013) pre odhadovanie cit 11 miliónov čínskych sociálne médiá príspevky. Po prvé, v kroku typicky volal predspracovanie, výskumníci premenený na sociálne médiá príspevky do dokumentu termín matice (pozri Grimmer a Stewart (2013) pre viac informácií). Po druhé, výskumní pracovníci ručne kódované cit malej vzorky miest. Po tretie, výskumníci školení dozorovaného modelu učenia triediť sentiment pracovných miest. Po štvrté, výskumníci používali strážené modelu učenia odhadnúť nálady všetkých pracovných miest. Pozri kráľa, panvu, a Roberts (2013), príloha B pre podrobnejší popis.

Obrázok 2.3: Zjednodušená schéma pre proces použitý v King, Pan, and Roberts (2013) pre odhadovanie cit 11 miliónov čínskych sociálne médiá príspevky. Po prvé, v kroku typicky volal predspracovanie, výskumníci premenený na sociálne médiá príspevky do dokumentu termín matice (pozri Grimmer and Stewart (2013) pre viac informácií). Po druhé, výskumní pracovníci ručne kódované cit malej vzorky miest. Po tretie, výskumníci školení dozorovaného modelu učenia triediť sentiment pracovných miest. Po štvrté, výskumníci používali strážené modelu učenia odhadnúť nálady všetkých pracovných miest. Pozri King, Pan, and Roberts (2013) , príloha B pre podrobnejší popis.

Na konci, kráľ a jeho kolegovia zistili, že iba tri typy pracovných miest boli pravidelne cenzurované: pornografia, kritiku cenzorov, a tie, ktoré mal spoločný akčný potenciál (tj možnosť viesť k rozsiahlych protestov). Pozorovaním obrovské množstvo príspevkov, ktoré boli odstránené a príspevky, ktoré neboli zmazané, kráľ a jeho kolegovia boli schopní sa naučiť, ako cenzori pracujú práve tým, že sleduje a počítanie. V následnom výskume, v skutočnosti priamo zasiahol do čínskeho sociálnych médií ekosystému tým, že vytvorí príspevky sa systematicky odlišným obsahom a merania, ktoré si Cenzurované (King, Pan, and Roberts 2014) . Budeme sa dozvedieť viac o experimentálne prístupy v kapitole 4. Ďalšie, poskytovať informácie tému, ktoré sa vyskytujú v celej knihe, tieto latentné-attribute derivačných problémy-, ktoré možno niekedy riešiť s učenie s učiteľom, sa ukáže byť veľmi časté u sociálneho výskumu v digitálny vek. Uvidíte obrázky veľmi podobne ako na obrázku 2.3 v kapitolách 3 (kladenie otázok) a 5 (Tvorba masovej spolupráce); je to jedna z mála nápadov, ktoré sa objaví v niekoľkých kapitolách.

Všetky tieto tri príklady-pracovné správanie taxikárov v New Yorku, tvorba priateľstva študentov a sociálne cenzúra médií správanie čínskej vlády-ukazujú, že pomerne jednoduché počítanie pozorovacích dát môže umožniť vedcom testovať teoretické predpovede. V niektorých prípadoch, spracovanie veľkých objemov dát umožňuje vykonávať túto počítanie relatívne priamo (ako je tomu v prípade New York taxi). V ostatných prípadoch, vedci budú musieť vyberať svoje vlastné pozorovacie dáta (ako v prípade čínskej cenzúry); riešiť neúplnosti zlúčením údajov spoločne (ako je tomu v prípade vývoja siete); alebo vykonávanie nejakú formu latentného rysov záveru (ako je to v prípade čínskeho cenzúry). Ako Dúfam, že tieto príklady ukazujú, pre výskumných pracovníkov, ktorí sú schopní klásť zaujímavé otázky, veľký je veľmi sľubná.