2.4.1.3 La censura dei social media da parte del governo cinese

I ricercatori hanno raschiato siti di social media cinesi per studiare la censura. Sono stati affrontati con l'incompletezza con inferenza latente-tratto.

Oltre ai grandi dati utilizzati nei due esempi precedenti, i ricercatori possono anche raccogliere i propri dati di osservazione, come è stato meravigliosamente illustrata da Gary King, Jennifer Pan, e Molly Roberts ' (2013) di ricerca sulla censura da parte del governo cinese.

Sociali messaggi dei media in Cina sono censurati da un apparato statale enorme che è pensato per includere decine di migliaia di persone. I ricercatori e cittadini, però, hanno poco senso di come questi censori decidere a quale contenuto dovrebbe essere soppresso dal social media. Gli studiosi della Cina in realtà hanno aspettative contrastanti su quali tipi di messaggi hanno più probabilità di ottenere cancellato. Alcuni pensano che censori concentrarsi sui posti che sono critici dello stato, mentre altri pensano di concentrarsi sui posti che incoraggiano comportamenti collettivi, come ad esempio le proteste. Capire quale di queste aspettative è corretto ha implicazioni per i ricercatori a capire come la Cina e gli altri governi autoritari che si impegnano in censura. Pertanto, il re ei suoi colleghi hanno voluto confrontare i messaggi che sono stati pubblicati e successivamente cancellati per i messaggi che sono stati pubblicati e mai cancellati.

Raccolta questi posti ha comportato la straordinaria impresa di ingegneria di strisciare oltre 1.000 cinesi di social media web-ognuno con diversi layout di pagina di accertamento dei relativi posti, e poi rivisitare questi posti per vedere che sono stati successivamente eliminati. In aggiunta ai normali problemi di ingegneria connessi con larga scala web-crawling, questo progetto ha avuto la sfida aggiunto che aveva bisogno di essere estremamente veloce perché molti messaggi censurati sono prese in meno di 24 ore. In altre parole, un cingolato lento avrebbe perso un sacco di messaggi che sono stati censurati. Inoltre, i crawler hanno dovuto fare tutto questo la raccolta di dati mentre eludere il rilevamento per timore che i siti di social media bloccano l'accesso o in altro modo cambiare le loro politiche in risposta allo studio.

Una volta che questo compito di ingegneria massiccia è stata completata, il re ei suoi colleghi avevano ottenuto circa 11 milioni di messaggi su 85 argomenti diversi che sono stati pre-specificato in base al loro livello previsto di sensibilità. Ad esempio, un argomento di elevata sensibilità è Ai Weiwei, l'artista dissidente; un tema di sensibilità centrale è l'apprezzamento e la svalutazione della moneta cinese, e un argomento di bassa sensibilità è la Coppa del Mondo. Di questi 11 milioni di posti di circa 2 milioni erano stati censurati, ma messaggi su argomenti molto sensibili sono stati censurati solo leggermente più spesso di messaggi su argomenti di sensibilità media e bassa. In altre parole, i censori cinesi sono circa le stesse probabilità di censurare un post che parla di Ai Weiwei come un post che menziona la Coppa del Mondo. Questi risultati non corrisponde l'idea semplicistica che il governo censura tutti i messaggi su argomenti sensibili.

Questo semplice calcolo del tasso di censura per argomento potrebbe essere fuorviante, però. Ad esempio, il governo potrebbe censurare i messaggi che sono di appoggio di Ai Weiwei, ma lasciano i messaggi che sono critici di lui. Al fine di distinguere tra i posti più attenzione, i ricercatori hanno bisogno di misurare il sentimento di ogni post. Così, in un modo di pensare a questo proposito è che il sentimento di ogni post in una caratteristica importante latente di ogni post. Purtroppo, nonostante molto lavoro, i metodi completamente automatizzata di rilevamento sentimento che utilizzano dizionari preesistenti non sono ancora molto buona in molte situazioni (si pensi di nuovo ai problemi che creano una linea temporale emotivo del 11 settembre 2001 la Sezione 2.3.2.6). Pertanto, il re ei suoi colleghi hanno bisogno di un modo per etichettare i loro 11 milioni di messaggi sociali dei media come se essi fossero 1) critica dello Stato, 2) di appoggio dello stato, o 3) i rapporti irrilevanti o di fatto sugli eventi. Questo suona come un lavoro enorme, ma hanno risolto utilizzando un potente trucco; uno che è comune nel campo della scienza dei dati, ma al momento relativamente rara nelle scienze sociali.

In primo luogo, in una fase tipicamente chiamata pre-trattamento, i ricercatori hanno convertito i messaggi di social media in una matrice di documento termine, dove c'era una riga per ogni documento e una colonna che ha registrato se il messaggio contiene una parola specifica (ad esempio, la protesta, traffico, etc.). In seguito, un gruppo di assistenti di ricerca a mano etichettato il sentimento di un campione di posta. Poi, il re e colleghi hanno utilizzato questi dati etichettata a mano per stimare un modello di apprendimento automatico che potrebbe inferire il sentimento di un post in base alle sue caratteristiche. Infine, hanno usato questo modello di apprendimento automatico per stimare il sentimento di tutti i 11 milioni di messaggi. Così, piuttosto che leggere manualmente ed etichettatura 11 milioni di messaggi (che sarebbe logisticamente impossibile), hanno etichettato manualmente un piccolo numero di posti e quindi utilizzate quali dati gli scienziati chiamerebbero apprendimento supervisionato per stimare le categorie di tutti i posti. Dopo aver completato questa analisi, il re e colleghi sono stati in grado di concludere che, un po 'sorprendentemente, la probabilità di un post viene cancellato era estraneo a se era critica dello stato o di supporto dello Stato.

Figura 2.3: schema semplificato per la procedura utilizzata a King, Pan, e Roberts (2013) per stimare il sentimento di 11 milioni di messaggi di social media cinesi. In primo luogo, in una fase tipicamente chiamata pre-trattamento, i ricercatori hanno convertito i messaggi dei social media in una matrice di documento termine (vedi Grimmer e Stewart (2013) per ulteriori informazioni). In secondo luogo, i ricercatori mano codificati il ​​sentimento di un piccolo campione di messaggi. In terzo luogo, i ricercatori hanno addestrato un modello di apprendimento supervisionato per classificare il sentimento di tutti i messaggi. In quarto luogo, i ricercatori hanno utilizzato il modello di apprendimento supervisionato per stimare il sentimento di tutti i posti. Vedere Re, Pan, e Roberts (2013), l'appendice B per una descrizione più dettagliata.

Figura 2.3: schema semplificato per la procedura utilizzata in King, Pan, and Roberts (2013) per stimare il sentimento di 11 milioni di messaggi di social media cinesi. In primo luogo, in una fase tipicamente chiamata pre-trattamento, i ricercatori hanno convertito i messaggi dei social media in una matrice di documento termine (vedi Grimmer and Stewart (2013) per maggiori informazioni). In secondo luogo, i ricercatori mano codificati il ​​sentimento di un piccolo campione di messaggi. In terzo luogo, i ricercatori hanno addestrato un modello di apprendimento supervisionato per classificare il sentimento di tutti i messaggi. In quarto luogo, i ricercatori hanno utilizzato il modello di apprendimento supervisionato per stimare il sentimento di tutti i posti. Vedere King, Pan, and Roberts (2013) , l'appendice B per una descrizione più dettagliata.

Alla fine, il re e colleghi hanno scoperto che solo tre tipi di messaggi sono stati regolarmente censurati: pornografia, le critiche di censori, e quelli che avevano il potenziale di azione collettiva (ad esempio, la possibilità di portare a proteste su larga scala). Osservando un enorme numero di messaggi che sono stati cancellati e messaggi che non sono stati eliminati, il re e colleghi sono stati in grado di imparare la censura funzionano solo guardando e contando. In successive ricerche, in realtà direttamente intervenuti nell'ecosistema social media cinese con la creazione di messaggi con contenuti e la misurazione sistematicamente diverso che vengono censurati (King, Pan, and Roberts 2014) . Impareremo di più su approcci sperimentali nel Capitolo 4. Inoltre, prefigurando un tema che si verifica in tutto il libro, questi problemi-che-latente attributo di inferenza a volte può essere risolti con la supervisione di apprendimento risultano essere molto comune nella ricerca sociale nel era digitale. Vedrete immagini molto simile alla figura 2.3 nei capitoli 3 (chiedendo domande) e 5 (creazione di collaborazione di massa); è una delle poche idee che appaiono in più capitoli.

Tutti e tre questi esempi-il comportamento di lavoro dei tassisti di New York, la formazione di amicizia da parte degli studenti, e mezzi di comportamento censura sociale del governo show cinese che relativamente semplice conteggio dei dati di osservazione può consentire ai ricercatori di testare le previsioni teoriche. In alcuni casi, grande dati consente di fare questo conteggio relativamente direttamente (come nel caso di New York Taxi). In altri casi, i ricercatori dovranno raccogliere i propri dati di osservazione (come nel caso di censura cinese); trattare con l'incompletezza dei dati unendo insieme (come nel caso di evoluzione della rete); o l'esecuzione di una qualche forma di inferenza latente-tratto (come nel caso di censura cinese). Come Spero che questi esempi dimostrano, per i ricercatori che sono in grado di porre domande interessanti, grande una grande promessa.