2.4.1.3 A censura dos medios de comunicación social por parte do goberno chinés

Investigadores raspados sitios de comunicación social chinesa para estudar a censura. Eles tratadas incompletude con inferencia latente-trazo.

Ademais dos grandes datos utilizados nos dous exemplos anteriores, os investigadores poden recoller os seus propios datos astronómicos, como foi marabillosas ilustrado por Gary King, Jennifer Pan, e "Molly Roberts (2013) investigación sobre a censura por parte do goberno chinés.

mensaxes de comunicación social en China son censurados por un aparello de estado grande que está pensado para incluír decenas de miles de persoas. Investigadores e cidadáns, sen embargo, teñen pouca noción de como estes censores decidir os contidos deben ser excluídos da comunicación social. Estudiosos de China realmente ten expectativas conflito sobre que tipos de mensaxes son máis propensos a estar excluído. Algúns pensan que os censores concentrarse en mensaxes que son críticos do Estado, mentres que outros pensan que se concentran en mensaxes que fomentan o comportamento colectivo, como protestas. Coñecer destas expectativas é correcta ten implicacións na forma na que os investigadores a entender a China e outros gobernos autoritarios que se dedican a censura. Polo tanto, o rei e os seus colegas querían comparar as anotacións que foron publicados e, posteriormente, excluídos para mensaxes que foron publicados e nunca apagados.

A obtención destes postos implica a fazaña de enxeñaría sorprendente de rastexaren máis de 1.000 chineses sitios, cada comunicación social con diferentes esquemas de páxina de clasificación de cargos relevantes, e logo volver estes lugares para ver que foron posteriormente eliminado. Ademais dos problemas normais de enxeñaría asociados con gran escala web-crawling, este proxecto tivo o reto adicional que precisaba ser moi rápido, porque moitas mensaxes censuradas son tomadas para abaixo en menos de 24 horas. Noutras palabras, un rastreador lento ía perder moitos artigos que foron censurados. Ademais, os rastexador tiña que facer todo isto de recollida de datos mentres está fuxindo de detección para que os sitios de comunicación social bloquear o acceso ou cambiar as súas políticas en resposta ao estudo.

Xa que esta tarefa de ingeniería maciza se completa, o rei e os seus colegas obtiveran preto de 11 millóns de mensaxes en 85 temas diferentes que foron pre-especificado con base no seu nivel esperado de sensibilidade. Por exemplo, un tema de alta sensibilidade é Ai Weiwei, o artista disidente; un tema de sensibilidade media é a valorización e desvalorización da moeda chinesa, e un tema de baixa sensibilidade é a Copa do Mundo. Destes 11 millóns de postos de preto de 2 millóns foran censurada, pero mensaxes sobre temas moi sensibles foron censurados só un pouco máis veces que as mensaxes sobre temas de sensibilidade media e baixa. Noutras palabras, os censores chineses son tan probable para censurar un post que menciona Ai Weiwei como un post que menciona o Mundial. Estes achados non atopou a idea simplista de que o goberno censura todos os artigos sobre temas sensibles.

Este simple cálculo da taxa de censura por tema pode ser erro, non obstante. Por exemplo, o goberno pode censurar mensaxes que son de soporte de Ai Weiwei, pero deixan mensaxes que son críticos del. A fin de distinguir entre mensaxes con máis coidado, os investigadores teñen para medir o sentimento de cada post. Así, unha forma de pensar sobre iso é que a sensación de cada post nun importante recurso latente de cada post. Desafortunadamente, a pesar de moito traballo, os métodos totalmente automatizados de detección de emocións utilizando dicionarios preexistentes non son moi bos en moitas situacións (creo que volta aos problemas creando unha liña do tempo emocional de 11 de setembro de 2001 a partir da Sección 2.3.2.6). Polo tanto, o rei e os seus colegas precisaban un xeito de etiquetar os seus 11 millóns de mensaxes de comunicación social para saber se eran 1) crítica do estado, 2) de apoio do Estado, ou 3) informes spam ou de feito sobre os eventos. Isto soa como un traballo enorme, pero resolveron-lo usando un truco poderoso; un que é común na ciencia de datos, pero actualmente relativamente raro na ciencia social.

En primeiro lugar, nun paso normalmente chamado de pre-procesamento, os investigadores convertido as mensaxes de comunicación social nunha matriz de documentos prazo, onde había unha liña para cada documento e unha columna que o rexistrado o post contiña unha palabra específica (por exemplo, protesta, tráfico, etc). A continuación, un grupo de asistentes de investigación lado marcado co sentimento dunha mostra de post. Entón, o rei e os seus colegas usaron estes datos poñen man para estimar un modelo de aprendizaxe máquina que podería inferir a sensación dun post en base ás súas características. Finalmente, utilizaban este modelo de aprendizaxe de máquina para estimar o sentimento de todos os 11 millóns de mensaxes. Así, en vez de ler a man e etiquetaxe 11 millóns de mensaxes (que sería loxística imposible), eles marcado manualmente un pequeno número de mensaxes e, a continuación, usar os datos que os científicos chaman aprendizaxe supervisada para estimar as categorías de todas as mensaxes. Despois de completar esta análise, o rei e os seus compañeiros foron capaces de concluír que, sorprendentemente, a probabilidade dunha mensaxe ser borrada non estaba relacionado co que era crítica do estado ou de apoio do Estado.

Figura 2.3: esquema simplificado para o procedemento utilizado na King, Pan, e Roberts (2013) para estimar o sentimento de 11 millóns de mensaxes de comunicación social chineses. En primeiro lugar, nun paso normalmente chamado de pre-procesamento, os investigadores convertido as mensaxes de comunicación social nunha matriz de documentos prazo (ver Grimmer e Stewart (2013) para máis información). En segundo lugar, os investigadores man Coded a sensación de unha pequena mostra de mensaxes. En terceiro lugar, os investigadores adestraron un modelo de aprendizaxe supervisada para clasificar a sensación de mensaxes. En cuarto lugar, os investigadores utilizaron o modelo de aprendizaxe supervisado para estimar o sentimento de todas as mensaxes. Vexa King, Pan, e Roberts (2013), anexo B para unha descrición máis detallada.

Figura 2.3: esquema simplificado para o procedemento utilizado na King, Pan, and Roberts (2013) para estimar o sentimento de 11 millóns de mensaxes de comunicación social chineses. En primeiro lugar, nun paso normalmente chamado de pre-procesamento, os investigadores convertido as mensaxes de comunicación social nunha matriz de documentos prazo (ver Grimmer and Stewart (2013) para máis información). En segundo lugar, os investigadores man Coded a sensación de unha pequena mostra de mensaxes. En terceiro lugar, os investigadores adestraron un modelo de aprendizaxe supervisada para clasificar a sensación de mensaxes. En cuarto lugar, os investigadores utilizaron o modelo de aprendizaxe supervisado para estimar o sentimento de todas as mensaxes. Vexa King, Pan, and Roberts (2013) , anexo B para unha descrición máis detallada.

Ao final, o rei e os seus colegas descubriron que só tres tipos de mensaxes foron regularmente censurada: a pornografía, críticas dos censores, e os que tiñan potencial de acción colectiva (é dicir, a posibilidade de levar a protestas a grande escala). Ao observar un gran número de mensaxes que foron excluídos e mensaxes que non foron eliminados, o rei e os seus compañeiros foron capaces de aprender os censores traballar só observando e contando. En investigacións posteriores, realmente interferiu directamente no chinés ecosistema de medios de comunicación social a través da creación de mensaxes con contido sistematicamente diferente e medida que se censurado (King, Pan, and Roberts 2014) . Imos aprender máis sobre enfoques experimentais no Capítulo 4. Ademais, prenunciando un tema que debería ocorrer ao longo do libro, estes problemas-que-atributo latente de inferencia pode ás veces ser resoltos con supervisado aprendizaxe debe ser moi común na investigación social no era dixital. Vai ver imaxes moi semellante á Figura 2.3 nos capítulos 3 (Facer preguntas) e 5 (Creación de colaboración en masa); é unha das poucas ideas que aparece en varios capítulos.

Todos os tres destes exemplos o comportamento de traballo de condutores de taxi en Nova York, formación de amizade por estudantes e medios comportamento censura social do goberno comparecencia chinesa que relativamente simple conta dos datos astronómicos pode permitir aos investigadores probar previsións teóricas. Nalgúns casos, big data permite que faga iso de conta relativamente directamente (como no caso de Nova York taxis). Noutros casos, os investigadores terán que recoller os seus propios datos astronómicos (como no caso de censura chinesa); xestionar incompleto pola fusión dos datos en conxunto (como no caso da evolución da rede); ou realizar algún tipo de inferencia latente-trazo (como no caso de censura chinesa). Como Espero que estes exemplos mostran, por investigadores que son capaces de facer preguntas interesantes, grande é unha gran promesa.