2.4.1.3 A censura dos meios de comunicação social por parte do governo chinês

Pesquisadores raspados sites de mídia social chinesa para estudar a censura. Eles tratadas incompletude com inferência latente-traço.

Além dos grandes dados utilizados nos dois exemplos anteriores, os pesquisadores também podem recolher os seus próprios dados observacionais, como foi maravilhosamente ilustrado por Gary King, Jennifer Pan, e "Molly Roberts (2013) pesquisa sobre a censura por parte do governo chinês.

mensagens de mídia social na China são censurados por um aparelho de estado grande que é pensado para incluir dezenas de milhares de pessoas. Investigadores e cidadãos, no entanto, têm pouca noção de como esses censores decidir quais os conteúdos devem ser excluídos da mídia social. Estudiosos da China realmente tem expectativas conflitantes sobre quais tipos de mensagens são mais propensos a ficar excluído. Alguns pensam que os censores se concentrar em mensagens que são críticos do Estado, enquanto outros pensam que eles se concentram em mensagens que incentivam o comportamento coletivo, tais como protestos. Descobrir quais dessas expectativas é correta tem implicações na forma como os pesquisadores a entender a China e outros governos autoritários que se dedicam a censura. Portanto, o rei e seus colegas queriam comparar os posts que foram publicados e, posteriormente, excluídos para mensagens que foram publicados e nunca apagados.

A coleta desses postos envolveu a façanha de engenharia surpreendente de rastejar mais de 1.000 chineses websites, cada mídia social com diferentes layouts de página de apuramento de cargos relevantes, e, em seguida revisitar estes lugares para ver que foram posteriormente excluído. Além dos problemas normais de engenharia associados com grande escala web-crawling, este projecto teve o desafio adicional que precisava ser extremamente rápido, porque muitas mensagens censuradas são tomadas para baixo em menos de 24 horas. Em outras palavras, um rastreador lento iria perder muitos posts que foram censurados. Além disso, os indexadores tinha que fazer tudo isso de coleta de dados enquanto estiver fugindo de detecção para que os sites de mídia social bloquear o acesso ou alterar as suas políticas em resposta ao estudo.

Uma vez que esta tarefa de engenharia maciça foi concluída, o rei e seus colegas tinham obtido cerca de 11 milhões de mensagens em 85 tópicos diferentes que foram pré-especificada com base em seu nível esperado de sensibilidade. Por exemplo, um tema de alta sensibilidade é Ai Weiwei, o artista dissidente; um tema de sensibilidade média é a valorização e desvalorização da moeda chinesa, e um tema de baixa sensibilidade é a Copa do Mundo. Destes 11 milhões de postos de cerca de 2 milhões haviam sido censurada, mas mensagens sobre temas altamente sensíveis foram censurados apenas um pouco mais frequentemente do que as mensagens sobre temas de sensibilidade média e baixa. Em outras palavras, os censores chineses são tão provável para censurar um post que menciona Ai Weiwei como um post que menciona a Copa do Mundo. Estes achados não encontrou a idéia simplista de que o governo censura todos os posts sobre temas sensíveis.

Este simples cálculo da taxa de censura por tópico pode ser enganador, entretanto. Por exemplo, o governo pode censurar mensagens que são de suporte de Ai Weiwei, mas deixam mensagens que são críticos dele. A fim de distinguir entre mensagens com mais cuidado, os pesquisadores precisam para medir o sentimento de cada post. Assim, uma maneira de pensar sobre isso é que o sentimento de cada post em um importante recurso latente de cada post. Infelizmente, apesar de muito trabalho, os métodos totalmente automatizados de detecção de sentimento usando dicionários pré-existentes ainda não são muito bons em muitas situações (acho que volta para os problemas criando uma linha do tempo emocional de 11 de setembro de 2001 a partir da Secção 2.3.2.6). Portanto, o rei e seus colegas precisavam de uma maneira de rotular os seus 11 milhões de mensagens de mídia social para saber se eles eram 1) crítica do estado, 2) de apoio do Estado, ou 3) relatórios irrelevantes ou de facto sobre os eventos. Isso soa como um trabalho enorme, mas eles resolveram-lo usando um truque poderoso; um que é comum na ciência de dados, mas actualmente relativamente raro na ciência social.

Primeiro, em um passo normalmente chamado de pré-processamento, os pesquisadores convertido as mensagens de mídia social em uma matriz de documentos prazo, onde havia uma linha para cada documento e uma coluna que o registrado se o pós continha uma palavra específica (por exemplo, protesto, tráfego, etc). Em seguida, um grupo de assistentes de pesquisa lado marcado com o sentimento de uma amostra de post. Então, o rei e seus colegas usaram estes dados rotulados mão para estimar um modelo de aprendizagem máquina que poderia inferir o sentimento de um post com base em suas características. Finalmente, eles usaram este modelo de aprendizagem de máquina para estimar o sentimento de todos os 11 milhões de mensagens. Assim, em vez de ler manualmente e rotulagem 11 milhões de mensagens (que seria logisticamente impossível), eles marcado manualmente um pequeno número de mensagens e, em seguida, usado os dados que os cientistas chamam de aprendizagem supervisionada para estimar as categorias de todas as mensagens. Depois de completar esta análise, o rei e seus colegas foram capazes de concluir que, surpreendentemente, a probabilidade de uma mensagem ser removida não estava relacionado com se era crítica do estado ou de apoio do Estado.

Figura 2.3: esquema simplificado para o procedimento utilizado no King, Pan, e Roberts (2013) para estimar o sentimento de 11 milhões de mensagens de mídia social chineses. Primeiro, em um passo normalmente chamado de pré-processamento, os pesquisadores convertido as mensagens de mídia social em uma matriz de documentos prazo (ver Grimmer e Stewart (2013) para mais informações). Em segundo lugar, os pesquisadores mão-coded o sentimento de uma pequena amostra de mensagens. Em terceiro lugar, os pesquisadores treinaram um modelo de aprendizagem supervisionada para classificar o sentimento de mensagens. Em quarto lugar, os pesquisadores utilizaram o modelo de aprendizado supervisionado para estimar o sentimento de todas as mensagens. Veja King, Pan, e Roberts (2013), Apêndice B para uma descrição mais detalhada.

Figura 2.3: esquema simplificado para o procedimento utilizado no King, Pan, and Roberts (2013) para estimar o sentimento de 11 milhões de mensagens de mídia social chineses. Primeiro, em um passo normalmente chamado de pré-processamento, os pesquisadores convertido as mensagens de mídia social em uma matriz de documentos prazo (ver Grimmer and Stewart (2013) para mais informações). Em segundo lugar, os pesquisadores mão-coded o sentimento de uma pequena amostra de mensagens. Em terceiro lugar, os pesquisadores treinaram um modelo de aprendizagem supervisionada para classificar o sentimento de mensagens. Em quarto lugar, os pesquisadores utilizaram o modelo de aprendizado supervisionado para estimar o sentimento de todas as mensagens. Veja King, Pan, and Roberts (2013) , Apêndice B para uma descrição mais detalhada.

No final, o rei e seus colegas descobriram que apenas três tipos de mensagens foram regularmente censurada: a pornografia, críticas dos censores, e aqueles que tinham potencial de ação coletiva (ou seja, a possibilidade de levar a protestos em grande escala). Ao observar um grande número de mensagens que foram excluídos e mensagens que não foram excluídos, o rei e seus colegas foram capazes de aprender os censores trabalhar apenas observando e contando. Em pesquisas posteriores, eles realmente interferiu diretamente no chinês ecossistema de mídia social através da criação de mensagens com conteúdo sistematicamente diferente e medição que se censurado (King, Pan, and Roberts 2014) . Vamos aprender mais sobre abordagens experimentais no Capítulo 4. Além disso, prenunciando um tema que irá ocorrer ao longo do livro, esses problemas-que-atributo latente de inferência pode às vezes ser resolvidos com supervisionado aprendizagem vir a ser muito comum na pesquisa social no idade digital. Você vai ver imagens muito semelhante à Figura 2.3 nos capítulos 3 (Fazer perguntas) e 5 (Criação de colaboração em massa); é uma das poucas ideias que aparece em vários capítulos.

Todos os três destes exemplos-o comportamento de trabalho de motoristas de táxi em New York, formação de amizade por estudantes e mídia comportamento censura social do governo comparência chinesa que relativamente simples contagem dos dados observacionais pode permitir aos pesquisadores testar previsões teóricas. Em alguns casos, big data permite que você faça isso de contagem relativamente diretamente (como no caso de Nova York táxis). Em outros casos, os investigadores terão de recolher os seus próprios dados observacionais (como no caso da censura chinesa); lidar com incompleto pela fusão dos dados em conjunto (como no caso da evolução da rede); ou executar alguma forma de inferência latente-traço (como no caso de censura chinês). Como Espero que estes exemplos mostram, por pesquisadores que são capazes de fazer perguntas interessantes, grande é uma grande promessa.