Les chercheurs grattées sites de médias sociaux chinois pour étudier la censure. Ils ont traité avec incomplétude latente trait inférence.
En plus des grandes données utilisées dans les deux exemples précédents, les chercheurs peuvent également recueillir leurs propres données d' observation, comme cela a été merveilleusement illustré par Gary King, Jennifer Pan, et Molly Roberts (2013) la recherche sur la censure par le gouvernement chinois.
messages de médias sociaux en Chine sont censurés par un énorme appareil d'Etat qui est pensé pour inclure des dizaines de milliers de personnes. Les chercheurs et les citoyens, cependant, ont peu de sens de la façon dont ces censeurs décident quel contenu doit être supprimé à partir du média social. Les spécialistes de la Chine ont fait des attentes contradictoires au sujet de quels types de postes sont les plus susceptibles d'être supprimés. Certains pensent que les censeurs se concentrent sur les postes qui sont critiques de l'Etat tandis que d'autres pensent qu'ils se concentrent sur les messages qui encouragent les comportements collectifs, comme les protestations. Déterminer lequel de ces attentes est correcte a des répercussions sur la façon dont les chercheurs à comprendre la Chine et d'autres gouvernements autoritaires qui se livrent à la censure. Par conséquent, le roi et ses collègues voulaient comparer les messages qui ont été publiés et ensuite supprimés à des postes qui ont été publiés et ne jamais supprimés.
La collecte de ces postes implique l'exploit d'ingénierie incroyable de ramper plus de 1000 sites Web chinois-chacun de médias sociaux différentes présentations de page d'enquête messages pertinents, puis revenir sur ces messages pour voir ce qui a été supprimé par la suite. En plus des problèmes d'ingénierie normaux associés à grande échelle web-crawling, ce projet avait le défi ajouté qu'il avait besoin d'être extrêmement rapide parce que beaucoup de messages censurés sont prises dans moins de 24 heures. En d'autres termes, un robot lent manquerait beaucoup de messages qui ont été censurés. En outre, les robots avaient à faire tout ce recueil de données tout en évitant la détection de peur que les sites de médias sociaux bloquent l'accès ou autrement modifier leurs politiques en réponse à l'étude.
Une fois cette tâche d'ingénierie massive a été achevée, le roi et ses collègues avaient obtenu environ 11 millions de messages sur 85 sujets différents qui ont été pré-spécifiée en fonction de leur niveau attendu de sensibilité. Par exemple, un sujet de haute sensibilité est Ai Weiwei, l'artiste dissident; un sujet de la sensibilité du milieu est l'appréciation et la dévaluation de la monnaie chinoise, et un sujet de faible sensibilité est la Coupe du Monde. Sur ces 11 millions de postes environ 2 millions avaient été censurés, mais les messages sur des sujets très sensibles ont été censurées seulement un peu plus souvent que les messages sur des sujets de sensibilité moyenne et basse. En d'autres termes, les censeurs chinois sont aussi susceptibles de censurer un poste qui mentionne Ai Weiwei comme un poste qui mentionne la Coupe du Monde. Ces résultats ne correspondent pas à l'idée simpliste que le gouvernement censure tous les messages sur des sujets sensibles.
Ce simple calcul du taux de censure par sujet pourrait être trompeur, cependant. Par exemple, le gouvernement pourrait censurer les messages qui sont en faveur de Ai Weiwei, mais laissent des postes qui sont critiques de lui. Afin de faire la distinction entre les postes avec plus de soin, les chercheurs ont besoin de mesurer le sentiment de chaque poste. Ainsi, d'une façon de penser à ce sujet est que le sentiment de chaque poste dans une fonction latente importante de chaque poste. Malheureusement, en dépit de beaucoup de travail, des méthodes entièrement automatisées de détection de sentiment à l'aide de dictionnaires pré-existants ne sont pas encore très bien dans de nombreuses situations (penser à des problèmes pour créer une chronologie émotionnelle du 11 Septembre 2001 de la section 2.3.2.6). Par conséquent, le roi et ses collègues avaient besoin d'un moyen d'étiqueter leurs 11 millions de messages de médias sociaux pour savoir si elles étaient 1) critique de l'état, 2) de soutien de l'Etat, ou 3) des rapports pertinents ou factuels sur les événements. Cela sonne comme un énorme travail, mais ils ont résolu à l'aide d'un truc puissant; celui qui est commun dans la science des données, mais actuellement relativement rare dans les sciences sociales.
Tout d' abord, dans une étape généralement appelée pré-traitement, les chercheurs ont converti les messages de médias sociaux dans une matrice de documents terme, où il y avait une ligne pour chaque document et une colonne qui a enregistré si le poste contenait un mot spécifique (par exemple, la protestation, le trafic, etc.). Ensuite, un groupe d'assistants de recherche main marqué le sentiment d'un échantillon de poste. Puis, le roi et ses collègues ont utilisé ces données marqué à la main pour estimer un modèle d'apprentissage de la machine qui pourrait en déduire le sentiment d'un poste en fonction de ses caractéristiques. Enfin, ils ont utilisé ce modèle d'apprentissage automatique pour estimer le sentiment de l'ensemble des 11 millions de messages. Ainsi, plutôt que de lire manuellement et d' étiquetage 11 millions de messages (qui serait logistiquement impossible), ils étiquetés manuellement un petit nombre de postes, puis utilisés les données scientifiques appellent l' apprentissage supervisé pour estimer les catégories de tous les postes. Après avoir terminé cette analyse, le roi et ses collègues ont pu conclure que, de façon surprenante, la probabilité d'un poste étant supprimé était sans rapport si elle était critique de l'état ou de soutien de l'Etat.
En fin de compte, le roi et ses collègues ont découvert que seulement trois types de postes ont été régulièrement censurés: la pornographie, la critique de la censure, et ceux qui avaient un potentiel d'action collective (à savoir la possibilité de mener à des manifestations à grande échelle). En observant un grand nombre de postes qui ont été supprimés et messages qui ne sont pas supprimés, le roi et ses collègues ont pu apprendre comment les censeurs travaillent juste en regardant et en comptant. Dans les recherches ultérieures, ils en fait directement intervenus dans le chinois écosystème des médias sociaux en créant des messages avec un contenu et mesure systématiquement différents qui se censuré (King, Pan, and Roberts 2014) . Nous allons en apprendre davantage sur les approches expérimentales du chapitre 4. En outre, préfigurant un thème qui aura lieu tout au long du livre, ces problèmes-qui latente attribut inférence peut parfois être résolus avec supervisé l'apprentissage se révéler très commun dans la recherche sociale dans le l'ère numérique. Vous verrez des images très similaire à la figure 2.3 dans les chapitres 3 (Poser des questions) et 5 (Création d'une collaboration de masse); il est l'un des rares idées qui apparaissent dans plusieurs chapitres.
Tous les trois de ces exemples-le comportement de travail des chauffeurs de taxi à New York, la formation de l'amitié par les étudiants, et le comportement social des médias de la censure du gouvernement-spectacle chinois que relativement simple comptage des données d'observation peut permettre aux chercheurs de tester les prédictions théoriques. Dans certains cas, grand données vous permet de faire ce comptage relativement directement (comme dans le cas de New York Taxis). Dans d'autres cas, les chercheurs devront recueillir leurs propres données d'observation (comme dans le cas de la censure chinoise); faire face à l'incomplétude en fusionnant les données ensemble (comme dans le cas de l'évolution du réseau); ou d'effectuer une certaine forme de latente trait inférence (comme dans le cas de la censure chinoise). Comme je l'espère que ces exemples montrent, pour les chercheurs qui sont en mesure de poser des questions intéressantes, grand est très prometteur.