Los investigadores rascaron los sitios de medios sociales chinos para estudiar la censura. Ellos tratan incompleto con la inferencia latente-rasgo.
Además de los grandes datos utilizados en los dos ejemplos anteriores, los investigadores también pueden recoger sus propios datos de observación, como fue maravillosamente ilustrado por Gary King, Jennifer Pan, y 'Molly Roberts (2013) la investigación sobre la censura por parte del gobierno chino.
los mensajes de los medios sociales en China son censuradas por una enorme aparato estatal que se cree que incluye decenas de miles de personas. Los investigadores y los ciudadanos, sin embargo, tienen poco sentido de cómo estos censores decidir qué contenido debe ser eliminado de los medios de comunicación social. Los estudiosos de la China en realidad tienen expectativas en conflicto acerca de qué tipos de mensajes tienen más probabilidades de quedar eliminado. Algunos piensan que los censores se centran en los mensajes que son críticos del estado, mientras que otros creen que se centran en los mensajes que fomentan el comportamiento colectivo, tales como protestas. Averiguar cuál de estas expectativas es correcto tiene implicaciones sobre cómo los investigadores a entender China y otros gobiernos autoritarios que se dedican a la censura. Por lo tanto, el rey y sus colegas querían comparar los mensajes que fueron publicados y posteriormente se eliminan a los puestos que fueron publicados y nunca eliminar.
La recolección de estos mensajes implicó la increíble obra de ingeniería de rastreo más de 1.000 sitios web -cada chinos los medios de comunicación social con diferentes diseños de página de búsqueda de mensajes relevantes, y luego volver a visitar estos mensajes para ver que se elimina posteriormente. Además de los problemas de ingeniería normales asociados a gran escala web de rastreo, este proyecto tenía el reto añadido de que tenía que ser muy rápido porque muchos mensajes censurados se toman en menos de 24 horas. En otras palabras, un rastreador lenta se perdería una gran cantidad de mensajes que fueron censuradas. Además, los rastreadores tuvieron que hacer todo esto mientras que la recolección de datos evadir la detección no sea que los sitios web de medios sociales bloquean el acceso o de otra manera cambiar sus políticas en respuesta al estudio.
Una vez que se completó esta tarea masiva de ingeniería, el rey y sus colegas habían obtenido unos 11 millones de mensajes en 85 temas diferentes que eran pre-especificada en función de su nivel esperado de sensibilidad. Por ejemplo, un tema de alta sensibilidad es Ai Weiwei, el artista disidente; un tema de sensibilidad media es la revalorización y la devaluación de la moneda china, y un tema de sensibilidad baja es la Copa del Mundo. De estos 11 millones de puestos de alrededor de 2 millones habían sido censurados, pero los mensajes sobre temas altamente sensibles fueron censurados sólo un poco más a menudo que los mensajes sobre temas de sensibilidad media y baja. En otras palabras, los censores chinos son tan propensos a censurar un post que menciona Ai Weiwei como un puesto que menciona la Copa del Mundo. Estos hallazgos no coinciden con la idea simplista de que el gobierno censura todos los mensajes sobre temas sensibles.
Este simple cálculo de la tasa de censura por tema podría ser engañoso, sin embargo. Por ejemplo, el gobierno puede censurar los mensajes de apoyo que son de Ai Weiwei, pero que dejan mensajes que son críticos de él. Con el fin de distinguir entre los mensajes con más cuidado, los investigadores necesitan medir el sentimiento de cada puesto. Por lo tanto, una manera de pensar en ello es que el sentimiento de cada mensaje en una característica latente importante de cada puesto. Por desgracia, a pesar de mucho trabajo, métodos totalmente automatizados de detección de emociones utilizando diccionarios pre-existentes todavía no son muy buenos en muchas situaciones (piense de nuevo a los problemas para crear una línea de tiempo emocional del 11 de septiembre de 2001 la Sección 2.3.2.6). Por lo tanto, el rey y sus colegas necesitaban una forma de etiquetar sus 11 millones de mensajes de medios sociales en cuanto a si eran 1) crítica del estado, 2) de apoyo del estado, o 3) los informes irrelevantes o de hecho sobre los acontecimientos. Esto suena como un trabajo enorme, pero lo resolvió mediante un potente truco; uno que es común en la ciencia de datos pero en la actualidad relativamente poco frecuente en las ciencias sociales.
En primer lugar, en una etapa típicamente llamada pre-procesamiento, los investigadores convierten los mensajes de los medios sociales en una matriz documento plazo, donde había una fila para cada documento y una columna que registra si el mensaje contiene una palabra específica (por ejemplo, la protesta, tráfico, etc.). A continuación, un grupo de asistentes de investigación mano marcada con el sentimiento de una muestra de correos. Entonces, el rey y sus colegas usaron estos datos con la etiqueta a mano para estimar un modelo de aprendizaje máquina que pudiera inferir el sentimiento de un puesto en base a sus características. Por último, se utilizó este modelo de aprendizaje automático para estimar el sentimiento de los 11 millones de mensajes. Por lo tanto, en lugar de leer de forma manual y etiquetado 11 millones de puestos (lo que sería logísticamente imposible), se etiquetan manualmente un pequeño número de puestos y luego utilizan los datos que los científicos llamarían aprendizaje supervisado para estimar las categorías de todos los mensajes. Después de completar este análisis, el rey y sus colegas fueron capaces de concluir que, sorprendentemente, la probabilidad de que un mensaje sea eliminado, no estaba relacionada con si era crítico del estado o de apoyo del estado.
Al final, el rey y sus colegas descubrieron que sólo tres tipos de mensajes fueron censurados regularmente: la pornografía, la crítica de los censores, y los que tenían potencial de acción colectiva (es decir, la posibilidad de llevar a protestas a gran escala). Mediante la observación de un gran número de puestos que se han eliminado y mensajes que no se eliminaron, el rey y sus colegas fueron capaces de aprender cómo funcionan los censores sólo por ver y contar. En la investigación posterior, que en realidad intervinieron directamente en el ecosistema chino medios de comunicación social mediante la creación de mensajes con diferentes contenidos de forma sistemática y de medición que conseguir censurado (King, Pan, and Roberts 2014) . Vamos a aprender más acerca de los enfoques experimentales en el Capítulo 4. Además, presagiando un tema que va a ocurrir a lo largo del libro, estos problemas -que latente en atributos de inferencia a veces se pueden resolver con el aprendizaje supervisado-llegar a ser muy común en la investigación social en el era digital. Podrás ver imágenes muy similar a la Figura 2.3 en los capítulos 3 (Hacer preguntas) y 5 (Creación de colaboración en masa); es una de las pocas ideas que aparece en varios capítulos.
Los tres de estos ejemplos-el comportamiento de trabajo de los conductores de taxi en Nueva York, la formación de la amistad por los estudiantes, y los medios de comunicación social, el comportamiento censura del gobierno chino que presentas relativamente simple recuento de los datos de observación puede permitir a los investigadores para poner a prueba las predicciones teóricas. En algunos casos, los grandes datos le permite hacer este recuento relativamente directa (como en el caso de los taxis de Nueva York). En otros casos, los investigadores tendrán que recoger sus propios datos de observación (como en el caso de la censura china); tratar con incompleto mediante la fusión de datos en conjunto (como en el caso de la evolución de la red); o realizar algún tipo de inferencia latente-rasgo (como en el caso de la censura chino). Como espero que estos ejemplos muestran, para los investigadores que son capaces de hacer preguntas interesantes, grande es una gran promesa.