2.4.1.3 Цензура социальных медиа китайским правительством

Исследователи Царапины китайские сайты социальных средств массовой информации для изучения цензуры. Они имели дело с неполнотой с умозаключений скрытого признака.

В дополнение к больших объемов данных , используемых в двух предыдущих примерах, исследователи могут также собирать свои собственные данные наблюдений, как это было прекрасно иллюстрируется Гэри Кинг, Дженнифер Пан, и Молли Робертс ' (2013) исследований о цензуре со стороны китайского правительства.

Социальные сообщения СМИ в Китае подвергались цензуре со стороны огромного государственного аппарата, который, как полагают, включают в себя десятки тысяч людей. Исследователи и граждане, однако, имеют мало смысла, как эти цензоры решить, какой контент должен быть удален из социальных медиа. Ученые Китая на самом деле имеют противоречивые ожидания о том, какие виды должностей, наиболее вероятно, удаляются. Некоторые думают, что цензоры сосредоточиться на должности, которые имеют решающее значение государства в то время как другие думают, что они сосредоточены на постах, которые поощряют коллективное поведение, например, протесты. Выяснить, какие из этих ожиданий правильно имеет последствия для того, как исследователи понимают, Китай и другие авторитарные правительства, которые участвуют в цензуре. Таким образом, король и его коллеги хотели сравнить сообщения, которые были опубликованы и впоследствии удаленные на должности, которые не были опубликованы и не удаляются.

Сбор этих постов участвует удивительный инженерный подвиг ползком более 1000 китайских социальных медиа сайтов, каждый с различными Макеты страниц-поиска релевантных сообщений, а затем пересматривают эти сообщения, чтобы увидеть, которые впоследствии были удалены. В дополнение к обычным инженерных проблем, связанных с крупномасштабным веб-ползания, этот проект имел дополнительную проблему, что это нужно было очень быстро, потому что многие цензурированных посты сняты менее чем за 24 часов. Другими словами, медленный гусеничный пропустит много постов, которые были подвергнуты цензуре. Кроме того, поисковые роботы должны были сделать все это сбор данных во время уклонения от обнаружения чтобы веб-сайты социальных медиа блокировать доступ или иным образом изменить свою политику в ответ на исследования.

После того, как эта массивная инженерная задача была завершена, король и его коллеги получили около 11 миллионов сообщений на 85 различных тем, которые были предварительно определены на основе их ожидаемого уровня чувствительности. Например, тема высокой чувствительности Ай Вэйвэй, художник-диссидент; тема средней чувствительности курса и девальвация китайской валюты, а также тема низкой чувствительности чемпионата мира. Из них 11 миллионов сообщений около 2 миллионов были подвергнуты цензуре, но посты на высокочувствительных темы были подвергнуты цензуре лишь немногим чаще, чем посты по темам, средней и низкой чувствительности. Другими словами, китайские цензоры о том, как, вероятно, цензурировать пост, который упоминает Ай Вэйвэй как пост, который упоминает чемпионат мира по футболу. Эти выводы не соответствовали упрощенно идею о том, что правительство подвергает цензуре все сообщения на чувствительные темы.

Этот простой расчет скорости цензуры теме может ввести в заблуждение, однако. Например, правительство могло бы подвергать цензуре сообщения, которые поддерживают Ай Вэйвэя, но оставить сообщения, которые имеют решающее значение его. Для того , чтобы различать между столбами более тщательно, исследователи должны измерить чувства каждого поста. Таким образом, один из способов думать об этом является то, что настроения каждого поста в важном латентной функции каждого поста. К сожалению, несмотря на большой объем работы, полностью автоматизированные методы обнаружения настроений с использованием заранее существующих словарей до сих пор не очень хорошо во многих ситуациях (вспомните проблемы, создавая эмоциональную шкалу от 11 сентября 2001 года из раздела 2.3.2.6). Таким образом, король и его коллеги нужно было найти способ маркировать свои 11 миллионов сообщений в социальных сетях, чтобы они были ли 1) критически государства, 2) поддержку государства, или 3) не относящихся к делу или фактических отчетов о событиях. Это звучит как массивная работа, но они решили ее с помощью мощного трюк; тот, который часто встречается в науке данных, но в настоящее время относительно редко в социальной науке.

Во- первых, на этапе обычно называется предварительной обработки, исследователи преобразовывали сообщения социальных медиа в документ перспективе матрицы, где была одна строка для каждого документа и один столбец , который записан , содержит ли сообщение конкретное слово (например, протест, трафика и т.д.). Далее, группа научных сотрудников вручную маркировали настроения образца пост. Тогда король и его коллеги использовали эту руку меченных данные для оценки модели машинного обучения, которые могли бы вывести настроения должности на основе его характеристик. И, наконец, они использовали эту модель машинного обучения, чтобы оценить настроения всех 11 миллионов сообщений. Таким образом, вместо того , чтобы вручную чтения и маркировки 11 миллионов сообщений (что было бы технически невозможно), они вручную помечены небольшое количество сообщений , а затем использовал то , что данные ученые назвали бы контролируемую обучение , чтобы оценить категории всех должностей. После завершения этого анализа, король и его коллеги смогли сделать вывод о том, что несколько удивительно, вероятность пост удаления не был связан с, было ли это критично государства или поддержку государства.

Рисунок 2.3: Упрощенная схема для процедуры, используемой в короля, Пан, и Робертс (2013) для оценки настроения 11 миллионов китайских сообщений в социальных медиа. Во-первых, на этапе, как правило, называют предварительной обработки, исследователи преобразовывали сообщения социальных медиа в документ долгосрочной матрицы (см Гриммер и Стюарт (2013) для получения дополнительной информации). Во-вторых, исследователи через руки закодировал настроения небольшой выборки сообщений. В-третьих, исследователи обучили контролируемую модель обучения для классификации настроения должностей. В-четвертых, исследователи использовали контролируемую модель обучения, чтобы оценить настроения всех постов. См Кинг, панорамирование и Робертс (2013), Приложение B для более подробного описания.

Рисунок 2.3: Упрощенная схема для процедуры , используемой в King, Pan, and Roberts (2013) для оценки настроения 11 миллионов китайских сообщений в социальных медиа. Во- первых, на этапе , как правило , называют предварительной обработки, исследователи преобразовывали сообщения социальных медиа в документ долгосрочной матрицы (см Grimmer and Stewart (2013) для получения дополнительной информации). Во-вторых, исследователи через руки закодировал настроения небольшой выборки сообщений. В-третьих, исследователи обучили контролируемую модель обучения для классификации настроения должностей. В-четвертых, исследователи использовали контролируемую модель обучения, чтобы оценить настроения всех постов. См King, Pan, and Roberts (2013) , Приложение B для более подробного описания.

В конце концов, король и его коллеги обнаружили, что только три типа сообщений регулярно цензуре: порнография, критику цензоров, и те, которые имели коллективный потенциал действия (то есть возможность привести к крупномасштабных протестов). Наблюдая огромное количество сообщений, которые были удалены и посты, которые не были удалены, король и его коллеги смогли узнать, как цензоры работать, просто наблюдая и подсчета голосов. В дальнейших исследованиях, они на самом деле непосредственно вмешивались в китайскую социальную экосистему средств массовой информации путем создания сообщения с различным содержанием систематически и измерения , которые получают цензурированной (King, Pan, and Roberts 2014) . Мы узнаем больше о экспериментальных подходов в главе 4. Кроме того, предвещая тема, которая будет происходить на протяжении всей книги, эти логический вывод скрытого атрибута проблемы-которые иногда могут быть решены с помощью обучения под наблюдением, оказываются очень распространенным явлением в социальных исследованиях в Цифровой век. Вы увидите фотографии очень похож на рисунок 2.3 в главах 3 (задавать вопросы) и 5 ​​(Создание массового сотрудничества); это одна из немногих идей, которая появляется в нескольких главах.

Все три из этих примеров-рабочего поведения водителей такси в Нью-Йорке, формирование дружбы студентами, а также социальных медиа цензуры поведения китайского правительства-шоу, что относительно простой подсчет данных наблюдений может позволить ученым проверить теоретические предсказания. В некоторых случаях большие данные позволяет сделать этот подсчет относительно непосредственно (как в случае Нью-Йорк Таксис). В других случаях, исследователи должны собрать свои собственные данные наблюдений (как и в случае китайской цензуры); иметь дело с неполнотой путем объединения данных вместе (как и в случае эволюции сети); или выполнения той или иной форме логического вывода скрытого признака (как и в случае с китайской цензуры). Как я надеюсь, что эти примеры показывают, для исследователей, которые смогли задать интересующие вас вопросы, большая имеет большие перспективы.