2.4.1.3 Цензура соціальних медіа китайським урядом

Дослідники Подряпини китайські сайти соціальних засобів масової інформації для вивчення цензури. Вони мали справу з неповнотою з умовиводів прихованого ознаки.

На додаток до великих обсягів даних , які використовуються в двох попередніх прикладах, дослідники можуть також збирати свої власні дані спостережень, як це було прекрасно ілюструється Гері Кінг, Дженніфер Пан, і Моллі Робертс ' (2013) досліджень про цензуру з боку китайського уряду.

Соціальні повідомлення ЗМІ в Китаї піддавалися цензурі з боку величезного державного апарату, який, як вважають, включають в себе десятки тисяч людей. Дослідники і громадяни, проте, мають мало сенсу, як ці цензори вирішити, який контент повинен бути вилучений з соціальних медіа. Вчені Китаю насправді мають суперечливі очікування про те, які види посад, найбільш ймовірно, видаляються. Деякі думають, що цензори зосередитися на посади, які мають вирішальне значення держави в той час як інші думають, що вони зосереджені на постах, які заохочують колективну поведінку, наприклад, протести. З'ясувати, які з цих очікувань правильно має наслідки для того, як дослідники розуміють, Китай та інші авторитарні уряди, які беруть участь в цензурі. Таким чином, король і його колеги хотіли порівняти повідомлення, які були опубліковані і згодом вилучені на посади, що не були опубліковані і не видаляються.

Збір цих постів бере участь дивовижний інженерний подвиг поповзом більше 1000 китайських соціальних медіа сайтів, кожен з різними Макети сторінок-пошуку релевантних повідомлень, а потім переглядають ці повідомлення, щоб побачити, які згодом були вилучені. На додаток до звичайних інженерних проблем, пов'язаних з великомасштабним веб-повзання, цей проект мав додаткову проблему, що це потрібно було дуже швидко, тому що багато цензурованих пости зняті менш ніж за 24 годин. Іншими словами, повільний гусеничний пропустить багато постів, які були піддані цензурі. Крім того, пошукові роботи повинні були зробити все це збір даних під час ухилення від виявлення щоб веб-сайти соціальних медіа блокувати доступ або іншим чином змінити свою політику у відповідь на дослідження.

Після того, як ця масивна інженерне завдання була завершена, король і його колеги отримали близько 11 мільйонів повідомлень на 85 різних тем, які були попередньо визначені на основі їх очікуваного рівня чутливості. Наприклад, тема високої чутливості Ай Вейвей, художник-дисидент; тема середньої чутливості курсу і девальвація китайської валюти, а також тема низької чутливості чемпіонату світу. З них 11 мільйонів повідомлень близько 2 мільйонів були піддані цензурі, але пости на високочутливих теми були піддані цензурі лише небагато чим частіше, ніж пости по темам, середньої і низької чутливості. Іншими словами, китайські цензори про те, як, ймовірно, цензурувати пост, який згадує Ай Вейвей як пост, який згадує чемпіонат світу з футболу. Ці висновки не відповідали спрощено ідею про те, що уряд піддає цензурі всі повідомлення на чутливі теми.

Цей простий розрахунок швидкості цензури темі може ввести в оману, однако. Наприклад, уряд міг би піддавати цензурі повідомлення, які підтримують Ай Вейвея, але залишити повідомлення, які мають вирішальне значення його. Для того , щоб розрізняти між стовпами ретельніше, дослідники повинні виміряти почуття кожного поста. Таким чином, один із способів думати про це є те, що настрої кожного поста в важливому латентної функції кожного поста. На жаль, незважаючи на великий обсяг роботи, повністю автоматизовані методи виявлення настроїв з використанням заздалегідь існуючих словників досі не дуже добре в багатьох ситуаціях (згадайте проблеми, створюючи емоційну шкалу від 11 вересня 2001 з розділу 2.3.2.6). Таким чином, король і його колеги потрібно було знайти спосіб маркувати свої 11 мільйонів повідомлень в соціальних мережах, щоб вони були 1) критично держави, 2) підтримку держави, або 3) не відносяться до справи або фактичних звітів про події. Це звучить як масивна робота, але вони вирішили її за допомогою потужного трюк; той, який часто зустрічається в науці даних, але в даний час відносно рідко в соціальній науці.

По- перше, на етапі зазвичай називається попередньої обробки, дослідники перетворювали повідомлення соціальних медіа в документ перспективі матриці, де була одна рядок для кожного документа і один стовпець , який записаний , містить повідомлення конкретне слово (наприклад, протест, трафіку і т.д.). Далі, група науковців вручну маркували настрою зразка пост. Тоді король і його колеги використовували цю руку мічених дані для оцінки моделі машинного навчання, які могли б вивести настрою посади на основі його характеристик. І, нарешті, вони використовували цю модель машинного навчання, щоб оцінити настрої всіх 11 мільйонів повідомлень. Таким чином, замість того , щоб вручну читання і маркування 11 мільйонів повідомлень (що було б технічно неможливо), вони вручну позначені невелика кількість повідомлень , а потім використовував то , що дані вчені назвали б контрольовану навчання , щоб оцінити категорії всіх посад. Після завершення цього аналізу, король і його колеги змогли зробити висновок про те, що кілька дивно, ймовірність пост видалення не був пов'язаний з, чи було це критично держави або підтримку держави.

Малюнок 2.3: Спрощена схема для процедури, використовуваної в короля, Пан, і Робертс (2013) для оцінки настрою 11 мільйонів китайських повідомлень в соціальних медіа. По-перше, на етапі, як правило, називають попередньої обробки, дослідники перетворювали повідомлення соціальних медіа в документ довгострокової матриці (див Гриммер і Стюарт (2013) для отримання додаткової інформації). По-друге, дослідники через руки закодував настрою невеликої вибірки повідомлень. По-третє, дослідники навчили контрольовану модель навчання для класифікації настрою посад. По-четверте, дослідники використовували контрольовану модель навчання, щоб оцінити настрої всіх постів. Див Кінг, панорамування і Робертс (2013), Додаток B для більш докладного опису.

Малюнок 2.3: Спрощена схема для процедури , використовуваної в King, Pan, and Roberts (2013) для оцінки настрою 11 мільйонів китайських повідомлень в соціальних медіа. По- перше, на етапі , як правило , називають попередньої обробки, дослідники перетворювали повідомлення соціальних медіа в документ довгострокової матриці (див Grimmer and Stewart (2013) для отримання додаткової інформації). По-друге, дослідники через руки закодував настрою невеликої вибірки повідомлень. По-третє, дослідники навчили контрольовану модель навчання для класифікації настрою посад. По-четверте, дослідники використовували контрольовану модель навчання, щоб оцінити настрої всіх постів. Див King, Pan, and Roberts (2013) , Додаток B для більш докладного опису.

Зрештою, король і його колеги виявили, що тільки три типи повідомлень регулярно цензурі: порнографія, критику цензорів, і ті, які мали колективний потенціал дії (тобто можливість привести до великомасштабних протестів). Спостерігаючи величезна кількість повідомлень, які були видалені і пости, які не були видалені, король і його колеги змогли дізнатися, як цензори працювати, просто спостерігаючи і підрахунку голосів. У подальших дослідженнях, вони на насправді безпосередньо втручалися в китайську соціальну екосистему засобів масової інформації шляхом створення повідомлення з різним вмістом систематично і вимірювання , які отримують цензурувати (King, Pan, and Roberts 2014) . Ми дізнаємося більше про експериментальних підходів в розділі 4. Крім того, віщуючи тема, яка буде відбуватися протягом всієї книги, ці логічний висновок прихованого атрибута проблеми-які іноді можуть бути вирішені за допомогою навчання під наглядом, виявляються дуже поширеним явищем в соціальних дослідженнях в цифровому столітті. Ви побачите фотографії дуже схожий на малюнок 2.3 в главах 3 (задавати питання) і 5 (Створення масового співробітництва); це одна з небагатьох ідей, яка з'являється в декількох розділах.

Всі три з цих прикладів-робочого поведінки водіїв таксі в Нью-Йорку, формування дружби студентами, а також соціальних медіа цензури поведінки китайського уряду-шоу, що відносно простий підрахунок даних спостережень може дозволити вченим перевірити теоретичні передбачення. У деяких випадках великі дані дозволяє зробити цей підрахунок щодо безпосередньо (як у випадку Нью-Йорк Таксис). В інших випадках, дослідники повинні зібрати свої власні дані спостережень (як і в випадку китайської цензури); мати справу з неповнотою шляхом об'єднання даних разом (як і в разі еволюції мережі); або виконання тієї або іншій формі логічного висновку прихованого ознаки (як і у випадку з китайської цензури). Як я сподіваюся, що ці приклади показують, для дослідників, які змогли задати ваші запитання, велика має великі перспективи.