2.4.1.3 Çin hükümeti tarafından sosyal medyanın Sansür

Araştırmacılar sansürü incelemek için Çinli sosyal medya siteleri kazınmış. Onlar gizli-özellik çıkarım ile eksikliklerden ele.

Harika Gary King, Jennifer Pan ve Molly Roberts 'gösterildiği gibi iki önceki örneklerde kullanılan büyük verilere ek olarak, araştırmacılar da, kendi gözlemsel veri toplayabilir (2013) Çin hükümeti tarafından sansür araştırma.

Çin'de sosyal medya mesajlar insanların on binlerce dahil düşünülmektedir büyük bir devlet aygıtının tarafından sansür edilir. Araştırmacılar ve vatandaşlar, ancak bu sansür içeriği sosyal medya silinmiş gerektiğine karar nasıl küçük duygusu var. Çin Alimler aslında mesajların türlü silinmiş büyük olasılıkla hangi çelişkili beklentileri vardır. Bazı sansür diğerleri gibi protestolar olarak kolektif davranışı teşvik mesajlar, odaklanmak düşünürken devletin kritik mesajlar odaklanmak olduğunu düşünüyorum. Bu beklentilerin doğru olan bulmaktan araştırmacıların Çin ve sansür meşgul diğer otoriter hükümetler anlama nasıl etkileri vardır. Bu nedenle, Kral ve arkadaşları yayınlanmış ve daha sonra yayınlanan ve asla silinen mesajlarý silinen mesajları karşılaştırmak istedik.

Bu Mesajları Toplama farklı bir sayfa ilgili mesajları düzenleri bulma ve daha sonra daha sonra silindi görmek için bu konuları yeniden ziyaret ile 1.000 'den fazla Çinli sosyal medya siteleri-her tarama şaşırtıcı mühendislik Feat çıkıyor. büyük ölçekli web tarama ile ilişkili normal bir mühendislik problemlerine ek olarak, bu projenin birçok sansürlü mesajlar 24 saatten az aşağı alınır çünkü son derece hızlı olması gereken ilave meydan vardı. Başka bir deyişle, yavaş paletli sansür edildi mesajların çok özledim olacaktır. Dahası, tarayıcıların sosyal medya siteleri çalışmaya tepki olarak kendi politikalarını değiştirmek, aksi takdirde erişimi engellemek veya diye algılama kaçma sırasında tüm bu veri toplama yapmak zorunda.

Bu devasa mühendislik görevi tamamlandıktan sonra, Kral ve arkadaşları önceden belirlenmiş hassasiyet tahmini düzeyine göre edildi 85 farklı konularda yaklaşık 11 milyon Mesajları elde etmişti. Örneğin, yüksek hassasiyet konu Ai Weiwei, muhalif sanatçı; orta hassasiyet konu takdir ve Çin para birimi devalüasyon ve düşük hassasiyet konu Dünya Kupası olduğunu. Bu 11 milyon mesaj yaklaşık 2 milyon sansüre uğradığını, ama son derece hassas konularda mesajlar orta ve düşük duyarlılık konularında mesajlar sadece biraz daha sık sansür edildi. Diğer bir deyişle, Çinli sansür Dünya Kupası bahseder bir yazı olarak Ai Weiwei bahseder bir yazı sansür yaklaşık olarak muhtemeldir. Bu bulgular, hükümetin hassas konularda tüm mesajları censors bu basit fikir eşleşmedi.

Konuya göre sansür oranı bu basit bir hesaplama Ancak, yanıltıcı olabilir. Örneğin, hükümet Ai Weiwei destekleyen, ancak ondan kritik mesajları bırakın mesajları sansür olabilir. Daha dikkatli mesaj ayırt etmek için, araştırmacılar her yazının duyguları ölçmek gerekir. Böylece, bunu düşünmek için bir yoludur her yazının önemli bir gizli özelliği her yazının duyguları söyledi. Ne yazık ki, çok çalışmaya rağmen, önceden varolan sözlükleri kullanarak duyguları algılama tam otomatik yöntemler (Bölüm 2.3.2.6 itibaren 11 Eylül 2001 duygusal bir zaman çizelgesi oluşturma sorunları geri düşünüyorum) hala birçok durumda çok iyi değildir. Bu nedenle, Kral ve arkadaşları onlar) 1 devletin kritik olduğu edip etmeme 11 milyon sosyal medya mesajları etiketlemek için bir yol gerekli, 2) Devletin, ya da olaylar hakkında 3) alakasız veya olgusal raporlarının destekleyici. Bu büyük bir iş gibi geliyor, ama onlar güçlü bir hile kullanarak çözüldü; Veri bilim yaygın ancak sosyal bilimlerde şu anda nispeten nadir olan bir.

First bir adımdan tipik ön-işlenmesi çağrılan, araştırmacılar her belge için bir satır ve sonrası bir belirli bir kelime içerip içermediğini Kayıtlı skordan sütun vardı bir belge vadeli matrisi içine sosyal medya yayınları dönüştürülebilir (ör, protesto, trafik, vs.). Sonraki, araştırma görevlilerinin bir grup sonrası bir örnek duygusunu el etiketli. Sonra, Kral ve arkadaşları kendi özelliklerine göre bir yazının duyguları anlaması olabilecek bir makine öğrenme modelini tahmin etmek için bu el etiketli verileri kullanılmıştır. Nihayet, hepsi 11 milyon mesajların duyguları tahmin etmek için bu makine öğrenme modelini kullandı. Böylece, el okuma ve etiketleme 11 milyon ileti (lojistik imkansız olurdu) yerine, el ile mesajların az sayıda etiketli ve daha sonra bilim adamları tüm mesajların kategorilerini tahmin etmek denetimli öğrenme dediğimiz olur verileri kullanılmıştır. Bu analizi tamamladıktan sonra, Kral ve arkadaşları biraz şaşırtıcı bir yazının olasılığı devletin kritik veya devletin destekleyici olup olmadığı alakasız oldu silinmesini, sonucuna başardık.

11 milyon Çinli sosyal medya mesajların duyguları tahmin etmek Kral, Pan kullanılan prosedür için basitleştirilmiş şematik ve Roberts (2013): Şekil 2.3. İlk olarak, bir adım tipik ön işleme denilen, araştırmacılar belge vadeli matris içine sosyal medya mesajları dönüştürülür (Daha fazla bilgi için Grimmer ve Stewart (2013) bakınız). İkinci olarak, araştırmacılar mesajların küçük bir örnek duygusunu kodlu, el. Üçüncü olarak, araştırmacılar mesajların duyguları sınıflandırmak için denetimli öğrenme modeli eğitimli. Dördüncü olarak, araştırmacılar tüm mesajların duyguları tahmin etmek denetimli öğrenme modeli kullanıldı. Daha ayrıntılı bilgi için Kral, Pan ve Roberts (2013), Ek B'ye bakın.

Kullanılan prosedür için basitleştirilmiş şematik: Şekil 2.3 King, Pan, and Roberts (2013) 11 milyon Çinli sosyal medya mesajların duyguları tahmin etmek. İlk olarak, bir adım tipik ön işleme denilen, araştırmacılar belge vadeli matris içine sosyal medya mesajları dönüştürülür (bkz Grimmer and Stewart (2013) Daha fazla bilgi için). İkinci olarak, araştırmacılar mesajların küçük bir örnek duygusunu kodlu, el. Üçüncü olarak, araştırmacılar mesajların duyguları sınıflandırmak için denetimli öğrenme modeli eğitimli. Dördüncü olarak, araştırmacılar tüm mesajların duyguları tahmin etmek denetimli öğrenme modeli kullanıldı. Bkz King, Pan, and Roberts (2013) , daha ayrıntılı bilgi için, Ek B.

Sonunda, Kral ve arkadaşları mesajların sadece üç tür düzenli sansür olduğunu keşfetti: pornografi, sansür eleştirisini ve kolektif aksiyon potansiyeli vardı o (yani, büyük ölçekli protestolara yol açan olasılığı). silinmedi silinmiş ve mesajlar vardı mesajların çok sayıda gözlemleyerek, Kral ve arkadaşları sansür izliyor ve sayarak sadece nasıl çalıştığını öğrenmek için başardık. Subsequent araştırmada, aslında doğrudan sansür get sistematik olarak farklı içerik ve ölçümle mesajları yaratarak Çinli sosyal medya ekosisteme müdahale (King, Pan, and Roberts 2014) . Biz kitap boyunca meydana gelecek bir tema habercisi, daha fazla 4. Bölümde deneysel yaklaşımlar hakkında daha fazla öğreneceksiniz, bu gizli-nitelik çıkarım problemleri bazen ile çözülebilecek denetimli öğrenme-dönüş sosyal araştırmalarda çok yaygın olduğu ortaya dijital yaş. Sen (kütle işbirliği oluşturma) Bölüm 3 (soru sorma) ve 5 Şekil 2.3 için resimler çok benzer göreceksiniz; birden çok bölümlerde görünen birkaç fikir biridir.

Bu örneklerde-New York taksi sürücüleri, öğrenciler tarafından dostluk oluşumu ve gözlemsel verilerin nispeten basit sayma teorik öngörüleri test etmek için araştırmacılar etkinleştirebilirsiniz Çin hükümeti-show sosyal medya sansür davranış çalışma davranışı Üçü. Bazı durumlarda, büyük bir veriler (New York Taxis durumunda olduğu gibi) nispeten doğrudan bu sayım yapmak sağlar. Diğer durumlarda, araştırmacılar (Çin sansür durumunda olduğu gibi) kendi gözlemsel veri toplamak gerekir; (Şebeke evrim örneğinde olduğu gibi) verileri bir araya birleştirerek eksiklik başa; ya da (Çin sansür durumunda olduğu gibi) gizli-özellik çıkarım çeşit performans. Umarım olarak bu örnekler ilginç sorular sormaya edebiliyoruz araştırmacılar için büyük büyük söz sahibidir göstermektedir.