2.4.1.3 Penapisan media sosial oleh kerajaan China

Penyelidik dikikis laman media sosial China untuk mengkaji penapisan. Mereka diperlakukan tidak lengkap dengan pendam-sifat inferens.

Selain data yang besar yang digunakan dalam kedua-dua contoh sebelumnya, penyelidik juga boleh mengumpul data pemerhatian mereka sendiri, seperti yang hebat yang ditunjukkan oleh Gary Raja, Jennifer Pan, dan Molly Roberts ' (2013) kajian mengenai penapisan oleh kerajaan China.

jawatan media sosial di China ditapis oleh jentera kerajaan besar yang dipercayai termasuk berpuluh-puluh ribu orang. Penyelidik dan rakyat, bagaimanapun, mempunyai rasa sedikit bagaimana penapis ini memutuskan apa kandungan patut dihapuskan dari media sosial. Ulama China sebenarnya mempunyai harapan yang bercanggah mengenai yang jenis jawatan yang paling mungkin untuk mendapatkan dihapuskan. Beberapa berfikir bahawa penapis memberi tumpuan kepada jawatan yang kritikal di negeri ini sementara yang lain berfikir mereka memberi tumpuan kepada jawatan yang menggalakkan tingkah laku kolektif, seperti protes. Mencari tahu yang harapan ini adalah betul mempunyai implikasi untuk bagaimana penyelidik memahami China dan kerajaan autoritarian lain yang terlibat dalam penapisan. Oleh itu, Raja dan rakan-rakan mahu membandingkan siaran yang telah diterbitkan dan kemudiannya dipadamkan untuk jawatan yang telah diterbitkan dan tidak pernah dihapuskan.

Mengumpul jawatan-jawatan ini terlibat kejuruteraan feat yang menakjubkan merangkak lebih daripada 1000 laman web-setiap media sosial China dengan halaman yang berbeza susun atur pencarian catatan, dan kemudian kembali melawat jawatan ini untuk melihat yang kemudiannya dipadam. Selain daripada masalah kejuruteraan biasa dikaitkan dengan skala besar web merangkak, projek ini mempunyai cabaran yang menambah bahawa ia diperlukan untuk menjadi sangat cepat kerana banyak jawatan ditapis diambil ke bawah dalam masa kurang daripada 24 jam. Dalam erti kata lain, crawler perlahan akan terlepas banyak siaran yang telah ditapis. Selanjutnya, crawler terpaksa melakukan semua pengumpulan data ini sementara mengelakkan pengesanan supaya laman media sosial menyekat akses atau sebaliknya mengubah dasar mereka sebagai tindak balas kepada kajian ini.

Setelah kerja-kerja kejuruteraan besar-besaran ini telah selesai, King dan rakan-rakan telah mendapat kira-kira 11 juta jawatan pada 85 topik yang berbeza yang berada pra-ditentukan berdasarkan tahap jangkaan mereka sensitiviti. Sebagai contoh, satu topik sensitiviti tinggi Ai Weiwei, artis pembangkang; satu topik sensitiviti tengah adalah penghargaan dan penurunan nilai mata wang China, dan topik sensitiviti yang rendah adalah Piala Dunia. Daripada jumlah ini 11 juta jawatan kira-kira 2 juta telah ditapis, tetapi catatan mengenai topik-topik yang sangat sensitif ditapis hanya sedikit lebih kerap daripada posting di topik sensitiviti pertengahan dan rendah. Dengan kata lain, penapis Cina akan berkemungkinan untuk menapis jawatan yang menyebut Ai Weiwei sebagai pos yang menyebut Piala Dunia. Penemuan ini tidak sepadan dengan idea mudah yang kerajaan penapis semua catatan mengenai topik-topik sensitif.

Ini pengiraan mudah kadar penapisan oleh topik boleh menjadi mengelirukan, namun. Sebagai contoh, kerajaan mungkin menapis jawatan yang menyokong Ai Weiwei, tetapi meninggalkan jawatan yang kritikal dia. Dalam usaha untuk membezakan antara jawatan lebih berhati-hati, penyelidik perlu mengukur sentimen setiap jawatan. Oleh itu, satu cara untuk berfikir tentang hal itu adalah bahawa sentimen setiap jawatan dalam ciri terpendam penting dalam setiap jawatan. Malangnya, walaupun banyak kerja, kaedah automatik sepenuhnya pengesanan sentimen menggunakan kamus yang sedia ada masih tidak begitu baik dalam situasi (berfikir kembali kepada masalah mewujudkan garis masa emosi 11 September 2001 daripada Seksyen 2.3.2.6). Oleh itu, Raja dan rakan-rakan memerlukan cara untuk melabelkan catatan media sosial 11 juta mereka sama ada mereka adalah 1) kritikal di negeri ini, 2) menyokong kerajaan, atau 3) Laporan yang tidak relevan atau fakta mengenai kejadian-kejadian. Ini bunyi seperti tugas yang besar, tetapi mereka diselesaikan dengan menggunakan helah yang kuat; salah satu yang biasa dalam sains data tetapi kini agak jarang berlaku dalam bidang sains sosial.

Pertama, dalam langkah yang biasanya dipanggil pra-pemprosesan, penyelidik ditukar jawatan media sosial ke dalam matriks jangka dokumen, di mana terdapat satu baris untuk setiap dokumen dan satu lajur yang mencatatkan sama ada jawatan yang terkandung perkataan tertentu (contohnya, bantahan, lalu lintas, dan lain-lain). Seterusnya, sekumpulan pembantu penyelidik tangan dilabel sentimen sampel pos. Kemudian, Raja dan rakan-rakan menggunakan ini data tangan dilabel untuk menganggarkan model pembelajaran mesin yang boleh membuat kesimpulan sentimen jawatan berdasarkan ciri-cirinya. Akhirnya, mereka menggunakan ini model pembelajaran mesin untuk menganggarkan sentimen semua 11 juta catatan. Oleh itu, daripada membaca manual dan pelabelan 11 juta jawatan (yang akan menjadi logistik mustahil), mereka secara manual dilabel sebilangan kecil jawatan dan kemudian digunakan apa data saintis akan memanggil pembelajaran diselia untuk menganggarkan kategori semua jawatan. Selepas melengkapkan analisis ini, King dan rakan-rakan dapat menyimpulkan bahawa, agak menghairankan, kebarangkalian jawatan yang dipadamkan tidak berkaitan dengan sama ada ia mengkritik kerajaan atau menyokong kerajaan.

Rajah 2.3: skematik dipermudahkan untuk prosedur yang digunakan di King, Pan, dan Roberts (2013) untuk menganggarkan sentimen 11 juta jawatan media sosial China. Pertama, dalam langkah yang biasanya dipanggil pra-pemprosesan, penyelidik ditukar jawatan media sosial ke dalam matriks jangka dokumen (lihat Grimmer dan Stewart (2013) untuk maklumat lanjut). Kedua, penyelidik tangan berkod sentimen sampel kecil catatan. Ketiga, penyelidik terlatih model pembelajaran diselia untuk mengklasifikasikan sentimen catatan. Keempat, penyelidik menggunakan model pembelajaran diselia untuk menganggarkan sentimen semua jawatan. Lihat Raja, Pan, dan Roberts (2013), Lampiran B untuk penerangan yang lebih terperinci.

Rajah 2.3: skematik dipermudahkan untuk prosedur yang digunakan dalam King, Pan, and Roberts (2013) untuk menganggarkan sentimen 11 juta jawatan media sosial China. Pertama, dalam langkah yang biasanya dipanggil pra-pemprosesan, penyelidik ditukar jawatan media sosial ke dalam matriks jangka dokumen (lihat Grimmer and Stewart (2013) untuk maklumat lanjut). Kedua, penyelidik tangan berkod sentimen sampel kecil catatan. Ketiga, penyelidik terlatih model pembelajaran diselia untuk mengklasifikasikan sentimen catatan. Keempat, penyelidik menggunakan model pembelajaran diselia untuk menganggarkan sentimen semua jawatan. Lihat King, Pan, and Roberts (2013) , Lampiran B untuk penerangan yang lebih terperinci.

Akhirnya, Raja dan rakan-rakan mendapati bahawa hanya tiga jenis jawatan telah kerap ditapis: pornografi, kritikan penapis, dan orang-orang yang mempunyai potensi tindakan kolektif (iaitu, kemungkinan yang membawa kepada protes besar-besaran). Dengan memerhatikan yang besar jawatan yang telah dipadam dan jawatan yang tidak dipadam, King dan rakan-rakan dapat belajar bagaimana penapis bekerja hanya dengan menonton dan mengira. Dalam kajian berikutnya, mereka sebenarnya langsung campur tangan ke dalam ekosistem media sosial China dengan mewujudkan jawatan dengan kandungan sistematik yang berbeza dan pengukur yang mendapatkan ditapis (King, Pan, and Roberts 2014) . Kita akan belajar lebih lanjut mengenai pendekatan eksperimen dalam Bab 4. Selanjutnya, berciri bayangan tema yang akan berlaku dalam buku ini, masalah-masalah ini-yang terpendam-atribut inferens kadang-kadang boleh diselesaikan dengan diselia pembelajaran berubah menjadi sangat biasa dalam penyelidikan sosial di umur digital. Anda akan melihat gambar yang sangat serupa dengan Rajah 2.3 dalam Bab 3 (DKK soalan) dan 5 (Mewujudkan kerjasama besar-besaran); ia adalah salah satu daripada beberapa idea yang muncul dalam beberapa bab.

Ketiga-tiga contoh-tingkah laku kerja pemandu teksi di New York, pembentukan persahabatan dengan pelajar, dan media tingkah laku penapisan sosial orang Cina kerajaan menunjukkan bahawa kiraan agak mudah data pemerhatian boleh membolehkan penyelidik untuk menguji ramalan teori. Dalam beberapa kes, data yang besar membolehkan anda untuk melakukan kiraan ini agak langsung (seperti dalam kes di New York Teksi). Dalam kes lain, penyelidik akan perlu untuk mengumpul data pemerhatian mereka sendiri (seperti dalam kes penapisan Cina); berurusan dengan tidak lengkap dengan menggabungkan data bersama-sama (seperti dalam kes evolusi rangkaian); atau melaksanakan beberapa bentuk pendam-sifat inferens (seperti dalam kes penapisan Cina). Seperti yang saya berharap contoh-contoh ini menunjukkan, bagi penyelidik yang mampu untuk bertanya soalan yang menarik, besar harapan besar.