2.4.1.3 Sensor media sosial oleh pemerintah China

Para peneliti tergores situs media sosial Cina untuk mempelajari sensor. Mereka berurusan dengan ketidaklengkapan dengan laten-sifat inferensi.

Selain data besar yang digunakan dalam dua contoh sebelumnya, peneliti juga dapat mengumpulkan data pengamatan mereka sendiri, seperti yang biasa digambarkan oleh Gary Raja, Jennifer Pan, dan Molly Roberts ' (2013) penelitian tentang sensor oleh pemerintah Cina.

pos media sosial di China yang disensor oleh aparat negara besar yang diduga termasuk puluhan ribu orang. Peneliti dan warga, namun, memiliki sedikit rasa bagaimana sensor ini memutuskan apa yang harus dihapus konten dari media sosial. Ulama dari Cina benar-benar memiliki harapan yang saling bertentangan tentang yang jenis tulisan yang paling mungkin untuk bisa dihapus. Beberapa berpikir bahwa sensor fokus pada posting yang kritis terhadap negara sementara yang lain berpikir bahwa mereka fokus pada posting yang mendorong perilaku kolektif, seperti protes. Mencari tahu mana dari harapan ini adalah benar memiliki implikasi untuk bagaimana para peneliti memahami Cina dan pemerintahan otoriter lainnya yang terlibat dalam sensor. Oleh karena itu, Raja dan rekan ingin membandingkan tulisan yang diterbitkan dan kemudian dihapus untuk posting yang diterbitkan dan tidak pernah dihapus.

Mengumpulkan posting ini melibatkan rekayasa prestasi luar biasa dari merangkak lebih dari 1.000 Cina website-masing media sosial dengan halaman yang berbeda layout-menemukan posting yang relevan, dan kemudian meninjau posting ini untuk melihat yang kemudian dihapus. Selain masalah teknik normal yang terkait dengan skala besar web-crawling, proyek ini memiliki tantangan menambahkan bahwa yang dibutuhkan untuk menjadi sangat cepat karena banyak posting disensor yang diturunkan dalam waktu kurang dari 24 jam. Dengan kata lain, crawler lambat akan kehilangan banyak posting yang disensor. Selanjutnya, crawler harus melakukan semua pengumpulan data ini sementara menghindari deteksi supaya situs media sosial memblokir akses atau mengubah kebijakan mereka dalam menanggapi studi.

Setelah tugas rekayasa besar ini selesai, Raja dan rekan telah memperoleh sekitar 11 juta posting di 85 topik yang berbeda yang pra-ditentukan berdasarkan tingkat yang diharapkan mereka sensitivitas. Misalnya, topik sensitivitas tinggi adalah Ai Weiwei, artis pembangkang; topik sensitivitas menengah adalah apresiasi dan devaluasi mata uang Cina, dan topik sensitivitas rendah adalah Piala Dunia. Dari jumlah tersebut 11 juta posting sekitar 2 juta telah disensor, tapi posting tentang topik-topik yang sangat sensitif disensor hanya sedikit lebih sering daripada posting di topik sensitivitas menengah dan rendah. Dengan kata lain, sensor Cina adalah tentang kemungkinan untuk menyensor posting yang menyebutkan Ai Weiwei sebagai pos yang menyebutkan Piala Dunia. Temuan ini tidak cocok dengan ide sederhana bahwa pemerintah menyensor semua posting tentang topik-topik sensitif.

perhitungan sederhana ini dari tingkat sensor oleh topik bisa menyesatkan, namun. Misalnya, pemerintah mungkin sensor posting yang mendukung Ai Weiwei, tetapi meninggalkan tulisan yang kritis terhadap dirinya. Untuk membedakan antara posting lebih hati-hati, para peneliti perlu untuk mengukur sentimen dari setiap posting. Jadi, salah satu cara untuk berpikir tentang hal ini adalah bahwa sentimen dari setiap posting di fitur laten penting dari setiap posting. Sayangnya, meskipun banyak pekerjaan, metode otomatis deteksi sentimen menggunakan kamus yang sudah ada masih tidak sangat baik dalam banyak situasi (berpikir kembali ke masalah menciptakan timeline emosional 11 September 2001 dari Bagian 2.3.2.6). Oleh karena itu, Raja dan rekan membutuhkan cara untuk label 11 juta posting media sosial mereka, apakah mereka 1) kritis terhadap negara, 2) mendukung negara, atau 3) laporan tidak relevan atau faktual tentang peristiwa. Ini terdengar seperti pekerjaan besar, tetapi mereka dipecahkan dengan menggunakan trik kuat; salah satu yang umum dalam ilmu data tetapi saat ini relatif jarang terjadi di ilmu sosial.

Pertama, dalam langkah biasanya disebut pre-processing, para peneliti dikonversi tulisan media sosial ke dalam matriks jangka dokumen, di mana ada satu baris untuk setiap dokumen dan satu kolom yang tercatat apakah posting tersebut berisi kata tertentu (misalnya, protes, lalu lintas, dll). Selanjutnya, sekelompok asisten peneliti tangan berlabel sentimen dari sampel posting. Kemudian, Raja dan koleganya menggunakan data yang tangan berlabel ini untuk memperkirakan model pembelajaran mesin yang bisa menyimpulkan sentimen dari posting berdasarkan karakteristiknya. Akhirnya, mereka menggunakan model pembelajaran mesin ini untuk memperkirakan sentimen dari semua 11 juta posting. Dengan demikian, bukan manual membaca dan pelabelan 11 juta posting (yang akan logistik tidak mungkin), mereka secara manual berlabel sejumlah kecil posting dan kemudian digunakan data apa para ilmuwan sebut pembelajaran diawasi untuk memperkirakan kategori semua posting. Setelah menyelesaikan analisis ini, Raja dan rekan mampu menyimpulkan bahwa, agak mengherankan, kemungkinan tulisan yang sedang dihapus tidak berhubungan dengan apakah itu penting negara atau mendukung negara.

Gambar 2.3: Skema Sederhana untuk prosedur yang digunakan di King, Pan, dan Roberts (2013) untuk memperkirakan sentimen dari 11 juta posting media sosial Cina. Pertama, dalam langkah biasanya disebut pre-processing, para peneliti dikonversi tulisan media sosial ke dalam matriks jangka dokumen (lihat Grimmer dan Stewart (2013) untuk informasi lebih lanjut). Kedua, para peneliti hand-kode sentimen dari sampel kecil dari posting. Ketiga, para peneliti melatih model pembelajaran diawasi untuk mengklasifikasikan sentimen posting. Keempat, para peneliti menggunakan model pembelajaran diawasi untuk memperkirakan sentimen dari semua posting. Lihat Raja, Pan, dan Roberts (2013), Lampiran B untuk penjelasan yang lebih rinci.

Gambar 2.3: Skema Sederhana untuk prosedur yang digunakan dalam King, Pan, and Roberts (2013) untuk memperkirakan sentimen dari 11 juta posting media sosial Cina. Pertama, dalam langkah biasanya disebut pre-processing, para peneliti dikonversi tulisan media sosial ke dalam matriks jangka dokumen (lihat Grimmer and Stewart (2013) untuk informasi lebih lanjut). Kedua, para peneliti hand-kode sentimen dari sampel kecil dari posting. Ketiga, para peneliti melatih model pembelajaran diawasi untuk mengklasifikasikan sentimen posting. Keempat, para peneliti menggunakan model pembelajaran diawasi untuk memperkirakan sentimen dari semua posting. Lihat King, Pan, and Roberts (2013) , Lampiran B untuk penjelasan yang lebih rinci.

Pada akhirnya, Raja dan rekan menemukan bahwa hanya tiga jenis posting secara teratur disensor: pornografi, kritik sensor, dan orang-orang yang memiliki potensial aksi kolektif (yaitu, kemungkinan mengarah ke protes besar-besaran). Dengan mengamati sejumlah besar posting yang dihapus dan pos yang tidak dihapus, Raja dan rekan mampu untuk belajar bagaimana sensor bekerja hanya dengan menonton dan menghitung. Dalam penelitian berikutnya, mereka benar-benar langsung turun tangan ke dalam ekosistem media sosial Cina dengan membuat tulisan dengan konten sistematis yang berbeda dan pengukuran yang mendapatkan disensor (King, Pan, and Roberts 2014) . Kami akan mempelajari lebih lanjut tentang pendekatan eksperimental dalam Bab 4. Selanjutnya, pertanda tema yang akan terjadi dalam buku ini, masalah-yang laten-atribut inferensi ini kadang-kadang dapat diselesaikan dengan diawasi belajar-berubah menjadi sangat umum dalam penelitian sosial di era digital. Anda akan melihat gambar yang sangat mirip dengan Gambar 2.3 di Bab 3 (Mengajukan pertanyaan) dan 5 (Menciptakan kolaborasi massa); itu adalah salah satu dari beberapa ide yang muncul dalam beberapa bab.

Ketiga contoh ini-perilaku kerja sopir taksi di New York, pembentukan persahabatan dengan siswa, dan media sosial perilaku sensor pemerintah-acara China bahwa penghitungan relatif sederhana dari data pengamatan dapat memungkinkan para peneliti untuk menguji prediksi teoritis. Dalam beberapa kasus, data yang besar memungkinkan Anda untuk melakukan penghitungan ini relatif langsung (seperti dalam kasus New York Taksi). Dalam kasus lain, peneliti akan perlu mengumpulkan data pengamatan mereka sendiri (seperti dalam kasus sensor Cina); berurusan dengan ketidaklengkapan dengan menggabungkan data bersama-sama (seperti dalam kasus evolusi jaringan); atau melakukan beberapa bentuk laten-sifat inferensi (seperti dalam kasus sensor Cina). Seperti yang saya berharap contoh ini menunjukkan, bagi para peneliti yang mampu mengajukan pertanyaan yang menarik, besar memegang janji besar.