Panalungtik scraped loka média sosial Cina pikeun diajar carana ngawasan. Maranéhanana diurus incompleteness jeung laten-tret inference.
Sajaba ka data gedé dipaké dina dua conto samemehna, panalungtik ogé bisa ngumpulkeun data observational sorangan, saperti ieu wonderfully gambar ku Gary Raja, Jennifer Pan, jeung Molly Roberts ' (2013) hasil panalungtikan dina carana ngawasan ku pamaréntah Cina.
tulisan média sosial di Cina nu censored ku aparat nagara pisan anu mikir ngawengku puluhan rébu urang. Panalungtik jeung warga kasebut, geus saeutik rasa kumaha censors ieu mutuskeun naon anu kudu dihapus eusi ti media sosial. Ulama Cina sabenerna geus ekspektasi conflicting ngeunaan nu rupa tulisan nu paling dipikaresep meunang dihapus. Sababaraha mikir yén censors difokuskeun tulisan anu kritis nagara bari batur mikir maranehna difokuskeun tulisan nu ajak paripolah koléktif, saperti protes. Figuring kaluar mana ekspektasi ieu bener ngabogaan implikasi keur kumaha panalungtik ngarti China jeung pamaréntah otoriter séjén anu kalibet dina carana ngawasan. Ku alatan éta, Raja sareng kolega hayang ngabandingkeun tulisan anu dikaluarkeun jeung salajengna dihapus ka tulisan anu dikaluarkeun kungsi dihapus.
Ngumpulkeun tulisan ieu aub dina rékayasa Sunda endah pisan tina Crawling leuwih ti 1.000 Cina situs web-unggal média sosial jeung kaca beda layouts-manggihan tulisan sasuai, terus revisiting tulisan ieu pikeun nempo nu éta salajengna dihapus. Sajaba masalah rékayasa normal patali jeung skala badag web-Crawling, proyék ieu geus tangtangan nu ditambahkeun nu diperlukeun pikeun jadi pisan gancang sabab loba tulisan censored nu dicokot turun dina waktu kurang ti 24 jam. Dina basa sejen, hiji Mapay slow bakal luput kavling tulisan nya éta censored. Salajengna, nu crawlers geus ngalakonan sagala kumpulan data ieu bari evading deteksi lest situs web média sosial meungpeuk aksés atawa disebutkeun ngarobah kawijakan maranéhanana di response ka pangajaran.
Sakali tugas rékayasa masif ieu réngsé, Raja sareng kolega geus ditangtukeun kira 11 juta tulisan dina 85 jejer nu béda nu éta pre-husus dumasar kana tingkat ekspektasi maranéhanana sensitipitas. Contona, topik sensitipitas luhur nyaéta Ai Weiwei, artis dissident; a topik sensitipitas tengah nyaéta pangajén jeung perkara nurunkeun peunteunna duit tina tukeur Cina, jeung topik sensitipitas low nyaéta Piala Dunya. Ieu 11 juta tulisan kira 2 yuta geus censored, tapi tulisan dina jejer kacida sensitip anu censored ngan rada leuwih sering ti tulisan dina jejer sensitipitas tengah jeung low. Dina basa sejen, censors Cina kira salaku kamungkinan sensor pos nu nyebutkeun Ai Weiwei salaku post nu nyebutkeun Piala Dunya. papanggihan ieu teu cocog pamanggih simplistic nu pamaréntah censors sadaya tulisan dina jejer nu sensitip.
itungan basajan ieu rate carana ngawasan ku topik bisa jadi nyasabkeun, kumaha. Contona, pamaréntah bisa sensor tulisan anu supportive of Ai Weiwei, tapi ninggalkeun tulisan anu kritis manéhna. Dina raraga keur ngabedakeun antara tulisan leuwih taliti, panalungtik kudu ngukur sentimen unggal pos. Ku kituna, salah sahiji cara pikeun mikir ngeunaan eta nu sentimen unggal pos dina feature laten penting unggal pos. Hanjakalna, sanajan loba karya, métode pinuh otomatis tina beungeut sentimen ngagunakeun kamus pre-aya masih teu pohara alus dina loba kaayaan (mikir deui masalah nyiptakeun hiji Kala emosi September 11, 2001 ti Bagéan 2.3.2.6). Ku alatan éta, Raja sareng kolega diperlukeun cara pikeun Label 11 juta tulisan média sosial maranéhanana salaku ka naha maranéhanana éta 1) kritis nagara, 2) supportive of kaayaan, atawa 3) laporan nyimpang atawa faktual ngeunaan kajadian. Ieu sora kawas pakasaban masif, tapi direngsekeun eta make trik kuat; hiji nu ilahar di élmu data tapi ayeuna relatif jarang di élmu sosial.
Kahiji, dina undak ilaharna disebut pre-processing, panalungtik dirobah tulisan média sosial jadi matrix istilah-dokumén, di mana aya hiji baris unggal dokumén jeung hiji kolom nu kacatet naha pos dikandung kecap husus (misalna protes, lalu lintas, jsb). Next, grup asisten panalungtikan leungeun-dilabélan nu sentimen tina sampel pos. Saterusna, Raja sareng kolega dipaké data leungeun-dilabélan ieu estimasi model pembelajaran mesin anu bisa infer nu sentimen tina post dumasar kana ciri anak. Ahirna, maranehna dipake model pembelajaran mesin ieu estimasi sentimen sakabeh 11 juta tulisan. Ku kituna, tinimbang ku cara manual maca jeung panyiri 11 juta tulisan (nu bakal logistically mungkin), maranehna ku cara manual dilabélan sajumlah leutik tulisan terus dipaké naon data élmuwan bakal nelepon learning diawasan ka estimasi kategori sakabéh tulisan. Sanggeus completing analisis ieu, Raja sareng kolega éta bisa dicindekkeun yen, rada heran, kamungkinan post a keur dihapus ieu hubungan naha ieu kritis nagara atawa supportive nagara.
Dina ahir, Raja sareng kolega kapanggih nu ngan tilu rupa tulisan anu rutin censored: pornografi, kritik censors, sarta maranéhanana anu geus poténsi aksi koléktif (ie, kamungkinan anjog ka protes gede skala). Ku observasi jumlah badag tulisan nya éta dihapus jeung tulisan anu teu dihapus, Raja sareng kolega éta bisa diajar kumaha censors digawé saukur ku ningali jeung cacah. Dina panalungtikan saterusna, maranehna sabenerna langsung diintervensi kana ékosistem média sosial Cina ku nyieun tulisan jeung eusi sistematis beda jeung ukur nu perlu censored (King, Pan, and Roberts 2014) . Kami baris leuwih jéntré ngeunaan deukeut ékspérimén dina Bab 4. Salajengna, foreshadowing tema nu bakal lumangsung sapanjang buku, masalah-nu laten-atribut inference ieu kadangkala direngsekeun jeung diawasan learning-ngahurungkeun kaluar jadi pohara umum dina panalungtikan sosial di umur digital. Anjeun baris nempo gambar sarupa pisan ka Gambar 2.3 dina bab 3 (nanyakeun pertanyaan) jeung 5 (Nyieun kolaborasi massa); eta salah sahiji ti saeutik gagasan nu nembongan di sababaraha bab.
Sadaya tilu conto-nu ieu paripolah gawe ti drivers taksi di New York, formasi silaturahim ku siswa, jeung média sosial paripolah carana ngawasan pamarentahan-show Cina nu cacah kawilang basajan data observational tiasa ngaktipkeun panalungtik pikeun nguji prediksi teoritis. Dina sababaraha kasus, data gedé nyandak maneh mun cacah ieu rélatif langsung (saperti dina kasus New York Taksi). Dina kasus séjén, panalungtik perlu pikeun ngumpulkeun data observational sorangan (saperti dina kasus carana ngawasan Cina); nungkulan incompleteness ku merging data babarengan (saperti dina kasus évolusi jaringan); atawa ngajalankeun sababaraha bentuk laten-tret inference (saperti dina kasus carana ngawasan Cina). Salaku Kuring ngaharepkeun conto ieu mintonkeun, pikeun panalungtik anu bisa nanyakeun metot, gedé nahan jangji gede.