Mananaliksik nasimot Chinese mga site ng social media upang mag-aral censorship. Sila ay dealt sa incompleteness sa tago-katangian hinuha.
Bilang karagdagan sa mga malaking data na ginagamit sa dalawang mga nakaraang mga halimbawa, ang mga mananaliksik ay maaari ring mangolekta ng kanilang sariling pagmamatyag ng data, bilang ay kamangha-mangha isinalarawan sa pamamagitan ng Gary King, Jennifer Pan, at Molly Roberts ' (2013) pananaliksik sa censorship pamamagitan ng mga Intsik pamahalaan.
Social media mga post sa Tsina ay censored sa pamamagitan ng isang malaking apparatus ng estado na ay naisip na isama sampu-sampung libo ng mga tao. Mananaliksik at mga mamamayan, gayunman, ay may maliit na kahulugan ng kung paano ang mga censors magpasya kung ano ang nilalaman ay dapat na tinanggal mula sa social media. Iskolar ng China aktwal na magkaroon ng magkakasalungat na mga inaasahan tungkol sa kung aling mga uri ng mga post ay pinaka-malamang na makakuha ng tinanggal. Iniisip ng ilan na censors tumutok sa mga post na kritikal ng estado habang ang iba sa tingin nila tumuon sa mga post na hikayatin ang kolektibong pag-uugali, tulad ng mga protesta. Ang pag-uunawa kung alin sa mga inaasahan ay tama ay may mga epekto para sa kung paano mananaliksik maunawaan China at iba pang mga awtoritaryan pamahalaan na umaakit sa censorship. Samakatuwid, King at kasamahan nais na ihambing mga post na na-publish at nabura sa mga post na na-publish at hindi kailanman tinanggal.
Pagkolekta ng mga posts kasangkot ang amazing engineering feat ng pag-crawl higit sa 1,000 Chinese social media website-bawat isa ay may iba't ibang mga layout ng pahina-paghahanap ng mga kaugnay na mga post, at pagkatapos ay revisiting ang mga post upang makita kung aling ay kasunod na tinanggal. Bilang karagdagan sa mga normal problema sa engineering na kaugnay sa malaking proporsyon web-pag-crawl, ang proyektong ito ay ang idinagdag na hamon na ito na kailangan upang maging lubhang mabilis dahil maraming censored post ay kinuha down sa mas mababa sa 24 na oras. Sa ibang salita, ang isang mabagal crawler makaligtaan ng maraming mga post na ay censored. Dagdag dito, ang mga crawler ay nagkaroon na gawin ang lahat ng ito sa pagkolekta ng data habang evading detection baka ang mga website social media harangan ang access o kung hindi man baguhin ang kanilang mga patakaran bilang tugon sa pag-aaral.
Sa sandaling ito napakalaking engineering gawain ay natapos, King at kasamahan ay nakuha tungkol sa 11 milyong mga post sa 85 iba't ibang mga paksa na ay pre-tinukoy na batay sa kanilang mga inaasahang antas ng sensitivity. Halimbawa, ang isang paksa ng mataas na sensitivity ay Ai Weiwei, ang dissident artist; isang paksa ng middle sensitivity ay pagpapahalaga at pagpapawalang halaga ng Chinese pera, at isang paksa ng mababang sensitivity ay ang World Cup. Sa mga ito sa 11 milyong mga post tungkol sa 2 million ay censored, ngunit mga post sa mataas na sensitibong mga paksa ay censored lamang bahagyang mas madalas kaysa sa mga post sa gitna at mababang mga paksa sensitivity. Sa ibang salita, Chinese censors ay tungkol sa bilang malamang upang sumuri ng isang post na mentions Ai Weiwei bilang isang post na mentions ang World Cup. Ang mga natuklasan ay hindi tumugma sa simplistic ideya na ang pamahalaan censors lahat ng mga post sa sensitibong paksa.
Ito simpleng pagkalkula ng censorship rate ayon sa paksa ay maaaring maging nakaliligaw, gayunman. Halimbawa, ang pamahalaan ay maaaring sumuri posts na supportive ng Ai Weiwei, ngunit iwanan posts na kritikal sa kanya. Upang makilala sa pagitan ng mga post mas mabuti, ang mga mananaliksik na kailangan upang masukat ang damdamin ng bawat post. Kaya, isang paraan upang isipin ang tungkol dito ay na ang mga kuru-kuro ng bawat post sa isang mahalagang latent tampok ng bawat post. Sa kasamaang palad, sa kabila ng maraming trabaho, ganap na automated na paraan ng damdamin detection gamit ang pre-umiiral na mga diksyunaryo ay pa rin hindi masyadong magandang sa maraming mga sitwasyon (sa tingin bumalik sa mga problema sa paglikha ng isang emosyonal na timeline noong Setyembre 11, 2001 mula Section 2.3.2.6). Samakatuwid, King at kasamahan na kailangan ng isang paraan upang lagyan ng label ang kanilang 11 milyong mga post sa social media sa kung sila ay 1) kritikal ng estado, 2) supportive ng estado, o 3) walang-kaugnayan o factual mga ulat tungkol sa mga kaganapan. Ito tunog tulad ng isang malaki at mabigat na trabaho, ngunit sila lutasin ito gamit ang isang malakas na bilis ng kamay; isa na ay karaniwan sa mga data agham ngunit sa kasalukuyan relatibong bihirang sa social science.
Una, sa isang hakbang ay karaniwang tinatawag na pre-processing, ang mga mananaliksik na-convert ang mga post sa social media sa isang dokumento-matagalang matrix, kung saan nagkaroon ng isang hilera para sa bawat dokumento at isang hanay na naitala kung ang post ay naglalaman ng isang tiyak na salita (eg, may pasubali, trapiko, at iba pa). Susunod, isang grupo ng pananaliksik assistants hand-may label na ang damdamin ng isang sample ng post. Pagkatapos, Hari at mga kasamahan na ginagamit ito hand-label na data upang matantya ng isang machine modelo sa pag-aaral na maaaring ipahiwatig ang damdamin ng isang post batay sa mga katangian nito. Sa wakas, na ginamit nila ito machine learning modelo upang matantya ang damdamin ng lahat ng 11 milyong mga post. Kaya, sa halip na mano-manong pagbabasa at pag-label sa 11 milyong mga post (na magiging logistically imposible), manu-mano silang may label na isang maliit na bilang ng mga post at pagkatapos ay ginagamit kung ano ang data siyentipiko ay tumawag supervised pag-aaral upang matantya ang mga kategorya ng mga ang lahat ng mga post. Matapos makumpleto ang pagsusuring ito, King at kasamahan ay able sa tapusin na, medyo nakakagulat na ang posibilidad ng isang post tinatanggal ay walang kinalaman sa kung ito ay kritikal na ng estado o supportive ng estado.
Sa katapusan, King at kasamahan natuklasan na lamang tatlong mga uri ng mga post ay regular censored: pornograpiya, pintas ng censors, at yaong mga nakikipagsanggunian sa kolektibong pagkilos potensyal na (ie, ang posibilidad ng humahantong sa malakihang protesta). Sa pamamagitan ng pagmamasid sa isang malaking bilang ng mga post na ay tinanggal at mga post na hindi tinanggal, Hari at kasamahan ay able sa malaman kung paano ang censors trabaho lang sa pamamagitan ng panonood at nadaragdagan pa. Sa kasunod na pananaliksik, sila ang tunay na direkta intervened sa Chinese social media ecosystem sa pamamagitan ng paglikha ng mga post na may systematically iba't ibang nilalaman at pagsukat na makakuha censored (King, Pan, and Roberts 2014) . Susubukan naming malaman ang higit pa tungkol sa mga pang-eksperimentong mga diskarte sa Kabanata 4. Isa pa, foreshadowing ng isang tema na ay magaganap sa buong libro, ang mga tago-attribute hinuha problema-na maaaring paminsan-minsan ay malulutas na may supervised pag-aaral-turn out na maging napaka-pangkaraniwan sa panlipunang pananaliksik sa digital age. Makikita mo ang mga larawan na halos kapareho sa Figure 2.3 sa Kabanata 3 (Pagtatanong) at 5 (Paglikha mass pakikipagtulungan); ito ay isa sa mga ilang mga ideya na lumitaw sa iba't-ibang chapters.
Lahat ng tatlong ng mga halimbawang ito-the nagtatrabaho pag-uugali ng mga driver ng taxi sa New York, pagkakaibigan formation sa pamamagitan ng mga mag-aaral, at social media censorship pag-uugali ng mga Intsik na pamahalaan-show na relatibong simpleng pagbilang ng pagmamatyag ng data ay maaaring paganahin ang mga mananaliksik upang subukan panteorya paghuhula. Sa ilang mga kaso, malaki data ay nagbibigay-daan sa iyo upang gawin ito pagbilang relatibong direkta (tulad ng sa kaso ng New York taxi). Sa ibang mga kaso, ang mga mananaliksik ay kailangan upang mangolekta ng kanilang sariling pagmamatyag ng data (tulad ng sa kaso ng Chinese censorship); pakikitungo sa incompleteness sa pamamagitan ng pinagsasama-sama ng data (tulad ng sa kaso ng network evolution); o gumaganap ng ilang form ng tago-katangian hinuha (tulad ng sa kaso ng Chinese censorship). Bilang pag-asa ko ang mga halimbawang ito ipakita, para sa mga mananaliksik na magagawang upang hilingin kagiliw-giliw na mga katanungan, malaki humahawak malaki pangako.