Tigdukiduki kiskisi mga Chinese nga mga dapit sa social media sa pagtuon censorship. Sila gihimo sa kakulang sa tinago-kinaiya pangagpas.
Dugang pa sa mga dagko nga impormasyon nga gigamit sa duha ka miaging mga ehemplo, ang mga tigdukiduki mahimo usab nga sa pagkolekta sa ilang mga kaugalingon nga mga obserbar data, ingon sa mga katingalahan sa gihulagway ni Gary Hari, Jennifer Pan, ug Molly Roberts ' (2013) research sa censorship sa China gobyerno.
Social media haligi sa China ang censored sa usa ka dakong aparato estado nga naghunahuna nga naglakip sa napulo ka liboan sa mga tawo. Tigdukiduki ug sa mga lungsoranon, Apan, adunay gamay nga pagbati kon sa unsang paagi kini nga mga sensor modesisyon kon unsa ang sulod kinahanglan nga thread gikan sa social media. Ang mga eskolar sa China sa tinuod adunay nagkasumpaki nga mga gilauman nga matang sa mga haligi sa mga lagmit aron thread. Ang uban naghunahuna nga ang mga sensor-focus sa mga haligi nga mao ang mga kritikal sa estado samtang ang uban sa ilang hunahuna-focus sa mga haligi nga awhag sa kolektibong kinaiya, sama sa mga protesta. Paghulagway sa nga sa niini nga mga mga gilauman mao ang husto nga adunay implikasyon alang sa kon sa unsang paagi ang mga tigdukiduki nga makasabut sa China ug sa uban pang mga authoritarian mga gobyerno nga moapil sa censorship. Busa, Hari ug mga kauban gusto nga itandi haligi nga gipatik ug sa sunod thread sa mga haligi nga gipatik ug dili thread.
Pagpangolekta kini nga mga haligi nga nalambigit sa katingalahang engineering kalampusan sa nagakamang labaw pa kay sa 1,000 ka mga Chinese social media websites-matag usa uban sa lain-laing mga panid layouts-sa pagpangita og may kalabutan nga mga haligi, ug unya nagduaw niini nga mga haligi sa pagtan-aw nga sunod nga thread. Dugang pa sa mga normal nga mga problema sa engineering nga nalangkit sa dako nga scale sa web-nagakamang, proyekto may dugang hagit nga kini gikinahanglan sa hilabihan sa pagpuasa tungod kay daghan censored haligi nga gikuha sa ubos pa kay sa 24 oras. Sa laing mga pulong, usa ka hinay nga crawler nga mingawon daghang mga haligi nga censored. Dugang pa, ang mga crawlers nga sa pagbuhat sa tanan niini nga mga data koleksyon samtang naglikay detection tingali unya ang website sa social media babagan access o sa laing-usab sa ilang mga palisiya sa tubag sa mga pagtuon.
Sa higayon nga kini kaylap nga engineering buluhaton natapos, Hari ug mga kauban nakabaton mga 11 ka milyon nga mga haligi sa 85 lain-laing mga topiko nga mga pre-bungat base sa ilang gipaabot ang-ang sa pagbati. Pananglitan, ang usa ka hilisgutan sa hatag-as nga pagbati mao ang Ai Weiwei, ang nagprotesta artist; usa ka hilisgutan sa tunga-tunga pagbati mao ang pasalamat ug pagkunhod sa bili sa China nga currency, ug usa ka hilisgutan sa ubos nga pagbati mao ang World Cup. Sa kini nga mga 11 ka milyon nga mga haligi sa mga 2 milyon ang censored, apan haligi sa kaayo sensitibo nga mga topiko ang censored lamang gamay nga mas kanunay kay sa mga haligi sa tunga-tunga ug ubos nga mga hilisgutan sa pagkasensitibo. Sa laing mga pulong, sa China sensor mga ingon sa lagmit nga censor sa usa ka post nga naghisgot sa Ai Weiwei ingon sa usa ka post nga naghisgot sa World Cup. Kini nga mga findings wala pagpares sa yano nga ideya nga ang gobyerno sensor sa tanan nga mga haligi sa sensitibo nga mga topiko.
Kini nga yano nga kalkulasyon sa censorship rate pinaagi sa hilisgutan mahimong makapahisalaag, bisan pa niana. Pananglitan, ang gobyerno aron censor haligi nga suporta sa Ai Weiwei, apan mobiya haligi nga kritikal sa kaniya. Aron sa pag-ila tali sa mga haligi nga mas pag-ayo, ang mga tigdukiduki kinahanglan aron sa pagsukod sa sentimento sa tagsatagsa ka haligi. Mao kini ang, sa usa ka paagi sa paghunahuna mahitungod niini mao nga ang sentimento sa matag post sa usa ka importante nga tinago nga bahin sa matag post. Ikasubo, bisan pa sa daghan nga buhat, bug-os nga automated pamaagi sa sentimento detection sa paggamit sa pre-kasamtangan nga diksiyonaryo wala gihapon maayo kaayo diha sa daghang mga sitwasyon (hunahuna balik sa mga problema sa pagmugna sa usa ka emosyonal nga talaan sa panahon sa Septiyembre 11, 2001 gikan sa Section 2.3.2.6). Busa, Hari ug mga kauban nga gikinahanglan sa usa ka paagi sa pagtimaan sa ilang 11 ka milyon nga mga social haligi media kon sila 1) kritikal nga sa estado, 2) suporta sa estado, o 3) irrelevant o tinuod mga taho mahitungod sa mga hitabo. Kini ingon og sama sa usa ka kaylap nga trabaho, apan sila masulbad kini sa paggamit sa usa ka gamhanan nga limbong, tikas; usa nga komon sa datos sa siyensiya apan karon medyo talagsaon sa social science.
Una, diha sa usa ka lakang sa kasagaran gitawag nga pre-processing, ang mga tigdukiduki nakabig sa mga haligi sa social media ngadto sa usa ka dokumento-term taguangkan; diin may usa ka laray alang sa matag dokumento ug usa ka kolum nga natala kon ang post nga anaa sa usa ka piho nga pulong (pananglitan, protesta, sa trapiko, ug uban pa). Sunod, usa ka grupo sa research assistants kamot-nga gimarkahan og sa sentimento sa usa ka sample sa post. Unya, Hari ug mga kauban nga gigamit niini nga kamot-gimarkahan nga data sa pagbanabana sa usa ka makina nga modelo sa pagkat-on nga gihunahuna ang sentimento sa usa ka post base sa kinaiyahan niini. Sa kataposan, gigamit nila kini nga makina sa pagkat-on nga modelo sa pagbanabana sa sentimento sa tanan nga 11 milyones haligi. Busa, kay sa kamut sa pagbasa ug labeling 11 milyon nga mga haligi (nga mahimong eksaktong pagtimbang-timbang imposible), sila sa kamut gimarkahan og usa ka gamay nga gidaghanon sa mga haligi ug dayon gigamit unsa nga data siyentipiko motawag supervised sa pagkat-on sa pagbanabana sa mga kategoriya sa mga tanan nga mga haligi. Human sa pagkompleto niini nga pagtuki, Hari ug mga kauban nakahimo sa paghinapos nga, medyo kahitingala, ang kalagmitan sa usa ka post nga thread nga walay kalabotan sa kon kini kritikal nga sa estado sa o sa suporta sa estado.
Sa katapusan, Hari ug mga kauban nakadiskobre nga lamang sa tulo ka matang sa mga haligi regular nga censored: pornograpiya, pagsaway sa sensor, ug kadtong mga may kolektibong aksyon potensyal (ie, ang posibilidad sa paingon sa dako nga-scale protesta). Pinaagi sa pagsunod sa usa ka dako nga gidaghanon sa mga haligi nga thread ug mga haligi nga wala thread, Hari ug mga kauban nakahimo sa pagkat-on kon sa unsang paagi ang mga sensor pagtrabaho pinaagi lamang sa pagtan-aw ug sa pag-ihap. Sa sunod-sunod nga panukiduki, sila sa tinuod direkta nangilabot sa sa Chinese social media ecosystem pinaagi sa pagmugna sa mga haligi sa sistematikong lain-laing mga sulod ug nga igsusukod nga og censored (King, Pan, and Roberts 2014) . Kita makakat-on og dugang mahitungod sa eksperimento pamaagi sa Kapitulo 4. Dugang pa, nga naglandong sa usa ka tema nga mahitabo sa tibuok basahon, kining tinago-kinaiya pangagpas mga problema-nga usahay masulbad uban sa supervised pagkat-on-mobalik sa kaayo komon sa social research sa digital edad. Ikaw tan-awa ang mga litrato kaayo susama sa Figure 2.3 sa kapitulo 3 (pagpangutana sa mga pangutana) ug 5 (Pagmugna masa kolaborasyon); kini mao ang usa sa mga pipila ka mga ideya nga makita sa daghang mga kapitulo.
Ang tanan nga tulo ka mga sa niini nga mga panig-ingnan-ang nagtrabaho kinaiya sa mga drayber sa taxi sa New York, panaghigalaay pagporma sa mga estudyante, ug sa social media censorship kinaiya sa gobyerno sa China-show nga medyo yano nga pag-ihap sa obserbar nga data makapaarang tigdukiduki sa pagsulay theoretical panagna. Sa pipila ka mga kaso, dagkong data makapahimo kanimo sa pagbuhat niini pag-ihap nga medyo direkta (sama sa kaso sa New York Taksi). Sa ubang mga kaso, ang mga tigdukiduki kinahanglan sa pagkolekta sa ilang mga kaugalingon nga obserbar data (sama sa kaso sa mga Tsino nga censorship); atubang sa kakulang sa paghiusa sa data sa tingub (sama sa kaso sa network ebolusyon); o sa pagpahigayon sa pipila ka mga matang sa tinago-kinaiya pangagpas (sama sa kaso sa mga Tsino nga censorship). Ingon nga ako naglaum kini nga mga panig-ingnan nagpakita sa, alang sa mga tigdukiduki nga makahimo sa pagpangutana makapaikag nga mga pangutana, mga daku nga naghupot dakung saad.