2.4.1.3 चिनियाँ सरकारले सामाजिक मिडिया को सेंसरशिप

अनुसन्धानकर्ताहरूले जाच्ने र काटछाट गर्ने अध्ययन गर्न चिनियाँ सामाजिक मिडिया साइटहरु बेकारी। तिनीहरूले latent-विशेषता inference संग incompleteness संग सम्हाल्न।

दुई अघिल्लो उदाहरण प्रयोग ठूलो डाटा साथै, अनुसन्धानकर्ताहरूले पनि आफ्नै अवलोकनीय डाटा, जस्तै थियो सुन्दर गैरी राजा, जेनिफर पान, र मली रॉबर्ट्स 'द्वारा सचित्र जम्मा गर्न सक्छन् (2013) जाच्ने र काटछाट गर्ने मा चिनियाँ सरकारले अनुसन्धान।

चीन मा सामाजिक मिडिया पोस्ट हजारौं दसौं समावेश गर्न लाग्यो भनेर एक भारी राज्य उपकरण द्वारा सेन्सर छन्। अनुसन्धानकर्ताहरूले र नागरिक तथापि, यी censors सामग्री सामाजिक मिडिया देखि मेटिने गर्नुपर्छ निर्णय कसरी सानो अर्थमा छ। चीन को विद्वान वास्तवमा पोस्ट प्रकार मेटिन गर्न सम्भवत जो बारे विवादित आशा छ। केही censors अरूलाई तिनीहरूले यस्तो विरोध रूपमा सामूहिक व्यवहार प्रोत्साहन भनेर पोष्ट, ध्यान केन्द्रित विचार गर्दा राज्य को महत्वपूर्ण छन् भनेर पोष्ट ध्यान केन्द्रित ठान्छन्। सोचिरहनुभएको जो यी आशा को सही छ कसरी अनुसन्धानकर्ताहरूले चीन र जाच्ने र काटछाट गर्ने मा संलग्न अन्य authoritarian सरकारको बुझ्न को लागि निहितार्थ छ। तसर्थ, राजा र सहयोगिहरु प्रकाशित र पछि थिए प्रकाशित र कहिल्यै थिए मेटिएको पोस्ट हटाइयो पोस्ट तुलना गर्न चाहन्थे।

यी पोस्ट सङ्कलन सान्दर्भिक पोस्ट फरक पृष्ठ लेआउट-फेला, र त्यसपछि जो पछि हटाइएको थियो हेर्न यी पोस्ट revisiting संग 1,000 भन्दा बढी चिनियाँ सामाजिक मिडिया वेबसाइट-प्रत्येक crawling को अचम्मको ईन्जिनियरिङ् कमाल संलग्न। ठूलो मात्रा वेब-crawling सम्बन्धित सामान्य ईन्जिनियरिङ् समस्याको साथै, यो परियोजना किनभने धेरै सेन्सर पोस्ट 24 भन्दा कम घण्टामा लिइएको हो, यसलाई अत्यन्तै छिटो हुन आवश्यक छ कि थप चुनौती थियो। अर्को शब्दमा, एक ढिलो क्रलर सेन्सर थिए पोस्ट धेरै सम्झना थियो। यसबाहेक, crawlers अध्ययन गर्न प्रतिक्रिया आफ्नो नीति परिवर्तन नत्र सामाजिक मिडिया वेबसाइट पहुँच वा अन्यथा ब्लक पत्ता लगाउने बच गर्दा यो सबै डाटा संग्रह गर्न थियो।

यो विशाल ईन्जिनियरिङ् कार्य पूरा भएको थियो भएपछि, राजा र सहयोगिहरु पूर्व-निर्दिष्ट संवेदनशीलता आफ्नो आषा स्तर मा आधारित थिए 85 विभिन्न विषयमा बारे 11 लाख पोस्ट प्राप्त गरेका थिए। उदाहरणका लागि, उच्च संवेदनशीलता एक विषय ऐ Weiwei, को dissident कलाकार छ; मध्य संवेदनशीलता एक विषय मूल्यांकन र चिनियाँ मुद्रा को अवमूल्यन छ, र कम संवेदनशीलता एक विषय विश्व कप छ। यी 11 लाख पोस्ट लगभग 2 लाख सेन्सर गरिएको थियो, तर अत्यधिक संवेदनशील विषय मा पोस्ट मध्य र कम संवेदनशीलता विषय मा पोस्ट भन्दा मात्र अलिकति प्राय सेन्सर थिए। अर्को शब्दमा, चिनियाँ censors बारेमा रूपमा विश्व कप उल्लेख गरिएको एउटा पोस्ट रूपमा ऐ Weiwei उल्लेख गरिएको एउटा पोस्ट सेन्सर संभावना छ। यी निष्कर्ष सरकार संवेदनशील विषयमा सबै पोस्ट censors कि simplistic विचार मिलेन।

विषय द्वारा जाच्ने र काटछाट गर्ने दर को यो सरल गणना तथापि, भ्रामक हुन सक्छ। उदाहरणका लागि, सरकार ऐ Weiwei को सहयोग हो, तर उहाँलाई महत्वपूर्ण छन् भनेर पोष्ट छोड्न भनेर पोष्ट सेन्सर हुन सक्छ। थप ध्यान पोस्ट बीच भेद गर्न, शोधकर्ताओं प्रत्येक पोस्ट को भावना मापन गर्न आवश्यक छ। तसर्थ, यो सोच्न एउटा तरिका हो प्रत्येक पोस्ट को एक महत्वपूर्ण latent सुविधा प्रत्येक पोस्ट को भावना छ। दुर्भाग्यवश, धेरै काम भए तापनि, पूर्व-अवस्थित शब्दकोश प्रयोग विचार पत्ता लगाउने को पूर्ण स्वचालित विधिहरू अझै पनि छैन धेरै अवस्थामा धेरै राम्रो हो (समस्याहरू धारा 2.3.2.6 देखि सेप्टेम्बर 11, 2001 को एक भावनात्मक समय सिर्जना फिर्ता लाग्छ)। तसर्थ, राजा र सहयोगिहरु तिनीहरूले 1 कि भनेर) राज्य को महत्वपूर्ण रूपमा आफ्नो 11 लाख सामाजिक मिडिया पोस्ट लेबल एक तरिका आवश्यक, 2) राज्य वा घटनाहरूको बारेमा 3) अप्रासंगिक वा factual रिपोर्ट को सहयोग। यो एक विशाल काम जस्तै सुनिन्छ, तर तिनीहरूले एक शक्तिशाली चाल प्रयोग गरेर यसलाई हल; एक डाटा विज्ञान मा साधारण तर हाल अपेक्षाकृत सामाजिक विज्ञान मा दुर्लभ छ कि।

पहिलो, एक कदम सामान्यतया पूर्व-प्रक्रिया भनिन्छ, शोधकर्ताओं प्रत्येक कागजात लागि एक पंक्ति र पोस्ट विशिष्ट शब्द समावेश कि लिपिबद्ध एक स्तम्भ थियो जहाँ कागजात-अवधि म्याट्रिक्स, मा सामाजिक मिडिया पोस्ट परिवर्तित (जस्तै, विरोध, यातायात, आदि)। अर्को, अनुसन्धान सहायक को एक समूह पोस्ट को एक नमूना को भावना हात-लेबल। त्यसपछि राजा र सहयोगिहरु आफ्नो विशेषताहरु आधारित एउटा पोस्ट को भावना infer सक्ने एक मिसिन सिक्ने मोडेल अनुमान गर्न यो हात-लेबल डाटा प्रयोग। अन्तमा, तिनीहरू सबै 11 लाख पोस्ट को भावना अनुमान गर्न यो मेसिन शिक्षा मोडेल प्रयोग। तसर्थ, म्यानुअल पढ्न र लेबल 11 लाख पोस्ट (जो logistically असम्भव हुनेछ) भन्दा, तिनीहरूले म्यानुअल पोस्ट एउटा सानो नम्बर लेबल र त्यसपछि के डाटा वैज्ञानिकहरूले सबै पोस्ट को विभाग अनुमान गर्न निरीक्षण सिक्ने कल प्रयोग। यो विश्लेषण पूरा गरिसकेपछि राजा र सहयोगिहरु केहि अचम्मको कुरा, एउटा पोस्ट को सम्भावना यो राज्य को महत्वपूर्ण वा राज्य को सहयोग थियो कि गर्न असम्बन्धित थियो मेटिँदै, भन्ने निष्कर्षमा पुग्न सके।

चित्रा 2.3: राजा, पान मा प्रयोग प्रक्रिया को लागि सरलीकृत योजनाबद्ध र रॉबर्ट्स (2013) 11 लाख चिनियाँ सामाजिक मिडिया पोस्ट को भावना अनुमान गर्न। पहिलो, एक कदम सामान्यतया पूर्व-प्रक्रिया भनिन्छ, शोधकर्ताओं कागजात-अवधि म्याट्रिक्स मा सामाजिक मिडिया पोस्ट परिवर्तित (थप जानकारीको लागि Grimmer र स्टीवर्ट (2013) हेर्नुहोस्)। दोस्रो, शोधकर्ताओं पोस्ट एउटा सानो नमूनाको विचार हात-coded। तेस्रो, शोधकर्ताओं पोस्ट को भावना वर्गीकरण गर्न एक निरीक्षण सिक्ने मोडेल प्रशिक्षित। चौथो, अनुसन्धानकर्ताहरूले सबै पोस्ट को भावना अनुमान गर्न निरीक्षण सिक्ने मोडेल प्रयोग। एक विस्तृत विवरण लागि राजा, पान, र रॉबर्ट्स (2013), परिशिष्ट बी हेर्नुहोस्।

चित्रा 2.3: प्रयोग प्रक्रिया को लागि सरलीकृत योजनाबद्ध King, Pan, and Roberts (2013) 11 लाख चिनियाँ सामाजिक मिडिया पोस्ट को भावना अनुमान गर्न। पहिलो, एक कदम सामान्यतया पूर्व-प्रक्रिया भनिन्छ, शोधकर्ताओं कागजात-अवधि म्याट्रिक्स मा सामाजिक मिडिया पोस्ट परिवर्तित (हेर्नुहोस् Grimmer and Stewart (2013) थप जानकारीको लागि)। दोस्रो, शोधकर्ताओं पोस्ट एउटा सानो नमूनाको विचार हात-coded। तेस्रो, शोधकर्ताओं पोस्ट को भावना वर्गीकरण गर्न एक निरीक्षण सिक्ने मोडेल प्रशिक्षित। चौथो, अनुसन्धानकर्ताहरूले सबै पोस्ट को भावना अनुमान गर्न निरीक्षण सिक्ने मोडेल प्रयोग। हेर्नुहोस् King, Pan, and Roberts (2013) एक विस्तृत विवरण लागि, परिशिष्ट बी।

अन्त मा, राजा र सहयोगिहरु पोस्ट मात्र तीन प्रकारका नियमित सेन्सर थिए फेला पारेका: अश्लील, censors को आलोचना र सामूहिक कार्य क्षमता थियो भनेर ती (अर्थात्, ठूलो-मात्रा विरोध गर्न प्रमुख को संभावना)। मेटिएको र पोस्ट थिए पोस्ट मेटिएको थियो कि एक विशाल नम्बर नियालेर, राजा र सहयोगिहरु कसरी censors हेर्दै र गणना गरेर काम सिक्न सके। पछि अनुसन्धान तिनीहरूले वास्तवमा सीधा चिनियाँ सामाजिक मिडिया वातावरण मा प्रणालीबद्ध विभिन्न सामग्री र नाप्ने सेन्सर प्राप्त जो संग पोस्ट सिर्जना गरेर हस्तक्षेप (King, Pan, and Roberts 2014) । हामी पुस्तक भर हुनेछ भनेर एक विषय foreshadowing, अध्याय 4 यसबाहेक मा प्रयोगात्मक दृष्टिकोण बारेमा थप जान्न हुनेछ, यी latent-विशेषता inference समस्या-जो कहिले काँही संग हल गर्न सकिन्छ निरीक्षण सिक्ने-बारी मा सामाजिक अनुसन्धान मा धेरै साधारण हुन बाहिर डिजिटल उमेर। तपाईं तस्वीर धेरै 2.3 अध्याय 3 (प्रश्न सोध्दै) र 5 मा लिनुहोस् समान देख्ने (ठूलो सहयोग सिर्जना); त्यो धेरै अध्याय देखा केहि विचार छ।

सबै तीन यी उदाहरणहरू-को न्यूयोर्क मा ट्याक्सी चालक, विद्यार्थी द्वारा मित्रता गठन र चिनियाँ सरकार-शो कि अवलोकनीय डाटा को अपेक्षाकृत सरल गणना सैद्धान्तिक अनुमानहरू परीक्षण गर्न अनुसन्धानकर्ताहरूले सक्षम पार्न सक्नुहुन्छ को सामाजिक मिडिया जाच्ने र काटछाट गर्ने व्यवहार को काम व्यवहार को। केही अवस्थामा, ठूलो डाटा तपाईं (न्यूयोर्क ट्याक्सी को मामला मा रूपमा) अपेक्षाकृत सीधा यो गणना गर्न सक्षम बनाउँछ। अन्य अवस्थामा, अनुसन्धानकर्ताहरूले (चिनियाँ जाच्ने र काटछाट गर्ने सन्दर्भमा जस्तै) आफ्नै अवलोकनीय डाटा सङ्कलन गर्न आवश्यक हुनेछ; (नेटवर्क विकास को मामला मा रूपमा) सँगै डाटा मर्ज गरेर incompleteness सामना; वा latent-विशेषता inference केही फारम प्रदर्शन (रूपमा चिनियाँ जाच्ने र काटछाट गर्ने को मामला मा)। मलाई आशा छ रूपमा रोचक प्रश्न गर्न सक्षम छन् अनुसन्धानकर्ताहरूले लागि, ठूलो ठूलो प्रतिज्ञा धारण, यी उदाहरणहरूले देखाउँछ।