2.4.1.3 चीनी सरकार द्वारा सामाजिक मीडिया की सेंसरशिप

शोधकर्ताओं ने सेंसरशिप अध्ययन करने के लिए चीनी सामाजिक मीडिया साइटों स्क्रैप है। वे अव्यक्त-विशेषता निष्कर्ष के साथ अधूरेपन के साथ निपटा।

पिछले दो उदाहरण में इस्तेमाल बड़े डेटा के अलावा, शोधकर्ताओं ने यह भी अपने स्वयं के अवलोकन डेटा, के रूप में शानदार गैरी राजा, जेनिफर पान, और मौली रॉबर्ट्स 'से यह साफ हो गया था जमा कर सकते हैं (2013) सेंसरशिप पर अनुसंधान चीनी सरकार द्वारा।

चीन में सामाजिक मीडिया पदों एक विशाल राज्य तंत्र है कि लोगों के हजारों के शामिल करने के बारे में सोचा है के द्वारा सेंसर कर रहे हैं। शोधकर्ताओं और नागरिकों, तथापि, कैसे ये सेंसर बोर्ड का फैसला क्या सामग्री सोशल मीडिया से हटा दिया जाना चाहिए की छोटी सी भावना है। चीन के विद्वानों वास्तव में परस्पर विरोधी उम्मीदों पदों के प्रकार के बारे में जो सबसे नष्ट कर दिया हो जाने की संभावना हैं। कुछ लोग सोचते हैं कि सेंसर बोर्ड पदों है कि राज्य की आलोचना कर रहे हैं, जबकि दूसरों को लगता है कि वे पद, इस तरह के विरोध प्रदर्शन के रूप में है कि सामूहिक व्यवहार को प्रोत्साहित पर ध्यान केंद्रित करने पर ध्यान केंद्रित। पता लगाना है जो इन अपेक्षाओं की सही है कि कैसे शोधकर्ताओं ने चीन और अन्य सत्तावादी सरकारों कि सेंसरशिप में संलग्न समझने के लिए निहितार्थ हैं। इसलिए, राजा और उनके सहयोगियों के पदों है कि प्रकाशित किए गए थे और बाद में पदों है कि प्रकाशित किए गए थे और कभी नष्ट कर नष्ट तुलना करना चाहते थे।

इन पदों का संग्रह शामिल प्रासंगिक पदों अलग पेज लेआउट खोजने, और फिर इन पदों की समीक्षा देखने के लिए जो बाद में नष्ट कर दिया गया था के साथ 1,000 से अधिक चीनी सामाजिक मीडिया वेबसाइटों-प्रत्येक रेंगने की अद्भुत इंजीनियरिंग करतब। बड़े पैमाने पर वेब रेंगने के साथ जुड़े सामान्य इंजीनियरिंग समस्याओं के अलावा, इस परियोजना को जोड़ा चुनौती यह है कि यह बहुत तेजी से हो सकता है क्योंकि कई सेंसर पदों कम से कम 24 घंटे में नीचे ले रहे हैं की जरूरत थी। दूसरे शब्दों में, एक धीमी गति से क्रॉलर पदों है कि सेंसर थे बहुत याद होगा। इसके अलावा, क्रॉलर्स ऐसा न हो कि सामाजिक मीडिया वेबसाइटों के उपयोग ब्लॉक या अन्यथा अध्ययन के जवाब में उनकी नीतियों को बदलने, जबकि पता लगाने से बच रहा है यह सब डेटा संग्रह करना था।

एक बार जब यह बड़े पैमाने पर इंजीनियरिंग टास्क पूरा कर लिया गया था, राजा और उनके सहयोगियों ने 85 विभिन्न विषयों है कि पूर्व निर्धारित संवेदनशीलता की उनकी उम्मीद के स्तर के आधार पर थे पर करीब 11 लाख पदों को प्राप्त किया था। उदाहरण के लिए, उच्च संवेदनशीलता का एक विषय ऐ Weiwei, असंतुष्ट कलाकार है; बीच संवेदनशीलता का एक विषय प्रशंसा और चीनी मुद्रा के अवमूल्यन है, और कम संवेदनशीलता का विषय विश्व कप है। इन 11 लाख पदों में से लगभग 2 लाख सेंसर किया गया था, लेकिन अत्यधिक संवेदनशील विषयों पर पदों मध्यम और निम्न संवेदनशीलता विषयों पर पदों की तुलना में केवल थोड़ा अधिक बार सेंसर कर रहे थे। दूसरे शब्दों में, चीनी सेंसर के बारे में एक पोस्ट है कि एक पोस्ट है कि विश्व कप के रूप में उल्लेख है ऐ Weiwei उल्लेख को सेंसर करने की संभावना है। इन निष्कर्षों को सरलीकृत विचार है कि सरकार संवेदनशील विषयों पर सभी पोस्ट सेंसर से मेल नहीं खाती।

विषय के आधार पर सेंसरशिप दर के इस साधारण गणना को गुमराह किया जा सकता है, लेकिन है। उदाहरण के लिए, सरकार पदों है कि ऐ Weiwei का समर्थन कर रहे हैं, लेकिन पदों है कि उसके बारे में महत्वपूर्ण हैं छोड़ सेंसर हो सकता है। आदेश में और अधिक ध्यान से पोस्ट के बीच भेद करने में, शोधकर्ताओं ने प्रत्येक पोस्ट की भावना को मापने के लिए की जरूरत है। इस प्रकार, एक तरह से इसके बारे में सोचना है कि प्रत्येक पोस्ट का एक महत्वपूर्ण अव्यक्त सुविधा में प्रत्येक पद की भावना। दुर्भाग्य से, बहुत काम के बावजूद, पूर्व मौजूदा शब्दकोशों का उपयोग कर भावना का पता लगाने के लिए पूरी तरह से स्वचालित तरीकों अभी भी नहीं कई स्थितियों में बहुत अच्छा कर रहे हैं (समस्याओं धारा 2.3.2.6 से 11 सितंबर, 2001 के एक भावनात्मक समय बनाने के लिए वापस लगता है)। इसलिए, राजा और उनके सहयोगियों है कि क्या वे थे 1) राज्य के महत्वपूर्ण के रूप में अपने 11 लाख सोशल मीडिया पदों लेबल करने के लिए एक तरह की जरूरत, 2) राज्य, या घटनाओं के बारे में 3) अप्रासंगिक या तथ्यात्मक रिपोर्ट के सहायक। यह एक बड़े पैमाने पर नौकरी की तरह लगता है, लेकिन वे एक शक्तिशाली चाल का उपयोग कर इसे हल; एक डेटा विज्ञान के क्षेत्र में आम है, लेकिन वर्तमान में अपेक्षाकृत सामाजिक विज्ञान के क्षेत्र में दुर्लभ है।

सबसे पहले, एक कदम में आम तौर पर पूर्व प्रसंस्करण कहा जाता है, शोधकर्ताओं ने एक दस्तावेज़ अवधि मैट्रिक्स, जहां प्रत्येक दस्तावेज़ के लिए एक पंक्ति और एक स्तंभ है कि दर्ज है कि क्या पोस्ट में एक विशिष्ट शब्द निहित था वहाँ में सामाजिक मीडिया पदों परिवर्तित (जैसे, विरोध प्रदर्शन, यातायात, आदि)। अगले, अनुसंधान सहायक के एक समूह पद का एक नमूना की भावना हाथ लेबल। फिर, राजा और उनके सहयोगियों ने एक मशीन सीखने के मॉडल है कि इसकी विशेषताओं के आधार पर एक पोस्ट की भावना अनुमान सकता अनुमान लगाने के लिए इस हाथ लेबल डेटा का उपयोग किया। अंत में, वे सभी 11 लाख पदों की भावना अनुमान लगाने के लिए इस मशीन सीखने मॉडल का इस्तेमाल किया। इस प्रकार, बजाय मैन्युअल पढ़ने और लेबलिंग 11 लाख पदों (जो logistically असंभव हो जाएगा), वे स्वयं पदों की एक छोटी संख्या लेबल और फिर इस्तेमाल किया क्या डेटा वैज्ञानिकों के सभी पोस्ट की श्रेणियों अनुमान लगाने के लिए निगरानी सीखने कहेंगे। इस विश्लेषण पूरा करने के बाद, राजा और उनके सहयोगियों को समाप्त करने में सक्षम थे, कुछ आश्चर्यजनक, एक पोस्ट की संभावना नष्ट किया जा रहा है कि क्या यह राज्य की आलोचना या राज्य के समर्थन था असंबंधित था।

2.3 चित्रा: राजा, पान में प्रयोग किया जाता प्रक्रिया के लिए सरलीकृत योजनाबद्ध, और रॉबर्ट्स (2013) में 11 लाख चीनी सामाजिक मीडिया पदों की भावना का आकलन करने के लिए। सबसे पहले, एक कदम में आम तौर पर पूर्व प्रसंस्करण कहा जाता है, शोधकर्ताओं ने एक दस्तावेज़ अवधि मैट्रिक्स में सामाजिक मीडिया पदों परिवर्तित (grimmer और स्टीवर्ट (2013) और अधिक जानकारी के लिए देखें)। दूसरा, शोधकर्ताओं पदों का एक छोटा सा नमूना की भावना हाथ कोडित। तीसरा, शोधकर्ताओं पदों की भावना वर्गीकृत करने के लिए एक निगरानी सीखने के मॉडल को प्रशिक्षित किया। चौथा, शोधकर्ताओं ने सभी पदों की भावना अनुमान लगाने के लिए निगरानी सीखने मॉडल का इस्तेमाल किया। एक अधिक विस्तृत विवरण के लिए राजा, पान, और रॉबर्ट्स (2013), परिशिष्ट बी देखें।

2.3 चित्रा: में इस्तेमाल किया प्रक्रिया के लिए सरलीकृत योजनाबद्ध King, Pan, and Roberts (2013) में 11 लाख चीनी सामाजिक मीडिया पदों की भावना का आकलन करने के लिए। सबसे पहले, एक कदम में आम तौर पर पूर्व प्रसंस्करण कहा जाता है, शोधकर्ताओं ने एक दस्तावेज़ अवधि मैट्रिक्स में सामाजिक मीडिया पदों परिवर्तित (देखें Grimmer and Stewart (2013) और अधिक जानकारी के लिए)। दूसरा, शोधकर्ताओं पदों का एक छोटा सा नमूना की भावना हाथ कोडित। तीसरा, शोधकर्ताओं पदों की भावना वर्गीकृत करने के लिए एक निगरानी सीखने के मॉडल को प्रशिक्षित किया। चौथा, शोधकर्ताओं ने सभी पदों की भावना अनुमान लगाने के लिए निगरानी सीखने मॉडल का इस्तेमाल किया। देखें King, Pan, and Roberts (2013) के लिए एक अधिक विस्तृत विवरण के लिए, परिशिष्ट बी।

, अश्लील साहित्य सेंसर बोर्ड की आलोचना, और उन है कि सामूहिक कार्रवाई संभावित था (यानी, बड़े पैमाने पर विरोध प्रदर्शन करने के लिए अग्रणी की संभावना): अंत में, राजा और उनके सहयोगियों ने पाया कि पदों के केवल तीन प्रकार नियमित रूप से सेंसर किया गया। पदों है कि नष्ट कर दिया और पदों रहे थे कि नष्ट नहीं कर रहे थे की एक बड़ी संख्या को देख कर, राजा और उनके सहयोगियों को जानने के लिए कैसे सेंसर बोर्ड देख रहा है और गणना के द्वारा सिर्फ काम कर रहे थे। बाद में अनुसंधान में, वे वास्तव में सीधे चीनी सामाजिक मीडिया पारिस्थितिकी तंत्र में व्यवस्थित ढंग से अलग सामग्री और मापने के जो सेंसर मिल के साथ पदों बनाने के द्वारा हस्तक्षेप (King, Pan, and Roberts 2014) । हम अध्याय 4. इसके अलावा में प्रयोगात्मक दृष्टिकोण के बारे में अधिक जानने के लिए होगा, उस किताब भर में हो जाएगा एक विषय पूर्वाभास, इन अव्यक्त-विशेषता अनुमान समस्याओं-जो कभी कभी के साथ हल किया जा सकता निगरानी सीखने-बारी से बाहर में सामाजिक अनुसंधान के क्षेत्र में बहुत ही सामान्य हो डिजिटल युग। आप चित्रों बहुत अध्याय 3 (सवाल पूछ रहा है) और 5 में 2.3 चित्रा के समान देखेंगे (जन सहयोग बनाना); यह कुछ विचार है कि कई अध्यायों में प्रकट होता है में से एक है।

इन उदाहरणों-टैक्सी ड्राइवरों न्यूयॉर्क में, छात्रों द्वारा दोस्ती गठन, और चीनी सरकार के शो है कि अवलोकन डेटा की अपेक्षाकृत सरल गिनती सैद्धांतिक भविष्यवाणियों का परीक्षण करने के लिए शोधकर्ताओं सक्षम कर सकते हैं की सोशल मीडिया सेंसरशिप व्यवहार का काम कर रहे व्यवहार के सभी तीन। कुछ मामलों में, बड़ा डेटा आप अपेक्षाकृत सीधे इस गिनती करने के लिए (न्यू यॉर्क में टैक्सियों के मामले में) के रूप में सक्षम बनाता है। अन्य मामलों में, शोधकर्ताओं ने अपने अवलोकन डेटा (चीनी सेंसरशिप के मामले में) के रूप में लेने की आवश्यकता होगी; एक साथ डेटा विलय (नेटवर्क के विकास के मामले में) द्वारा अधूरेपन के साथ सौदा; या अव्यक्त-विशेषता निष्कर्ष के कुछ फार्म का प्रदर्शन (चीनी सेंसरशिप के मामले में)। मुझे आशा है कि जैसा कि इन उदाहरणों से पता चलता है, शोधकर्ताओं दिलचस्प सवाल पूछने के लिए सक्षम हैं, जो के लिए, बड़े महान वादा रखती है।