संशोधक सेन्सॉरशिप अभ्यास चीनी सामाजिक मीडिया साइट काढून. ते गुप्त-विशेष गुण तर्क सह अपुरेपणा केले.
आधीच्या दोन उदाहरणे वापरले मोठे डेटा व्यतिरिक्त, संशोधक देखील त्यांच्या स्वत: च्या आकलनशक्तीच्या डेटा कमालीची गॅरी राजा, जेनिफर पॅन आणि असतंच रॉबर्ट्स यांनी स्पष्ट होते म्हणून गोळा करू शकता (2013) चीनी सरकारने सेन्सॉरशिप संशोधन.
चीन मध्ये सामाजिक मीडिया पोस्ट हजारो लोक दहापट समाविष्ट करणे विचार आहे एक प्रचंड राज्य उपकरणे सेंसर्ड आहेत. संशोधक आणि नागरिकांना, तथापि, या सेन्सॉरने सामग्री सामाजिक मिडिया पासून हटविले काय निर्णय कसे थोडे अर्थ आहे. चीन विद्वान प्रत्यक्षात परस्परविरोधी अपेक्षा जे बद्दल पोस्ट प्रकारच्या हटविले बहुधा आहेत. काही सेन्सॉरने इतर अशा निषेध म्हणून सामूहिक वर्तन प्रोत्साहित पोस्ट भर वाटते तर राज्यातील गंभीर आहेत पोस्ट लक्ष केंद्रित, असे वाटते. लक्षात या अपेक्षा योग्य आहे संशोधक चीन आणि सेन्सॉरशिप व्यस्त की इतर हुकूमशाही सरकार समजून कसे परिणाम आहे. म्हणून राजा व सहकारी प्रकाशित आणि त्यानंतर प्रकाशित आणि कधीही हटविलेल्या पोस्ट हटविले गेले पोस्ट तुलना करायचे होते.
या पोस्ट गोळा भिन्न पृष्ठावर संबद्ध पोस्ट लेआउट-आढळले, आणि नंतर नंतर हटविले गेले पाहण्यासाठी या पोस्ट पुन्हा भेटी 1,000 पेक्षा अधिक चीनी सोशल मीडियावर प्रत्येक क्रॉलिंग आश्चर्यकारक अभियांत्रिकी पराक्रम सहभाग. मोठ्या प्रमाणात वेब-क्रॉलिंग संबंधित सामान्य अभियांत्रिकी समस्या व्यतिरिक्त, हा प्रकल्प तो अत्यंत जलद असणे आवश्यक आहे की, अनेक होउन पोस्ट पेक्षा कमी 24 तासांत खाली घेतले जातात कारण जोडले आव्हान होते. दुसऱ्या शब्दांत, एक मंद सरपटत जाणारा होउन होते की पोस्ट बरेच चुकली होईल. शिवाय, क्रॉलर सोशल मीडियावर प्रवेश अवरोधित किंवा अन्यथा अभ्यास प्रतिसाद त्यांची धोरणे बदलू नये ओळख नव्ह्ता तर हा सर्व डेटा संग्रह करावं लागलं.
या भव्य अभियांत्रिकी कार्य पूर्ण झाल्यानंतर राजा आणि सहकारी पूर्व-निर्दिष्ट संवेदनशीलता त्यांच्या अपेक्षित स्तरावर आधारित होते 85 विविध विषयांवर सुमारे 11 दशलक्ष पोस्ट प्राप्त होते. उदाहरणार्थ, उच्च संवेदनशीलता एक विषय आय Weiwei, dissident कलाकार आहे; मध्यम संवेदनशीलता एक विषय कौतुक आणि चीनी चलन अवमूल्यन आहे, आणि कमी संवेदनशीलता एक विषय विश्वचषक आहे. या 11 दशलक्ष पोस्ट साधारण 2 दशलक्ष होउन गेले होते, पण अत्यंत संवेदनशील विषयांवर पोस्ट मध्यम आणि कमी संवेदनशीलता विषयांवर पोस्ट पेक्षा फक्त थोडे अधिक अनेकदा होउन होते. दुसऱ्या शब्दांत, चीनी सेन्सॉरने विश्वचषक उल्लेख की एक पोस्ट तसाच आय नगराचा Weiwei उल्लेख की एक पोस्ट मुद्रण नियंत्रक बद्दल शक्यता आहे. या संशोधनातील निष्कर्ष सरकार संवेदनशील विषय सर्व पोस्ट सेन्सॉरने की सोपे कल्पना जुळत नाही.
विषय करून सेन्सॉरशिप दर या साध्या गणना पथभ्रष्ट करू शकते, तथापि. उदाहरणार्थ, सरकार आय Weiwei पाठिंबा आहेत की, पण त्याला कठीण आहे पोस्ट सोडून पोस्ट सेन्सॉर शकते. अधिक काळजीपूर्वक पोस्ट फरक करण्यासाठी, संशोधक प्रत्येक पोस्टच्या भावना मोजण्यासाठी आवश्यक आहे. अशा प्रकारे विचार करण्यासाठी एक मार्ग आहे प्रत्येक पोस्ट एक महत्त्वाचा गुप्त वैशिष्ट्य प्रत्येक पोस्टची भावना आहे. दुर्दैवाने, खूप काम असूनही, पूर्व-विद्यमान शब्दकोश वापरून भावना ओळख पूर्णपणे स्वयंचलित पद्धती अजूनही नाही अनेक घटनांमध्ये खूप चांगले आहेत (सप्टेंबर 11, 2001 एक भावनिक वेळेत कलम 2.3.2.6 पासून तयार समस्या परत वाटते). म्हणून राजा व सहकारी ते 1 होते की) राज्यातील गंभीर म्हणून त्यांच्या 11 दशलक्ष सामाजिक मीडिया पोस्ट कशी लेबल एक मार्ग आवश्यक, 2) राज्य किंवा 3) घटना बद्दल असंबद्ध किंवा अमेरिकन अहवाल पाठिंबा. हे मान्य नोकरी वाटणारा, पण ते एक शक्तिशाली युक्ती वापरून निराकरण; डेटा विज्ञान सामान्य पण सध्या तुलनेने सामाजिक विज्ञान दुर्मीळ होत चालली आहे की एक.
प्रथम, एक पाऊल विशेषत पूर्व प्रक्रिया म्हणतात, संशोधक जेथे प्रत्येक दस्तऐवज एक पंक्ती आणि पोस्ट एक विशिष्ट शब्द असलेल्या का याबाबत कोठेही नोंद की एक स्तंभ होता एक दस्तऐवज दीर्घकालीन मॅट्रिक्स मध्ये सामाजिक मीडिया पोस्ट रूपांतर (उदा, निषेध, वाहतूक, इत्यादी). पुढे, संशोधन सहाय्यकांना एक गट पोस्ट एक नमुना भावना हात-संबोधले. मग राजा व सहकारी त्याची वैशिष्ट्ये आधारित एक पोस्ट भावना अनुमान नाही, की एक मशीन लर्निंग मॉडेल अंदाज घेण्यासाठी या हात-लेबल डेटा वापरला नाही. शेवटी, ते सर्व 11 दशलक्ष पोस्ट भावना अंदाज या मशीनच्या लर्निंग मॉडेल वापरले. अशा प्रकारे, स्वतः वाचन आणि लेबलिंग 11 दशलक्ष पोस्ट (logistically अशक्य होईल जे) ऐवजी, ते स्वतः पोस्ट एक लहान संख्या लेबल आणि नंतर शास्त्रज्ञ पदे श्रेणी अंदाज पर्यवेक्षण शिक्षण कॉल होईल काय डेटा वापरला नाही. हे विश्लेषण पूर्ण केल्यानंतर, राजा आणि सहकारी काहीसे आश्चर्याची गोष्ट नाही, एक पोस्ट संभाव्यता हटविल्यावर किंवा राज्य गंभीर राज्यातील आश्वासक होते किंवा नाही हे संबंधित होते आहे, असा निष्कर्ष काढला सक्षम होते.
शेवटी, राजा आणि सहकारी केवळ तीन पोस्ट प्रकार नियमितपणे होउन होते की आढळले: अश्लील, परंतु सेन्सॉरने टीका, आणि त्या सामूहिक कृती क्षमता लाभण्याची शक्यता होती (म्हणजे, मोठ्या प्रमाणात निषेध अग्रगण्य शक्यता). हटविले नाहीत हटविली आणि पोस्ट होते की पोस्ट एक प्रचंड संख्या निरीक्षण करून, राजा आणि सहकारी सेन्सॉरने पाहणे आणि मोजदाद फक्त काम कसे हे जाणून घेण्यासाठी सक्षम होते. त्यानंतरच्या संशोधन, ते प्रत्यक्षात थेट चीनी सामाजिक मीडिया पर्यावरणातील मध्ये होउन करा जे पद्धतशीरपणे भिन्न सामग्री आणि मोजण्यासाठी सह पोस्ट तयार द्वारे याबाबत (King, Pan, and Roberts 2014) . आम्ही धडा 4. पुढील प्रायोगिक पध्दती बद्दल अधिक जाणून होईल, संपूर्ण पुस्तकात येऊ होईल एक थीम foreshadowing, या गुप्त-गुणधर्म तर्क समस्या कधी कधी सह निराकरण केले जाऊ शकते पर्यवेक्षण शिक्षण वळण सामाजिक संशोधन फार सामान्य असल्याचे बाहेर डिजिटल वय. आपण (वस्तुमान सहकार्याने तयार) चित्रे अतिशय आकृती अध्याय 3 (प्रश्न विचारणे) आणि 5 2.3 समान पाहाल; अनेक अध्याय दिसते की काही कल्पना एक आहे.
ही उदाहरणे-न्यू यॉर्क मध्ये टॅक्सी ड्रायव्हर्स, विद्यार्थ्यांनी मैत्री निर्मिती, आकलनशक्तीच्या डेटा तुलनेने सोपे मतमोजणी सैद्धांतिक अंदाज चाचणी करण्यासाठी संशोधक सक्षम करू शकता की चीनी सरकारी शो सोशल मीडिया सेन्सॉरशिप वर्तन काम वर्तन सर्व तीन. काही प्रकरणांमध्ये, मोठे डेटा आपण तुलनेने थेट या मतमोजणी करू (न्यू यॉर्क टॅक्सीज बाबतीत म्हणून) सक्षम करते. इतर प्रकरणांमध्ये, संशोधक त्यांच्या स्वत: च्या आकलनशक्तीच्या माहिती गोळा करण्यासाठी (चीनी सेन्सॉरशिप बाबतीत म्हणून) आवश्यक आहे, एकत्र डेटा एकत्र करणे (नेटवर्क उत्क्रांतीच्या बाबतीत म्हणून) यांनी अपुरेपणा सामोरे; किंवा गुप्त-विशेष गुण अनुमान काही फॉर्म करत (चीनी सेन्सॉरशिप बाबतीत म्हणून). मला आशा आहे या उदाहरणे दाखवा, मनोरंजक प्रश्न विचारू करण्यास सक्षम आहेत ज्यांनी संशोधक यांच्यासाठी, मोठे महान वचन दिले आहे वस्तू.