સંશોધકોએ સેન્સરશીપ અભ્યાસ ચિની સામાજિક મીડિયા સાઇટ્સ ઝપાઝપી. તેઓ ગુપ્ત-લક્ષણ અનુમાન સાથે અપૂર્ણતા સાથે વ્યવહાર.
અગાઉના બે ઉદાહરણો વપરાય મોટા માહિતી ઉપરાંત, સંશોધકો પણ તેમના પોતાના નિરીક્ષણ માહિતી તરીકે અદ્ભૂત ગેરી રાજા, જેનિફર પાન, અને મોલી રોબર્ટ્સ 'દ્વારા સચિત્ર આવી હતી એકત્રિત કરી શકે છે (2013) સેન્સરશીપ પર સંશોધન ચિની સરકાર દ્વારા.
ચાઇના માં સામાજિક મીડિયા પોસ્ટ્સ એક પ્રચંડ રાજ્ય ઉપકરણ છે કે જે લોકો હજારો સમાવેશ થાય છે તેવું માનવામાં આવે છે દ્વારા સેન્સર કરવામાં આવે છે. સંશોધકોએ અને નાગરિકો, જો કે, કેવી રીતે આ સેન્સર નક્કી કઈ સામગ્રી સામાજિક મીડિયા માંથી કાઢી નાંખવામાં આવવી જોઈએ થોડો અર્થમાં છે. ચાઇના ના વિદ્વાનો ખરેખર વિરોધાભાસી અપેક્ષાઓ પોસ્ટ્સ પ્રકારના જેના વિશે મોટા ભાગના કાઢી તેવી શક્યતા હોય છે. કેટલાક લોકો એવું વિચારે છે કે સેન્સર પોસ્ટ્સ કે જે ચોક્કસ રાજ્ય જટિલ છે, જ્યારે અન્ય લાગે છે કે તેઓ પોસ્ટ્સ, જેમ કે વિરોધ કે સામૂહિક વર્તન પ્રોત્સાહિત પર ધ્યાન કેન્દ્રિત પર ધ્યાન કેન્દ્રિત. બહાર Figuring જે આ અપેક્ષાઓ યોગ્ય છે કે કેવી રીતે સંશોધકો ચાઇના અને અન્ય સરમુખત્યારશાહી સરકાર કે સેન્સરશીપ સંલગ્ન સમજવા માટે સૂચિતાર્થ ધરાવે છે. તેથી, રાજા અને સાથીદારો પોસ્ટ્સ પ્રકાશિત કરવામાં આવી હતી અને ત્યાર બાદ પોસ્ટ્સ પ્રકાશિત કરવામાં આવી હતી અને ક્યારેય કાઢી કાઢી તુલના કરવા માગે છે.
આ પોસ્ટ ભેગા સામેલ સંબંધિત પોસ્ટ્સ વિવિધ પાનું લેઆઉટ શોધવાની, અને પછી આ પોસ્ટ revisiting જોવા માટે કે જે ત્યારબાદ કાઢી હતી સાથે 1,000 કરતાં વધુ ચિની સામાજિક મીડિયા વેબસાઇટ્સ-દરેક ક્રોલ અમેઝિંગ ઈજનેરી પરાક્રમ. મોટા પાયે વેબ ક્રાઉલિંગ સાથે સંકળાયેલ સામાન્ય એન્જિનિયરિંગ સમસ્યાઓ માટે વધુમાં, આ પ્રોજેક્ટ વધારાનું પડકાર છે કે તે અત્યંત ઝડપી હોય છે, કારણ કે ઘણા સેન્સર પોસ્ટ્સ કરતાં ઓછી 24 કલાકમાં ઉતારી લેવામાં આવે છે માટે જરૂરી હતી. અન્ય શબ્દોમાં, ધીમી ક્રાઉલર પોસ્ટ્સ સેન્સર હતા ઘણાં ચૂકી જશે. વધુમાં, ક્રોલર્સ કદાચ સામાજિક મીડિયા વેબસાઇટ્સ ઍક્સેસ બ્લૉક અથવા તો અભ્યાસ જવાબમાં તેમની નીતિઓ બદલી જ્યારે શોધ છૂટવા આ બધી માહિતી સંગ્રહ કરી હતી.
એકવાર આ વિશાળ ઈજનેરી કાર્ય પૂર્ણ કરવામાં આવી હતી, રાજા અને સાથીદારો 85 વિવિધ વિષયો કે પૂર્વ સ્પષ્ટ સંવેદનશીલતા તેમના અપેક્ષિત સ્તર પર આધારિત હતા લગભગ 11 મિલિયન પોસ્ટ્સ મેળવી હતી. ઉદાહરણ તરીકે, ઉચ્ચ સંવેદનશીલતા એક વિષય અઇ Weiwei, અસંતુષ્ટ કલાકાર છે; મધ્ય સંવેદનશીલતા એક વિષય પ્રશંસા અને ચિની ચલણ અવમૂલ્યન છે અને ઓછી સંવેદનશીલતા એક વિષય વર્લ્ડ કપ છે. આ 11 મિલિયન પોસ્ટ્સ લગભગ 2 મિલિયન સેન્સર કરવામાં આવી હતી, પરંતુ અત્યંત સંવેદનશીલ વિષયો પર પોસ્ટ્સ મધ્યમ અને નીચા સંવેદનશીલતા વિષયો પર પોસ્ટ્સ કરતાં માત્ર થોડી વધારે વાર સેન્સર હતા. બીજા શબ્દોમાં કહીએ તો, ચિની સેન્સર વિશે એક પોસ્ટ કે પોસ્ટ કે વર્લ્ડ કપ ઉલ્લેખો છે કારણ કે અઇ Weiwei ઉલ્લેખ સેન્સર તેવી શક્યતા છે. આ તારણો સરળ વિચાર છે કે સરકાર સંવેદનશીલ વિષયો પર બધી પોસ્ટ્સ સેન્સર સાથે મેળ ખાતી નથી.
વિષય દ્વારા સેન્સરશીપ દર આ સરળ ગણતરી ગેરમાર્ગે દોરનારું હોઈ શકે છે, તેમ છતાં. ઉદાહરણ તરીકે, સરકાર કે પોસ્ટ્સ અઇ Weiwei સમર્થક છે, પરંતુ પોસ્ટ્સ તેને જટિલ છે છોડી સેન્સર શકે છે. વધુ કાળજીપૂર્વક પોસ્ટ્સ વચ્ચે તફાવત, સંશોધકો દરેક પોસ્ટ સેન્ટિમેન્ટ માપવા માટે જરૂર છે. આમ, એક રીતે તે વિશે વિચારો છે કે દરેક પોસ્ટ એક મહત્વપૂર્ણ ગુપ્ત લક્ષણ દરેક પોસ્ટ સેન્ટિમેન્ટ. કમનસીબે, ખૂબ કામ હોવા છતાં, પૂર્વ અસ્તિત્વમાં શબ્દકોશો મદદથી સેન્ટિમેન્ટ શોધ સંપૂર્ણપણે ઓટોમેટ પદ્ધતિઓ હજુ પણ ઘણી પરિસ્થિતિઓમાં ખૂબ જ સારી છે (સમસ્યાઓ વિભાગ 2.3.2.6 થી 11 સપ્ટેમ્બર, 2001 ના ભાવનાત્મક સમયરેખા બનાવવા માટે પાછા લાગે છે). તેથી, રાજા અને સાથીદારો શું તેઓ 1 હતા) રાજ્ય ટીકા તરીકે તેમના 11 મિલિયન સામાજિક મીડિયા પોસ્ટ્સ લેબલ કરવા માટે એક માર્ગ જરૂરી છે, 2) રાજ્ય, અથવા ઘટનાઓ અંગે 3) અપ્રસ્તુત અથવા હકીકતલક્ષી અહેવાલો સહાયક. આ એક વિશાળ કામ જેવું સંભળાય છે, પરંતુ તેઓ એક શક્તિશાળી યુક્તિ નો ઉપયોગ કરીને તેને હલ; એક માહિતી વિજ્ઞાન સામાન્ય છે પરંતુ હાલમાં પ્રમાણમાં સામાજિક વિજ્ઞાન દુર્લભ છે.
પ્રથમ, એક પગલું સામાન્ય રીતે પૂર્વ પ્રક્રિયા કહેવાય છે, સંશોધકો એક દસ્તાવેજ ગાળાની મેટ્રિક્સ, જ્યાં દરેક દસ્તાવેજ માટે એક પંક્તિ અને એક કૉલમ રેકોર્ડ છે કે કેમ તે પોસ્ટ ચોક્કસ શબ્દ સમાયેલ હતી કે સામાજિક મીડિયા પોસ્ટ્સ રૂપાંતરિત (દા.ત., વિરોધ, ટ્રાફિક, વગેરે). આગળ, સંશોધન મદદનીશો એક જૂથ પોસ્ટ એક નમૂનો સેન્ટિમેન્ટ હાથ લેબલ. પછી, રાજા અને સાથીઓ એક મશીન શિક્ષણ મોડેલ કે તેના લક્ષણો પર આધારિત પોસ્ટ સેન્ટિમેન્ટ અટકળ બાંધવી શકે અંદાજ આ હાથ લેબલ માહિતી ઉપયોગ થાય છે. છેલ્લે, તેઓ બધા 11 મિલિયન પોસ્ટ્સ સેન્ટિમેન્ટ અંદાજ આ મશીન શિક્ષણ મોડેલ ઉપયોગ થાય છે. આમ, બદલે જાતે વાંચી અને લેબલિંગ 11 મિલિયન પોસ્ટ્સ (જે logistically અશક્ય હશે), તેઓ જાતે પોસ્ટ્સ એક નાની સંખ્યા લેબલ અને પછી ઉપયોગ શું માહિતી વૈજ્ઞાનિકો બધા પોસ્ટ્સ વર્ગોમાં અંદાજ દેખરેખ શિક્ષણ કૉલ કરશે. આ વિશ્લેષણ સમાપ્ત કર્યા પછી, રાજા અને સાથીદારો તારણ કરવા માટે સમર્થ હતા, કંઈક અંશે આશ્ચર્યજનક, એક પોસ્ટ સંભાવના કાઢી નાખવામાં આવે છે કે કેમ તે રાજ્યના જટિલ અથવા રાજ્ય સહાયક હતી બિનસંબંધિત હતી.
પોર્નોગ્રાફી સેન્સર ટીકા, અને તે સામૂહિક સક્રિય કલા વીજસ્થિતિમાન હતી (એટલે કે, મોટા પાયે વિરોધ માટે અગ્રણી શક્યતા): અંતે, રાજા અને સાથીદારો શોધ્યું છે કે પોસ્ટ્સ માત્ર ત્રણ પ્રકારના નિયમિત સેન્સર હતા. પોસ્ટ્સ કાઢી અને પોસ્ટ્સ આવ્યા હતા કે કાઢી નાખવામાં આવી હતી એક વિશાળ સંખ્યા નિરીક્ષણ પ્રમાણે, રાજા અને સહકર્મીઓ જાણવા માટે કેવી રીતે સેન્સર જોવાનું અને ગણતરી દ્વારા માત્ર કામ કરવાનો હતા. અનુગામી સંશોધન, તેઓ ખરેખર સીધા ચિની સામાજિક મીડિયા ઇકોસિસ્ટમ માં વ્યવસ્થિત વિવિધ સામગ્રી અને માપ જે સેન્સર વિચાર સાથે પોસ્ટ્સ બનાવીને હસ્તક્ષેપ (King, Pan, and Roberts 2014) . અમે પ્રકરણ 4. વધુ પ્રાયોગિક અભિગમ વિશે વધુ જાણવા માટે, કે જે પુસ્તક સમગ્ર થશે થીમ foreshadowing, આ સુપ્ત-લક્ષણ અનુમાન સમસ્યાઓ કે જે ક્યારેક સાથે હલ કરી શકાય દેખરેખ શિક્ષણ ટર્ન આઉટ સામાજિક સંશોધન ખૂબ જ સામાન્ય ડિજિટલ ઉંમર. તમે ચિત્રો ખૂબ જ પ્રકરણ 3 (પ્રશ્નો પૂછવા) અને 5 2.3 આકૃતિ સમાન જોશો (માસ સહયોગ બનાવવા માટે); તે થોડા વિચારો કે બહુવિધ પ્રકરણો દેખાય છે.
આ ઉદાહરણો ટેક્સી ડ્રાઈવરો ન્યૂ યોર્ક, વિદ્યાર્થીઓ દ્વારા મિત્રતા રચના, અને ચિની સરકાર દર્શાવે છે કે નિરીક્ષણ માહિતી પ્રમાણમાં સરળ ગણતરી સૈદ્ધાંતિક માસિક ચકાસવા માટે સંશોધકો સક્રિય કરી શકો છો સામાજિક મીડિયા સેન્સરશીપ વર્તન કામ વર્તન તમામ ત્રણ. કેટલાક કિસ્સાઓમાં, મોટા માહિતી તમે પ્રમાણમાં સીધી આ ગણતરી કરવા માટે (ન્યુ યોર્ક ટેક્સી કિસ્સામાં) સક્રિય કરે છે. અન્ય કિસ્સાઓમાં, સંશોધકો તેમના પોતાના નિરીક્ષણ માહિતી (ચિની સેન્સરશીપ કિસ્સામાં) એકત્રિત કરવાની જરૂર પડશે; સાથે મળીને માહિતી મર્જ (નેટવર્ક ઉત્ક્રાંતિ કિસ્સામાં) દ્વારા અપૂર્ણતા સાથે કામ પાર; અથવા ગર્ભિત-લક્ષણ અનુમાન કેટલાક સ્વરૂપ રહ્યા (ચિની સેન્સરશીપ કિસ્સામાં). હું આશા રાખું છું તરીકે આ ઉદાહરણો બતાવે છે, સંશોધકો રસપ્રદ પ્રશ્નો પૂછો કરવા માટે સક્ષમ છે જે, મોટા મહાન વચન ધરાવે છે.