ഗവേഷകർ സെൻസർഷിപ്പ് പഠിക്കാൻ ചൈനീസ് സോഷ്യൽ മീഡിയ സൈറ്റുകളിൽ ഉരച്ചുവെളുപ്പിക്കയും. അവർ ഒളിഞ്ഞിരിക്കുന്ന-വിമുഖത നിഗമനത്തിന്റെ കൂടെ incompleteness ഇടപെട്ട.
രണ്ട് മുൻ ഉദാഹരണങ്ങൾ ഉപയോഗിക്കുന്ന വലിയ ഡാറ്റ പുറമെ, ഗവേഷകർ സ്വന്തം നിരീക്ഷണ ഡാറ്റ, അത്ഭുതകരമാം ഗാരി രാജാവ്, ജെന്നിഫർ പാൻ, ഒപ്പം മോളി റോബർട്സ് 'ചിത്രീകരിക്കുന്നു ചെയ്തു വാങ്ങാവുന്നതാണ് (2013) ചൈനീസ് സർക്കാർ സെൻസർഷിപ്പ് ഗവേഷണം.
ചൈനയിൽ സോഷ്യൽ മീഡിയ കുറിപ്പുകൾ പതിനായിരക്കണക്കിന് ആളുകൾ ആയിരക്കണക്കിന് ഉൾപ്പെടുത്താൻ കരുതപ്പെടുന്നു ഒരു പടുകൂറ്റൻ സംസ്ഥാന ദാരുണമായി അടിസ്ഥാനത്തിൽ സെൻസർ ചെയ്യുന്നു. ഗവേഷകർക്കും പൗരന്മാർക്കും എന്നാല്, ഈ സെൻസർമാർ ഉള്ളടക്കം സോഷ്യൽ മീഡിയ നീക്കം ചെയ്യേണ്ടതാകുന്നു തീരുമാനിക്കുക എങ്ങനെ ചെറിയ പ്രതീതി. ചൈനയുടെ പണ്ഡിതന്മാർ യഥാർത്ഥത്തിൽ പരസ്പരവിരുദ്ധമായ പ്രതീക്ഷകൾ പോസ്റ്റുകളുടെ തരത്തിലുള്ള ഇല്ലാതാക്കും ഏറ്റവും സാധ്യത ആയ കുറിച്ച് ഞങ്ങൾക്കുണ്ട്. ചില സെൻസർമാർ മറ്റുള്ളവരെ കൂട്ടായ സ്വഭാവം പ്രേരിപ്പിക്കുന്ന കുറിപ്പുകൾ പോലുള്ള പ്രതിഷേധ ശ്രദ്ധ വിചാരിക്കുകയും സംസ്ഥാനത്തിന്റെ ഗുരുതരമാണ് കുറിപ്പുകൾ ശ്രദ്ധ എന്നു തോന്നുന്നു. ശരിയാണോ ഈ പ്രതീക്ഷകൾ ഏത് നിർണയിക്കുന്നത് ഗവേഷകർ ചൈന, സെൻസർഷിപ്പ് ഏർപ്പെടാൻ മറ്റ് അമിതാധികാര സർക്കാരുകൾ മനസ്സിലാക്കാൻ എങ്ങനെ പ്രാധാന്യമുണ്ടെന്ന്. അതുകൊണ്ടു, രാജാവ് സഹപ്രവർത്തകരും പ്രസിദ്ധീകരിച്ചു പിന്നീട് ചെയ്തു പ്രസിദ്ധീകരിച്ച ഒരിക്കലും ഇല്ലാതാക്കി പോസ്റ്റുകളിലേക്ക് ഇല്ലാതാക്കി കുറിപ്പുകൾ താരതമ്യം ആഗ്രഹിച്ചു.
ഈ പോസ്റ്റുകൾ ശേഖരിക്കുന്നു മറ്റൊരു പേജ് ലേ-കണ്ടെത്തുന്നതിൽ പ്രസക്തമായ കുറിപ്പുകൾ ഉപയോഗിച്ച് 1000 ലേറെ സോഷ്യൽ മീഡിയ വെബ്സൈറ്റുകൾ-ഓരോ ഇഴഞ്ഞുനീങ്ങുന്നുണ്ട്, തുടർന്ന് പിന്നീട് ഇല്ലാതാക്കി കാണാൻ ഈ പോസ്റ്റുകൾ റീവിസിറ്റിംഗ് അത്ഭുതകരമായ എൻജിനീയറിങ് നേട്ടം ഉൾപ്പെട്ട. വലിയ തോതിലുള്ള വെബ്-ക്രോൾ ബന്ധപ്പെട്ട സാധാരണ എൻജിനീയറിങ് പ്രശ്നങ്ങൾക്കു പുറമേ, ഈ പദ്ധതി പല സെൻസർ കുറിപ്പുകൾ 24 മണിക്കൂറിനുള്ളിൽ എടുത്തുമാറ്റിയതോ കാരണം അത് വളരെ ഫാസ്റ്റ് ആവശ്യമുണ്ട് എന്നു ചേർത്തു വെല്ലുവിളി ഉണ്ടായിരുന്നു. മറ്റു വാക്കുകളിൽ, മന്ദഗതിയിലുള്ള ക്രാളറെ സെൻസർ ചെയ്തു കുറിപ്പുകൾ ധാരാളം മാറിനിൽക്കുമെന്ന്. എന്നുതന്നെയല്ല, ക്രാളറുകൾ സോഷ്യൽ മീഡിയ വെബ്സൈറ്റുകൾ വരാതിരിപ്പാൻ കണ്ടെത്തൽ നൽകാത്തതിനെ സമയത്ത് തടയാൻ അല്ലെങ്കിൽ മറ്റുതരത്തിൽ പഠനത്തിൽ പ്രതികരണമായി അവരുടെ നയങ്ങൾ മാറ്റാൻ ഈ എല്ലാ ഡാറ്റയും ശേഖരം ചെയ്യാൻ ഉണ്ടായിരുന്നു.
ഈ ഭീമൻ എഞ്ചിനീയറിംഗ് ടാസ്ക് പൂർത്തിയാക്കുകയും ഒരിക്കൽ രാജാവ് സഹപ്രവർത്തകരും ഇന്ദ്രിയങ്ങളെ അവരുടെ പ്രതീക്ഷിത അടിസ്ഥാനത്തിൽ ചെയ്തു പ്രീ-വ്യക്തമാക്കിയ 85 വ്യത്യസ്ത വിഷയങ്ങളിലുള്ള 11 ദശലക്ഷം പോസ്റ്റുകളും ഷാര്ജയിലെത്തുകയായിരുന്നു. ഉദാഹരണത്തിന്, ഉയർന്ന സംവേദനക്ഷമത ഒരു വിഷയം ഹായി Weiwei, വിമത കലാകാരനാണ്; മിഡിൽ സംവേദനക്ഷമത ഒരു വിഷയം ചൈനീസ് കറൻസി അഭിനന്ദനവും ചുരുങ്ങിയതും ആണ്, കുറഞ്ഞ സംവേദനക്ഷമത ഒരു വിഷയം ലോകകപ്പ് ആണ്. 2 ദശലക്ഷം കുറിച്ച് ഈ 11 ദശലക്ഷം പോസ്റ്റുകളുടെ സെൻസർ ചെയ്തിരുന്നു, എന്നാൽ വളരെ സെൻസിറ്റീവ് വിഷയങ്ങളെക്കുറിച്ചുള്ള പോസ്റ്റുകൾ മാത്രമേ അല്പം കൂടുതൽ പലപ്പോഴും മിഡിൽ താഴ്ന്ന സംവേദനക്ഷമത വിഷയങ്ങളും പോസ്റ്റുകളും അധികം സെൻസർ ചെയ്തു. മറ്റു വാക്കുകളിൽ, ചൈനീസ് സെൻസർമാർ ലോകകപ്പ് പരാമർശങ്ങൾ ഒരു പോസ്റ്റ് ഹായിയോടും Weiwei പരാമർശങ്ങൾ ഒരു കുറിപ്പ് സെൻസർ ഏകദേശം പോലെ സാധ്യത. ഈ കണ്ടെത്തലുകളെ സർക്കാർ സെൻസിറ്റീവ് വിഷയങ്ങൾ എല്ലാ പോസ്റ്റുകളും സെൻസർമാർ ആ ലളിതമായ ആശയം പൊരുത്തപ്പെടുന്നില്ല.
വിഷയം പ്രകാരം സെൻസർഷിപ്പ് നിരക്ക് ഈ ലളിതമായ കണക്കുകൂട്ടൽ എന്നാൽ തെറ്റിദ്ധരിപ്പിക്കുന്നുണ്ടാകാം. ഉദാഹരണത്തിന്, സർക്കാർ ഹായി Weiwei പിന്തുണക്കുന്ന ആയ കുറിപ്പുകൾ സെൻസർ എന്നാൽ, അവനെ വിമർശിക്കുന്നതെന്ന് കുറിപ്പുകൾ വിട്ടു. കൂടുതൽ ശ്രദ്ധയോടെ കുറിപ്പുകൾ തമ്മിൽ വേർതിരിച്ചു വേണ്ടിയാണ്, ഗവേഷകർ ഓരോ കുറിപ്പിന്റെ വികാരം അളക്കാൻ വേണം. ഇപ്രകാരം കരുതുന്നു ഒരു വിധം ഓരോ പോസ്റ്റും ഒരു പ്രധാന ഒളിഞ്ഞിരിക്കുന്ന സവിശേഷത ഓരോ പോസ്റ്റിന് എന്ന് വികാരം ആണ്. നിർഭാഗ്യവശാൽ, വളരെ പ്രവൃത്തി പൂർണ്ണമായി പ്രീ-നിലവിലുള്ള നിഘണ്ടുക്കൾ ഉപയോഗിച്ച് വികാരം കണ്ടെത്തൽ രീതികൾ ഓട്ടോമേറ്റഡ് വകവയ്ക്കാതെ ഇപ്പോഴും വളരെ നല്ല പല സാഹചര്യങ്ങൾ ഇരിക്കുന്നു (വിഭാഗം 2.3.2.6 മുതൽ സെപ്റ്റംബർ 11, 2001 ഒരു വൈകാരിക ടൈംലൈൻ സൃഷ്ടിക്കുന്നത് തിരികെ പ്രശ്നങ്ങൾക്ക് തോന്നുന്നു). അതുകൊണ്ടു, രാജാവ് സഹപ്രവർത്തകരും സംസ്ഥാനത്തെ 2) പിന്തുണക്കുന്ന, അല്ലെങ്കിൽ 3) ഇവന്റുകളെക്കുറിച്ചുള്ള അപ്രധാനമായ അല്ലെങ്കിൽ ദൃസാക്ഷി 1 ആയിരുന്നു എന്ന് അവരുടെ 11 മില്യൺ സോഷ്യൽ മീഡിയ കുറിപ്പുകൾ ലേബൽ ഒരു വഴി needed) സംസ്ഥാന വിമർശിക്കുന്നു. ഇത് ഒരു വൻ ജോലി തോന്നാം, എന്നാൽ അവർ ശക്തമായ ഒരു ഹാട്രിക് ഉപയോഗിച്ച് ഇത് പരിഹരിച്ച; ഡാറ്റ ശാസ്ത്രം സാധാരണമാണ് എന്നാൽ നിലവിൽ താരതമ്യേന സോഷ്യൽ സയൻസ് അപൂർവ ഒന്നാണ്.
ആദ്യം, സാധാരണ പ്രീ-പ്രോസസ്സിംഗ് എന്ന ഒരു ഘട്ടത്തിൽ ഗവേഷകർ സോഷ്യൽ മീഡിയ കുറിപ്പുകൾ കുറിപ്പ് ഒരു പ്രത്യേക വാക്ക് (ഉദാ പ്രതിഷേധ അടങ്ങിയിരിക്കുന്ന രേഖപ്പെടുത്തി ഓരോ പ്രമാണം ഒരു കോളം ഒന്നു വരി ഉണ്ടായിരുന്നു ഒരു പ്രമാണം ദീർഘകാല മാട്രിക്സ്, കയറി, പരിവർത്തനം ട്രാഫിക് മുതലായവ). അടുത്തത്, ഗവേഷണ സഹായികളും ഒരു കൂട്ടം കൈ-ലേബൽ കുറിപ്പിന്റെ ഒരു പൂജാരിയാണ് വികാരം. പിന്നെ, രാജാവ് സഹപ്രവർത്തകരും അതിന്റെ സ്വഭാവസവിശേഷതകൾ അടിസ്ഥാനത്തിൽ ഒരു കുറിപ്പിന്റെ വികാരം അനുമാനിക്കാൻ കഴിയാത്ത മെഷീൻ ലേണിംഗ് മോഡൽ കണക്കാക്കാൻ ഈ കൈ-ലേബൽ ഡാറ്റ ഉപയോഗിച്ചിട്ടില്ല. ഒടുവിൽ എല്ലാവരും 11 മില്യൺ പോസ്റ്റുകളുടെ വികാരം കണക്കാക്കാൻ ഈ മെഷീൻ ലേണിംഗ് മോഡൽ ഉപയോഗിച്ചു. ഇപ്രകാരം, മറിച്ച് സ്വമേധയാ reading ലേബൽ 11 മില്യൺ പോസ്റ്റുകളും (logistically അസാധ്യമാണ് ഏത്) അധികം അവർ സ്വമേധയാ കുറിപ്പുകൾ ഒരു ചെറിയ എണ്ണം ലേബൽ തുടർന്ന് ശാസ്ത്രജ്ഞർ എല്ലാ പോസ്റ്റുകളും വിഭാഗങ്ങൾ ദ്രവഗതിവിജ്ഞാനീയത്തിന്റെയും സൂപ്പർവൈസുചെയ്ത പഠന എന്തു പേരിടുമെന്നു ഡാറ്റ ഉപയോഗിച്ചിട്ടില്ല. ഈ വിശകലനം പൂർത്തിയാക്കിയ ശേഷം, രാജാവ് സഹപ്രവർത്തകരും നിഗമനം സാധിച്ചു കരുതില്ല അത്ഭുതമെന്നു, നീക്കം ചെയ്യുന്ന ഒരു കുറിപ്പ് പ്രോബബിലിറ്റി സംസ്ഥാനത്തെ പ്രധാനപ്പെട്ട അല്ലെങ്കിൽ സംസ്ഥാനത്തിന്റെ പിന്തുണച്ചു എന്നത് ബന്ധമില്ലാത്ത ആയിരുന്നു.
ഒടുവിൽ, രാജാവ് സഹപ്രവർത്തകരും പോസ്റ്റുകളുടെ മാത്രം മൂന്നു തരം പതിവായി സെൻസർ കണ്ടെത്തിയിട്ടുണ്ട്: അശ്ലീലം, സെൻസർമാർ വിമർശനങ്ങളും, കൂട്ടായ പ്രവർത്തനത്തിനുള്ള സാധ്യതകൾ ഉണ്ടായിരുന്നു ആ (അതായത്, വലിയ തോതിൽ പ്രതിഷേധങ്ങളും നയിക്കുന്ന സാധ്യത). ഇല്ലാതാക്കി ചെയ്തിട്ടില്ലെങ്കിൽ ഇല്ലാതാക്കിയ കുറിപ്പുകൾ പോസ്റ്റുകളും ഒരു വലിയ സംഖ്യ നിരീക്ഷിക്കുന്നത് വഴി രാജാവ് സഹപ്രവർത്തകരും സെൻസർമാർ, കാണുന്നത് നടത്തിയത് വെറും എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്നും സാധിച്ചു. തുടർന്നുള്ള ഗവേഷണ, അവർ യഥാർത്ഥത്തിൽ നേരിട്ട് ചൈനീസ് സോഷ്യൽ മീഡിയ കൃഷിരീതി കടന്നു സെൻസർ ലഭിക്കുന്ന വ്യവസ്ഥാപിതമായി വിവിധ ഉള്ളടക്കവും അളവുകോൽ ഉപയോഗിച്ച് പോസ്റ്റുകൾ സൃഷ്ടിക്കുന്ന ഇടപെട്ടു (King, Pan, and Roberts 2014) . ഞങ്ങൾ കൂടുതൽ പാഠം 4. പരീക്ഷണാത്മക സമീപനങ്ങളിലും കുറിച്ച് പുസ്തകം മുഴുവൻ നടക്കാനിരിക്കുന്ന ഒരു തീം foreshadowing, കൂടുതൽ പഠിക്കും, ഇത്തരം രോഗാണുബാധയുടെ-ആട്രിബ്യൂട്ട് നിഗമനത്തിന്റെ പ്രശ്നങ്ങൾ-ഏത് ചിലപ്പോൾ സാമൂഹ്യ ഗവേഷണത്തിൽ സൂപ്പർവൈസുചെയ്ത വളരെ സാധാരണമാണ് ആകും പഠന-തിരിവുമൊത്തൊരു പരിഹരിക്കാൻ കഴിയും ഡിജിറ്റൽ യുഗത്തിൽ. നിങ്ങൾ അദ്ധ്യായങ്ങൾ 3 പട്ടികയിലുള്ള 2.3 ചിത്രങ്ങൾ വളരെ സമാനമായ കാണും (ചോദ്യങ്ങൾ), 5 (ബഹുജന സഹകരണം സൃഷ്ടിക്കുന്നു); ഒന്നിലധികം അധ്യായങ്ങളിൽ പ്രത്യക്ഷപ്പെടുന്ന ഏതാനും ആശയങ്ങൾ ഒന്നാണ്.
ഈ ഉദാഹരണങ്ങൾ-ന്യൂയോർക്കിലെ ടാക്സി ഡ്രൈവർമാർ പ്രവർത്തന സ്വഭാവം മൂന്നു, വിദ്യാർത്ഥികൾ നിരീക്ഷണ ഡാറ്റ താരതമ്യേന ലളിതമായ എണ്ണൽ സൈദ്ധാന്തിക പ്രവചനങ്ങൾ പരിശോധിക്കുന്നതിന് ഗവേഷകർ പ്രാപ്തമാക്കാൻ കഴിയുന്ന ചൈനീസ് സർക്കാർ-ഷോയിൽ സോഷ്യൽ മീഡിയ സെൻസർഷിപ്പ് പ്രവർത്തനരീതിയിലൂടെ സൗഹൃദം രൂപീകരണം. ചില കേസുകളിൽ, ബിഗ് ഡാറ്റ താരതമ്യേന നേരിട്ട് ഈ എണ്ണൽ ചെയ്യാൻ (ന്യൂയോർക്ക് ടാക്സികൾ കാര്യത്തിലെന്നപോലെ) നിങ്ങളെ പ്രാപ്തമാക്കുന്നു. മറ്റ് സന്ദർഭങ്ങളിൽ, ഗവേഷകർ (ചൈനീസ് സെൻസർഷിപ്പ് കാര്യത്തിലെന്നപോലെ) സ്വന്തം നിരീക്ഷണ ഡാറ്റ ശേഖരിക്കാൻ ആവശ്യമാണ്; (നെറ്റ്വർക്ക് പരിണാമത്തിന്റെ കാര്യത്തിലെന്നപോലെ) ഡാറ്റയുടെ സംയോജിപ്പിച്ചുകൊണ്ട് incompleteness കൈകാര്യം; അല്ലെങ്കിൽ (ചൈനീസ് സെൻസർഷിപ്പ് കാര്യത്തിലെന്നപോലെ) ഒളിഞ്ഞിരിക്കുന്ന-വിമുഖത നിഗമനത്തിന്റെ ചില ഫോം നടപ്പിലാക്കുമ്പോൾ. ഞാൻ ഈ ഉദാഹരണങ്ങൾ കാണിക്കാൻ പ്രതീക്ഷിക്കുന്നു പോലെ, രസകരമായ ചോദ്യങ്ങൾ ചോദിക്കാൻ പ്രാപ്തിയുള്ള ഗവേഷകർ വേണ്ടി, വലിയ വലിയ വാഗ്ദാനം താങ്ങി.