നിങ്ങൾ നല്ല ഡാറ്റ ഒരു നല്ല ചോദ്യം സംയോജിപ്പിച്ച് എങ്കിൽ ലളിത വോട്ടെണ്ണൽ രസകരമായ കഴിയും.
സങ്കീർണമായ ശബ്ദമുള്ള ഭാഷയിൽ ഇത് കെട്ടിച്ചമച്ചതാണെങ്കിലും, സാമൂഹിക ഗവേഷണത്തിന് ധാരാളം കാര്യങ്ങൾ മാത്രമേ എണ്ണുകയുള്ളൂ. വലിയ വിവരങ്ങളുടെ പ്രായത്തിൽ, ഗവേഷകർക്ക് മുമ്പത്തേതിലും കൂടുതൽ എണ്ണാൻ കഴിയും, പക്ഷേ അവർ അർത്ഥമാക്കുന്നത് അർത്ഥമാക്കുന്നത് അവർ കണക്കുകൂട്ടിയെടുക്കണം എന്നാണ്. പകരം, ഗവേഷകർ ഇങ്ങനെ ചോദിക്കണം: എന്തൊക്കെയാണ് കാര്യങ്ങൾ എണ്ണേണ്ടത്? ഇത് തികച്ചും ആത്മനിഷ്ഠമായ ഒരു കാര്യമെന്നപോലെ തോന്നാമെങ്കിലും, ചില പൊതുരൂപങ്ങൾ ഉണ്ട്.
പലപ്പോഴും വിദ്യാർത്ഥികൾ അവരുടെ എണ്ണത്തിൽ ഗവേഷണം പ്രചോദിപ്പിക്കും: "ആരും ഇതുവരെ കണക്കാക്കിയിട്ടില്ലാത്ത ഒരു കാര്യം ഞാൻ കണക്കാക്കും. ഉദാഹരണത്തിന്, ഒരുപാട് വിദ്യാർത്ഥികൾ കുടിയേറ്റക്കാരെ പഠിച്ചിട്ടുണ്ട്, പലരും ഇരട്ടകളെ പഠിച്ചിട്ടുണ്ട്, എന്നാൽ ആരും കുടിയേറ്റ ഇരട്ടകളെ പഠിച്ചിട്ടില്ല. എന്റെ അനുഭവത്തിൽ, അഭാവത്തിൽ ഞാൻ പ്രേരിപ്പിക്കുന്ന ഈ തന്ത്രം സാധാരണയായി നല്ല ഗവേഷണത്തിലേക്ക് നയിക്കില്ല. അഭാവത്തിൽ പ്രചോദനം, അവിടെ ഒരു ദ്വാരം ഉണ്ടെന്ന് പറയുന്നതുപോലെയാണ്, ഞാൻ അത് നിറക്കാൻ വളരെ ബുദ്ധിമുട്ടാണ്. എന്നാൽ ഓരോ ദ്വാരം നിറയും.
അസാന്നിധ്യത്തിൽ പ്രചോദിപ്പിക്കുന്നതിനുപകരം, പ്രധാനപ്പെട്ടതോ രസകരമോ ആയ രസകരമായ ചോദ്യങ്ങൾ (അല്ലെങ്കിൽ രണ്ടും). നിർവചിക്കുവാൻ ഈ പദങ്ങൾ അൽപം ബുദ്ധിമുട്ടുള്ളവയാണ്, പക്ഷേ പ്രധാനപ്പെട്ട ഗവേഷണത്തെക്കുറിച്ച് ചിന്തിക്കാനുള്ള ഒരു മാർഗ്ഗം, അത് പോളിസി നിർമ്മാതാക്കളുടെ പ്രധാന തീരുമാനത്തിന് ചില അളവുകോലായ സ്വാധീനങ്ങളോ ഫീഡുകളോ ആണ് എന്നതാണ്. ഉദാഹരണത്തിന്, തൊഴിലില്ലായ്മ നിരക്ക് കണക്കാക്കേണ്ടത് അത്യാവശ്യമാണ്, കാരണം അത് പോളിസി തീരുമാനങ്ങളെ നയിക്കുന്ന സമ്പദ്വ്യവസ്ഥയുടെ ഒരു സൂചകമാണ്. സാധാരണയായി, ഗവേഷകർക്ക് സുപ്രധാനമായ കാര്യങ്ങളെക്കുറിച്ച് നല്ല ധാരണയുണ്ട്. അതിനാൽ, ഈ വിഭാഗത്തിന്റെ ബാക്കിഭാഗങ്ങളിൽ, ഞാൻ രണ്ടു ഉദാഹരണങ്ങൾ നൽകാൻ പോകുന്നു, ഞാൻ കണക്കാക്കുന്നത് രസകരമാണെന്ന് ഞാൻ കരുതുന്നു. ഓരോ കേസിലും, ഗവേഷകർ കണക്കില്ലാത്ത കണക്കില്ല. പകരം, സോഷ്യൽ സിസ്റ്റങ്ങൾ എങ്ങനെ പ്രവർത്തിക്കുമെന്നതിനെക്കുറിച്ചുള്ള പൊതുജനാഭിപ്രായങ്ങൾക്കുള്ള പ്രധാന ഉൾക്കാഴ്ചകൾ വെളിപ്പെടുത്തുന്ന വളരെ പ്രത്യേക ക്രമീകരണങ്ങളിൽ അവർ എണ്ണുകയായിരുന്നു. മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, ഈ പ്രത്യേക എണ്ണമറ്റ വ്യായാമങ്ങൾ ഡാറ്റയല്ല എന്നതിനേക്കാൾ ഏറെയാണ്, ഇത് കൂടുതൽ പൊതുവായ ആശയങ്ങളിൽ നിന്നാണ്.
ന്യൂ യോർക്ക് സിറ്റി ടാക്സി ഡ്രൈവർമാരുടെ പെരുമാറ്റം സംബന്ധിച്ച ഹെൻറി ഫാർബർസിന്റെ (2015) പഠനം മുതൽ ലളിതമായ എണ്ണം കൗണ്ടിംഗ് ഒരു ഉദാഹരണമാണ്. ഈ ഗ്രൂപ്പിന് രസകരമായ രസകരമായ ശബ്ദമുണ്ടാകില്ലെങ്കിലും, തൊഴിൽ രംഗത്ത് രണ്ട് മത്സരാധിഷ്ഠിത സിദ്ധാന്തങ്ങൾ പരീക്ഷിക്കുന്നതിനുള്ള ഒരു തന്ത്രപരമായ ഗവേഷണ സൈറ്റ് ആണ് . ഫാർബർ ഗവേഷണത്തിന്റെ ആവശ്യങ്ങൾക്ക് ടാക്സി ഡ്രൈവർമാരുടെ തൊഴിൽ പരിതസ്ഥിതിയെക്കുറിച്ച് രണ്ട് സുപ്രധാന സവിശേഷതകളുണ്ട്: (1) അവരുടെ മണിക്കൂറുള്ള വേതനം പ്രതിദിന കാലാവസ്ഥയിലെ വ്യതിയാനങ്ങൾ, കാലാവസ്ഥ പോലെയുള്ള ഘടകങ്ങളെ അടിസ്ഥാനമാക്കി, (2) അവരുടെ തീരുമാനങ്ങളെ അടിസ്ഥാനമാക്കി ഓരോ ദിവസവും ജോലിക്ക് മാറ്റം വരാം. മണിക്കൂറുകൾക്കുള്ള വേതനവും മണിക്കൂറും തമ്മിലുള്ള ബന്ധത്തെക്കുറിച്ചുള്ള രസകരമായ ചോദ്യത്തിന് ഈ സവിശേഷതകൾ കാരണമാകുന്നു. ശരാശരി വേതനം ലഭിക്കുന്ന ദിവസങ്ങളിൽ ടാക്സി ഡ്രൈവർമാർ കൂടുതൽ പ്രവർത്തിക്കുമെന്ന് സാമ്പത്തിക ശാസ്ത്രത്തിലെ നവകലാശാല മോഡലുകൾ പ്രവചിക്കുന്നു. പകരമായി, പെരുമാറ്റത്തിലെ സാമ്പത്തിക ശാസ്ത്രത്തിൽ നിന്നുള്ള മോഡലുകൾ നേരെ വിപരീതമായി പ്രവചിക്കുന്നു. ഡ്രൈവർമാർ ഒരു പ്രത്യേക വരുമാന ലക്ഷ്യം വെച്ചാൽ, പ്രതിദിനം $ 100-ഉം, ആ ലക്ഷ്യം പൂർത്തീകരിക്കുന്നതുവരെ പ്രവർത്തിക്കുമെങ്കിൽ, ഡ്രൈവറുകൾ കൂടുതൽ സമ്പാദിക്കുന്ന ദിവസങ്ങളിൽ കുറച്ച് മണിക്കൂറാണ് ജോലി ചെയ്യുന്നത്. ഉദാഹരണത്തിന് നിങ്ങൾ ലക്ഷ്യം നേടുന്നയാളാണെങ്കിൽ ഒരു നല്ല ദിവസം (മണിക്കൂറിൽ $ 25), ഒരു മോശം ദിവസത്തിൽ (മണിക്കൂറിൽ $ 20) അഞ്ചുമണിക്കൂറിനായിരുന്നു ജോലി അവസാനിക്കുന്നത്. അതുകൊണ്ട് മണിക്കൂറുകളോളം ദൈർഘ്യമുള്ള മണിക്കൂറുകളോളം മണിക്കൂറുകളോളം മണിക്കൂറുകളോളം ദൈർഘ്യമുള്ള ഡ്രൈവർമാർ പ്രവർത്തിക്കുമോ (നവീകരിക മോഡലുകൾ പ്രവചിച്ചതുപോലെ) മണിക്കൂറുകളോളം മണിക്കൂറുകളോളം ദൈർഘ്യമുള്ള വേതനം കൊണ്ട് മണിക്കൂറുകളോളം പ്രവർത്തിക്കുന്നുണ്ടോ?
ഈ ചോദ്യത്തിന് ഉത്തരം നൽകാനായി, 2009 മുതൽ 2013 വരെ ന്യൂയോർക്ക് നഗരത്തിലെ ക്യാബുകൾ എടുത്ത എല്ലാ ടാക്സി യാത്രകളിലും, ലഭിച്ച വിവരങ്ങൾ ഇപ്പോൾ ലഭ്യമാണ്. ഈ ഡാറ്റ ഇലക്ട്രോണിക് മീറ്റർ ഉപയോഗിച്ചു ടാക്സി ഉപയോഗിക്കേണ്ടത്-ഓരോ യാത്രയെയും കുറിച്ചുള്ള വിവരങ്ങൾ ഉൾപ്പെടുന്നു: ആരംഭ സമയം, ആരംഭിക്കൽ, അവസാനിക്കുന്ന സ്ഥലം, അവസാന സ്ഥലം, ഫെയർ, ടിപ്പ് (ക്രെഡിറ്റ് കാർഡ് ഉപയോഗിച്ച് ടിപ്പ് അടച്ചെങ്കിൽ) . ഈ ടാക്സി മീറ്റർ ഡാറ്റ ഉപയോഗിച്ച്, ഫാർബർ, വേഗത കൂടുതലുള്ള ദിവസങ്ങളിൽ, മിക്ക നവീകൃത സിദ്ധാന്തങ്ങളുമായി കൂടുതൽ പ്രവർത്തിക്കുന്നുണ്ടെന്ന് കണ്ടെത്തി.
ഈ പ്രധാന കണ്ടെത്തലിനുപുറമേ, വൈറസ്, ചലനാത്മകത എന്നിവയെക്കുറിച്ച് കൂടുതൽ മനസ്സിലാക്കുന്നതിനായി ഡാറ്റയുടെ വലുപ്പം ഉപയോഗിക്കാൻ ഫാർബർ കഴിഞ്ഞു. കാലക്രമേണ പുതിയ ഡ്രൈവർമാർ കൂടുതൽ മണിക്കൂറുകളോളം ഉയർന്ന വേതന ദിനങ്ങളിൽ ജോലിചെയ്യുന്നുണ്ടെന്ന് അദ്ദേഹം കണ്ടെത്തി. (ഉദാഹരണം, നവ നിയോ സിസിക്കൽ മോഡൽ പ്രവചിക്കുന്നതുപോലെ അവർ പെരുമാറുന്നു). ടാർജറ്റ് ഡ്രൈവർമാരായി ജോലിയിൽ നിന്ന് പിരിഞ്ഞുപോകുന്ന പുതിയ ഡ്രൈവർമാരാണ് ലക്ഷ്യം. നിലവിലെ ഡ്രൈവറുകളുടെ നിരീക്ഷിത സ്വഭാവത്തെ വിശദീകരിക്കാൻ സഹായിക്കുന്ന ഈ കൂടുതൽ സൂക്ഷ്മമായ കണ്ടെത്തലുകൾ, ഡാറ്റാഗണത്തിന്റെ വലുപ്പത്തെ മാത്രമേ സാധ്യമാവുകയുള്ളൂ. ഒരു ചെറിയ കാലയളവിൽ ചെറിയ ടാക്സി ഡ്രൈവർമാരിൽ നിന്നും (Camerer et al. 1997) പേപ്പർ ട്രിപ്പ് ഷീറ്റുകൾ ഉപയോഗിച്ചിരുന്ന നേരത്തെയുള്ള പഠനങ്ങളിൽ കണ്ടെത്താനായില്ല.
ഫാർബർ പഠനം ഒരു മികച്ച വിവരസ്രോതസ്സ് ഉപയോഗിച്ച് ഒരു ഗവേഷണത്തിനായുള്ള ഏറ്റവും സമീപനമായി സമീപത്തു തന്നെയായിരുന്നു. കാരണം ഫാർബർ ശേഖരിച്ച ഡാറ്റയോട് അടുത്താണ് നഗരത്തിന്റെ ശേഖരം ശേഖരിച്ചത്. (ഒരു വ്യത്യാസം ഫാർബർ മൊത്തം ഡാറ്റ ആവശ്യപ്പെടുന്നു എന്നതാണ് കൂലി-നുറുങ്ങുകൾ-നുറുങ്ങുകൾ-എന്നിരുന്നാലും, നഗരത്തിലെ ഡാറ്റയിൽ മാത്രം ക്രെഡിറ്റ് കാർഡ് അടച്ച നുറുങ്ങുകൾ ഉൾപ്പെടുത്തിയിരിക്കുന്നു). എന്നിരുന്നാലും, ഡാറ്റ മാത്രം മതിയാവുന്നില്ല. ഫാർബർ ഗവേഷണത്തിൻറെ താക്കോൽ വിവരത്തിന് രസകരമായ ഒരു ചോദ്യം നൽകുന്നുണ്ട്, ഈ പ്രത്യേക ക്രമീകരണത്തിനപ്പുറം വലിയ അർത്ഥം ഉള്ള ഒരു ചോദ്യം.
ഗാരിങ് കിംഗ്, ജെന്നിഫർ പാൻ, മോളി റോബർട്ട്സ് (2013) എന്നിവരുടെ ഗവേഷണഫലത്തിൽ നിന്ന് കാര്യങ്ങൾ മനസ്സിലാക്കാൻ രണ്ടാമത്തെ ഉദാഹരണം ചൈനീസ് സർക്കാരിൻറെ ഓൺലൈൻ സെൻസർഷിപ്പിലാണ്. ഈ സാഹചര്യത്തിൽ, ഗവേഷകർ തങ്ങളുടെ വലിയ ഡാറ്റ ശേഖരിക്കേണ്ടി വന്നു, അവരുടെ ഡാറ്റ അപൂർണ്ണമാണെന്ന് വസ്തുത കൈകാര്യം ചെയ്യാൻ അവർക്ക് ഉണ്ടായിരുന്നു.
ചൈനയിലെ സോഷ്യൽ മീഡിയ തസ്തികകൾ പതിനായിരക്കണക്കിന് ആളുകളെ ഉൾക്കൊള്ളുന്ന ഒരു വലിയ സംസ്ഥാന സംവിധാനത്താൽ സെൻസർ ചെയ്യപ്പെടുന്നുവെന്നതും രാജാവും സഹപ്രവർത്തകരും പ്രചോദിതരായി. എന്നിരുന്നാലും, എന്തെല്ലാം ഉള്ളടക്കങ്ങളാണ് ഡിലീറ്റ് ചെയ്യണമെന്ന് തീരുമാനിക്കുന്നതെന്നതിന് ഗവേഷകർക്കും പൗരന്മാർക്കും ഒരു കുറവുമില്ല. ചൈനയിലെ പണ്ഡിതർ യഥാർത്ഥത്തിൽ ഏത് തരത്തിലുള്ള കുറിപ്പുകളാണ് നീക്കം ചെയ്യേണ്ടത് എന്നതിനെക്കുറിച്ച് പരസ്പര വിരുദ്ധമായ പ്രതീക്ഷകളാണ്. സംസ്ഥാനത്തെ വിമർശനാത്മക പോസ്റ്റുകളിൽ സെൻസറുകൾ ശ്രദ്ധ കേന്ദ്രീകരിക്കുമെന്ന് ചില ആളുകൾ കരുതുന്നു, മറ്റുള്ളവർ പ്രതിഷേധങ്ങൾ പോലുള്ള കൂട്ടായ പെരുമാറ്റങ്ങളെ പ്രോത്സാഹിപ്പിക്കുന്ന പോസ്റ്റുകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നുവെന്നാണ്. ഈ പ്രതീക്ഷകൾ ഏതെല്ലാമാണെന്ന് കൃത്യമായി കണ്ടുപിടിക്കുന്നത് ചൈനയും മറ്റ് ഏകാധിപത്യ ഗവൺമെൻറുകളും സെൻസർഷിപ്പിൽ ഏർപ്പെടുന്നതിനെക്കുറിച്ച് ഗവേഷകർ മനസ്സിലാക്കുന്നത് എങ്ങനെ എന്നതിന്റെ പ്രത്യാഘാതങ്ങളുണ്ട്. അതിനാൽ, പ്രസിദ്ധീകരിച്ച കുറിപ്പുകളുമൊത്ത് പ്രസിദ്ധീകരിച്ചതും പിന്നീട് ഇല്ലാതാക്കിയതുമായ കുറിപ്പുകൾ പ്രസിദ്ധീകരിച്ചതിനു ശേഷം പ്രസിദ്ധീകരിച്ച കുറിപ്പുകൾ താരതമ്യം ചെയ്യാൻ രാജാവും സഹപ്രവർത്തകരും ആഗ്രഹിച്ചു.
ഈ പോസ്റ്റുകൾ ശേഖരിക്കുന്നു മറ്റൊരു പേജ് ലേ-കണ്ടെത്തുന്നതിൽ പ്രസക്തമായ കുറിപ്പുകൾ ഉപയോഗിച്ച് 1000 ലേറെ സോഷ്യൽ മീഡിയ വെബ്സൈറ്റുകൾ-ഓരോ ഇഴഞ്ഞുനീങ്ങുന്നുണ്ട്, തുടർന്ന് പിന്നീട് ഇല്ലാതാക്കി കാണാൻ ഈ പോസ്റ്റുകൾ റീവിസിറ്റിംഗ് അത്ഭുതകരമായ എൻജിനീയറിങ് നേട്ടം ഉൾപ്പെട്ട. വലിയ തോതിലുള്ള വെബ്-ക്രോൾ ബന്ധപ്പെട്ട സാധാരണ എൻജിനീയറിങ് പ്രശ്നങ്ങൾക്കു പുറമേ, ഈ പദ്ധതി പല സെൻസർ കുറിപ്പുകൾ 24 മണിക്കൂറിനുള്ളിൽ എടുത്തുമാറ്റിയതോ കാരണം അത് വളരെ ഫാസ്റ്റ് ആവശ്യമുണ്ട് എന്നു ചേർത്തു വെല്ലുവിളി ഉണ്ടായിരുന്നു. മറ്റു വാക്കുകളിൽ, മന്ദഗതിയിലുള്ള ക്രാളറെ സെൻസർ ചെയ്തു കുറിപ്പുകൾ ധാരാളം മാറിനിൽക്കുമെന്ന്. എന്നുതന്നെയല്ല, ക്രാളറുകൾ സോഷ്യൽ മീഡിയ വെബ്സൈറ്റുകൾ വരാതിരിപ്പാൻ കണ്ടെത്തൽ നൽകാത്തതിനെ സമയത്ത് തടയാൻ അല്ലെങ്കിൽ മറ്റുതരത്തിൽ പഠനത്തിൽ പ്രതികരണമായി അവരുടെ നയങ്ങൾ മാറ്റാൻ ഈ എല്ലാ ഡാറ്റയും ശേഖരം ചെയ്യാൻ ഉണ്ടായിരുന്നു.
ഈ ഭീമൻ എൻജിനീയറിങ് ജോലികൾ പൂർത്തിയായപ്പോഴേക്കും കിങ് ആന്റ് സഹപ്രവർത്തകർ 11 മില്ല്യൺ തസ്തികകൾ 85 പ്രാതിനിധ്യാത്മക വിഷയങ്ങളിൽ നേടിയെടുത്തു. ഉദാഹരണത്തിന്, വിമർശകനായ കലാകാരനായ Ai Weiwei ആണ് ഉയർന്ന സംവേദനക്ഷമതയുള്ള ഒരു വിഷയം. മധ്യകണക്കിന് ഒരു വിഷയം ചൈനീസ് നാണിയുടെ വിലമതിക്കലും മൂല്യവൽക്കരണവുമാണ്. ലോക് കപ്പ് ആണ് ഏറ്റവും കുറഞ്ഞ സംവേദനക്ഷമത. അതിൽ 11 ദശലക്ഷം തസ്തികകളിൽ 2 ദശലക്ഷം പേർ സെൻസർ ചെയ്തത്. വളരെ സെൻസിറ്റീവായ വിഷയങ്ങളെക്കുറിച്ചുള്ള പോസ്റ്റുകൾ സെൻസർ, കുറഞ്ഞ സെൻസിറ്റിവിറ്റി വിഷയങ്ങളിൽ പോസ്റ്റുകളേക്കാൾ അല്പം കൂടുതലാണ് സെൻസർ ചെയ്തത് എന്ന് രാജാവും സഹപ്രവർത്തകരും തിരിച്ചറിഞ്ഞിട്ടുണ്ട്. മറ്റൊരു രീതിയിൽ പറഞ്ഞാൽ, ചൈന സെൻസർമാർ ലോകകപ്പ് സൂചിപ്പിക്കുന്ന ഒരു പോസ്റ്റായി ആയിവീവൈയിയെ പരാമർശിക്കുന്ന ഒരു പോസ്റ്റിനെ സെൻസർ ചെയ്യാൻ സാധ്യതയുണ്ട്. സെൻസിറ്റീവ് വിഷയങ്ങളിലെ എല്ലാ പോസ്റ്റുകളും ഗവൺമെന്റ് സെൻസസ് ചെയ്യുന്നതിനെക്കുറിച്ചുള്ള ആശയം ഈ കണ്ടെത്തലുകൾ പിന്തുണയ്ക്കുന്നില്ല.
വിഷയം സെൻസർഷിപ്പ് നിരക്ക് ഈ ലളിതമായ കണക്കുകൂട്ടൽ തെറ്റിദ്ധരിപ്പിക്കും. ഉദാഹരണത്തിന്, ഗവൺമെൻറ് ആയ് വെയ്വിയെ പിന്തുണയ്ക്കുന്ന തസ്തികകൾ അടിച്ചേൽപ്പിച്ചേക്കാം, എന്നാൽ അദ്ദേഹത്തെ വിമർശിക്കുന്ന പോസ്റ്റുകൾ അവശേഷിക്കുന്നു. പോസ്റ്റുകൾ തമ്മിൽ കൂടുതൽ വേർതിരിച്ചറിയുന്നതിനായി, ഓരോ പോസ്റ്റിന്റേയും വികാരത്തെ അളക്കാൻ ഗവേഷകർ ആവശ്യമാണ്. ദൗർഭാഗ്യവശാൽ, ഏറെ പണിമുടക്കുകളുണ്ടെങ്കിലും, നിലനില്ക്കുന്ന നിഘണ്ടുവിന്റെ വിനിയോഗം കണ്ടെത്തുന്നതിനുള്ള പൂർണ്ണമായ ഓട്ടോമേറ്റഡ് രീതികൾ ഇപ്പോഴും പല സന്ദർഭങ്ങളിലും വളരെ മികച്ചതായിരുന്നില്ല (വിഭാഗം 2.3.9 ൽ വിവരിച്ചിട്ടുള്ള സെപ്തംബർ 11, 2001 ന്റെ വൈകാരിക ടൈംലൈൻ സൃഷ്ടിക്കുന്ന പ്രശ്നങ്ങൾക്ക് വീണ്ടും ആലോചിക്കുക). അതുകൊണ്ട്, തങ്ങളുടെ 11 മില്ല്യൻ സോഷ്യൽ മീഡിയ തസ്തികകളെ സംസ്ഥാനത്തെ വിമർശനാത്മകമാക്കണമോ (2) സംസ്ഥാനത്തെ പിന്തുണയ്ക്കുന്നതാണോ അതോ 3) അപ്രസക്തമോ സംഭവവികാസങ്ങളുമോ അപ്രസക്തമോ യഥാർഥ റിപ്പോർട്ടുകൾക്കോ ആയിരുന്നോ എന്ന് രാജിനും സഹപ്രവർത്തകർക്കും അറിയാമായിരുന്നു. ഇത് ഒരു വലിയ ജോലിയാണ്, പക്ഷെ ശാസ്ത്രീയ ശാസ്ത്രത്തിൽ താരതമ്യേന വളരെ അപൂർവമായ ഒരു ശക്തമായ ട്രിക് ഉപയോഗിച്ചുകൊണ്ട് അവർ പരിഹരിച്ചു: സൂപ്പർവൈസുചെയ്ത പഠനം ; കാണുക ചിത്രം 2.5.
ആദ്യം, പ്രീപ്റോസസിങ് എന്ന് വിളിക്കപ്പെടുന്ന ഒരു ഘട്ടത്തിൽ ഗവേഷകർ സോഷ്യൽ മീഡിയ പോസ്റ്റുകൾ ഒരു ഡോക്യുമെൻറ് ടൈം മാട്രിക്സ് ആയി പരിവർത്തനം ചെയ്തു. അവിടെ ഓരോ പ്രമാണത്തിനും ഒരു നിരയിൽ ഒരു പ്രത്യേക പദം (ഉദാ: പ്രതിഷേധമോ ട്രാഫിക്കും) . അടുത്തതായി, അന്വേഷണ അസിസ്റ്റന്റുമാരുടെ ഒരു സംഘം ഒരു മാതൃകാ പോസ്റ്റുകളുടെ വികാരത്തെ കൈമാറ്റം ചെയ്തു. പിന്നെ, അവർ ഈ ഹാൻഡ്-ലേബൽഡ് ഡാറ്റ ഉപയോഗിച്ചു് ഒരു മെഷീൻ ലേണിങ് മോഡൽ ഉണ്ടാക്കുന്നു. അവസാനമായി, 11 മില്ല്യൻ പോസ്റ്റുകളുടെ വികാരം കണക്കാക്കാൻ അവർ ഈ മാതൃക ഉപയോഗിച്ചു.
അതിനാൽ, 11 ദശലക്ഷം പോസ്റ്റുകൾ സ്വമേധയാ വായിക്കുന്നതും മുദ്രാവാക്യങ്ങളല്ല. അവയെല്ലാം തികച്ചും അസാധ്യമാണ്. രാജാവും സഹപ്രവർത്തകരും ചെറിയ തോതിൽ പോസ്റ്റുകളെ സ്വമേധയാ വിളിക്കുകയും തുടർന്ന് എല്ലാ പോസ്റ്റുകളുടെയും വികാരത്തെ വിലയിരുത്തുന്നതിന് സൂപ്പർവൈസുചെയ്ത പഠനം ഉപയോഗിക്കുകയും ചെയ്തു. ഈ വിശകലനം പൂർത്തിയാക്കിയതിനു ശേഷം, ഒരു കുറിപ്പ് ഇല്ലാതാക്കാൻ സാധിക്കുമെന്നത് ഒരു സംസ്ഥാനത്തിന്റെ സംസ്ഥാനത്തെ പിന്തുണയ്ക്കുന്നോ അല്ലെങ്കിൽ അതിനെ പിന്തുണയ്ക്കുന്നതാണോ എന്നതിനെ സംബന്ധിച്ച് ഒരുപക്ഷേ അവ്യക്തതയാണെന്ന് അവർ മനസ്സിലാക്കാൻ കഴിഞ്ഞു.
അവസാനം മൂന്നു തരത്തിലുള്ള പോസ്റ്റുകൾ പതിവായി സെൻസർ ചെയ്തു: അശ്ലീലത, സെൻസർമാരുടെ വിമർശനം, കൂട്ടായ പ്രവർത്തന സാധ്യതയുള്ളവർ (അതായത്, വൻതോതിലുള്ള പ്രതിഷേധങ്ങളിലേക്ക് നയിക്കാനുള്ള സാധ്യത). നീക്കം ചെയ്ത ഒരു വലിയ എണ്ണം പോസ്റ്റുകളും നിരീക്ഷിക്കപ്പെടാത്ത കുറിപ്പുകളും നിരീക്ഷിക്കുന്നതിലൂടെ, സെൻസറുകളും നിരീക്ഷകരും എങ്ങനെയാണ് സെൻസർമാർ പ്രവർത്തിക്കുന്നത് എന്നറിയാൻ കഴിഞ്ഞു. കൂടാതെ, ഈ പുസ്തകത്തിലുടനീളം സംഭവിക്കുന്ന ഒരു വിഷയം മുൻകൂട്ടി അറിയിക്കുന്നു, അവർ ചില ഫലങ്ങളൊക്കെ ഉപയോഗിക്കുകയും, ഡിജിറ്റൽ യുഗത്തിൽ സാമൂഹ്യ ഗവേഷണങ്ങളിൽ ബാക്കിയുള്ളവയെ ലേബൽ ചെയ്യാൻ ഒരു യന്ത്രം പഠന മാതൃക നിർമ്മിക്കുകയും ചെയ്തു. . 3 മുതൽ 3 വരെയുള്ള ചോദ്യങ്ങൾ (ചോദ്യങ്ങൾ ചോദിക്കൽ), 5 (ബഹുജന സഹകരണം ഉണ്ടാക്കുക) എന്നിവയടങ്ങിയ ചിത്രങ്ങൾ നിങ്ങൾ കാണും. ഒന്നിലധികം അധ്യായങ്ങളിൽ പ്രത്യക്ഷപ്പെടുന്ന ഏതാനും ആശയങ്ങളിൽ ഒന്നാണ് ഇത്.
ഈ ഉദാഹരണങ്ങൾ- ന്യൂയോർക്കിലെ ടാക്സി ഡ്രൈവർമാരുടെയും ചൈനീസ് ഗവൺമെൻറിൻറെ സോഷ്യൽ മീഡിയ സെൻസർഷിപ്പ് പെരുമാറ്റത്തിൻറെയും പ്രവർത്തനരീതി- ചില വലിയ സന്ദർഭങ്ങളിൽ, താരതമ്യേന ലളിതമായ വിവരങ്ങളുടെ ഉറവിടം, ചില സാഹചര്യങ്ങളിൽ, രസകരമായതും പ്രധാനപ്പെട്ടതുമായ ഗവേഷണത്തിന് ഇടയാക്കുമെന്ന് കാണിക്കുന്നു. രണ്ട് സാഹചര്യങ്ങളിലും, ഗവേഷകർക്ക് വലിയ ഡാറ്റ സ്രോതസിലേക്ക് രസകരമായ ചോദ്യങ്ങൾ ഹാജരാക്കേണ്ടി വന്നു; ഡാറ്റ തന്നെ മതിയാവുന്നില്ല.