നിങ്ങളുടെ വലിയ ഡാറ്റ എത്രമാത്രം വലുതാണെന്നത് ഒരു പക്ഷേ, നിങ്ങൾക്ക് അത് ആവശ്യമുള്ള വിവരങ്ങളില്ല.
ഏറ്റവും വലിയ ഡാറ്റാ ഉറവിടങ്ങൾ അപൂർണ്ണമാണ് , അർത്ഥമാക്കുന്നത് നിങ്ങളുടെ ഗവേഷണത്തിനായി നിങ്ങൾ ആഗ്രഹിക്കുന്ന വിവരങ്ങൾ അവർക്കില്ല എന്നാണ്. ഗവേഷണയല്ലാതെ മറ്റ് ആവശ്യങ്ങൾക്ക് വേണ്ടി സൃഷ്ടിച്ച ഡാറ്റയുടെ ഒരു പൊതു സവിശേഷതയാണിത്. ആവശ്യത്തിലധികം ചോദ്യങ്ങളൊന്നും ചോദിക്കാത്ത ഒരു സർവേ പോലെയുള്ള അപൂർവതകളുമായി ഇടപെടുന്ന അനുഭവങ്ങൾ പല സാമൂഹ്യ ശാസ്ത്രജ്ഞന്മാർക്കും ഇതിനകം ഉണ്ടായിരുന്നു. നിർഭാഗ്യവശാൽ, അപൂർണ്ണതയുടെ പ്രശ്നങ്ങൾ വലിയ ഡാറ്റയിൽ കൂടുതൽ തീവ്രമാവുകയാണ്. എന്റെ അനുഭവത്തിൽ, സോഷ്യൽ ഗവേഷണത്തിനായി ഉപയോഗപ്പെടുന്ന മൂന്ന് തരം വിവരങ്ങൾ വലിയ ഡാറ്റ നഷ്ടപ്പെടാൻ സാധ്യതയുണ്ട്: പങ്കെടുക്കുന്നവരെക്കുറിച്ചുള്ള ജനസംഖ്യാശാസ്ത്ര വിവരം, മറ്റ് പ്ലാറ്റ്ഫോമുകളിലെ സ്വഭാവം, സൈദ്ധാന്തിക നിർമാണങ്ങൾ പ്രാവർത്തികമാക്കുന്നതിന് ഡാറ്റ എന്നിവ.
മൂന്നുതരം അപൂർണ്ണതകളിൽ, സൈദ്ധാന്തിക നിർമ്മിതികൾ പ്രാവർത്തികമാക്കുന്നതിനുള്ള അപൂർണ്ണമായ വിവരങ്ങൾ പരിഹരിക്കാൻ വിഷമമാണ്. എന്റെ അനുഭവത്തിൽ, പലപ്പോഴും അബദ്ധവശാൽ അവഗണിക്കപ്പെടുന്നു. ഏകദേശം, സൈദ്ധാന്തിക തയ്യാറാക്കിയതായിരുന്നു ഒരു സൈദ്ധാന്തിക നിർമ്മിക്കാൻ ആ നിരീക്ഷണ ഡാറ്റ ഉപയോഗിച്ച് നിർമ്മിക്കാൻ പിടിച്ചടക്കാൻ ചില വഴി മുന്നോട്ട് എന്നാണ് സാമൂഹിക ശാസ്ത്രജ്ഞർ പഠിക്കാൻ അമൂർത്തമായ ആശയങ്ങളും ഒപെരതിഒനലിജിന്ഗ് ആകുന്നു. നിർഭാഗ്യവശാൽ, ഈ ലളിതമായ സൗണ്ടിംഗ് പ്രക്രിയ പലപ്പോഴും വളരെ പ്രയാസകരമാകും. ഉദാഹരണത്തിന്, കൂടുതൽ ബുദ്ധിശക്തിയുള്ള ആളുകൾക്ക് കൂടുതൽ പണം സമ്പാദിക്കുന്നതിനുള്ള സ്പെഷ്യൽ ലളിതമായ അവകാശവാദം പരീക്ഷിച്ചുനോക്കാം. ഈ ക്ലെയിം പരിശോധിക്കുന്നതിനായി നിങ്ങൾ "വിവേകം" അളക്കേണ്ടതുണ്ട്. എന്നാൽ ബുദ്ധി എന്താണ്? Gardner (2011) വാസ്തവത്തിൽ എട്ട് വ്യത്യസ്ത രൂപത്തിലുള്ള രഹസ്യങ്ങൾ ഉള്ളതായി വാദിച്ചു. ഈ രീതിയിലുള്ള ഏതെങ്കിലും തരത്തിലുള്ള കൃത്യമായ അളവുകോലുകൾ കൃത്യമായി കണക്കാക്കുന്നതിനുള്ള നടപടിക്രമങ്ങൾ ഉണ്ടോ? മനഃശാസ്ത്രജ്ഞർ ധാരാളം ജോലി ചെയ്തിട്ടും, ഈ ചോദ്യങ്ങൾ ഇപ്പോഴും വ്യക്തമായ ഉത്തരങ്ങളില്ല.
താരതമ്യേന ലളിതമായ അവകാശവാദം പോലും- കൂടുതൽ ബുദ്ധിപൂർവ്വം സമ്പാദിക്കുന്ന ആളുകൾക്ക് കൂടുതൽ പണമുണ്ടാക്കാൻ കഴിയും- ഡാറ്റയിൽ സൈദ്ധാന്തിക രൂപകൽപനകൾ പ്രാവർത്തികമാക്കാൻ പ്രയാസമാണ് കാരണം. "മാനദണ്ഡങ്ങൾ," "സോഷ്യൽ തലസ്ഥാനമായ" ഒപ്പം "ജനാധിപത്യത്തെ എന്നിവ പ്രാബല്യത്തിൽ പ്രധാനപ്പെട്ട കഠിനാദ്ധ്വാനത്തിലൂടെ എന്ന് സൈദ്ധാന്തിക തയ്യാറാക്കിയതായിരുന്നു മറ്റ് ഉദാഹരണങ്ങൾ." സോഷ്യൽ ശാസ്ത്രജ്ഞർ സൈദ്ധാന്തിക തയ്യാറാക്കിയതായിരുന്നു ഡാറ്റ നിർമ്മിക്കാൻ സാധുത തമ്മിലുള്ള മത്സരം വിളിച്ചു (Cronbach and Meehl 1955) . നിർമാണത്തിന്റെ ഈ ചുരുക്കപ്പട്ടിക സൂചിപ്പിക്കുന്നത്, സാമൂഹ്യ ശാസ്ത്രജ്ഞർ വളരെയേറെ സമയംകൊണ്ട് ബുദ്ധിമുട്ടുള്ള ഒരു പ്രശ്നമാണ് നിർമ്മാണ സാധുത. എന്നാൽ എന്റെ അനുഭവത്തിൽ, ഗവേഷണാവശ്യങ്ങൾക്ക് വേണ്ടി സൃഷ്ടിക്കപ്പെടുന്ന വിവരങ്ങളുമായി പ്രവർത്തിക്കുമ്പോൾ നിർമ്മാണ സാധുത പ്രശ്നങ്ങൾ കൂടുതൽ വലുതായിരിക്കും (Lazer 2015) .
ഒരു ഗവേഷണ ഫലം നിങ്ങൾ വിലയിരുത്തുമ്പോൾ, നിർമ്മാണ സാധുതയെ വിലയിരുത്തുന്നതിനുള്ള ഒരു വേഗത്തിലും ഉപയോഗപ്രദവുമായ മാർഗ്ഗം ഫലപ്രാപ്തിയെ കുറിച്ചാണ്, സാധാരണയായി നിർമാണരീതിയിൽ അത് പ്രകടിപ്പിക്കുകയും, അത് ഉപയോഗിക്കുന്ന ഡാറ്റയുടെ അടിസ്ഥാനത്തിൽ വീണ്ടും പ്രകടിപ്പിക്കുകയും ചെയ്യുന്നു. ഉദാഹരണത്തിന്, കൂടുതൽ വൈജ്ഞാനികരായ ആളുകൾ കൂടുതൽ പണം സമ്പാദിക്കുന്നുവെന്ന് തെളിയിക്കുന്ന രണ്ടു സാങ്കൽപ്പിക പഠനങ്ങൾ പരിചിന്തിക്കുക. റേബൻ പ്രോഗ്രസീവ് മാട്രിക്സ് ടെസ്റ്റിൽ നന്നായി സ്കോർ ചെയ്ത ആളുകൾ (Carpenter, Just, and Shell 1990) ടാക്സ് റിട്ടേണുകളിൽ ഉയർന്ന വരുമാനം ഉണ്ടാക്കുന്ന അനലിറ്റിക് ഇൻറലിജൻസ് (Carpenter, Just, and Shell 1990) നന്നായി പഠിച്ചതായി ആദ്യ പഠനത്തിൽ കണ്ടെത്തി. രണ്ടാമത്തെ പഠനത്തിൽ, ട്വിറ്ററിലെ ആളുകൾക്ക് ദീർഘദൂര പദങ്ങൾ ഉപയോഗിക്കുന്ന ആഢംബര ബ്രാൻഡുകൾ സൂചിപ്പിക്കാനുള്ള സാധ്യത കൂടുതലാണ്. രണ്ടിരട്ടി കാര്യങ്ങളിൽ, കൂടുതൽ ഗൌരവമുള്ള ആളുകൾ കൂടുതൽ പണം സമ്പാദിക്കുന്നുവെന്ന് ഈ ഗവേഷകർ തെളിയിച്ചിരിക്കുന്നു. എന്നിരുന്നാലും, ആദ്യ പഠനത്തിൽ സൈറ്റോറിയൽ നിർമാണങ്ങൾ വളരെ നന്നായി പ്രവർത്തനനിരതമാണ്, രണ്ടാമത്തേതിൽ അവ ഇല്ല. കൂടാതെ, ഈ ഉദാഹരണം വ്യക്തമാക്കുമ്പോൾ കൂടുതൽ ഡാറ്റ നിർമ്മാണ സാധുതയുള്ള പ്രശ്നങ്ങൾ സ്വയം പരിഹരിക്കില്ല. ഒരു ദശലക്ഷത്തിലധികം ട്വീറ്റുകൾ, ഒരു ബില്യൺ ട്വീറ്റുകൾ അല്ലെങ്കിൽ ഒരു ട്രില്യൻ ട്വീറ്റുകൾ ഉൾപ്പെട്ടിട്ടുണ്ടോ എന്ന് രണ്ടാമത്തെ പഠനത്തിന്റെ ഫലങ്ങൾ നിങ്ങൾ സംശയിക്കണം. ഡിജിറ്റൽ ട്രെയ്സ് ഡാറ്റ ഉപയോഗിച്ച് സൈദ്ധാന്തികമായ നിർമാണപ്രവർത്തനങ്ങൾ പ്രാവർത്തികമാക്കിയ ചില പഠനങ്ങളടങ്ങിയ ഗവേഷണവിദഗ്ധർ, നിർമാണസാധ്യതയെക്കുറിച്ച് അറിഞ്ഞിട്ടില്ല.
വിവര ഉറവിടം | സൈദ്ധാന്തികമായ നിർമ്മാണം | റെഫറൻസുകൾ |
---|---|---|
സർവകലാശാലയിൽ നിന്നുള്ള ഇമെയിൽ ലോഗുകൾ (മെറ്റാ-ഡാറ്റ മാത്രം) | സാമൂഹിക ബന്ധങ്ങൾ | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
വെയ്ബോയിൽ സോഷ്യൽ മീഡിയ പോസ്റ്റുകൾ | സിവിൽ വിവാഹനിശ്ചയം | Zhang (2016) |
ഒരു സ്ഥാപനത്തിൽ നിന്നുള്ള മെയിൽ ലോഗുകൾ (മെറ്റാ ഡാറ്റയും പൂർണ്ണമായ വാചകവും) | ഒരു സംഘടനയിലെ സാംസ്കാരിക ഘടന | Srivastava et al. (2017) |
സൈദ്ധാന്തികമായ നിർമ്മിതികൾ പൂർണ്ണമായും പരിഹരിക്കുന്നതിനുള്ള അപൂർണമായ വിവരങ്ങൾ പരിഹരിക്കാൻ ബുദ്ധിമുട്ടാണ് എങ്കിലും, അപൂർണ്ണമായ മറ്റ് പൊതുതത്വങ്ങൾക്ക് പൊതുവായ പരിഹാരങ്ങൾ ഉണ്ട്: അപൂർണമായ ജനസംഖ്യാപരമായ വിവരങ്ങൾ, മറ്റ് പ്ലാറ്റ്ഫോമുകളിലെ സ്വഭാവത്തെക്കുറിച്ചുള്ള അപൂർണ്ണമായ വിവരങ്ങൾ. ആദ്യം വേണ്ടത് നിങ്ങൾക്ക് വേണ്ട ഡാറ്റ ശേഖരിക്കലാണ്; 3-ാം അധ്യായത്തിൽ ഞാൻ നിങ്ങളോട് പറയാം. രണ്ടാമത്തെ പ്രധാന പരിഹാരമാർഗ്ഗം, ഡാറ്റ -ആട്രിബ്യൂട്ട് ഇൻഫോർമറും സോഷ്യൽ സയൻസസ്മാരുമാണ് . ഈ സമീപനത്തിൽ, ഗവേഷകർ മറ്റ് ആളുകളുടെ ആട്രിബ്യൂട്ടുകൾ അനുമാനിക്കാൻ ചില ആളുകളിൽ ഉള്ള വിവരങ്ങൾ ഉപയോഗിക്കുന്നു. ഒന്നിലധികം ഡാറ്റ സ്രോതസ്സുകൾ ഒന്നിച്ചാണ് മൂന്നാമത്തെ പരിഹാരം. ഈ പ്രക്രിയ ചിലപ്പോൾ റെക്കോർഡ് ലിങ്ക് ആയി അറിയപ്പെടുന്നു. ഈ പ്രക്രിയയ്ക്കായി എന്റെ പ്രിയപ്പെട്ട മെറ്റപ്പൊർ എഴുതിയത് Dunn (1946) , രേഖാമൂലമുള്ള ബന്ധത്തിന്റെ ആദ്യ പേപ്പറിന്റെ ആദ്യ ഖണ്ഡികയിൽ:
"ലോകത്തിലെ ഓരോ ആളും ജീവപുസ്തകത്തെ സൃഷ്ടിക്കുന്നു. ഈ പുസ്തകം ജനനത്തോടെ ആരംഭിക്കുകയും മരണത്തോടെ അവസാനിക്കുകയും ചെയ്യുന്നു. അതിന്റെ പേജുകൾ ജീവിതത്തിലെ പ്രധാന സംഭവങ്ങളുടെ രേഖകളാണ്. ഈ പുസ്തകത്തിന്റെ താളുകൾ ഒരു വോളിയായി കൂട്ടിച്ചേർക്കുന്ന പ്രക്രിയയ്ക്കായി രേഖ രേഖപ്പെടുത്തൽ ആണ്. "
ജന്മം, വിവാഹം, വിവാഹമോചനം, മരണം എന്നിവപോലുള്ള പ്രധാന ജീവിത പരിപാടികൾ ജീവന്റെ പുസ്തകത്തിൽ ഉൾപ്പെടുമെന്ന് അയാൾ ചിന്തിച്ചുകൊണ്ടിരുന്നു. എന്നിരുന്നാലും, ജനങ്ങളെക്കുറിച്ചുള്ള ഇത്രയേറെ വിവരങ്ങൾ രേഖപ്പെടുത്തുമ്പോൾ, ആ ബുക്കുകൾ ഓഫ് ലൈഫ് ഒരു അവിശ്വസനീയമായ വിശദമായ ഛായാചിത്രം ആയിരിക്കാം, ആ വ്യത്യസ്ത താളുകൾ (അതായത്, നമ്മുടെ ഡിജിറ്റൽ ട്രെയ്സുകൾ) ഒന്നിച്ചായിരിക്കണം. ഈ പുസ്തകം ഓഫ് ലൈഫ് ഗവേഷകർക്ക് ഒരു വലിയ റിസോഴ്സ് ആയിരിക്കാം. എന്നാൽ, അത് നാശത്തിന്റെ ഒരു ഡാറ്റാബേസ് എന്നു വിളിക്കാം (Ohm 2010) , എല്ലാ തരത്തിലുള്ള അനായാസ ആവശ്യങ്ങൾക്കും ഉപയോഗിക്കാൻ കഴിയും, ഞാൻ 6-ാം അദ്ധ്യായത്തിൽ (എഥിക്സ്) വിവരിക്കുന്നു.