സാമ്പിൾ ഔട്ട്പുട്ട് സാമാന്യവൽക്കരണത്തിനായി നോൺ റഫറൻഷ്യൽ ഡാറ്റ മോശമാണ്, പക്ഷേ, ആധുനിക മാതൃക താരതമ്യം ചെയ്യാൻ വളരെ ഫലപ്രദമാണ്.
ഒരു പ്രത്യേക രാജ്യത്തിലെ എല്ലാ മുതിർന്നവരേയും പോലുള്ള നല്ലൊരു നിർദ്ദിഷ്ട ജനസംഖ്യയിൽ നിന്നും ഒരു ഫലപ്രദമല്ലാത്ത റാൻഡം സാമ്പിളിൽ നിന്ന് വരുന്ന ചില വിവരങ്ങൾ ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്ന ചില സാമൂഹ്യ ശാസ്ത്രജ്ഞന്മാർക്ക് പരിചിതമാണ്. സാമ്പിൾ വലിയ ജനസംഖ്യയെ "പ്രതിനിധീകരിക്കുന്നു" എന്നതിനാൽ ഈ തരത്തിലുള്ള ഡാറ്റയെ പ്രതിനിധീകരിക്കുന്ന ഡാറ്റ എന്ന് വിളിക്കുന്നു. പല ഗവേഷകർക്ക് ലഭിച്ച സമ്മാനത്തുകയും, ചിലരെ സംബന്ധിച്ചും പ്രതിനിധാനം ചെയ്യുന്ന വിവരങ്ങൾ, സൂക്ഷ്മമായ ശാസ്ത്രത്തിന് സമാനമാണ്, എന്നാൽ അവലംബമല്ലാത്ത ഡാറ്റ സ്ളോപ്പിപ്പിനു സമാനമാണ്. പരമപ്രധാനമായ വിവരങ്ങളിൽ നിന്ന് യാതൊന്നും പഠിക്കാൻ കഴിയില്ല എന്ന് ചില വിമർശകർ കരുതുന്നു. സത്യമെങ്കിൽ, വലിയ ഡാറ്റ സ്രോതസ്സുകളിൽ നിന്ന് എന്തൊക്കെ പഠിക്കണമെന്നത് കർശനമായി പരിഗണിക്കപ്പെടുന്നു, കാരണം അവയിൽ പലതും അവലംബമില്ലാത്തവയാണ്. ഭാഗ്യവശാൽ, ഈ സന്ദേഹവാദികൾ ഭാഗികമായി ശരിയാണ്. വ്യക്തമല്ലാത്ത റഫറൻസ് ഡാറ്റ വ്യക്തമായി യോജിക്കാത്ത ചില ഗവേഷണ ലക്ഷ്യങ്ങളുണ്ട്, പക്ഷേ മറ്റുള്ളവർ അത് വളരെ പ്രയോജനകരമാകാം.
ഈ വ്യത്യാസം മനസിലാക്കാൻ, ഒരു ശാസ്ത്രീയ ക്ലാസിക് പരിഗണിക്കാം: ലണ്ടനിൽ 1853-54 കോളറ ബാധയെക്കുറിച്ച് ജോൺ സ്നോ പഠനം നടത്തി. അക്കാലത്ത് കോളറ "മോശം വായ" മൂലം ഉണ്ടാകുന്നതായി പല ഡോക്ടർമാരുണ്ടായിരുന്നു. പക്ഷേ, മയക്കുമരുന്നിന് കാരണമാകുന്ന ഒരു കുടിവെള്ളമാണെന്ന് സ്നോ വിശ്വസിച്ചു. ഈ ആശയം പരിശോധിക്കുന്നതിനായി, സ്വാഭാവിക പരീക്ഷണങ്ങൾ എന്ന് ഇപ്പോൾ നമുക്ക് അറിയാവുന്ന സ്നോ ഉപയോഗിക്കാനാകും. ലാംബെത്ത്, സൗത്ത്വാർക്, വാക്സ്ഹാൾ എന്നീ രണ്ട് വാട്ടർ കമ്പനികളുടെ കുടുംബങ്ങളിലെ കോളറുകളുടെ നിരക്ക് താരതമ്യം ചെയ്തു. ഈ കമ്പനികൾ സമാനമായ വീടുകൾക്ക് സേവനം നൽകിയിരുന്നുവെങ്കിലും, അവർ ഒരു പ്രധാന വഴിയിൽ: 1849-ൽ, ഈ രോഗം ആരംഭിക്കുന്നതിന് ഏതാനും വർഷം മുൻപ്-ലാംബെത്ത് ലണ്ടനിലെ പ്രധാന മലിനജലത്തിൽ നിന്നും ജലനിരപ്പ് ഉയർത്തിയിരുന്നു, സൗത്ത്വാർക്ക് & വാക്സ്ഹാൾ തങ്ങളുടെ പൈപ്പ് വഴി മാലിന്യ വിസർജ്ജനം. രണ്ട് കമ്പനികൾ ചേർന്ന് കോളറയിൽ നിന്ന് മരണനിരക്ക് താരതമ്യപ്പെടുത്തുമ്പോൾ സ്നോർ, വാക്സ് ഹാൾ എന്നീ കമ്പനികൾ ഉപഭോക്തൃ മലിനജലം നഷ്ടപ്പെടുന്നതിന് 10 ഇരട്ടി അധികമായി മരണമടഞ്ഞു. ലണ്ടനിലെ ജനങ്ങളുടെ പ്രതിനിധിയെ അടിസ്ഥാനമാക്കിയുള്ളതല്ലെങ്കിലും കോളറയുടെ കാരണത്തെക്കുറിച്ച് സ്നോയുടെ വാദത്തിന് ശക്തമായ ശാസ്ത്രീയ തെളിവുകൾ നൽകുന്നുണ്ട്.
എന്നാൽ, ഈ രണ്ടു കമ്പനികളുടെയും ഡാറ്റ മറ്റൊരു ചോദ്യത്തിന് ഉത്തരം നൽകാൻ അനുയോജ്യമല്ല: ലണ്ടനിലെ കോളറയുടെ അസ്വാസ്ഥ്യത്തിൽ എന്ത് സംഭവിച്ചു? പ്രധാനമായും രണ്ടാമത്തെ ചോദ്യത്തിന്, ലണ്ടനിൽ നിന്നുള്ള ജനങ്ങളുടെ പ്രതിനിധിയെ പ്രതിനിധാനം ചെയ്യുന്നത് നന്നായിരിക്കും.
സ്നോയുടെ കൃതി വ്യക്തമാക്കുന്നത് പോലെ, രേഖപ്പെടുത്താത്ത ഡാറ്റ വളരെ ഫലപ്രദമാകാം, കൂടാതെ അത് പരസ്പരം അനുയോജ്യമല്ലാത്ത മറ്റു ചില ചോദ്യങ്ങൾ ഉണ്ട്. ഈ രണ്ട് തരത്തിലുള്ള ചോദ്യങ്ങളെയെല്ലാം വേർതിരിച്ചെടുക്കാൻ ഒരു ക്രൂഡ് മാർഗമാണ്, ചില ചോദ്യങ്ങൾ, മാതൃകാപരമായ താരതമ്യപഠനങ്ങളെക്കുറിച്ചും, ചിലത് സാമ്പിൾ വിശകലനങ്ങളേക്കുറിച്ചും മാത്രമാണ്. ഈ വ്യത്യാസം എപ്പിഡെമിയോളജിയിലെ മറ്റൊരു ക്ലാസിക് പഠനത്തിലൂടെ വ്യക്തമാക്കാം: പുകവലി കാൻസറിനു കാരണമാകുമെന്ന് ബ്രിട്ടീഷ് ഡോക്ടർസ് സ്റ്റഡി. ഈ പഠനത്തിൽ റിച്ചാർഡ് ഡോല്ലോ എ ബ്രാഡ്ഫോർഡ് ഹില്ലും ഏകദേശം 25,000 പുരുഷ ഡോക്ടർമാരെ അനേക വർഷത്തേയ്ക്ക് പിന്തുടരുകയും പഠനത്തിനു ശേഷം പുകവലിച്ചതിന്റെ അടിസ്ഥാനത്തിൽ അവരുടെ മരണ നിരക്കുകൾ താരതമ്യം ചെയ്തു. ഡോൾ ആൻഡ് ഹിൽ (1954) ഒരു ശക്തമായ എക്സ്പോഷർ-പ്രതികരണ ബന്ധം കണ്ടെത്തി: കൂടുതൽ ആൾക്കൂട്ടം പുകവലിച്ചു, അവർ ശ്വാസകോശ കാൻസറിൽ നിന്ന് കൂടുതൽ മരിക്കുന്നു. പുരുഷ ഗവേഷകരുടെ ഈ സംഘത്തിന്റെ അടിസ്ഥാനത്തിൽ എല്ലാ ബ്രിട്ടീഷ് ആളുകളിലെയും ശ്വാസകോശ ക്യാൻസർ മൂലം ഉണ്ടാകുന്നതാണെന്ന് വ്യക്തമല്ലെങ്കിൽ, പുകവലി ശ്വാസകോശ കാൻസറിനു കാരണമാകുമെന്ന് തെളിയിക്കപ്പെട്ടിട്ടുണ്ട്.
ഇപ്പോൾ ഉള്ളിലെ സാമ്പിൾ താരതമ്യങ്ങളുടെയും ഔട്ട്-ഓഫ്-സാമ്പിൾ സാമാന്യവൽക്കരണത്തിന്റെയും വ്യത്യാസങ്ങൾ ഞാൻ വ്യക്തമാക്കിയത് രണ്ട് ഓർഡറുകൾ മാത്രമാണ്. ബ്രിട്ടീഷ് ഡോക്ടർമാരുടെ ഒരു മാതൃകയിൽ നടത്തുന്ന ഒരു ബന്ധം സ്ത്രീ, ബ്രിട്ടീഷ് ഡോക്ടർമാരോ, അല്ലെങ്കിൽ ബ്രിട്ടീഷ് ഫാക്ടറി തൊഴിലാളികളോ, ജർമൻ ഫാക്ടറി തൊഴിലാളികളോ അല്ലെങ്കിൽ മറ്റേതെങ്കിലും ഗ്രൂപ്പുകളോ ഒരു മാതൃകയിലായിരിക്കും. ഈ ചോദ്യങ്ങൾ രസകരവും പ്രധാനപ്പെട്ടതുമാണ്, എന്നാൽ ഒരു സാമ്പിളിൽ നിന്ന് ഒരു ജനസംഖ്യയിലേക്ക് നമുക്ക് ജനകീയമാക്കാം എന്ന പരിധിവരെ അവ വ്യത്യസ്തമായിരിക്കും. ഉദാഹരണത്തിന്, ബ്രിട്ടീഷ് ഡോക്ടർമാരിൽ കണ്ടെത്തിയിട്ടുള്ള പുകവലിനും ക്യാൻസർക്കും ഇടയിലുള്ള ബന്ധം ഈ ഗ്രൂപ്പുകളിൽ സമാനമായിരിക്കും എന്ന് നിങ്ങൾക്ക് സംശയിക്കേണ്ടിയിരിക്കുന്നു. ഈ എക്സ്ട്രാപോളേഷൻ ചെയ്യാനുള്ള നിങ്ങളുടെ പ്രാപ്തി, ജനസംഖ്യയിൽ നിന്നുള്ള ബ്രിട്ടീഷ് ഡോക്ടർമാർ ഒരു ഫലപ്രദമല്ലാത്ത റാൻഡം സാമ്പിൾ ആണെന്ന വസ്തുതയിൽ നിന്ന് വരുന്നില്ല. പുകവലി, കാൻസർ എന്നിവയുമായി ബന്ധപ്പെടുന്ന സംവിധാനത്തിന്റെ ഒരു ഗ്രാഹത്തിൽ നിന്നാണ് ഇത് വരുന്നത്. ഒരു ജനസംഖ്യയിൽ നിന്നും ജനസംഖ്യയിൽ നിന്നും സാധാരണ ജനസംഖ്യാപരമായ ഒരു സ്റ്റാറ്റിസ്റ്റിക്കൽ പ്രശ്നമാണ്, എന്നാൽ ഒരു ഗ്രൂപ്പിലെ മറ്റൊരു ഗ്രൂപ്പിലേക്ക് മറ്റൊരു മാതൃകയിലേക്ക് കൊണ്ടുവരുന്നതിനുള്ള മാതൃകാ (Pearl and Bareinboim 2014; Pearl 2015) കുറിച്ചുള്ള ചോദ്യങ്ങൾ വലിയൊരു nonstatistical പ്രശ്നമാണ് (Pearl and Bareinboim 2014; Pearl 2015) .
പുകവലിയും അർബുദവും തമ്മിലുള്ള ബന്ധത്തെക്കാൾ കൂടുതൽ സാമൂഹ്യ പാറ്റേണുകൾ ഗ്രൂപ്പുകളിലാകാം കുറവാണെന്ന് ഒരു സന്ദേഹം ചൂണ്ടിക്കാണിക്കാം. ഞാൻ സമ്മതിക്കുന്നു. മാനദണ്ഡങ്ങൾ കൈമാറാൻ നാം എത്രത്തോളം പ്രതീക്ഷിക്കണം എന്നത് ആത്യന്തികമായി ശാസ്ത്രീയമായ ചോദ്യമാണ്. അത് സിദ്ധാന്തത്തിന്റെയും തെളിവുകളുടെയും അടിസ്ഥാനത്തിലാണ് തീരുമാനിക്കേണ്ടത്. സ്വപ്രേരിത രീതികൾ കൈമാറ്റം ചെയ്യാനാകുമെന്നതിനാൽ അത് സ്വയമേവ കണക്കാക്കില്ല. പക്ഷേ, അത് അവർക്ക് കൈമാറ്റം ചെയ്യാനാവില്ലെന്ന് ഊഹിക്കരുത്. ബിരുദം നേടിയ വിദ്യാർത്ഥികളെ പഠിക്കുന്നതിലൂടെ മനുഷ്യരുടെ സ്വഭാവത്തെക്കുറിച്ച് ഗവേഷകരുടെ പഠനത്തെക്കുറിച്ചാണ് ചർച്ചകൾ നടന്നിട്ടുള്ളതെങ്കിൽ, ട്രാൻസ്ബൗട്ടബിളിറ്റി സംബന്ധിച്ച ഈ തികച്ചും സുതാര്യമല്ലാത്ത ചോദ്യങ്ങൾ നിങ്ങൾക്ക് പരിചിതമായിരിക്കും (Sears 1986, [@henrich_most_2010] ) . എന്നിരുന്നാലും, ഈ ചർച്ചകൾ നടക്കുമ്പോഴും ഗവേഷകർക്ക് ബിരുദധാരികളെ പഠനത്തിൽ നിന്നും പഠിക്കാൻ കഴിയില്ലെന്ന് പറയുന്നത് അനിയന്ത്രിതമായിരിക്കും.
രണ്ടാമത്തെ മുന്നറിയിപ്പ് രണ്ടാമത്തെ മുന്നറിയിപ്പാണ്. മിക്ക ഗവേഷകരും സ്നോ അല്ലെങ്കിൽ ഡോൾ, ഹിൽ എന്നിവ പോലെ ശ്രദ്ധിക്കാത്തവയാണ്. അങ്ങനെ, ഗവേഷകർ നിരപരാധിയായ വിവരങ്ങളിൽ നിന്ന് ഒരു സാമ്പിൾ പൊതുവൽക്കരണം നടത്താൻ ശ്രമിക്കുമ്പോൾ എന്താണ് തെറ്റ് എന്ന് വിശദീകരിക്കാൻ, ആൻഡ്രാനിക് തുമസാജൻ (2010) ജർമൻ പാർലമെൻറ് തെരഞ്ഞെടുപ്പിലെ 2009 ലെ ഒരു പഠനത്തെക്കുറിച്ച് ഞാൻ നിങ്ങളോട് പറയാൻ ആഗ്രഹിക്കുന്നു. 100,000 ത്തിൽ കൂടുതൽ ട്വീറ്റുകൾ വിശകലനം ചെയ്താൽ, ഒരു രാഷ്ട്രീയ പാർട്ടിയെ കുറിച്ച ട്വീറ്റ്സ് അനുപാതം പാർലമെൻറൽ തെരഞ്ഞെടുപ്പിൽ പാർടി സ്വീകരിച്ച വോട്ടുകളുടെ അനുപാതം (ചിത്രം 2.3) താരതമ്യം ചെയ്തു. മറ്റു വാക്കുകളിൽ പറഞ്ഞാൽ, അത് തീർച്ചയായും സ്വതന്ത്രമായിരുന്ന ട്വീറ്റ് ഡാറ്റ, പരമ്പരാഗത പൊതു അഭിപ്രായ സർവ്വേകൾക്ക് പകരം വയ്ക്കാൻ സാധ്യതയുണ്ട്, ഇത് പ്രതിനിധി ഡാറ്റയ്ക്ക് പ്രാധാന്യം നൽകുന്നതിനാലാണ്.
ട്വിറ്ററിലൂടെ നിങ്ങൾ ഇതിനകം തന്നെ അറിയാമെങ്കിൽ, നിങ്ങൾക്ക് ഉടൻ ഈ ഫലത്തെക്കുറിച്ച് സംശയിക്കണം. 2009 ൽ ജർമൻ വോട്ടർമാരിൽ ജർമൻകാർ ജർമൻ വോട്ടർമാർക്ക് ഒരു പ്രോബബിലിറ്റിക്കൽ റാൻഡം സാമ്പിൾ അല്ലായിരുന്നു. മറ്റു ചില പാർട്ടികളുടെ പിന്തുണക്കാരേക്കാൾ ചില രാഷ്ട്രീയക്കാരുടെ ട്വീറ്റ് ട്വീറ്റ് ചെയ്യുമായിരുന്നു. അതിനാൽ, നിങ്ങൾ പ്രതീക്ഷിച്ചേക്കാവുന്ന സാധ്യമായ എല്ലാ പക്ഷപാതങ്ങളും എങ്ങിനെയാണോ റദ്ദാക്കുന്നത്, ഈ വിവരങ്ങൾ നേരിട്ട് ജർമൻ വോട്ടർമാരെ പ്രതിഫലിപ്പിക്കുമെന്നത് അത്ഭുതകരമാണ്. വാസ്തവത്തിൽ, Tumasjan et al. (2010) സത്യസന്ധത വളരെ നല്ലതാണ്. ആൻഡ്രിയാസ് ജുന്ഘെര്ര്, പാസ്കൽ ജു̈ര്ഗെംസ്, ഒപ്പം Harald സ്ഛൊഎന് നടത്തിയ ഫോളോ-അപ്പ് പേപ്പർ (2012) പൈറേറ്റ് പാർട്ടി, സർക്കാർ നിയന്ത്രണം പൊരുതുന്ന ചെറിയ പാർട്ടി: യഥാർത്ഥ വിശകലനം രാഷ്ട്രീയ പാർട്ടി യഥാർത്ഥത്തിൽ ട്വിറ്ററിൽ ഏറ്റവും പരാമർശങ്ങൾ ലഭിച്ച ഒഴിവാക്കപ്പെട്ടിട്ടുള്ള ചൂണ്ടിക്കാട്ടി ഇന്റർനെറ്റ് പൈറേറ്റ് പാർട്ടി വിശകലനത്തിൽ ഉൾപ്പെടുമ്പോൾ, ട്വിറ്റർ പരാമർശിക്കുന്നത് തെരഞ്ഞെടുപ്പ് ഫലങ്ങളുടെ ഒരു ഭാവി പ്രവചിക്കലാണ് (ചിത്രം 2.3). ഈ ഉദാഹരണം വ്യക്തമാക്കുമ്പോൾ, സാമ്പിൾ പൊതുവൽക്കരിക്കപ്പെടുന്നതിനായി നോൺ റഫറേറ്റീവ് വലിയ ഡാറ്റ ഉറവിടങ്ങൾ ഉപയോഗിച്ച് വളരെ തെറ്റ് സംഭവിക്കാം. 100,000 ട്വീറ്റുകൾ ഉണ്ടായിരുന്നു എന്ന വസ്തുത അടിസ്ഥാനപരമായി അപ്രസക്തമാണെന്നതും നിങ്ങൾ ശ്രദ്ധിക്കേണ്ടതാണ്: അനാവശ്യ വിശദാംശങ്ങൾ ഇപ്പോഴും പ്രതിനിധികളല്ല, ഞാൻ സർവേകൾ ചർച്ച ചെയ്യുമ്പോൾ മൂന്നാമത്തെ അദ്ധ്യായത്തിൽ ഞാൻ തിരികെവരും.
സമാപനത്തിൽ, വളരെ വലിയ നിർണായകമായ ജനസംഖ്യയിൽ നിന്നുള്ള വലിയ ഡാറ്റ ഉറവിടങ്ങൾ പ്രതിനിധി മാതൃകകളല്ല. സാമ്പിളിൽ നിന്നും വരച്ച ജനസംഖ്യയിൽ നിന്നും ജനസാമാന്യ ഫലം ആവശ്യമുള്ള ചോദ്യങ്ങൾക്ക് ഇത് വളരെ ഗുരുതരമായ പ്രശ്നമാണ്. എന്നാൽ ഉള്ളിലെ മാതൃക താരതമ്യങ്ങളെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക്, വിശദീകരണമില്ലാത്ത ഡാറ്റ ശക്തമാകാൻ കഴിയും, അതിനാൽ അവരുടെ മാതൃകയുടെ സ്വഭാവത്തെക്കുറിച്ചും സൈദ്ധാന്തികമായ അല്ലെങ്കിൽ അനുഭവസമ്പത്ത് തെളിയിക്കുന്ന തെളിവുകളുമായി ബന്ധപ്പെട്ട് ക്ലെയിമുകളെ പിന്തുണയ്ക്കുന്നതിലും ഗവേഷകർ വ്യക്തമാകുന്നിടത്തോളം കാലം. വാസ്തവത്തിൽ, വലിയ ഡാറ്റാ സ്രോതസ്സുകൾ ഗവേഷകർക്ക് അനുകൂലമല്ലാത്ത അനേകം ഗ്രൂപ്പുകളിൽ കൂടുതൽ മാതൃകാപരമായ മാറ്റങ്ങൾ വരുത്താൻ കഴിയുമെന്നതാണ് എന്റെ പ്രതീക്ഷ. എന്റെ ഗവേഷണം, വിവിധ ഗ്രൂപ്പുകളിൽ നിന്നുള്ള കണക്കുകൾ, സോഷ്യൽ ഗവേഷണത്തെ മുന്നോട്ടു കൊണ്ടുപോകാൻ സഹായിക്കും. സാമ്പിൾ.