പല ആളുകളിൽ നിന്നും ഒരു വലിയ ഡാറ്റ ഉറവിനൊപ്പം കുറച്ച് ആളുകളിൽ നിന്ന് സർവേ ഡാറ്റ സംയോജിപ്പിക്കാൻ ഒരു പ്രവചനാ മാതൃക ഉപയോഗിച്ചു പറയാനുള്ള മെച്ചപ്പെടുത്തൽ.
സർവേയും വലിയ വിവരസ്രോതസ്സുകളും ഒന്നിച്ച് ചേർക്കുന്നതിനുള്ള ഒരു രീതിയാണ് ഞാൻ വിളിക്കുന്ന വിപുലീകൃത വിളിയെ വിളിക്കുന്ന ഒരു പ്രക്രിയ. ഒരു ഗവേഷകന്, ഒരു ഡാറ്റ സ്രോതസുമായി ഒന്നുകിൽ സാധ്യമാകാത്ത അളവുകളോ ഗ്രാനുലാരിറ്റിയിലേയോ കണക്കുകൾ നിർമിക്കുന്നതിനായി, ഒരു വലിയ അളവിലുള്ള സർവേ ഡേറ്റയെ സംയോജിപ്പിക്കാൻ ഒരു പ്രവചനാത്മകമായ മാതൃക ഉപയോഗിക്കുന്നത് ഗവേഷകനാണ്. വർദ്ധിച്ചുവരുന്ന ചോദനയുടെ ഒരു പ്രധാന ഉദാഹരണം ജോഷ്വൽ ബ്ലൂംസ്റ്റോക്കിന്റെ ജോലിയാണ്. പാവപ്പെട്ട രാജ്യങ്ങളിലെ വികസനത്തെ സഹായിക്കാൻ സഹായിക്കുന്ന ഡാറ്റ ശേഖരിക്കാൻ അവർ ആഗ്രഹിച്ചു. കഴിഞ്ഞ കാലങ്ങളിൽ, ഇത്തരം തരം വിവരങ്ങൾ ശേഖരിക്കുന്ന ഗവേഷകർ സാധാരണയായി രണ്ട് സമീപനങ്ങളിൽ ഒന്ന് എടുക്കേണ്ടതുണ്ട്: സാമ്പിൾ സർവേകൾ അല്ലെങ്കിൽ സെൻസസ്. ഗവേഷകന്മാർ ഒരു ചെറിയ സംഖ്യയെ അഭിമുഖീകരിക്കുമ്പോൾ സാദ്ധ്യമായ, സമയബന്ധിതവും, താരതമ്യേന കുറഞ്ഞതുമാണ് സാമ്പിൾ സർവേകൾ. എന്നിരുന്നാലും, ഈ സർവേകൾ, അവ ഒരു സാമ്പിൾ അടിസ്ഥാനമാക്കിയുള്ളതുകൊണ്ട്, അവ പലപ്പോഴും അവയുടെ റിവ്യുയിൽ പരിമിതപ്പെടുത്തിയിരിക്കുന്നു. ഒരു സാമ്പിൾ സർവ്വേയ്ക്കൊപ്പം, പ്രത്യേക ഭൂമിശാസ്ത്ര പ്രദേശങ്ങൾ അല്ലെങ്കിൽ നിർദ്ദിഷ്ട ജനസംഖ്യാ ഗ്രൂപ്പുകളെക്കുറിച്ചുള്ള മതിപ്പ് നടത്താൻ പലപ്പോഴും ബുദ്ധിമുട്ടാണ്. മറുവശത്ത്, എല്ലാവരേയും അഭിമുഖം നടത്താൻ ശ്രമിക്കുന്നത്, അതിനാൽ ചെറിയ ഭൂമിശാസ്ത്ര പ്രദേശങ്ങൾ അല്ലെങ്കിൽ ജനസംഖ്യാശാസ്ത്ര ഗ്രൂപ്പുകൾക്ക് അവ കണക്കുകൂട്ടാൻ സാധിക്കും. എന്നാൽ സെൻസസുകൾ പൊതുവെ ചെലവ് കുറഞ്ഞവയാണ്, അവയിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു (അവ വളരെ ചെറിയ ചോദ്യങ്ങൾ മാത്രം ഉൾക്കൊള്ളുന്നു), കൃത്യസമയത്തല്ല (10 വർഷം പോലെ എല്ലാ നിശ്ചിത സമയത്തിലും അവർ സംഭവിക്കുന്നു) (Kish 1979) . സാമ്പിൾ സർവ്വേകൾ അല്ലെങ്കിൽ സെൻസസുകളുമായി തട്ടിക്കയറുന്നതിനുപകരം, ഗവേഷകർ രണ്ടുപേരുടെയും മികച്ച സ്വഭാവം കൂട്ടിച്ചേർത്താൽ സങ്കൽപ്പിക്കുക. ഗവേഷകർക്ക് ഓരോ ദിവസവും ഓരോ വ്യക്തിക്കും ഓരോ ചോദ്യം ചോദിക്കുന്നെങ്കിൽ സങ്കൽപിക്കുക. തീർച്ചയായും, എല്ലായിടത്തും, എല്ലായ്പ്പോഴും ഈ സർവ്വെ ഒരു തരത്തിലുള്ള സാമൂഹ്യശാസ്ത്രപഠനമാണ്. എന്നാൽ പലരും ഡിജിറ്റൽ ട്രെയ്സുകളുള്ള ഒരു ചെറിയ സംഖ്യയിൽ നിന്ന് സർവേ ചോദ്യങ്ങൾ സമന്വയിച്ച് നമുക്ക് ഇത് ഏകദേശ രൂപത്തിൽ തുടങ്ങാൻ കഴിയും.
റുവാണ്ടയിലെ ഏറ്റവും വലിയ മൊബൈൽ ഫോൺ ദാതാവുമായി പങ്കുചേർന്ന ബ്ലൂംസ്റ്റോക്കിന്റെ ഗവേഷണം ആരംഭിച്ചു. 2005 നും 2009 നുമിടയിൽ 1.5 ദശലക്ഷം ഉപഭോക്താക്കളിൽ നിന്ന് അനോണിമൈസ് ചെയ്ത ഇടപാട് രേഖകൾ കമ്പനി ഏറ്റെടുത്തു. ഈ രേഖകളിൽ ഓരോ കോൾ, വാചക സന്ദേശം, സ്റ്റാർട്ട് ടൈം, , കൂടാതെ കോളർ, റിസീവർ എന്നിവയുടെ ഏകദേശ ഭൂമിശാസ്ത്ര സ്ഥാനം. സ്റ്റാറ്റിസ്റ്റിക്കൽ വിഷയങ്ങളെ കുറിച്ച് സംസാരിക്കുന്നതിനുമുമ്പ്, ഈ ആദ്യപടിയെന്ന് പല ഗവേഷകർക്കും ബുദ്ധിമുട്ടുണ്ടാകാം. ഞാൻ രണ്ടാം അധ്യായത്തിൽ വിവരിച്ചതുപോലെ, ഗവേഷകർക്ക് ഏറ്റവും വലിയ വിവരശേഖരങ്ങൾ ലഭ്യമല്ലാതാവും . പ്രത്യേകിച്ച് ടെലിഫോൺ മെറ്റാ ഡേറ്റാ, പ്രത്യേകിച്ചും പ്രത്യേകിച്ചും പ്രാപ്യമല്ല. കാരണം, അനോണിമൈസുചെയ്യുന്നത് തീർച്ചയായും അസാധ്യമാണ്. അതിൽ തീർച്ചയായും പങ്കെടുക്കുന്നവർക്ക് സെൻസിറ്റീവ് (Mayer, Mutchler, and Mitchell 2016; Landau 2016) പരിഗണനയിലായിരിക്കും. ഈ പ്രത്യേക സാഹചര്യത്തിൽ, ഗവേഷകർ സൂക്ഷ്മതയോടെ വിവരങ്ങൾ ശേഖരിക്കുകയും അവരുടെ പ്രവർത്തനം ഒരു മൂന്നാം കക്ഷി (ഐ.ആർ.ബി) വഴി മേൽനോട്ടം വഹിക്കുകയും ചെയ്തു. ഈ ധാർമ്മിക പ്രശ്നങ്ങൾ ഞാൻ 6-ാം അദ്ധ്യായത്തിൽ വിശദമായി സമീപിക്കും.
സമ്പത്തും സൗഭാഗ്യവും അളക്കാൻ ബ്മൂംസ്റ്റോക്ക് താത്പര്യം പ്രകടിപ്പിച്ചു. എന്നാൽ ഈ സ്വഭാവവിശേഷതകൾ കോൾ രേഖകളിൽ നേരിട്ട് അല്ല. മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, ഈ ഗവേഷണത്തിന് ഈ കോൾ റെക്കോർഡുകൾ അപൂർണമാണ് . വലിയ വിവര സ്രോതസുകളുടെ പൊതുവായ ഒരു സവിശേഷത അധ്യായം 2 ൽ വിശദമായി ചർച്ചചെയ്തു. എന്നിരുന്നാലും, കോൾ റെക്കോർഡുകൾക്ക് പരോക്ഷമായ വിവരങ്ങൾ സമ്പത്തും, ക്ഷേമം. ഈ സാധ്യത കണക്കിലെടുത്താൽ, തങ്ങളുടെ കോൾ റെക്കോർഡുകൾ അടിസ്ഥാനമാക്കി ഒരാൾ എങ്ങനെ സർവ്വേയിൽ പ്രതികരിക്കും എന്ന് പ്രവചിക്കാൻ ഒരു യന്ത്ര പഠന മാതൃകയെ പരിശീലിപ്പിക്കാൻ കഴിയുമോ എന്ന് ബ്ലൂമെൻസ്റ്റോക്ക് ചോദിച്ചു. ഇത് സാധിക്കുമെങ്കിൽ 1.5 മില്യൺ ഉപഭോക്താക്കളെയും സർവേയിൽ പ്രതിപാദിക്കുന്ന ബ്ലൂമെൻസ്റ്റോക്ക് ഈ മാതൃക ഉപയോഗപ്പെടുത്താം.
അത്തരമൊരു മാതൃക നിർമ്മിക്കാൻ പരിശീലിപ്പിക്കാനും, കിഗാലി ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് സയൻസ് ആൻഡ് ടെക്നോളജിയിൽ നിന്നുള്ള ബ്ലൂംസ്റ്റോക്കും ഗവേഷണ സഹായികളും ആയിരത്തോളം ഉപയോക്താക്കളുടെ ഒരു ക്രമരഹിത സാമ്പിൾ ആവിഷ്കരിച്ചു. പ്രൊജക്റ്റിന്റെ ലക്ഷ്യത്തെക്കുറിച്ച് ഗവേഷകന്മാർ വിശദീകരിച്ചു, കോൾ റെക്കോർഡുകളിലേക്ക് സർവേയിൽ പ്രതികരിച്ചതിന് അവരുടെ സമ്മതം ചോദിച്ചു, എന്നിട്ട് അവരുടെ സമ്പത്തിന്റെയും ക്ഷേമത്തിന്റെയും അളവുകൾ കണക്കാക്കാൻ നിരവധി ചോദ്യങ്ങൾ ചോദിച്ചു. റേഡിയോ? "," നിങ്ങൾക്ക് ഒരു സൈക്കിൾ ഉണ്ടോ? "(ഭാഗിക ലിസ്റ്റിനായി ചിത്രം 3.14 കാണുക). സർവേയിലെ എല്ലാ പങ്കാളികളും സാമ്പത്തികമായി പണം സമാഹരിച്ചു.
അടുത്തതായി, മെഷീൻ ലാംഗ്വേജിൽ സാധാരണയായി രണ്ട് ഘട്ടങ്ങളായുള്ള ബ്ലമെൻ സ്റ്റോക്ക് ഉപയോഗിച്ചു: ഫീച്ചർ എൻജിനീയറിങ്, സൂപ്പർവൈസുചെയ്ത പഠനം. ആദ്യത്തേത്, അഭിമുഖം നടത്തിയ എല്ലാവരെയും സംബന്ധിച്ചിടത്തോളം ഫീച്ചർ എൻജിനീയറിങ്ങ് സ്റ്റെപ്പിൽ, ബ്ലൂംസ്റ്റോക്ക് കോൾ റിക്കോർഡുകൾ ഓരോ വ്യക്തിയെ കുറിച്ചും ഒരു കൂട്ടം പ്രത്യേകതകളാക്കി മാറ്റിയിട്ടുണ്ട്; ഡേറ്റാ ശാസ്ത്രജ്ഞർ ഈ സവിശേഷതകൾ "ഫീച്ചറുകൾ" എന്ന് വിളിക്കുകയും, സാമൂഹിക ശാസ്ത്രജ്ഞന്മാർ അതിനെ "വേരിയബിളുകൾ" എന്ന് വിളിക്കുകയും ചെയ്യുമായിരുന്നു. ഉദാഹരണത്തിന്, ഓരോ വ്യക്തിക്കും ബ്ലൂമെൻ സ്റ്റോക്ക് ആകെ കണക്കില്ലാത്ത ദിനങ്ങൾ കണക്കിനെ കണക്കുകൂട്ടിയപ്പോൾ ഒരു വ്യക്തി വ്യത്യസ്തങ്ങളായ വ്യക്തികളുമായി ബന്ധപ്പെട്ടിരുന്നു എയർ ടൈം ചെലവഴിച്ച തുക, മുതലായവ. വിമർശനാത്മകമായി, മികച്ച ഫീച്ചർ എൻജിനീയറിങ് ഗവേഷണ ക്രമീകരണം അറിഞ്ഞിരിക്കണം. ഉദാഹരണത്തിന്, ആഭ്യന്തരവും അന്തർദ്ദേശീയ കോളുകളും തമ്മിലുള്ള വ്യത്യാസം തിരിച്ചറിയാൻ പ്രയാസമാണെങ്കിൽ (അന്തർദേശീയമായി അന്താരാഷ്ട്രതലത്തിൽ വിളിക്കുന്നവരെ ഞങ്ങൾ പ്രതീക്ഷിച്ചേക്കും), ഇത് സവിശേഷത എൻജിനീയറിങ്ങ് ഘട്ടത്തിൽ ചെയ്യണം. റുവാണ്ടയെ കുറച്ചെങ്കിലും മനസ്സിലാക്കാത്ത ഒരു ഗവേഷകൻ ഈ സവിശേഷത ഉൾക്കൊള്ളണമെന്നില്ല, തുടർന്ന് മോഡലിന്റെ പ്രവചനാത്മകമായ പ്രകടനം അനുഭവിക്കേണ്ടിവരും.
അടുത്തതായി, സൂപ്പർവൈസുചെയ്ത പഠന ഘട്ടത്തിൽ Blumenstock അവരുടെ ഓരോ സവിശേഷതകളുടെയും അടിസ്ഥാനത്തിൽ ഓരോ വ്യക്തിക്കും സർവ്വേയുടെ പ്രതികരണം പ്രവചിക്കാൻ ഒരു മാതൃക സൃഷ്ടിച്ചു. ഈ സാഹചര്യത്തിൽ, ബ്ലെമൻ സ്റ്റോക്ക് ലോജിസ്റ്റിക് റിഗ്രഷൻ ഉപയോഗിച്ചു, പക്ഷേ അദ്ദേഹത്തിന് മറ്റ് സ്റ്റാറ്റിസ്റ്റിക്കൽ അല്ലെങ്കിൽ മെഷീൻ ലേണിംഗ് എൻഡോഷനുകൾ ഉപയോഗിച്ചിട്ടുണ്ട്.
അത് എത്ര നന്നായി പ്രവർത്തിച്ചു? കോൾ റെക്കോർഡിൽ നിന്ന് ലഭിച്ച ഫീച്ചറുകൾ ഉപയോഗിച്ച് "നിങ്ങൾക്ക് ഒരു റേഡിയോ ഉണ്ടോ?" എന്നതും "നിങ്ങൾക്ക് ഒരു സൈക്കിൾ ഉണ്ടോ?" എന്നതുപോലുള്ള ചോദ്യങ്ങളെ വിലയിരുത്തുന്നതിനായി Blumenstock ആണോ? തന്റെ പ്രവചനാ മാതൃകയുടെ പ്രകടനത്തെ വിലയിരുത്തുന്നതിനായി ബ്ലൂമെൻസ്റ്റോക്ക് ക്രോസ് സാധൂകരണം ഉപയോഗിച്ചു, സാധാരണയായി വിവരസാങ്കേതികവിദ്യയിൽ ഉപയോഗിച്ചിരുന്ന ഒരു സാങ്കേതികതയാണ്, പക്ഷെ അപൂർവ്വമായി സാമൂഹ്യശാസ്ത്രത്തിൽ. ക്രോസ് സാധൂകരണത്തിന്റെ ലക്ഷ്യം മാതൃകാ പ്രോഗ്രാമിങ് പ്രകടനത്തെ ശരിയായ പരിശീലനത്തിലൂടെ പരിശീലിപ്പിച്ച് ഡാറ്റയുടെ വിവിധ സബ്സെറ്റുകളിൽ പരിശോധന നടത്തുക എന്നതാണ്. പ്രത്യേകിച്ച്, ബ്ലൂംസ്റ്റോക്ക് തന്റെ ഡാറ്റയെ 100 ആളുകളിൽ 10 വിഭാഗങ്ങളായി വിഭജിച്ചു. പിന്നെ, ഒൻപത് കഷണങ്ങൾ അദ്ദേഹം തന്റെ മോഡലിനെ പരിശീലിപ്പിക്കാൻ ഉപയോഗിച്ചു, പരിശീലനം ലഭിച്ച മോഡലിന്റെ മുൻകാല പ്രകടനം ബാക്കിയുള്ള ഭാഗത്ത് വിശകലനം ചെയ്തു. അവൻ ഈ പ്രക്രിയ 10 പ്രാവശ്യം ആവർത്തിച്ചു - മൂല്യനിർണ്ണയ ഡാറ്റയായി ഓരോ തിരിമറിയിലും ഒരു തിരിയൽ ലഭിച്ച്-ഫലങ്ങൾ ശരാശരി.
പ്രവചനങ്ങളുടെ കൃത്യത ചില പ്രത്യേകതകൾക്ക് ഉയർന്നതാണ് (ചിത്രം 3.14); ഉദാഹരണത്തിന്, ഒരാൾ റേഡിയോ സ്വന്തമാക്കിയാൽ ബ്ലൂമെൻ സ്റ്റോക്കിന് 97.6% കൃത്യത ഉറപ്പിക്കാം. ഇത് മതിപ്പുളവാക്കിയേക്കാം, പക്ഷേ ഒരു സങ്കീർണ്ണ ബദലിനു നേരെ സങ്കീർണ്ണമായ ഒരു പ്രവചന സമ്പ്രദായം താരതമ്യം ചെയ്യുന്നത് എല്ലായ്പ്പോഴും പ്രധാനമാണ്. ഈ കേസിൽ, ഒരു ലളിതമായ ബദൽ എല്ലാവർക്കും ഏറ്റവും സാധാരണ ഉത്തരം നൽകുമെന്ന് പ്രവചിക്കുക എന്നതാണ്. ഉദാഹരണത്തിന്, 97.3% പ്രതികരിച്ച റേഡിയോ സ്വന്തമാക്കുകയും ചെയ്തു. ബ്ലൂംസ്റ്റോക്ക് ഓരോ റേഡിയോ സ്വന്തമാക്കുമെന്ന് പ്രവചിച്ചിരുന്നെങ്കിൽ അദ്ദേഹത്തിന് 97.3% കൃത്യത ഉറപ്പുവരുമായിരുന്നു, അയാളുടെ സങ്കീർണമായ പ്രക്രിയയുടെ (97.6% കൃത്യത) . മറ്റു വാക്കുകളിൽ പറഞ്ഞാൽ, എല്ലാ ഫാൻസി ഡാറ്റയും മോഡലിങ്ങും പ്രവചിക്കുന്നതിന്റെ കൃത്യത 97.3% മുതൽ 97.6% വരെ വർദ്ധിപ്പിച്ചു. എന്നിരുന്നാലും, "നിങ്ങൾക്ക് ഒരു സൈക്കിൾ ഉണ്ടോ?" എന്നതുപോലുള്ള മറ്റ് ചോദ്യങ്ങൾക്കായി, പ്രവചനങ്ങൾ 54.4% ൽ നിന്ന് 67.6% ലേക്ക് മെച്ചപ്പെട്ടു. സാധാരണയായി, 3.15 കാണിക്കുന്നത് ബ്ലെമെൻസ്റ്റോക്ക് ലളിതമായ അടിസ്ഥാന പ്രവചനത്തെ വളരെയേറെ മെച്ചപ്പെടുത്തുന്നില്ല, എന്നാൽ മറ്റ് സ്വഭാവവിശേഷങ്ങൾ മെച്ചപ്പെടുത്തുന്നുണ്ടായിരുന്നു. ഈ ഫലങ്ങൾ മാത്രം നോക്കിയാൽ, ഈ സമീപനം പ്രത്യേകിച്ച് വാഗ്ദാനമാണ് എന്ന് നിങ്ങൾക്ക് തോന്നിയേക്കാം.
എന്നാൽ ഒരു വർഷത്തിനു ശേഷം ബ്ലൂം സ്റ്റോസ്റ്റും രണ്ട് സഹപ്രവർത്തകരും- ഗബ്രിയേൽ കഡാമൂറും റോബർട്ട് ഓൺ പ്രസിദ്ധീകരിച്ച സയൻസ് (Blumenstock, Cadamuro, and On 2015) മികച്ച ഫലങ്ങൾ ലഭ്യമാക്കി (Blumenstock, Cadamuro, and On 2015) . ഈ മെച്ചപ്പെടുത്തലിനായി രണ്ട് പ്രധാന സാങ്കേതിക കാരണങ്ങളുണ്ടായിരുന്നു: (1) കൂടുതൽ നൂതന രീതികൾ (അതായത്, സവിശേഷതയായുള്ള എൻജിനീയറിങിന് ഒരു പുതിയ സമീപനം, സവിശേഷതകളിൽ നിന്നുള്ള പ്രതികരണങ്ങളെ പ്രവചിക്കാൻ കൂടുതൽ പരിഷ്കൃത മോഡൽ) എന്നിവ ഉപയോഗിച്ചു. കൂടാതെ (2) സർവേ ചോദ്യങ്ങൾ (ഉദാഹരണത്തിന്, "നിങ്ങൾക്ക് ഒരു റേഡിയോ ഉണ്ടോ?"), അവർ ഒരു സംയുക്ത സമ്പത്ത് സൂചികയിൽ അനുമാനിക്കാൻ ശ്രമിച്ചു. ഈ സാങ്കേതിക മെച്ചപ്പെടുത്തലുകൾ അവർ തങ്ങളുടെ മാതൃകയിൽ ജനങ്ങൾക്ക് വേണ്ടി സമ്പത്ത് പ്രവചിക്കാൻ കോൾ റെക്കോർഡുകൾ ഉപയോഗിച്ച് ഒരു ന്യായമായ ജോലി ചെയ്യാൻ കഴിയുമായിരുന്നു.
സാമ്പത്തികാടിസ്ഥാനത്തിലുള്ള ആളുകളുടെ സ്വഭാവം മുൻനിർത്തി, ഗവേഷണത്തിന്റെ ആത്യന്തിക ലക്ഷ്യമായിരുന്നില്ല. വികസ്വര രാജ്യങ്ങളിലെ ദാരിദ്ര്യത്തിന്റെ കൃത്യമായ, ഉയർന്ന റെസല്യൂഷൻ കണക്കാക്കാൻ സാമ്പിൾ സർവേകളിലും സെൻസസുകളിലും മികച്ച സവിശേഷതകളിൽ ചിലത് സമന്വയിപ്പിക്കുക എന്നതാണ് ആത്യന്തിക ലക്ഷ്യം. ഈ ലക്ഷ്യം കൈവരിക്കാനുള്ള അവരുടെ കഴിവിനെ വിലയിരുത്തുന്നതിനായി ബ്ലൂസെൻസ്റ്റോയും സഹപ്രവർത്തകരും തങ്ങളുടെ മാതൃകയും അവരുടെ ഡാറ്റയും കോൾ റെക്കോർഡിലെ 1.5 ദശലക്ഷം ആളുകളുടെ സമ്പത്ത് പ്രവചിക്കുന്നതിനായി അവരുടെ ഡാറ്റയും ഉപയോഗിച്ചു. ഓരോ വ്യക്തിയുടെയും വീടിന്റെ ഏകദേശ സ്ഥാനം കണക്കാക്കാൻ അവർ കോൾ റെക്കോർഡുകളിൽ ഉൾപ്പെടുത്തിയിട്ടുള്ള ജിയോ സ്പേഷ്യൽ വിവരങ്ങൾ ഉപയോഗിച്ചു (ഓരോ കോളിന് അടുത്തുള്ള സെൽ ടവറിന്റെ സ്ഥാനം ഉൾപ്പെടുത്തിയേക്കാവുന്ന ഓർമ്മപ്പെടുത്തൽ) അവർ ഉപയോഗിച്ചു (ചിത്രം 3.17). ഈ രണ്ട് കണക്കുകൂട്ടലുകളും ഒരുമിച്ച്, ബ്ലെമെൻസ്റ്റോക്കും സഹപ്രവർത്തകരും വളരെ മികച്ച സ്പേഷ്യൽ ഗ്രാനുലാരിറ്റിയിൽ വരിക്കാരന്റെ സമ്പാദ്യത്തിന്റെ ഭൂമിശാസ്ത്രപരമായ വിതരണം കണക്കാക്കുന്നത് നിർവ്വഹിച്ചു. ഉദാഹരണത്തിന്, റുവാണ്ടയുടെ 2,148 സെല്ലുകളിൽ (രാജ്യത്തിലെ ഏറ്റവും ചെറിയ ഭരണനിർവ്വഹണ യൂണിറ്റ്) ഓരോരുത്തരുടെയും ശരാശരി സ്വത്ത് അവർ കണക്കാക്കാൻ കഴിയും.
ഈ മേഖലകളിൽ ദാരിദ്ര്യത്തിന്റെ യഥാർത്ഥ നിലവാരത്തിൽ എത്രത്തോളം പൊരുത്തപ്പെട്ടു? ഞാൻ ആ ചോദ്യത്തിന് ഉത്തരം നൽകുന്നതിനുമുമ്പ്, സംശയത്തിന് വിധേയമായ നിരവധി കാരണങ്ങൾ ഉണ്ടെന്ന് എനിക്ക് ഊന്നിപ്പറയേണ്ടതുണ്ട്. ഉദാഹരണത്തിന്, വ്യക്തിഗത തലത്തിൽ പ്രവചനങ്ങൾ ഉണ്ടാക്കുന്നതിനുള്ള കഴിവ് വളരെയധികം ശബ്ദമാണ് (ചിത്രം 3.17). ഒരുപക്ഷേ, കൂടുതൽ പ്രധാനമായും മൊബൈൽ ഫോണുകളുള്ള ആളുകൾ മൊബൈൽ ഫോണുകൾ ഇല്ലാത്ത ആളുകളിൽ നിന്നും വ്യത്യാസമില്ലാതെ വ്യത്യാസപ്പെടാം. അങ്ങനെ ഞാൻ മുമ്പ് വിവരിച്ച 1936 ലെ സാഹിത്യ ഡയജസ്റ്റ് സർവേയിൽ പക്ഷപാതിത്വം കാണിക്കുന്ന തരത്തിലുള്ള ബ്ലാമൻ സ്റ്റോക്ക്, സഹപ്രവർത്തകർ എന്നിവരൊക്കെ അനുഭവിക്കേണ്ടി വരും.
അവരുടെ മതിപ്പുകളുടെ ഗുണനിലവാരം മനസ്സിലാക്കാൻ ബ്ലൂമെൻസ്റ്റോക്കും സഹപ്രവർത്തകരും മറ്റേത് അവരുമായി താരതമ്യം ചെയ്യേണ്ടതുണ്ട്. ഭാഗ്യവശാൽ, അതേ സമയം അവരുടെ പഠനമനുസരിച്ച്, മറ്റൊരു സംഘം ഗവേഷകർ റുവാണ്ടയിലെ കൂടുതൽ പരമ്പരാഗത സാമൂഹിക സർവേ നടത്തുന്നു. വ്യാപകമായി ബഹുമാനിക്കപ്പെടുന്ന ഡെമോഗ്രാഫിക് ആന്റ് ഹെൽത്ത് സർവേ പ്രോഗ്രാമിന്റെ ഭാഗമായിരുന്ന ഈ സർവ്വേയിൽ വലിയ ബജറ്റുണ്ടായിരുന്നു. ഉയർന്ന നിലവാരമുള്ള പരമ്പരാഗത രീതികൾ ഉപയോഗിച്ചു. അതിനാൽ, ഡെമോഗ്രാഫിക് ആന്റ് ഹെൽത്ത് സർവേയിൽ നിന്നുള്ള കണക്കനുസരിച്ച് സ്വർഗീയ നിലവാരത്തിലുള്ള കണക്കുകളായി കണക്കാക്കാം. രണ്ട് കണക്കുകൂട്ടലുകൾ താരതമ്യപ്പെടുത്തുമ്പോൾ അവർ സമാനതകളാണ് (ചിത്രം 3.17). മറ്റൊരുവിധത്തിൽ പറയുകയാണെങ്കിൽ, കോൾ റെക്കോർഡുകളുമായി ചെറിയ അളവിൽ സർവ്വേ ഡാറ്റ ചേർത്ത്, ബ്ലൂമെൻസ്റ്റോക്കും സഹപ്രവർത്തകരും സ്വർണ നിലവാരത്തിലുള്ള സമീപനങ്ങളിൽ നിന്ന് താരതമ്യപ്പെടുത്താവുന്നതാണ്.
ഒരു റിപ്ലക്സ് ഈ ഫലങ്ങൾ ഒരു നിരാശയാണ് കാണുന്നത്. വലിയ ഡാറ്റയും മെഷീൻ ലാംഗ്വേജ് ഉപയോഗിച്ചും ബ്ലൂമെൻസ്റ്റോക്കും സഹപ്രവർത്തകരും ഇതിനകം നിലവിലുള്ള രീതികൾ ഉപയോഗിച്ച് കൂടുതൽ വിശ്വസനീയമാം വിധം മൂല്യനിർണ്ണയം നടത്താൻ കഴിയുമെന്നതാണ് അവരെ കാണാൻ കഴിയുന്ന ഒരു മാർഗ്ഗം. എന്നാൽ രണ്ട് കാരണങ്ങളാൽ ഈ പഠനത്തെക്കുറിച്ച് ചിന്തിക്കുന്നതിനുള്ള ശരിയായ മാർഗ്ഗം എനിക്ക് തോന്നുന്നില്ല. ഒന്നാമതായി, ബ്ലെമെൻസ്റ്റോക്കും സഹപ്രവർത്തകരിൽ നിന്നുമുള്ള കണക്കുകൾ 10 മടങ്ങ് വേഗതയും 50 ഇരട്ടി വിലയുമാണ് (വേരിയബിൾ ചെലവിന്റെ അടിസ്ഥാനത്തിൽ ചെലവ് കണക്കുകൂട്ടും). ഈ അധ്യായത്തിൽ ഞാൻ മുമ്പ് വാദിച്ചതുപോലെ, ഗവേഷകർ തങ്ങളുടെ അപകടത്തെക്കുറിച്ച് നിരസിച്ചു. ഉദാഹരണത്തിന്, ഉദാഹരണത്തിന്, ചെലവിന്റെ നാടകീയ കുറവ് എന്നാണ് ഡെമോഗ്രാഫിക് ആൻഡ് ഹെൽത്ത് സർവ്വേകൾക്കുള്ള സ്റ്റാൻഡേർഡ് പോലെ എല്ലാ ഏതാനും വർഷങ്ങൾക്കുള്ളിൽ പ്രവർത്തിക്കുന്നതിനെക്കാൾ-ഓരോ മാസവും ഈ ഗവേഷണം നടത്താം, ഇത് ഗവേഷകർക്കും നയത്തിനും അനുകൂലമായ പ്രയോജനം നൽകും. നിർമ്മാതാക്കൾ രണ്ടാമത്തെ കാരണം റിസപ്റ്റിക് കാഴ്ചപ്പാടല്ല എന്നല്ല, വ്യത്യസ്ത പഠനസാഹചര്യങ്ങൾക്ക് യോജിച്ച ഒരു അടിസ്ഥാന പാചകമാണ് ഈ പഠനം. ഈ പാചകത്തിന് രണ്ട് ചേരുവകളും രണ്ട് ഘട്ടങ്ങളും മാത്രമേയുള്ളൂ. (1) വിശാലവും എന്നാൽ നേർത്തതുമായ വലിയ ഡാറ്റ സ്രോതസ്സാണ് (അതായത്, ഓരോ വ്യക്തിയും ആവശ്യമുള്ള വിവരങ്ങളല്ല, എന്നാൽ 2) സർവ്വേ ആകൃതിയും കട്ടിയുള്ളതുമാണ് (അതായത്, കുറച്ച് ആളുകൾ, എന്നാൽ ആ ജനങ്ങളെക്കുറിച്ച് നിങ്ങൾക്കാവശ്യമായ വിവരങ്ങൾ ഉണ്ടായിരിക്കും). ഈ രണ്ട് ചേരുവകളിലുമായി ഈ ചേരുവകൾ കൂട്ടിച്ചേർക്കും. ഒന്നാമത്തേത്, ഡാറ്റ സ്രോതസ്സുകളിൽ ജനങ്ങൾക്ക്, സർവേ ഉത്തരങ്ങൾ പ്രവചിക്കാൻ വലിയ ഡാറ്റ ഉറവിടം ഉപയോഗിക്കുന്ന ഒരു മെഷീൻ പഠന മാതൃക നിർമ്മിക്കുന്നു. അടുത്തതായി, വലിയ ഡാറ്റ ഉറവിടത്തിലെ എല്ലാവരുടെയും സർവേ ഉത്തരങ്ങൾ നിരാകരിക്കുന്നതിനുള്ള ആ മാതൃക ഉപയോഗിക്കുക. അതിനാൽ, നിങ്ങൾക്ക് ധാരാളം ആളുകൾ ചോദിക്കാൻ താൽപ്പര്യപ്പെടുന്ന ചില ചോദ്യങ്ങൾ ഉണ്ടെങ്കിൽ , അവരുടെ വിവരങ്ങളെ മുൻകൂട്ടി പറയാൻ ഉപയോഗിക്കുന്ന ആളുകളിൽ നിന്നുള്ള വലിയ ഡാറ്റാ ഉറവിടം അന്വേഷിക്കുക, വലിയ ഡാറ്റ ഉറവിടത്തെക്കുറിച്ച് നിങ്ങൾക്ക് താത്പര്യമില്ലെങ്കിൽ പോലും . അതായത്, ബ്ലൂംസ്റ്റോക്കും സഹപ്രവർത്തകരും കോൾ റെക്കോർഡുകളെ സഹജമായി പരിഗണിച്ചില്ല; അവർ കാൾ റെക്കോർഡുകൾ മാത്രം കൈകാര്യം ചെയ്തു. കാരണം അവർ സർവെ ഉത്തരങ്ങൾ മുൻകൂട്ടി പറയാൻ ഉപയോഗിച്ചു. വലിയ ഡാറ്റ ഉറവിടത്തിലെ ഈ സവിശേഷത മാത്രമുള്ള പരോക്ഷമായ താൽപ്പര്യം, മുൻപ് ഞാൻ വിവരിച്ചിട്ടുള്ള എംബഡ് ചെയ്ത ചോദനയിൽ നിന്നും വ്യത്യസ്തമായി ചോദിക്കുന്നു.
നിഗമനത്തിൽ, ബ്ലൂസെൻ സ്റ്റോക്കിന്റെ വിപുലീകരിക്കപ്പെട്ട സമീപനം സമീപനം സർവേ ഡാറ്റ ഒരു സ്വർണ-നിലവാരത്തിലുള്ള സർവേ നിന്ന് സമാനമായ വിലയിരുത്താൻ വലിയ ഡാറ്റ ഉറവിടം. ഈ സവിശേഷ ഉദാഹരണം കൂടുതൽ വ്യാപകമായ ചോദിക്കുന്നതും പരമ്പരാഗത സർവേ രീതികൾക്കുമുള്ള ചില ട്രേഡ് ഓഫുകൾ വ്യക്തമാക്കുന്നു. വർദ്ധിച്ചുവരുന്ന ചോദിക്കുന്ന മതിപ്പ് കൂടുതൽ സമയബന്ധിതവും, കൂടുതൽ വിലകുറഞ്ഞതും കൂടുതൽ മൃദുവുമാണ്. എന്നാൽ, മറുവശത്ത്, ഇത്തരത്തിലുള്ള വിപുലീകരിച്ച ചോദനയ്ക്കായി ഒരു ശക്തമായ സൈദ്ധാന്തിക അടിത്തറയില്ല. ഈ സമീപനം പ്രവർത്തിക്കുമ്പോഴും അത് ചെയ്യാതിരിക്കുമ്പോഴും ഈ ഒറ്റ ഉദാഹരണം കാണിക്കില്ല. ഗവേഷകർ ഈ സമീപനം ഉപയോഗിച്ച് പ്രത്യേകിച്ചും അവരുടെ ഉൾച്ചേർത്ത ഉൾച്ചോളത്തിൽ ഉൾപ്പെട്ടിരിക്കുന്ന, ആർക്കൊക്കെ ഉൾക്കൊള്ളാത്ത, അവരുടെ വലിയ ഡാറ്റ ഉറവിടത്തിൽ, ഉണ്ടാകുന്ന സാധ്യതകളെക്കുറിച്ച് പ്രത്യേകിച്ച് ശ്രദ്ധിക്കേണ്ടതുണ്ട്. അതിനുംപുറമെ, വർദ്ധിച്ചുവരുന്ന ചോദിക്കാനാകുന്ന സമീപനം അയാളുടെ മതിപ്പുകളുടെ അനിശ്ചിതത്വം കണക്കാക്കാൻ നല്ല വഴികൾ ഇനിയുള്ളതല്ല. ഭാഗ്യവശാൽ, ആവര്ത്തിക്കാനാവശ്യപ്പെടുന്നത്, സ്റ്റാറ്റിസ്റ്റിക്സ്-ചെറുകിട-ഏരിയ മതിപ്പ് (Rao and Molina 2015) , imputation (Rubin 2004) , മോഡൽ അടിസ്ഥാനമാക്കിയുള്ള പോസ്റ്റ് സ്ട്രാറ്റിഫിക്കേഷൻ എന്നിവയിൽ മൂന്നു വലിയ മേഖലകളിലേയ്ക്ക് ആഴത്തിലുള്ള ബന്ധങ്ങൾ ഉണ്ട് (മി. പി, ഞാൻ മുൻ അധ്യായത്തിൽ വിവരിച്ച രീതി) (Little 1993) . ഈ ആഴത്തിലുള്ള ബന്ധങ്ങൾ മൂലം, കൂട്ടിച്ചേർക്കപ്പെട്ട അഭ്യർത്ഥനയുടെ പല പ്രവർത്തന അടിത്തറകളും ഉടൻ മെച്ചപ്പെടുമെന്ന് ഞാൻ പ്രതീക്ഷിക്കുന്നു.
അവസാനമായി, ബ്ലൂമെന്റെസ്റ്റിന്റെ ആദ്യത്തേയും രണ്ടാമത്തേയും ശ്രമങ്ങളെ ഡിജിറ്റൽ-സാമൂഹ്യ ഗവേഷണത്തെക്കുറിച്ചുള്ള ഒരു സുപ്രധാന പാഠം വിവരിക്കുന്നു: ആരംഭം അവസാനമല്ല. പല തവണ, ആദ്യ സമീപനം ഏറ്റവും മികച്ചതായിരിക്കില്ല, പക്ഷേ ഗവേഷകർ തുടർന്നും പ്രവർത്തിച്ചാൽ കാര്യങ്ങൾ കൂടുതൽ മെച്ചപ്പെടും. കൂടുതൽ സാധാരണയായി, ഡിജിറ്റൽ യുഗത്തിൽ സാമൂഹ്യ ഗവേഷണത്തിനായുള്ള പുതിയ സമീപനങ്ങൾ മൂല്യനിർണ്ണയം ചെയ്യുമ്പോൾ രണ്ട് വ്യത്യസ്തമായ വിലയിരുത്തലുകൾ നടത്താൻ അത് അത്യന്താപേക്ഷിതമാണ്: (1) ഇപ്പോൾ എത്ര നന്നായി പ്രവർത്തിക്കുന്നു? (2) ഭാവിയിൽ ഈ മേഖലയിലെ ഭൗതിക മാറ്റങ്ങളും ഗവേഷകരും ഈ പ്രശ്നത്തിന് കൂടുതൽ ശ്രദ്ധ നൽകുന്നതെങ്ങനെ? ആദ്യതരം വിലയിരുത്തലാക്കാൻ ഗവേഷകരെ പരിശീലിപ്പിച്ചിട്ടുണ്ടെങ്കിലും രണ്ടാമത്തേത് വളരെ പ്രധാനമാണ്.