බොහෝ පුද්ගලයන්ගෙන් විශාල දත්ත මූලාශ්රයකින් සමීක්ෂණයක් කරන පුද්ගලයන් කිහිප දෙනෙකුගෙන් සමීක්ෂණ දත්ත ඒකාබද්ධ කිරීම සඳහා අනුමාන ආකෘතියක් භාවිතා කිරීම වැඩි දියුණු කර ඇත.
සමීක්ෂණය සහ විශාල දත්ත මූලාශ්ර ඒකාබද්ධ කිරීම සඳහා වෙනම ක්රමයක් නම්, මම ඇමතුම් වැඩි කිරීමක් කරන ක්රියාවලියකි. පුළුල් ලෙස ඉල්ලමින් පර්යේෂකයෙක් එක් දත්ත මූලාශ්රයකින් තනි තනිව හෝ නොමැතිව පරිමාණයන් හෝ පරිණාමය තක්සේරු කිරීම සඳහා විශාල දත්ත මූලාශ්රයක් සමීක්ෂණය සඳහා කුඩා දත්ත සමීක්ෂණ දත්ත සමුදායක් ඒකාබද්ධ කිරීමට පුරෝකථන ආකෘතියක් භාවිතා කරයි. දුප්පත් රටවල සංවර්ධන කටයුතු සඳහා උපකාර කළ හැකි තොරතුරු රැස් කිරීමට යොෂුවා බ්ලූමන්ස්ටොක්ගේ කෘතියෙන් වැඩි අවධානයක් යොමු කරන වැදගත් උදාහරණයක් වන්නේය. අතීතයේදී මෙම දත්ත එක්රැස් කරන පර්යේෂකයන් සාමාන්යයෙන් ප්රවේශයන් දෙකකින් එකක් ගත යුතු විය. නියැදි සමීක්ෂණ හෝ සංගණන. නියැදි සමීක්ෂණයක්, පර්යේෂකයන් කුඩා පිරිසක් සම්මුඛ පරීක්ෂණයට ලක් කළ හැකි ස්ථාන, කාලීන හා සාපේක්ෂව ලාභදායී විය හැකිය. කෙසේ වෙතත්, මෙම සමීක්ෂණ නියැදි පදනම් කරගත් බැවින්, ඒවායේ විසර්ජනය තුල සීමිත වේ. නියැදි සමීක්ෂණයක් සමඟ, නිශ්චිත භූගෝලීය ප්රදේශ හෝ විශේෂිත ජනගහන කණ්ඩායම් සඳහා ඇස්තමේන්තු කිරීම බොහෝ විට අසීරු ය. අනික් අතට, සෑම කෙනෙකුම සම්මුඛ පරීක්ෂණයට උත්සාහ කිරීම, කුඩා භූගෝලීය ප්රදේශ හෝ ජනගහන කණ්ඩායම් සඳහා ඇස්තෙම්න්තු ඉදිරිපත් කිරීමට යොදා ගත හැකිය. එහෙත් සංගණන සාමාන්යයෙන් මිල අධික වන අතර, පටු අවධානය යොමු කර ඇත (ඒවාට කුඩා ප්රශ්න ගණනක් ඇතුළත් වේ), සහ කාලෝචිත නොවී (සෑම වසර 10 ක් වැනි කාලයකදී කාලානුරූපී කාලසටහනකට අනුව) (Kish 1979) . නියැදි සමීක්ෂණ හෝ සංගණනවලට අනුකූලව නොසැලකීම වෙනුවට, පර්යේෂකයන් දෙදෙනාගේම හොඳම ගති ලක්ෂණ ඒකාබද්ධ කළ හොත්. සෑම පුද්ගලයෙකුටම සෑම පුද්ගලයෙකුටම සෑම ප්රශ්නයකටම පිළිතුරු දීමට හැකි නම් සිතන්න. නිසැකවම මෙම පුරසාරම් දනවන, සෑම විටම සමීක්ෂණය යනු සමාජ විද්යා fantasy ආකාරයකි. නමුත් එය අප බොහෝ දෙනා සිට ඩිජිටල් අංශු මාත්ර සමග සුළු පිරිසක් සිට සමීක්ෂණ ප්රශ්න ඒකාබද්ධ කිරීම මගින් මෙම ආසන්න කිරීමට ආරම්භ කළ හැකිය බවක් ද පෙනී යයි.
බ්ලූම්න්ට්ක්ගේ පර්යේෂණය ආරම්භ වූයේ රුවන්ඩාවේ විශාලතම ජංගම දුරකථන සැපයුම්කරු සමඟ හවුල් වූ විටය. 2005 සිට 2009 දක්වා කාලය තුළ මිලියන 1.5 ක් පමණ පාරිභෝගිකයන්ගෙන් මිලියන 1.5 ක් පමණ ගනුදෙනුකරුවන් විසින් නිර්නාමිකව ගනුදෙනු වාර්තා ලබා දුන්නේය. මෙම ඇමුණුම් එක් එක් ඇමතුම් සහ කෙටි පණිවිඩය, ආරම්භක කාලය, සහ ඇමතුම් සහ ග්රාහකයාගේ භූගෝලීය පිහිටීම ආසන්නය. සංඛ්යාත්මක ගැටළු ගැන කතා කිරීමට පෙර, බොහෝ පර්යේෂකයන්ට මෙම පළමු පියවර විය හැකියැයි පෙන්වා දිය හැකිය. මම දෙවන පරිච්ඡේදයේ විස්තර කර ඇති පරිදි, බොහෝ විශාල දත්ත මූලාශ්ර පර්යේෂකයන්ට සොයාගත නොහැකි ය. විශේෂයෙන්, දුරකථන meta-data විශේෂයෙන් ප්රවේශ විය නොහැකි බැවින් එය නිර්නාමිකව නිර්නාමික කිරීමට නොහැකි වන අතර, සහභාගිවන්නන් සංවේදී බව සැලකිය යුතු තොරතුරු අඩංගු වේ (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . මෙම විශේෂිත අවස්ථාවක දී, පර්යේෂකයන් දත්ත ආරක්ෂා කිරීමට ප්රවේශම් විය, ඔවුන්ගේ කාර්යය තුන්වන පාර්ශ්වයක් විසින් අධීක්ෂණය කරන ලදී (එනම්, ඔවුන්ගේ IRB). මම 6 වන පරිච්ඡේදයේ දී වැඩි වශයෙන් විස්තර කරමි.
ධනවත්කම සහ යහපැවැත්ම මැනීම සඳහා බ්ලූම්ස්ටෝක් උනන්දු විය. නමුත් මෙම ගති ලක්ෂණ සෘජු නොවේ. වෙනත් වචනවලින් කිවහොත්, මෙම කෝල් වාර්තා මෙම පරික්ෂණය සඳහා අසම්පූර්ණයි - පරිච්ඡේදයේ 2 වන පරිච්ඡේදයෙන් විස්තර කර ඇති විශාල දත්ත මූලාශ්රවල පොදු ලක්ෂනයකි. කෙසේ වෙතත්, ඇමතුම් වාර්තා සමහර විට ධනාත්මක තොරතුරු සපයන තොරතුරු සහ තොරතුරු ලබා ගත හැකි තොරතුරු යහපැවැත්ම. මෙම හැකියාව සම්බන්ධයෙන් Blumenstock විමසූයේ, යමෙකු ඇමතුම් වාර්තා පදනම් කරගත් සමීක්ෂණයක් සඳහා ප්රතිචාර දක්වන ආකාරය ගැන අනාවැකි පළ කිරීම සඳහා පරිගණක ඉගෙනුම් ආකෘතියක් පුහුණු කිරීමට හැකි විය හැකිද යන්නයි. මෙය සිදුවිය හැකි නම්, බ්ලූම්ස්ටෝක් මිලියන 1.5 ක් ගනුදෙනුකරුවන්ගේ සමීක්ෂණ ප්රතිචාර අනාවැකි සඳහා මෙම ආකෘතිය භාවිතා කළ හැකිය.
එවැනි ආකෘතියක් නිර්මාණය කිරීම හා පුහුණු කිරීම සඳහා, විද්යාඥයින් සහ කුගාලි විද්යා ආයතනයේ තාක්ෂණික විද්යාඥයකු වන Blumenstock සහ පර්යේෂණ සහායකයින් දහසකට අධික පාරිභෝගිකයින්ගෙන් අහඹු නියැදියක ලෙස හැඳින්වේ. මෙම ව්යාපෘතියේ අරමුණු පර්යේෂකයන්ට සහභාගී වූවන්ට පැහැදිලි කර ඇත. සමීක්ෂණ ප්රතිචාර ඇමුණුම් වාර්තා වලට සම්බන්ධ කිරීම සඳහා ඔවුන්ගේ කැමැත්ත විමසා, ඔවුන්ගේ ධනය හා යහපැවැත්ම මැන බැලීමට ප්රශ්න මාලාවක් ඔවුන්ගෙන් විමසූ අතර, "ඔබ සතුද? ගුවන්විදුලි "සහ" බයිසිකලයක් ඔබ ළඟ තිබේද? "(උදාහරණයේ 3.14 බලන්න). සමීක්ෂණයට සහභාගී වූ සියලූ දෙනාට මූල්යමය වශයෙන් වන්දි ලබා දී ඇත.
ඊළඟට Blumenstock යාන්ත්රික ඉගෙනීමේ දී බහුලව භාවිතා වන ද්විත්ව ක්රියා පටිපාටිය භාවිතා කරන ලදී. පළමුව, ඉන්ටර්නෙට් ඉන්ටර්නැෂනල් පියවරේදී සර්විස් ඉන්ජිනියරින් පියවරේදී සම්මුඛ පරීක්ෂණයට ලක් කළ සෑම කෙනෙකු සඳහාම, Blumenstock එක් එක් පුද්ගලයා පිළිබඳව ලක්ෂණ සටහන් බවට පත් කරන ලදී. දත්ත විද්යාඥයන් මෙම ලක්ෂණ ලෙස හැඳින්වේ "විශේෂාංග" සහ සමාජ විද්යාඥයන් ඒවා "විචල්යයන්" ලෙස හඳුන්වනු ඇත. නිදසුනක් වශයෙන්, එක් පුද්ගලයෙකු සඳහා එක් එක් පුද්ගලයා සඳහා ක්රියාකාරකම් සහිත දින ගණන මුළු දින ගණනය කරන ලද Blumenstock ගණනය කරන පුද්ගලයන්ගේ සංඛ්යාව, ගුවන් ටිකට්පත් සඳහා වියදම් කරන ලද මුදල් ප්රමාණය, සහ එසේ ය. පරමාර්ථයෙන්, හොඳ විශේෂාංග ඉංජිනේරුමය පර්යේෂණ සඳහා අවශ්ය දැනුම අවශ්ය වේ. උදාහරණයක් වශයෙන්, දේශීය සහ ජාත්යන්තර ඇමතුම් අතර වෙනස හඳුනාගැනීම වැදගත් නම්, ජාත්යන්තර වශයෙන් ඇමතීම සඳහා පුද්ගලයින්ට වඩා ධනවත් විය හැකි පුද්ගලයින්ගෙන් අපට අපේක්ෂා කළ හැකි නම්, මෙය අංගය ඉංජිනේරු පියවරේදී සිදු කළ යුතුය. රුවන්ඩාවේ සුළු අවබෝධයක් ඇති පර්යේෂකයෙකුට මෙම අංගය ඇතුළත් නොකළ හැකි අතර, පසුව ආකෘතියේ අනාවැකි කාර්ය සාධනය දුක් විඳිනු ඇත.
ඊළඟට, අධීක්ෂණය කරන ලද ඉගෙනුම් පියවරේදී, Blumenstock ඔවුන්ගේ විශේෂාංග මත පදනම්ව එක් එක් පුද්ගලයා සඳහා සමීක්ෂණ ප්රතිචාර අනාවැකි සඳහා ආකෘතියක් නිර්මාණය කළේය. මෙම අවස්ථාවේදී බ්ලූම්ස්ටොක් ලොජිස්ටික් ආපස්සට භාවිතා කළේය. එහෙත් ඔහු වෙනත් සංඛ්යානමය හෝ පරිගණක ඉගෙනුම් ප්රවේශයන් ගණනාවක් භාවිතා කර ඇත.
ඉතින් කොහොමද එය වැඩ කළේ? කෝල් වාර්තා වලින් ලබාගත් ලක්ෂණ භාවිතා කරමින් සමීක්ෂණ ප්රශ්න වලට පිළිතුරු සැපයීමට Blumenstock සමත් විය හැකිද? "ඔබට ගුවන්යානයක් තිබේද?" සහ "බයිසිකලයක් ඔබ සතුද?" ඔහුගේ පුරෝකථන ආකෘතිය ඇගයීම සඳහා Blumenstock විසින් හරස්-වලංගුකරණය , දත්ත විද්යාවෙහි බහුලව භාවිතා කරන තාක්ෂණයක්, නමුත් කලාතුරකින් සමාජ විද්යාව තුල භාවිතා කළේය. Cross-validation හි පරමාර්ථය වන්නේ එය පුහුණු කිරීම මගින් ආදර්ශ අනුමාන කාර්යසාධනය පිළිබඳ සාධාරන තක්සේරුවක් ලබා දීම සහ විවිධ දත්ත කාණ්ඩ මත එය පරීක්ෂා කිරීමයි. විශේෂයෙන්ම Blumenstock සිය දත්ත එක් එක් පුද්ගලයන්ගේ කුකියන් 10 කට බෙදා. ඉන්පසුව, ඔහුගේ ආකෘතිය පුහුණු කිරීම සඳහා කුට්ටි නවයක් යොදාගත් අතර, පුහුණුව ලත් ආකෘතියේ අනාවැකි කාර්ය සාධනය ඉතිරි කොටසේ ඇගයීමට ලක් විය. ඔහු විසින් මෙම ක්රියාවලිය 10 වරක් නැවත නැවත වරක් පුනරුත්ථාපනය කරන ලදී. එක් එක් දත්ත කොටස එක් වරක් වලංගු කිරීමේ දත්තයන් ලබා ගත් අතර, ප්රතිඵල සාමාන්යයෙන් සිදු කරන ලදී.
අනාවැකිවල නිරවද්යතාව සමහර ගති ලක්ෂණ සඳහා ඉහළයි (රූපය 3.14); නිදසුනක් වශයෙන්, බ්ලූම්ස්ටොක් රේඩියෝවක් සතු නම් 97.6% නිරවද්යතාවකින් අනාවැකි කිව හැකිය. මෙය සිත් ඇදගන්නාසුළු විය හැකි නමුත් සරල විකල්පයක් සඳහා සංකීර්ණ අනාවැකි ක්රමයක් සංසන්දනය කිරීම සැමවිටම වැදගත් වේ. මේ අවස්ථාවේ දී, සරල විකල්පයක් වන්නේ සෑම දෙනාටම වඩාත් පොදු පිළිතුර ලබා දෙන බවට අනාවැකි පල කිරීමය. උදාහරණයක් වශයෙන්, ප්රතිචාර දැක්වූවන්ගෙන් 97.3% ක් වාර්තා කර ඇති අතර, බ්ලූම්ස්ටොක් අනාවැකි පවසා සිටියේ සෑම අයෙකු රේඩියෝවක් වාර්තා කරන බව වාර්තා කරන විට 97.3% ක නිරවද්යතාවයක් ඇති බවය. එය වඩාත් සංකීර්ණ ක්රියාපටිපාටිය (97.6% නිරවද්යතාව) . වෙනත් වචනවලින් කියතොත්, සියලු විසිතුරු දත්ත සහ ආකෘති නිර්මාණය 97.3% සිට 97.6% දක්වා අනාවැකිවල නිරවද්යතාව වැඩි විය. කෙසේවෙතත්, "ඔබට බයිසිකලයක් තිබේද?" වැනි වෙනත් ප්රශ්න සඳහා, අනාවැකි 54.4% සිට 67.6% දක්වා වැඩි විය. සාමාන්යයෙන් 3.15 රූපය පෙන්නුම් කරන්නේ බ්ලූම්ස්ටොක් සමහර ලක්ෂණ සඳහා සරල මුලික අනාවැකිය ඉදිරිපත් කිරීමෙන් ඔබ්බට වැඩි දියුණුවක් නොවන බවයි. කෙසේවෙතත්, මෙම ප්රතිඵලයන් දෙස බලන විට, මෙම ප්රවේශය විශේෂයෙන් ම පොරොන්දු වනු ඇත්තේ ඔබ සිතන්නේ නැත.
කෙසේවෙතත්, වසරකට පසුව, Blumenstock සහ ඔහුගේ සගයන් දෙදෙනෙකු වන ගේබ්රියෙල් කැදමූරෝ සහ රොබර්ට් ඔන් විසින් විද්යාත්මක පත්රිකාවක් බෙහෙවින් හොඳ ප්රතිඵල සහිතව (Blumenstock, Cadamuro, and On 2015) ප්රකාශයට පත් කරන ලදී. මෙම දියුණු කිරීම සඳහා ප්රධාන තාක්ෂණික හේතු දෙකක් පැවතුණි. (1) ඔවුන් වඩාත් සංකීර්ණ ක්රම භාවිතා කළහ (එනම්, ඉංජිනේරු ශිල්පයට නව ප්රවේශයක් සහ විශේෂාංගයන්ගෙන් ප්රතිචාර අනාවැකි සඳහා වඩා සංකීර්ණ ආකෘතියක්) සහ (2) තනි පුද්ගලයන්ට පිළිතුරු ලබා දීමට උත්සහ කිරීම වෙනුවට සමීක්ෂණ ප්රශ්න (උදා: "ඔබ ළඟ ගුවන්විදුලියක් තියෙනවාද?"), සංයුක්ත ධනය දර්ශකය ඉදිරිපත් කිරීමට ඔවුන් උත්සාහ කළහ. මෙම තාක්ෂණික වැඩිදියුණු කිරීම් මගින් ඔවුන්ගේ නියැදිවල සිටින ජනතාව සඳහා ධනය අනාවැකි පළ කිරීම සඳහා ඇමතුම් වාර්තා භාවිතා කිරීමේ සාධාරණ රැකියාවක් කළ හැකි විය.
කෙසේවෙතත් නියැදීම්වල නියැලී සිටින අයගේ පුරෝකථනය පර්යේෂනයේ අවසාන අරමුණ නොවේ. අවසාන ඉලක්කය වන්නේ සංවර්ධනය වන රටවල දරිද්රතාවයේ නිවැරදි හා අධි විභේදන තක්සේරු ඉදිරිපත් කිරීම සඳහා නියැදි සමීක්ෂණ හා සංගණනවල හොඳම ලක්ෂණ කිහිපයක් ඒකාබද්ධ කිරීමයි. මෙම ඉලක්කය සපුරාගැනීමට ඇති හැකියාව තක්සේරු කිරීම සඳහා, Blumenstock සහ සගයන් ඔවුන්ගේ ආදර්ශය හා ඒවායේ දත්ත භාවිතා කළ අතර ඔවුන් මිලියන 1.5 ක ජනයාගේ ධනය අනාවැකි පළ කිරීමට භාවිතා කළේය. තවද ඔවුන් එක් එක් ඇමතුම සඳහා ආසන්නතම සෛල කුළුනට එක් දත්තයක් ඇතුළත් කර ඇති භූගෝලීය තොරතුරු භාවිතා කරන ලද භූගෝලීය තොරතුරු භාවිතා කර ඇත. එක් එක් පුද්ගලයාගේ නිවසෙහි ආසන්න ස්ථානය තක්සේරු කිරීම (Figure 3.17). මෙම ඇස්තෙම්න්තු දෙක එකට එකතු කිරීම, බ්ලූම්ස්ටොක් හා සගයන් අතිශය හොද ශල්ය ග්රැුඩියුලර්වල දී ග්රාහක ධනයෙහි භූගෝලීය ව්යාප්තිය පිලිබඳ තක්සේරුව ඉදිරිපත් කරන ලදී. උදාහරණයක් වශයෙන්, ඔවුන් එක් එක් රුවන්ඩාවෙහි 2,148 කෝෂයේ සාමාන්ය ධනය (රටේ කුඩාම පරිපාලන ඒකකය) ඇස්තමේන්තු කළ හැකිය.
මෙම ඇස්තමේන්තු මෙම කලාපවල දරිද්රතාවයේ සැබෑ මට්ටමට ගැළපෙනවාද? මම එම ප්රශ්නයට පිළිතුරු දීමට පෙර, මම සැක සහිත වීමට හේතු බොහොමයක් පවතින බව අවධාරණය කිරීමට මා කැමතිය. නිදසුනක් වශයෙන්, පුද්ගල මට්ටමේ දී අනාවැකි කිරීමට හැකියාවක් ලෙහෙසි ඝෝෂාකාරී විය (Figure 3.17). සමහර විට වඩා වැදගත් වන්නේ ජංගම දුරකථන නොමැති පුද්ගලයින්ට ජංගම දුරකථන නොමැති පුද්ගලයින්ගෙන් ක්රමානුකූලව වෙනස් විය හැකිය. මේ අනුව, 1936 සාහිත්යමය ඩිජිටෙස් සමීක්ෂණය මා විසින් කලින් විස්තර කර ඇති පරිදි 1936 සාම්ප්රදායික Digest සමීක්ෂණයට අනුබල දුන් ආවරණ දෝෂයන්ගෙන් Blumenstock සහ සගයන්ගේ විය හැකිය.
ඔවුන්ගේ ඇස්තමේන්තු වල ගුණාත්මකභාවය පිළිබඳ හැඟීමක් ලබා ගැනීම සඳහා, Blumenstock සහ සගයෝ වෙනත් දෙයක් සමඟ සසඳා බැලීමට අවශ්ය විය. වාසනාවකට මෙන්, ඔවුන් අධ්යයනය කරන විටම තවත් පර්යේෂකයන් පිරිසක් රුවන්ඩාවේ වඩා සාම්ප්රදායික සමාජ සමීක්ෂණයක් පවත්වාගෙන යන ලදී. පුළුල් ලෙස ගරු කරන ලද ජනවිකාසතා හා සෞඛ්ය සමීක්ෂණ වැඩසටහනේ කොටසක් වන මෙම වෙනත් සමීක්ෂණයේ විශාල අයවැයක් සහ උසස් තත්වයේ සාම්ප්රදායික ක්රම භාවිතා කර ඇත. එබැවින්, ජනගහන හා සෞඛ්ය සමීක්ෂණයේ ඇස්තමේන්තු සාධාරණ ලෙස රන් සම්මත ප්රමිතීන් සලකා බැලිය හැකිය. ඇස්තමේන්තු දෙක එකිනෙකට සැසඳූ විට, ඔවුන් බොහෝ දුරට සමාන විය (රූපය 3.17). වෙනත් වචනවලින් කියනවා නම්, ඇමතුම් වාර්තා සමඟ කුඩා සමීක්ෂණ දත්ත සංයෝජන මගින් Blumenstock සහ සගයන්ට රන් ප්රමිති ප්රවේශයන්ගෙන් සැසඳිය හැකි ඇස්තමේන්තු ඉදිරිපත් කිරීමට හැකි විය.
කණගාටුදායක ලෙස මෙම ප්රතිඵලය බලාපොරොත්තු සුන්වීමක් ලෙස දැකිය හැකිය. බොහෝ විට, ඔවුන් බැලීමට එක් ක්රමයක් වන්නේ විශාල දත්ත සහ පරිගණක ඉගෙන ගැනීම මගින්, Blumenstock සහ සගයන්ට දැනටමත් පවතින ක්රම මගින් වඩාත් විශ්වාසදායක ලෙස ගණනය කළ හැකිය. නමුත් මම හේතු දෙකක් නිසා මේ අධ්යයනය ගැන හිතන්න හොඳ ක්රමයක් කියලා මම හිතන්නේ නැහැ. පළමුව, බ්ලූම්ස්ටොක් හා සගයින්ගේ ඇස්තමේන්තු වේගයෙන් 10 ගුණයක වේගයෙන් හා 50 ගුණයක ලාභදායී වේ (පිරිවැය වෙනස් විය හැකි පිරිවැය අනුව මනිනු ලැබේ). මම මෙම පරිච්ඡේදයේ කලින් තර්ක කළ පරිදි, පර්යේෂකයන් ඔවුන්ගේ උවදුරේ පිරිවැය නොසලකා හැරියෙමි. නිදසුනක් වශයෙන්, වියදමෙහි නාටකාකාර අඩුවීම යනු ජනාවාස හා සෞඛ්ය සමීක්ෂණ සඳහා සම්මතයක් ලෙස සෑම වසර කීපයකට වරක් සිදු නොවනවා සේම, පර්යේෂකයන් හා ප්රතිපත්ති සඳහා බොහෝ වාසි ලබා දෙන මෙම ආකාරයේ සමීක්ෂණ සෑම මසකම ක්රියාත්මක විය හැකිය. සම්පාදකයින්ය. වෙනත් පර්යේෂනාත්මක තත්වයන්ට අනුව සකස් කර ගත හැකි මූලික වට්ටෝරුව මෙම අධ්යයනය මගින් සපයන බවට සැකයක් ඇති කර ගැනීමට දෙවන හේතුව නොවේ. මෙම වට්ටෝරුව පමණක් අමුද්රව්ය දෙකක් සහ පියවර දෙකක් ඇත. අමුද්රව්ය යනු (1) පුළුල් දත්ත (එනම්, එක් පුද්ගලයෙකු ගැන තොරතුරු අවශ්ය නොවේ) සහ (2) ප්රමාණාත්මක නමුත් ඝන (එනම්, එය පමණක් ඇත ස්වල්ප දෙනෙක්, නමුත් ඒ අය ගැන ඔබට අවශ්ය තොරතුරු තිබේ). මෙම අමුද්රව්ය පසුව පියවර දෙකකින් යුක්ත වේ. පළමුව, දත්ත මූලාශ්ර දෙකෙහිම ජනතාව සඳහා සමීක්ෂණ පිළිතුරු අනාවැකි සඳහා විශාල දත්ත ප්රභවයක් භාවිතා කරන යන්ත්ර ඉගෙනුම් ආකෘතියක් ගොඩනඟා ගන්න. ඊළඟට, විශාල දත්ත මූලාශ්රයක සිටින සියලුදෙනාගේ සමීක්ෂණ පිළිතුරු ලබා දීම සඳහා එම ආකෘතිය භාවිතා කරන්න. මෙලෙස, ඔබ බොහෝ දෙනාගෙන් ඉල්ලා සිටීමට අවශ්ය වන යම් ප්රශ්නයක් තිබේ නම්, විශාල දත්ත මූලාශ්රයක් ගැන ඔබට සැලකිල්ලක් නොදැක් වුවද , ඔවුන්ගේ පිළිතුර පුරෝකථනය කිරීමට යොදාගත හැකි අයගෙන් විශාල දත්ත ප්රභවයක් සොයා බලන්න. එනම්, Blumenstock සහ සගයෝ නෛතික වාර්තා පිළිබඳව සැලකිල්ලක් දක්වන්නේ නැත; ඔවුන්ට පමණක් ඇමතුම් වාර්තා ගැන සැලකිල්ලක් දැක්වූයේ ඔවුන් තමන් ගැන සැලකිලිමත් වන සමීක්ෂණ පිළිතුරු අනාවැකි සඳහා යොදාගත හැකි බැවිනි. මෙම චරිතාපදායකත්වය - විශාල දත්ත මූලාශ්රය සඳහා පමණක් වන වක්ර පරදුවට තැබීම - මම කලින් විස්තර කර ඇති විමසුමේ සිට වෙනස් කරන ලෙස ඉල්ලා සිටිමි.
අවසාන වශයෙන්, Blumenstock විසින් වැඩිදියුණු කරන ලද ඉල්ලීම, විශාල දත්ත මූලාශ්රයක් සමඟ ඒකාබද්ධ සමීක්ෂණ දත්ත ප්රවේශය ලබා ගැනීම සඳහා රත්රං සම්මත සමීක්ෂණයකට සමාන කළ හැකි ඇස්තමේන්තු ඉදිරිපත් කිරීමට. මෙම සුවිශේෂී උදාහරණයෙන් පැහැදිලි කරන ලද ඉල්ලීම් සහ සාම්ප්රදායික සමීක්ෂණ ක්රම අතර ඇති සමහර වෙළඳාම පැහැදිලි වේ. විස්තාරිත ඉල්ලීම් ඇස්තමේන්තු වඩා කාලෝචිත විය. එහෙත්, අනෙක් අතට, මේ ආකාරයේ වඩාත් පුළුල් ඉල්ලීමක් සඳහා ශක්තිමත් න්යායික පදනමක් නැත. මෙම ප්රවේශය ක්රියාත්මක වන්නේ කවදාද සහ එය නොලැබෙන විට මෙම එක් උදාහරණයක් පෙන්වන්නේ නැත. මෙම ප්රවේශය භාවිතා කරන පර්යේෂකයන් විශේෂිතවම සැලකිලිමත් විය යුත්තේ කවුරුන් විසින්ද සහ ඒවායේ විශාල දත්ත මූලාශ්රයේ ඇතුලත් නොවූ අයගේ විපාක ගැන විශේෂයෙන් සැලකිලිමත් විය යුතුය. තවද, ඇස්තෙම්න්තුගත ඉල්ලම් ප්රවිෂ්ටය එහි ඇස්තමේන්තු අවිනිශ්චිතතා ප්රමාණාත්මකව ප්රමාණ කිරීමට තරම් හොඳ ක්රම නොමැත. වාසනාවකට මෙන්, වැඩි දියුණු කරන ලද ඉල්ලීම, විශාල සංඛ්යාත ප්රදේශ වල විශාල ප්රදේශ තුනකට ගැඹුරු සම්බන්ධකම් ඇති අතර, (Rao and Molina 2015) , imputation (Rubin 2004) සහ ආකෘතිය මත පදනම් වූ පශ්චාත් භේදභ්ාවය (ඔහු පී. පරිච්ඡේදයේ කලින් විස්තර කළ ක්රමය) (Little 1993) . මෙම ගැඹුරු සම්බන්ධතා නිසා, මම ඉක්මනින් වැඩිදියුණු කරන ලද ක්රමලේඛන පදනම් බොහෝ වැඩිදියුණු වනු ඇතැයි මම අපේක්ෂා කරමි.
අවසාන වශයෙන්, Blumenstock ගේ පළමු හා දෙවන උත්සාහයන් සසඳමින්, ඩිජිටල්-යුගයේ සමාජ පර්යේෂණය පිළිබඳ වැදගත් පාඩමක් පෙන්නුම් කරයි: ආරම්භය අවසන් වන්නේ නැත. එනම්, බොහෝ අවස්ථාවලදී, පළමු ප්රවේශය වඩාත්ම සුදුසු නොවනු ඇත. නමුත් පර්යේෂකයන් දිගටම වැඩ කරන්නේ නම්, තත්වය යහපත් විය හැකිය. සාමාන්යයෙන්, ඩිජිටල් යුගයේ සමාජ පර්යේෂණයන් සඳහා නව ප්රවේශයන් ඇගයීමට ලක් කිරීමේදී, විශේෂිත ඇගයීම් දෙකක් සිදු කිරීම වැදගත් වේ: (1) මෙය දැන් ක්රියාත්මක වන්නේ කොතරම් හොඳින්ද? සහ (2) දත්ත පරාසය ෙවනස්වන පරිදි ඉදිරිෙය්දී ෙමම වැඩ කටයුතු ෙකෙරන්ෙන්ද, පර්යේෂකයන් වැඩි අවධානයක් ෙයොමු කරනු ලබන්ෙන් ෙකෙසේද? පර්යේෂකයන් පළමුවැන්න ප්රමිති ඇගයීම සඳහා පුහුණුවක් ලබා ඇතත් දෙවනුව බොහෝ විට වඩා වැදගත් වේ.