නිරූපණ දත්ත වල පිටත නියැදි සමීකරණය සඳහා නරක වන නමුත් අභ්යන්තර-සාම්පල සංසන්දනයන් සඳහා ප්රයෝජනවත් විය හැකිය.
සමහර සමාජ විද්යාඥයින් යම් රටක සිටින සියලුම වැඩිහිටි පුද්ගලයන් වැනි නිරවද්ය අර්ථ නිරූපනය කරන ලද අසාමාන්ය නියැදිවලින් ලබා ගත හැකි දත්ත සමඟ කටයුතු කිරීමට පුරුදු වී සිටියි. මෙම ආකාරයේ දත්ත නියෝජිතයන් ලෙස හැඳින්වේ. නියැදිය විශාල ජනගහනයක් නියෝජනය වේ. බොහෝ පර්යේෂකයන්ට ත්යාගය නියෝජනය කරන දත්ත සහ සමහර නියෝජන දත්ත ඉතා දැඩි විද්යාවකින් යුක්ත වේ. වඩාත්ම ආන්තිකය, ඇතැම් සංශයවාදීන් විශ්වාස නොකරන දත්ත වලින් කිසිවක් ඉගෙන ගත නොහැකි බව විශ්වාස කරති. ඇත්ත වශයෙන්ම, විශාල දත්ත මූලාශ්රවලින් ඉගෙන ගත හැකි දේ දැඩි ලෙස සීමා කරන බව පෙනෙන්නට තිබේ. වාසනාවකට මෙන්, මෙම සංශයවාදීන් අර්ධ වශයෙන් නිවැරදිය. නොපෙනෙන දත්ත පැහැදිලිවම නුසුදුසු වන අතර, සමහරක් ඒවා ප්රයෝජනවත් විය හැකිය.
මෙම වෙනස වටහා ගැනීම සඳහා, විද්යාත්මක සම්භාව්යය ගැන සලකා බලමු: ජෝන් ස්නෝ ලන්ඩනයේ 1853-54 කොලරා වසංගතය පිළිබඳ අධ්යයනය. ඒ කාලයේ බොහෝ වෛද්යවරු විශ්වාස කළේ කොලරාව "නරක වාතයෙන්" ඇති බවය. නමුත් ස්නෝඩන් ඇට සහිත පානීය ජලය මගින් බෝවන රෝගයක් විය හැකි බව ස්නෝ විශ්වාස කළේය. මෙම අදහස පරීක්ෂා කිරීම සඳහා ස්නෝ ස්වභාවික අත්හදා බැලීමක් ලෙස හැඳින්විය හැකි දේවලින් ප්රයෝජන ගත්තා. ඔහු විවිධ ජල සමාගම් දෙකක් විසින් සේවය කරන ගෘහස්ථ කොලරා අනුපාත සමඟ සැසඳුනේ: ලම්බේට් සහ සවුත්වර්ක් සහ වොක්ෂෝල්. මෙම සමාගම් සමාන නිවෙස් වලට සේවය කළ නමුත් ඒවා එකිනෙකට වෙනස් වූ එක් වැදගත් ක්රමයක් විය: 1849 දී වසංගතයට පෙර වසර කීපයකට පෙර ලම්බේට් ලන්ඩන් හි ප්රධාන අපද්රව්ය බැහැර කිරීමේ සිට එහි පරිවාරක ස්ථානය දක්වා ඉහළට ගමන් කළ අතර සවුත්වර්ක් හා වොක්ස්ලෝල් අපද්රව්ය බැහැර කිරීම. ස්නෝ සමාගම විසින් ගෘහස්ථ සමාගම් දෙකෙහි සේවය කරන ගෘහ සේවිකාවන්ගේ මරණ අනුපාතය සන්සන්දනය කරන විට ඔහු සොයාගත් පරිදි සෝල්වාක් සහ වොක්ස්ලෙල් යන පාරිභෝගිකයින්ට පිරිසිදු වතුර ඇති ජලය සැපයූ පාරිභෝගිකයින් කොලරාවෙන් මිය යන සංඛ්යාව මෙන් 10 ගුණයක් විය. ලන්ඩනයේ ජනතාවගේ නියැදි නියැදි නියැදි මත පදනම්ව නොතිබුණත් කොලරාව හේතුව පිළිබඳ Snow තර්කය සඳහා ප්රබල විද්යාත්මක සාක්ෂි සපයයි.
කෙසේ වෙතත්, මෙම සමාගම් දෙකෙන් ලැබෙන දත්ත වෙනත් ප්රශ්නයකට පිළිතුරු දීමට නුසුදුසු වනු ඇත: පුපුරා යාමේදී ලන්ඩනයේ කොලරාව පැතිරයාම කුමක්ද? වැදගත් වන මෙම දෙවන ප්රශ්නය සඳහා, ලන්ඩනයෙන් මිනිසුන්ගේ නියෝජන නියැදියක් තිබීම වඩා හොඳය.
ස්නෝගේ කාර්යය නිදර්ශනය කිරීම නිසා, නොවිසඳුනු දත්ත ඉතා ඵලදායී විය හැකි විද්යාත්මක ප්රශ්න කිහිපයක් තිබේ. එය සුදුසු නොවන වෙනත් ඒවා වේ. මෙම වර්ග දෙකේ ප්රශ්න හඳුනා ගැනීම සඳහා එක් පැරැණි ක්රමයක් නම්, සමහර ප්රශ්න, සාම්පල සංසන්දනයන් තුළ වන අතර සමහරක් සමහරක් නියැදි සමීකරණයන් ගැන ය. දුම්වැටියේ පිළිකා ඇති බවට පෙන්නුම් කරන වැදගත් දර්ශකයක් වන බ්රිතාන්ය වෛද්යවරු අධ්යයනය මගින් මෙම වෙනස තවත් පැහැදිලි කර දැක්විය හැකිය. මෙම අධ්යයනයේදී රිචඩ් ඩොල් සහ ඒ. බ්රැඩ්ෆර්ඩ් හිල් වසර ගණනාවක් පුරා වෛද්යවරුන් 25,000 කට ආසන්න සංඛ්යාවක් අනුගමනය කළ අතර, අධ්යයනය ආරම්භ කරන විට ඔවුන් දුම් පානය කළ ප්රමාණය මත පදනම්ව ඔවුන්ගේ මරණ අනුපාත සංසන්දනය කරන ලදි. ඩොල් සහ හිල් (1954) දැඩි ලෙස නිරාවරණය-ප්රතිචාර සම්බන්ධතාවයක් සොයා ගත්හ: වැඩි වශයෙන්ම මිනිසුන් දුම් බොන්නට පටන් ගත් අතර පෙනහළු පිළිකා වලින් මිය යනවා විය හැක. ඇත්ත වශයෙන්ම, මෙම රෝගීන්ගෙන් බහුතරයක් මෙම පෙණහලු පිළිකා රෝගීන්ගේ පෙනහළු පිළිකා පැතිරීම තක්සේරු කිරීම නොසැලකිලිමත් විය හැකි අතර, අභ්යන්තර පරීක්ෂණයට සරිලන සැසියේදී දුම් පානය නිසා පෙනහළු පිළිකා ඇති බවට සාක්ෂි සපයයි.
දැන් මම ආදර්ශණ සංසන්දනයන් හා නියැදි සමීකරණයන් අතර වෙනස නිරූපනය කර ඇති අතර, දෙකක් රැඳවුම් පිළිවෙත් අනුපිළිවෙලක් ඇත. පළමුවෙන්ම, බ්රිතාන්ය බ්රිතාන්ය වෛද්යවරයකුගේ නියැදියක් තුළ ඇති සම්බන්ධතාවයක් ස්ත්රී, බ්රිතාන්ය වෛද්යවරුන් හෝ පිරිමි බි්රතාන්ය කම්හල් කම්කරුවන් හෝ ජර්මානු කම්හල් කම්කරුවන් හෝ වෙනත් බොහෝ කන්ඩායම්වල නියැළී සිටිනු ඇත. මෙම ප්රශ්න ඉතා රසවත් හා වැදගත් වන නමුත්, නියැදි සිට ජනගහනය සාමාන්යයෙන් ජනගහනයකින් සාමාන්යකරණය කළ හැකි ප්රමාණය පිළිබඳව ප්රශ්න වලින් වෙනස් වේ. නිදසුනක් වශයෙන්, පිරිමි බ්රිතාන්ය වෛද්යවරුන්ට හමුවූ දුම්පානය හා පිළිකා අතර ඇති සම්බන්ධතාවය මෙම අනෙකුත් කණ්ඩායම්වල දී සමාන විය හැකියැයි ඔබ සිතනවා විය හැකිය. මෙම බිහිසුණු ක්රියාවලිය කිරීමට ඔබට ඇති හැකියාව, පිරිමි බ්රිතාන්ය වෛද්යවරුන් ජනගහනයකින් සම්භාවිතව අහඹු නියැදියක සිට ඇති බව නොවේ. ඒ වෙනුවට, එය දුම්පානය හා පිළිකා සම්බන්ධ කරන යාන්ත්රණය පිළිබඳ අවබෝධයක් ඇත. මේ අනුව නියැදියකින් සාමාන්යයෙන් ලබාගත් ජනගහණයට සංඛ්යානමය ගැටළුවක් බොහෝ දුරට සංඛ්යාත්මක ගැටළුවක් වී ඇති නමුත්, එක් කණ්ඩායමක් වෙනත් රටකට හමු වී ඇති රටාව ප්රවාහනය පිළිබඳ ගැටළු බොහෝදුරට නොපැහැදිලි ප්රශ්නයකි (Pearl and Bareinboim 2014; Pearl 2015) .
මේ අවස්ථාවේ දී, සංශයවාදීන් පෙන්වා දෙන පරිදි, දුම්පානය හා පිළිකා අතර සම්බන්ධතාවය වඩා බොහෝ සමාජ රටාවන්ට වඩා ප්රවාහනය කළ නොහැකි බව පෙන්විය හැක. මම එකඟයි. රටාවන් ප්රවාහනය කළ හැකි බවට අප අපේක්ෂා කළ යුතු පරිමාව අවසානයේදී විද්යාව හා න්යාය මත පදනම්ව තීරණය කළ යුතු විද්යාත්මක ප්රශ්නයකි. රටා ප්රවාහනය කළ හැකි බව උපකල්පනය නොකළ යුතුය. නමුත් ඒවා ප්රවාහනය නොකරන බව උපකල්පනය කළ යුතුය. උපාධි අපේක්ෂක සිසුන් (Sears 1986, [@henrich_most_2010] ) අධ්යයනය කිරීමෙන් මානව හැසිරීම් ගැන ඉගෙන ගත හැක්කේ කොපමණ පර්යේෂකයන්ට ඉගෙන ගත හැකිද යන්න පිළිබඳ විවාදයන් අනුගමනය කර තිබේ නම්, ඔබ (Sears 1986, [@henrich_most_2010] ) මෙම ස්වල්ප වශයෙන් වියුක්ත ප්රශ්න ඔබට දැන ගන්නට ඇත. කෙසේ වෙතත්, මෙම විවාදයන් කෙසේ වුවද, උපාධි අපේක්ෂක සිසුන් පිළිබඳව අධ්යයනය කිරීමෙන් පර්යේෂකයන්ට කිසිවක් ඉගෙන ගත නොහැකි බව පැවසීම අසාධාරණයකි.
දෙවැනි වරට අවධාරණය කරන්නේ, නොපෙනෙන දත්ත සහිත බොහෝ පර්යේෂකයන් හිම, ඩොල් සහ හිල් වැනි ප්රවේසම ලෙස නොසැලකේ. එබැවින්, නොපෙනෙන දත්ත වලින් පර්යේෂකයන් විසින් සිදු කරන ලද නියැදි පොදුකරණයක් සිදු කිරීමට උත්සාහ කරන විට, කුමක් සිදු විය හැකිද යන්න නිදර්ශනය කිරීම සඳහා, 2009 ජර්මානු පාර්ලිමේන්තු මැතිවරණය ගැන Andranik Tumasjan සහ සගයින් (2010) විසින් අධ්යයනය කිරීම ගැන මම ඔබට කියන්න කැමතියි. ටීවී 100,000 කට වඩා වැඩි සංඛ්යාවක් විශ්ලේෂණය කිරීමෙන්, දේශපාලන පක්ෂයක් සඳහන් කරන ලද ත්රිත්වයේ අනුපාතය පාර්ලිමේන්තු මැතිවරණයට ලැබුණු ඡන්ද ප්රමාණයට සමාන විය (රූප සටහන 2.3). වෙනත් වචනවලින් කිවහොත්, පෙනෙනාකාරයෙන් නිදහස් වූ ට්වීටර් දත්ත, සම්ප්රදායික මහජන මතයන් සමීක්ෂණ වෙනුවට, නියෝජන දත්ත මත අවධාරණය කිරීම නිසා මිල අධික විය හැකිය.
ඔබ දැනටමත් දැනටමත් ට්විටර් ගැන දන්නේ කුමක්දැයි දැන ගැනීමෙන් ඔබ වහාම මෙම ප්රතිඵලය ගැන සැක පහළ විය යුතුය. 2009 වසරේදී ට්විටර් හි ජර්මානුවන් ජර්මන් ඡන්දදායකයින්ගේ අහිතකර නියැදි නියැදියක් නොවූ අතර සමහර පක්ෂවල ආධාරකරුවන් අනෙක් පක්ෂවල ආධාරකරුවන්ට වඩා බොහෝ විට දේශපාලනය ගැන නිහඬ විය. මේ අනුව, ජර්මන් චන්දදායකයන්ගෙන් මෙම දත්ත සෘජු ලෙස පිළිබිඹු වන පරිදි ඔබ සිතා ගත හැකි උපයෝගීතාවයන් සියල්ල කෙසේ හෝ අවලංගු වනු ඇති බවට පුදුමයක්. ඇත්ත වශයෙන්ම, Tumasjan et al. (2010) සැබෑවක් වීමට තරම් හොඳ විය. ඇඩ්රීඩ් ජුගර්, පස්සාල් ජියර්ගෙන්ස් සහ හරල්ඩ් ෂෝන් (2012) විසින් කරන ලද ඊලඟ ලිපියක් මගින් පෙන්නුම් කෙරුනේ, මුල් විශ්ලේෂනය ටි්රබියූවට වඩාත්ම සඳහන් කර ඇති දේශපාලන පක්ෂය බැහැර කර ඇති බවය. ආන්ඩුවේ රෙගුලාසි වලට එරෙහිව සටන් කරන කුඩා පක්ෂය අන්තර්ජාලය. විශ්ලේෂණයට ඇතුලත් වූ විට, තිරරාරත්නගේ පක්ෂය ටෙලිග්රාෆ්ගේ ප්රකාශය, මැතිවරන ප්රතිඵල පිලිබඳ බිහිසුනු අනාවැකියක් බවට පත්විය (රූපය 2.3). මෙම උදාහරණයේ උදාහරණයක් ලෙස, නො-නියෝජන විශාල දත්ත මූලාශ්ර භාවිතා නොකළ නියැදිකරණ සාමාන්යකරණයන් සිදු කිරීම වැරදියි. එසේම, ඔබ ටිවිට 100,000 ක් තිබූ බව ඇත්ත වශයෙන්ම සැලකිල්ලට ගත යුතු කරුණකි: සමීක්ෂණ නොවන දත්ත බොහොමයක් තවමත් නිශ්චිත නොවන අතර, මම සමීක්ෂණ සාකච්ඡා කරන විට, 3 වන පරිච්ඡේදයේ නැවත පැමිණෙන තේමාවක්.
අවසාන වශයෙන්, බොහෝ දත්ත මූලාශ්ර සමහර හොඳින් අර්ථකථනය කරන ලද ජනගහනයෙන් නියෝජනය වන සාම්පල නොවේ. නියැදි ලබා ගන්නා ලද ජනගහනයේ නියැදි ජනගහනයෙන් සාමාන්ය ප්රතිඵල ලබා ගත යුතු ප්රශ්න සඳහා මෙය බරපතල ගැටළුවක්. එහෙත් අභ්යන්තර-සාම්පල සංසන්දනයන් පිලිබඳ ප්රශ්න සඳහා, නියැදි දත්ත ඉදිරිපත් කිරීම බලවත් විය හැකිය. එබැවින් පර්යේෂකයන් ඔවුන්ගේ නියැදිවල ලක්ෂණ පිළිබඳව සහ න්යායික හෝ ආනුභූතික සාක්ෂි සහිතව ප්රවාහනය සඳහා හිමිකම් පිලිගැනීමට උපකාරි වන තාක් කල්. සැබවින්ම, මගේ බලාපොරොත්තුව වන්නේ බොහෝ දත්ත මුලාශ්රයන් පර්යේෂකයන් බොහෝ නොවන නියෝජන කණ්ඩායම් තුල වඩා සාම්පල සංසන්දනය කර ගැනීමට හැකි වන අතර මගේ අනුමානය වන්නේ බොහෝ විවිධ කණ්ඩායම් වලින් ඇස්තමේන්තු කරනුයේ සමාජීය පර්යේෂණයන් වැඩි දියුණු කිරීම සඳහා අහඹු සිද්ධි අහඹු ලෙස නියැදියකි.