ඔබේ විශාල දත්ත කොතරම් විශාල වුවත්, ඔබට අවශ්ය තොරතුරු අවශ්ය නොවේ.
බොහෝමයක් විශාල දත්ත මූලාශ්ර අසම්පූර්ණයි . ඔබේ පර්යේෂණ සඳහා ඔබට අවශ්ය තොරතුරු ඔවුන් සතුව නොමැති බවය. මෙය පර්යේෂණය හැර වෙනත් අරමුණු සඳහා නිර්මාණය කරන ලද දත්තවල පොදු ලක්ෂණයකි. බොහෝ සමාජ විද්යාඥයන් දැනටමත් අසම්පූර්ණ භාවය සමග කටයුතු කිරීමේ අත්දැකීම් දැනටමත් තිබී ඇත. එනම්, අවශ්ය වූ ප්රශ්නය අසන ලද සමීක්ෂණයකින් තොරව පවතින සමීක්ෂණයකි. අවාසනාවකට මෙන්, අසම්පූර්ණතාවයේ ගැටළු විශාල දත්තයන් තුළ වඩාත් අන්තය. මගේ අත්දැකීම් අනුව, සමාජ දත්ත සමීක්ෂණ සඳහා ප්රයෝජනවත් තොරතුරු වර්ග තුනක් සොයා ගත නොහැකි ය: හ්භාගීවනනන පිළිබඳ ජනගහන තොරතුරු, වෙනත් වේදිකාවල හැසිරීම් සහ දත්ත, න්යායාත්මක සැකසුම් ක්රියාත්මක කිරීම සඳහා දත්ත.
අසම්පූර්ණතාවයන් තුනක් අතුරින්, අසම්පූර්ණ දත්ත විශ්ලේෂණය කිරීම සඳහා න්යායාත්මක නිර්මිතයන් විසඳීමට අපහසු වේ. මගේ අත්දැකීම් අනුව, එය බොහෝ විට අහම්බෙන් නොසලකා හරිනු ඇත. න්යායාත්මක නිර්මිතයන් යනු සමාජ විද්යාඥයින් විසින් විද්යාඥයන් විසින් අධ්යයනය කොට ක්රියාත්මක කරන ලද න්යායික සැකැස්මක් වන අතර ඒවා නිරීක්ෂණය කළ හැකි දත්ත සහිතව ග්රහණය කර ගැනීමට යම් ආකාරයක යෝජනා ඉදිරිපත් කිරීමයි. අවාසනාවකට මෙන් මෙම සරල ශබ්ද ක්රියාවලිය බොහෝ විට අපහසු වේ. නිදසුනක් වශයෙන්, වඩා බුද්ධිමත් අය වැඩි වැඩියෙන් මුදල් උපයාගන්නා බවට පැහැදිලිවම සරල ප්රකාශය පරික්ෂා කිරීම උත්සාහ කරමු. මෙම ප්රකාශය පරීක්ෂා කිරීම සඳහා ඔබ "බුද්ධිය" මැනිය යුතුය. එහෙත් බුද්ධිය යනු කුමක්ද? Gardner (2011) තර්ක කලේ, සැබවින්ම විවිධ බුද්ධි අංශ අටක් ඇති බවය. මේ ආකාරයේ ඔත්තු බැලීම් නිවැරදිව මැන ගත හැකි ක්රියාමාර්ග තිබේද? මනෝවිද්යාඥයින් විසින් කරන ලද දැවැන්ත කාර්යයන් නොතකා මෙම ප්රශ්න තවමත් නිශ්චිත පිළිතුරු නොලැබේ.
මෙලෙස, සාපේක්ෂව සරල ප්රකාශයක් - බුද්ධිමත් බුද්ධිමතෙකු වැඩි මුදලක් උපයාගෙන සිටින අය - ආනුභූතිකව තක්සේරු කිරීම අසීරු විය හැකිය. එම දත්තවල න්යායාත්මක සැකසුම් ක්රියාත්මක කිරීම අසීරු විය හැකිය. වැදගත් වන නමුත් ඒවා මෙහෙයුම් කිරීමට අපහසු වන වෙනත් න්යායික සැකසුම් වල වෙනත් උදාහරණ "සම්මතයන්", "සමාජ ප්රාග්ධනය" සහ "ප්රජාතන්ත්රවාදය" ඇතුළත් වේ. සමාජ විද්යාඥයන් න්යායාත්මක (Cronbach and Meehl 1955) හා දත්ත වල වලංගු භාවය (Cronbach and Meehl 1955) අතර තරඟය ලෙස හැඳින්වේ. මෙම ඉදිකිරීමේ කෙටි ලැයිස්තුව යෝජනා කර ඇති පරිදි, වලංගුභාවය යනු සමාජ විද්යාඥයන් ඉතා දිගු කලක් තිස්සේ අරගල කර ඇති ගැටලුවක්. නමුත් මගේ අත්දැකීම් වලදී පර්යේෂණයන් සඳහා නිර්මාණය නොකරන ලද දත්ත සමඟ කටයුතු කිරීමේදී වලංගු භාවය ඇති කිරීමේ ගැටළු වඩාත් (Lazer 2015) .
ඔබ පර්යේෂණ ප්රතිඵල ඇගයීමට ලක් කරන විට, වලංගුභාවය නිර්ණය කිරීම සඳහා ඉක්මන් හා ප්රයෝජනවත් ක්රමයක් වන්නේ, ඉදිකිරීම් සාමාන්යයෙන් ප්රකාශයට පත් කරන ලද ප්රතිඵලයයි. එය යොදා ගන්නා දත්ත අනුව එය නැවත ප්රකාශයට පත් කිරීමයි. උදාහරණයක් ලෙස වඩාත් බුද්ධිමත් පුද්ගලයන් වැඩි මුදලක් උපයන බවට පෙන්වන උපකල්පිත අධ්යයනයන් දෙකක් සලකා බලන්න. පළමු අධ්යයනයේ දී, පර්යේෂකයා සොයා ගත් පරිදි විශ්ලේෂණ බුද්ධි (Carpenter, Just, and Shell 1990) හොඳින් අධ්යයනය කරන ලද පරීක්ෂණයන් සඳහා වූ පරීක්ෂණය) (Carpenter, Just, and Shell 1990) හොඳින් ලකුණු කළ රෙවන් ප්රගතිශීලී Matrix Test පරීක්ෂණයට අනුව (Carpenter, Just, and Shell 1990) ඔවුන්ගේ බදු ප්රතිලාභ මත ඉහළ වාර්තා වූ ආදායමක් ඇති බව සොයා ගන්නා ලදී. දෙවන අධ්යයනයේ දී, පර්යේෂකයා සොයා ගත් පරිදි ට්විටර් හි දිගු වචන පාවිච්චි කළ අය සුඛෝපභෝගී වෙළඳ නාමයන් ගැන සඳහන් කිරීමට ඉඩ ඇති බව පර්යේෂකයා සොයාගත්තා. මෙම අවස්ථා දෙකෙහිදී, මෙම පර්යේෂකයන්ට වඩා බුද්ධිමත් පුද්ගලයෙකුට වැඩි මුදලක් උපයා ඇති බව පෙන්වා දී ඇත. කෙසේ වෙතත් පළමු අධ්යයනයේදී න්යායික ව්යුහයන් දත්ත මගින් හොඳින් ක්රියාකරනු ලැබ ඇති අතර, දෙවනුව ඒවා නොවේ. තවදුරටත්, මෙම උදාහරණය නිදර්ශනය වන පරිදි, වැඩි දත්ත ස්වයංක්රියව ස්වයංක්රීයව ගැටළු විසඳීමට නොවේ. දෙවනි අධ්යයනයක ප්රතිඵල ඔබ සැක කළ යුතු ය. මිලි ලීටියක් මිලියනයක්, ට්රිලියන බිලියන ට්රිලියන හෝ ට්රිලියනයක ට්විටර් සංඛ්යාවක් එයට සම්බන්ධ වූවාද යන්න සැක කළ යුතු ය. වලංගු භාවය පිළිබඳ අදහස නොදන්නා පර්යේෂකයන් සඳහා, ඩිජිටල් අනුරේ දත්ත භාවිතයෙන් න්යායාත්මක සැකසුම් ක්රියාත්මක කර ඇති අධ්යයනයන් කිහිපයක් පහත දැක්වේ.
දත්ත මූලාශ්රය | න්යායික ඉදිකිරීම | පරිශීලන |
---|---|---|
විශ්ව විද්යාලයකින් ඊ-තැපැල් ලොග් (meta-data only) | සමාජ සම්බන්ධතා | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
වෙබෝබෙ සමාජ මාධ්ය පෝස්ට් | සිවිල් කටයුතු | Zhang (2016) |
සමාගමෙන් ඊ-තැපැල් ලොග් (meta-data සහ සම්පූර්ණ පෙළ) | සංවිධානයක සංස්කෘතික ගැලපීම | Srivastava et al. (2017) |
අසම්පූර්ණ දත්ත විශ්ලේෂණය සඳහා න්යායාත්මක සැකැස්මක් සවි කිරීම සඳහා ගැටළුව විසදීමට අපහසු වුවද, වෙනත් පොදු නොවන ආකාරයන් සඳහා පොදු විසඳුම් ඇත: අසම්පූර්ණ ජන විකාශ තොරතුරු සහ වෙනත් වේදිකාවන් මත හැසිරීම් පිළිබඳ අසම්පූර්ණ තොරතුරු. පළමු විසඳුම ඔබ අවශ්ය දත්ත එකතු කිරීමයි. 3 වන පරිච්ඡේදයේ මම ඔබට සමීක්ෂණ ගැන කියන්නම්. දෙවන ප්රධානතම විසඳුම වන්නේ දත්ත විද්යාඥයින් විසින් පරිශීලක ගති ලක්ෂණ ලබා ගැනීමෙන් අදහස් කරන අතර සමාජ විද්යාඥයින් දෝෂාරෝපණයට කැඳවනු ඇත. මෙම ප්රවිෂ්ටය තුළ, පර්යේෂකයන් වෙනත් අයගේ ගුණාංග නිශ්චය කර ගැනීම සඳහා සමහර පුද්ගලයන් මත ඇති තොරතුරු භාවිතා කරයි. තෙවන විභවමය විසඳුම වන්නේ බහු දත්ත මූලාශ්ර ඒකාබද්ධ කිරීමයි. මෙම ක්රියාවලිය ඇතැම් අවස්ථාවලදී වාර්තාගත සම්බන්ධතාවයක් ලෙස හැඳින්වේ. මෙම ක්රියාවලිය සඳහා මගේ ප්රියතම රූපාව ලියා ඇත්තේ Dunn (1946) විසිනි: පළමු ලියවිල්ලේ මුල්ම ඡේදයේ මුල්ම ඡේදයේ ලියා ඇත්තේ:
"ලෝකයේ සෑම පුද්ගලයෙක්ම ජීවන පොතක් නිර්මාණය කරයි. මෙම පොත උපතෙන් පටන් ගනී. මරණයෙන් අවසන් වේ. එහි පිටු ප්රධාන වශයෙන් ජීවිතයේ ප්රධාන සිදුවීම් වාර්තා වේ. වාර්තා බැඳීම යනු මෙම පොතේ පිටු වෙළුමකට ලබා දුන් නමටයි. "
ඩන්, එම ඡේදය ලිවූ විට, උපත, විවාහය, දික්කසාදය හා මරණය වැනි ජීවිත ජීවිතයේ සිදුවීම් ඇතුළත් ජීවිතයේ පොතක් ඇතුළත් විය. කෙසේ වෙතත්, ජනතාව පිළිබඳ බොහෝ තොරතුරු වාර්තා වී ඇති අතර, එම වෙනස් පිටු (එනම්, අපගේ ඩිජිටල් අනුරූ) එකට බැඳිය හැකි නම්, ජීවිතයේ පොතක් අපූර්ව ලෙස සවිස්තරාත්මක චිත්රයක් විය හැකිය. මෙම ග්රන්ථයේ ජීවිතය පර්යේෂකයන්ට විශාල සම්පතක් විය හැකිය. එහෙත්, එය 6 වන පරිච්ඡේදයෙහි (ආචාර ධර්ම) විස්තර කර ඇති පරිදි සියලු වර්ගයේ සදාචාරාත්මක අරමුණු සඳහා යොදා ගත හැකි විනාශකාරී දත්ත ගබඩාවක් (Ohm 2010) ලෙස හැඳින්විය හැකිය.