මෙයට කාරණය එය බොහෝ විට ඔබට අවශ්ය තොරතුරු නොමැත "විශාල" ඔබේ "ලොකු දත්ත" ආකාරය.
බොහෝ විශාල දත්ත මූලාශ්රයන් ඔවුන් ඔබ ඔබේ පර්යේෂණ සඳහා අවශ්ය කරන බව තොරතුරු නොමැති බව අර්ථයෙන්, අසම්පූර්ණ වේ. මෙම පර්යේෂණ වඩා වෙනත් අරමුණු සඳහා නිර්මාණය කර ඇති දත්ත, පොදු ලක්ෂණයකි. බොහෝ සමාජ විද්යාඥයින් දැනටමත් ඔබට අවශ්ය ප්රශ්නයක් ඇසිය නැති බව දැනට පවතින සමීක්ෂණය ලෙස, incompleteness සමඟ කටයුතු අත්දැකීම් තිබුණා. අවාසනාවකට මෙන්, incompleteness ප්රශ්න විශාල දත්ත වඩා අන්ත විය හැක. න්යායික නිර්මාණය කරන ක්රියාත්මක කිරීමට ජන විකාශන, අනෙකුත් වේදිකා මත හැසිරීම, සහ දත්ත: මගේ අත්දැකීම්, මහා දත්ත සමාජ විද්යාත්මක පර්යේෂණ සඳහා ප්රයෝජනවත් තොරතුරු වර්ග තුනක් අතුරුදහන් කිරීමට පෙලඹී තිබේ.
Incompleteness මෙවැනි ආකාරවල තිදෙනාම Gueorgi Kossinets සහ ඩන්කන් වොට්ස් විසින් අධ්යයනය පැහැදිලි කිරීම සිදු වේ (2006) විශ්වවිද්යාලයක සමාජ ජාල පරිණාමය ගැන. Kossinets හා වොට්ස් (පර්යේෂකයන් විද්යුත් තැපැල් අන්තර්ගතය වෙත ප්රවේශ වුණේ නැහැ) කොයි වේලාවේ කාටද ඊමේල් එවූ හමුදා තොරතුරු තිබූ විශ්ව විද්යාල, සිට ඊ-තැපැල් ලඝු-සටහන් සඳහා කටයුතු ආරම්භ කරන ලදී. මෙම ඊ-තැපැල් වාර්තා ඔවුන්-නොතකා ඔවුන්ගේ ප්රමාණය හා ග්රැනුලැරිටි-මූලිකව අසම්පූර්ණ පුදුමාකාර දත්ත සමුදාය වගේ, ඒත්,. උදාහරණයක් ලෙස, එහි ඊ-මේල් ලඝු-සටහන්, එවැනි ස්ත්රී පුරුෂ හා වයස ලෙස සිසුන් ජනගහන ලක්ෂණ පිළිබඳ දත්ත ඇතුලත් වී නැත. තවද, එහි ඊ-මේල් ලඝු-සටහන් සඳහා එවැනි දුරකථන ඇමතුම්, කෙටි පණිවිඩයක් හෝ මුහුණට මුහුණ සංවාද වැනි අනෙකුත් මාධ්ය හරහා සන්නිවේදනය පිළිබඳ තොරතුරු ඇතුලත් වී නැත. අවසාන වශයෙන්, ඊ-තැපැල් ලඝු-සටහන් සඳහා සෘජුවම සබඳතා, බොහෝ පවතින න්යායන් න්යායාත්මක නිර්මාණය කරන තොරතුරු ඇතුලත් වී නැත. පසුව පරිච්ඡේදයේ, මම පර්යේෂණ උපාය මාර්ග ගැන කතා කරන විට, ඔබ Kossinets හා වොට්ස් මේ ප්රශ්න විසඳා ආකාරය පෙනෙනු ඇත.
incompleteness වර්ග තුනක්, න්යායික නිර්මාණය කරන ක්රියාත්මක කිරීමට අසම්පූර්ණ දත්ත ප්රශ්නය විසඳීම සඳහා අමාරුම වන අතර, මගේ අත්දැකීම් දී, එය බොහෝ විට අහම්බෙන් දත්ත විද්යාඥයන් විසින් නොසලකා ඇත. දළ වශයෙන්, න්යායික නිර්මාණය කරන සමාජ විද්යාඥයන් අධ්යයනය වියුක්ත අදහස් වේ, නමුත්, අවාසනාවකට මෙන්, මෙම නිර්මාණය කරන සෑම විටම පරිද්දෙන් තේරුම නිශ්චිතවම අර්ථ හා මැනිය නොහැක. උදාහරණයක් වශයෙන්, ආනුභාව සම්පන්නව වඩා බුද්ධිමත් පුද්ගලයන් වැඩි වැඩියෙන් මුදල් උපයා බව පෙනෙන සරල ප්රකාශය පරීක්ෂා කිරීමට උත්සාහ හිතාගන්න ඉඩ දෙන්න. ඔබට මැනීමට අවශ්ය වනු ඇත මෙම ප්රකාශය පරීක්ෂා කිරීමට "බුද්ධි." සඳහා එහෙත්, බුද්ධි අංශ කුමක්ද? උදාහරණයක් ලෙස, Gardner (2011) බුද්ධි විවිධ ආකාර අට ඇත්තටම පවතින බව තර්ක කලේය. ඒ වගේම, නිවැරදිව බුද්ධි අංශ මෙම ආකෘති ඕනෑම මැනීමට හැකි බව පටිපාටි තිබෙනවාද? මනෝ විසින් වැඩ අති විශාල ප්රමාණයන්ගෙන් තිබිය දී ම, මේ ප්රශ්න තවමත් විස්තර කරනා පිළිතුරු නැහැ. මේ අනුව, ඊටත් වඩා බුද්ධිමත් අය සාපේක්ෂව සරල ප්රකාශය-ජනතාව වැඩියෙන් උපයා මුදල් කළ හැකි ආනුභාව සම්පන්නව තක්සේරු කිරීමට දුෂ්කර ද දත්ත න්යායික නිර්මාණය කරන ක්රියාත්මක කිරීමට අසීරු විය හැකි නිසා විය. "සම්මතයන්," "සමාජ ප්රාග්ධනය," සහ "ප්රජාතන්ත්රවාදය ඇතුළත් ක්රියාත්මක කිරීමට වැදගත් වුවද අපහසු බව න්යායික නිර්මාණය කරන තවත් උදාහරණ." සමාජ විද්යාඥයන් න්යායික නිර්මාණය කරන හා දත්ත ඉදිකිරීමක් වලංගු අතර තරගය කතා (Cronbach and Meehl 1955) . ඒ වගේම, නිර්මාණය කරන මෙම ලැයිස්තුව වලංගු ඉදිකිරීමට, යෝජනා ලෙස සමාජ විද්යාඥයන් ඔවුන් පර්යේෂණ සඳහා එකතු වූ බව දත්ත සමග වැඩ කරමින් සිටියදී පවා ඉතා දීර්ඝ කාලයක් සඳහා විඳ තිබෙනවා ගැටලුව මෙයයි. පර්යේෂණ වඩා වෙනත් අරමුණු සඳහා එකතු කල දත්ත සමග වැඩ කරන විට, ඉදිකිරීමක් වලංගු ගැටලු ඊටත් වඩා අභියෝගාත්මක වේ (Lazer 2015) .
ඔබ පර්යේෂණ ලිපිය කියවන විට, ඉදිකිරීමක් වලංගු පිළිබඳව ප්රශ්න තක්සේරු කිරීමට එක් ඉක්මන් හා ප්රයෝජනවත් ආකාරයෙන් සාමාන්යයෙන් නිර්මාණය කරන ප්රකාරව ප්රකාශ වන කඩදාසි, ප්රධාන ප්රකාශය ගැනීමට, සහ භාවිතා කරන දත්ත අනුව එය නැවත ප්රකාශ වේ. උදාහරණයක් ලෙස, වඩාත් බුද්ධිමත් ජනතාව වැඩි වැඩියෙන් මුදල් උපයා බව පෙන්වීමට බව කියාපාන උපකල්පිත අධ්යයන දෙකක් සලකා බලමු:
මේ අවස්ථා දෙකේ දී, පර්යේෂකයන් ඔවුන් වැඩි බුද්ධිමත් ජනතාව වැඩි වැඩියෙන් මුදල් උපයා බව පෙන්වා දී ඇත බව තහවුරු විය. එහෙත්, පළමු වන අධ්යයනය න්යායාත්මක නිර්මාණය කරන හොඳින් දත්ත මගින් මෙහෙයවනු ඇති අතර, දෙවන, ඔවුන් නොවේ. තවද, මෙම උදාහරණය පෙන්නුම් ලෙස, වැඩි දත්ත ස්වයංක්රීයව ඉදිකිරීමක් වලංගු ගැටළු විසඳන්නේ නැහැ. ඔබ එය මිලියන tweets, බිලියන tweets, හෝ ට්රිලියන tweets සම්බන්ධ යන්න අධ්යයනය 2 ප්රතිඵල සැක කළ යුතුය. ඉදිකිරීමක් වලංගු අදහස හුරු පුරුදු නැති පර්යේෂකයන් සඳහා, ව ව 2.2 ඩිජිටල් හෝඩුවාවක් දත්ත භාවිතා න්යායික නිර්මාණය කරන මෙහෙයවනු ඇති බව අධ්යයන උදාහරණ කිහිපයක් සපයයි.
ඩිජිටල් හෝඩුවාවක් | න්යායික ඉදිකිරීමක් | සඳහනක් |
---|---|---|
විශ්ව විද්යාල (පාර-දත්ත පමණි) වෙතින් ඊ-තැපැල් ලඝු-සටහන් | සමාජ සබඳතා | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Weibo මත සමාජ මාධ්ය තනතුරු | සිවිල් කටයුතු | Zhang (2016) |
තදින් (පාර-දත්ත සහ සම්පූර්ණ පෙළ) සිට ඊ-තැපැල් ලඝු-සටහන් | සංවිධානයක් සංස්කෘතික සුදුසු | Goldberg et al. (2015) |
ක්රියාවේ යෙදවීම න්යායික නිර්මාණය කරන අස ණ දත්ත ප්රශ්නය විසඳීම සඳහා ඉතා වෙහෙස මහන්සි වී වුවද, අසම්පූර්ණ ජනවිකාශ තොරතුරු හා අනෙකුත් වේදිකා මත හැසිරීම මත අසම්පූර්ණ තොරතුරු පිළිබඳ ගැටලුවට විසදුම් සෙවීම තුනක් තිබේ. පළමු ඇත්තටම ඔබට අවශ්ය දත්ත එකතු කිරීම, ය; මම 3 වන පරිච්ඡේදය බව උදාහරණයක් ගැන ඔබට කියන්නම් මම සමීක්ෂණ ගැන ඔබට කියන්න විට. අවාසනාවකට මෙන්, දත්ත රැස් කිරීම මේ ආකාරයේ හැකි සෑම විටම නොවේ. දෙවන ප්රධාන විසඳුමක් දත්ත විද්යාඥයන් පරිශීලක-විශේෂණය අනුමානය විශ්වාසනීයත්වයක් දේ සමාජ විද්යාඥයන් දෝෂාරෝපණ කතා හඳුන්වන දේ සිදු කිරීමය. මෙම ප්රවේශය පර්යේෂකයන් සඳහා වෙනත් අයගේ ලක්ෂණ දැක්වීමට සමහර අය මත ඔවුන් එම තොරතුරු භාවිතා කරන්න. ඇති විය හැකි තුන් වන Kossinets විසින් භාවිත එක් බහු දත්ත මූලාශ්රයන් ඒකාබද්ධ කිරීමට වොට්ස්-විය. මෙම ක්රියාවලිය සමහර විට ඒකාබද්ධ කිරීම ෙහෝ වාර්තාවක් සම්බන්ධය ලෙස හැඳින්වේ. මෙම ක්රියාවලිය සඳහා මගේ ප්රියතම ද විදහාපාන අගනා රූපකයකි මෙතෙක් වාර්තා සම්බන්ධතාවය මත ලියා පළමු කඩදාසි කරන පළමු ඡේදයේ යෝජනා විය (Dunn 1946) :
"ලෝකයේ එක් එක් පුද්ගලයා ජීවිත පොත නිර්මාණය කරයි. මේ ධර්ම ග්රන්ථය උපත සමඟ ආරම්භ හා මරණය සමග අවසන් වේ. එහි පිටු ජීවිතයේ මූලධර්මය සිදුවීම් වාර්තා සෑදී ඇත. වාර්තා සම්බන්ධතාවය නිසාම පරිමාව බවට මේ පොතේ පිටු එකලස් කිරීමේ ක්රියාවලිය සඳහා ලබා දී ඇති නම. "
මේ කොටස 1946 දී ලියන ලදි, සහ එම අවස්ථාවේ දී, ජනතාව ජීවිත පොත උපත, විවාහය, දික්කසාදය, හා මරණය වැනි ජීවිතයේ ප්රධාන සිදුවීම් ඇතුලත් විය හැකි බව කල්පනා විය. කෙසේ වෙතත්, ජනතාව ගැන මේ තරම් තොරතුරු වාර්තා වී ඇත, පොතේ සඳහන් ජීවන ඇදහිය නොහැකි තරම් විස්තරාත්මක චිත්රයක් විය හැකි බව දැන්, එම විවිධ පිටු (එනම්, අපගේ ඩිජිටල් අංශු මාත්ර) නම්, එකට බැඳී ගත හැක. ලයිෆ් මේ ධර්ම ග්රන්ථය පර්යේෂකයන් සඳහා මහත් සම්පත් විය හැක. එහෙත්, රක්ෂණ, ජීවිත රක්ෂණ පොත ද විනාශය දත්ත සමුදා හඳුන්වන්න පුළුවන් (Ohm 2010) , මම පහත ලොකු දත්ත මූලාශ්රයන් විසින් එකතු කරනු ලබන තොරතුරුවල සංවේදී ස්වභාවය ගැන කතා කරන විට තවත් පහත විස්තර ලෙස, සදාචාරාත්මක නොවන අරමුණු සඳහා, සියලු වර්ගවල සඳහා භාවිතා කළ හැකි හා 6 පරිච්ඡේදය (ආචාර ධර්ම) දී.