உங்கள் பெரிய தரவு எவ்வளவு பெரிய விஷயம் இல்லை, அது உங்களுக்குத் தேவையான தகவல் இல்லை.
மிகப்பெரிய பெரிய தரவு ஆதாரங்கள் முழுமையடையாது , உங்கள் ஆராய்ச்சிக்கு நீங்கள் விரும்பும் தகவலை அவர்கள் கொண்டிருக்கவில்லை என்ற அர்த்தத்தில். ஆராய்ச்சி தவிர வேறு நோக்கங்களுக்காக உருவாக்கப்பட்ட தரவுகளின் பொதுவான அம்சமாகும் இது. அநேக சமூக அறிவியலாளர்கள் ஏற்கெனவே நிலவும் மதிப்பைப் பெறாத அனுபவத்தை பெற்றிருக்கிறார்கள், இது ஏற்கனவே தேவைப்பட்ட கேள்வியைக் கேட்காத ஒரு சர்வே போன்றது. துரதிருஷ்டவசமாக, பெருமளவிலான சிக்கல்கள் பெரிய தரவுகளில் மிகவும் தீவிரமானவை. என் அனுபவத்தில், பெரிய தரவு சமூக ஆராய்ச்சிக்கான பயனுள்ள மூன்று வகை தகவல்களை காணவில்லை: பங்கேற்பாளர்களைப் பற்றிய மக்கள் தொகை விவரங்கள், மற்ற தளங்களில் நடத்தை, மற்றும் கோட்பாட்டு கட்டமைப்புகளை செயலாக்க தரவு.
முரணான மூன்று வகைகளில், கோட்பாட்டு கட்டடங்களை செயல்படுத்துவதற்கு முழுமையற்ற தரவுகளின் சிக்கல் தீர்க்க கடினமானதாகும். என் அனுபவத்தில், அது அடிக்கடி தற்செயலாக கண்காணிக்கப்படுகிறது. பருமட்டாக, தத்துவார்த்த கட்டமைப்புகளை சமூக விஞ்ஞானிகள் ஆய்வு மற்றும் செயல்படுத்த ஒரு தத்துவார்த்த கட்டமைப்பாக என்று காணக்கூடிய தரவு கட்ட கைப்பற்ற சில வழி யோசனை அர்த்தம் வாத உத்திகளைப் உள்ளன. துரதிருஷ்டவசமாக, இந்த எளிய-ஒலித்தல் செயல்முறை மிகவும் கடினமானதாக மாறிவிடும். உதாரணமாக, மேலும் புத்திசாலித்தனம் கொண்டவர்கள் அதிக பணம் சம்பாதிக்கலாம் என்று வெளிப்படையாக எளிய கூற்றை சோதிக்க முயற்சிப்போம். இந்தக் கூற்றை சோதிப்பதற்காக, நீங்கள் "உளவுத்துறையை" அளவிட வேண்டும். ஆனால் உளவுத்துறை என்ன? Gardner (2011) எட்டு வெவ்வேறு வகையான புலனாய்வுத் தகவல்கள் உள்ளன என்று வாதிட்டார். இந்த வகையான உளவுத்துறையைத் துல்லியமாக அளவிடுவதற்கான நடைமுறைகள் உள்ளனவா? உளவியலாளர்களால் மிகப்பெரிய அளவிலான வேலைகள் இருந்தபோதிலும், இந்த கேள்விகளுக்கு இன்னமும் தெளிவான பதில் இல்லை.
எனவே, ஒப்பீட்டளவில் எளிய கூற்று-இன்னும் புத்திசாலித்தனம் கொண்டவர்கள் அதிக பணம் சம்பாதிக்கிறார்கள்-இது தற்செயல் ரீதியாக மதிப்பீடு செய்வது கடினம், ஏனென்றால் தரவில் கோட்பாட்டு கட்டமைப்புகளை செயல்படுத்துவது கடினமாக இருக்கலாம். "கோட்பாடுகள்," "சமூக மூலதனம்," மற்றும் "ஜனநாயகம்" ஆகியவை அடங்கும் முக்கியத்துவம் வாய்ந்த கருத்தியல்களின் பிற உதாரணங்கள். சமூக விஞ்ஞானிகள் தத்துவார்த்த கட்டமைப்பு (Cronbach and Meehl 1955) செல்லுபடியாகும் (Cronbach and Meehl 1955) இடையேயான போட்டியை அழைக்கின்றனர். கட்டடங்களின் இந்த குறுகிய பட்டியல் குறிப்பிடுவது போல, செல்லுபடியாகும் கட்டம் என்பது சமூக விஞ்ஞானிகள் மிக நீண்ட காலமாக போராடியிருக்கிறார்கள். ஆனால் என் அனுபவத்தில், ஆராய்ச்சியின் நோக்கங்களுக்கு (Lazer 2015) உருவாக்கப்படாத (Lazer 2015) பணிபுரியும் போது, உருவாக்கக்கூடிய செல்லுபடியாக்கத்தின் சிக்கல்கள் மிக அதிகம்.
நீங்கள் ஆராய்ச்சி முடிவுகளை மதிப்பீடு செய்யும் போது, நம்பகத்தன்மையை மதிப்பிடுவதற்கான ஒரு விரைவான மற்றும் பயனுள்ள வழி விளைவாக எடுத்துக் கொள்ளுங்கள், இது வழக்கமாக கட்டடங்களின் அடிப்படையில் வெளிப்படுத்தப்படுகிறது, மேலும் இது பயன்படுத்தப்பட்ட தரவு அடிப்படையில் மறுபடியும் வெளிப்படுத்தப்படுகிறது. உதாரணமாக, இரண்டு புத்திசாலித்தனமான ஆய்வுகள் கருதுகின்றன, மேலும் புத்திசாலித்தனம் கொண்டவர்கள் அதிக பணம் சம்பாதிக்கிறார்கள் என்று காட்டுகிறார்கள். ரேவன் புரோஜெக்டிக் மாட்ரிஸில் டெஸ்ட்-பகுப்பாய்வு நுண்ணறிவு (Carpenter, Just, and Shell 1990) நன்கு ஆய்வு செய்யப்பட்ட சோதனைகளில், அதிகமான வருவாய் பெற்றவர்கள் தங்கள் வரி வருமானத்தில் அதிகமான வருமானம் ஈட்டப்பட்டிருப்பதாக முதல் ஆய்வில் ஆராய்ச்சியாளர் கண்டறிந்தார். இரண்டாவது ஆய்வில், ஆராய்ச்சியாளர் நீண்ட வார்த்தைகள் பயன்படுத்தப்படும் யார் ட்விட்டர் மக்கள் ஆடம்பர பிராண்ட்கள் குறிப்பிட அதிக வாய்ப்பு உள்ளது என்று கண்டுபிடிக்கப்பட்டது. இரண்டு சந்தர்ப்பங்களிலும், இந்த ஆராய்ச்சியாளர்கள் இன்னும் புத்திசாலித்தனம் கொண்டவர்கள் அதிக பணம் சம்பாதிக்கிறார்கள் என்று காட்டியுள்ளனர் என்று கூறலாம். இருப்பினும், முதல் ஆய்வில், கோட்பாட்டு ரீதியான கட்டமைப்புகள் தரவுகளால் நன்கு செயல்பட்டு வருகின்றன, அதே நேரத்தில் இரண்டாவது இல்லை. மேலும், இந்த உதாரணம் விளக்குகிறது என, மேலும் தரவு தானாகவே கட்டுமான செல்லுபடியாகும் பிரச்சினைகளை தீர்க்க முடியாது. இது ஒரு மில்லியன் ட்வீட், ஒரு பில்லியன் ட்வீட் அல்லது ஒரு ட்ரில்லியன் ட்வீட் ஆகியவற்றை உள்ளடக்கியதா என்பதை இரண்டாம் கட்டுரையின் முடிவுகளில் நீங்கள் சந்தேகிக்க வேண்டும். டிஜிட்டல் டிரேஸ் தரவைப் பயன்படுத்தி தத்துவார்த்த கட்டமைப்புகளை நடைமுறைப்படுத்திய சில ஆய்வுகள், அட்டவணை 2.2 ஐக் குறிப்பிடுகின்றன.
தரவு மூலம் | கோட்பாட்டு கட்டுமானம் | குறிப்புகள் |
---|---|---|
பல்கலைக்கழகத்திலிருந்து மின்னஞ்சல் பதிவுகள் (மெட்டா தரவு மட்டும்) | சமூக உறவுகள் | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) Kossinets and Watts (2009) De Choudhury et al. (2010) |
Weibo இல் சமூக ஊடக பதிவுகள் | குடிமகன் நிச்சயதார்த்தம் | Zhang (2016) |
ஒரு நிறுவனத்திலிருந்து மின்னஞ்சல் பதிவுகள் (மெட்டா டேட்டா மற்றும் முழு உரை) | ஒரு நிறுவனத்தில் கலாச்சார பொருத்தம் | Srivastava et al. (2017) |
கோட்பாட்டு கட்டடங்களை கைப்பற்றுவதற்கான முழுமையற்ற தரவு சிக்கலானது மிகவும் கடினமானதாக இருந்தாலும், பிற பொது வகைகளின் பொதுவான தீர்வுகளுக்கு பொதுவான தீர்வுகள் உள்ளன: முழுமையடையாத புள்ளி விவரங்கள் மற்றும் மற்ற தளங்களில் நடத்தையின் முழுமையற்ற தகவல்களும். முதல் தீர்வு உண்மையில் உங்களுக்கு தேவையான தரவுகளை சேகரிக்க வேண்டும்; அத்தியாயம் 3-ல் நான் உங்களுக்கு சொல்கிறேன். இரண்டாவது முக்கிய தீர்வு தரவு விஞ்ஞானிகள் அழைக்க என்ன பயனர் பண்பு அனுமானம் மற்றும் சமூக விஞ்ஞானிகள் பொறுப்பேற்கும் அழைக்க செய்ய உள்ளது. இந்த அணுகுமுறையில், ஆராய்ச்சியாளர்கள் மற்றவர்களுடைய பண்புகளைத் தாங்கிக்கொள்ள சில நபர்களைக் கொண்டுள்ள தகவல்களைப் பயன்படுத்துகின்றனர். மூன்றாவது சாத்தியமான தீர்வு பல தரவு மூலங்களை இணைப்பது ஆகும். இந்த செயல்முறை சில நேரங்களில் பதிவு இணைப்பு என்று அழைக்கப்படுகிறது. இந்த செயல்முறைக்கான எனக்கு விருப்பமான உருவகம் Dunn (1946) எழுதப்பட்ட முதல் கட்டுரையில் பதிவுசெய்யப்பட்ட முதல் கட்டுரையில் எழுதப்பட்டது:
"உலகில் உள்ள ஒவ்வொருவருக்கும் புத்தகம் ஒரு புத்தகத்தை உருவாக்குகிறது. இந்த புத்தகம் பிறப்புடன் தொடங்குகிறது மற்றும் மரணம் முடிவடைகிறது. அதன் பக்கங்கள் வாழ்க்கையில் முக்கிய நிகழ்வுகள் பதிவு செய்யப்பட்டுள்ளன. இந்தப் புத்தகத்தின் பக்கங்களை ஒரு தொகுதிக்குள் இணைப்பதற்கான செயல்முறைக்கு பதிவு இணைப்பு உள்ளது. "
டன் எழுதிய பத்தியில் அவர் எழுதிய புத்தகம், ஜீவ புத்தகம் பிறப்பு, திருமணம், விவாகரத்து மற்றும் இறப்பு போன்ற பெரிய வாழ்க்கை நிகழ்வுகளை உள்ளடக்கியது என்று கற்பனை செய்து கொண்டிருந்தார். இருப்பினும், இப்போது மக்கள் பற்றிய மிக அதிகமான தகவல்கள் பதிவு செய்யப்பட்டுள்ளன, அந்த புத்தகங்கள் (அதாவது, எங்கள் டிஜிட்டல் தடயங்கள்) ஒன்றாக இணைக்கப்படலாம் என்றால், புத்தக புத்தகம் நம்பமுடியாத அளவிற்கு விரிவான சித்திரத்தை உருவாக்க முடியும். இந்த புத்தக நூல் ஆராய்ச்சியாளர்களுக்கான சிறந்த ஆதாரமாக இருக்கலாம். ஆனால், இது எல்லா வகையான நியாயமற்ற நோக்கங்களுக்காகவும் பயன்படுத்தப்படக்கூடிய ஒரு தரவுத்தள அழிவு (Ohm 2010) , நான் 6 ஆம் அதிகாரத்தில் (நெறிமுறைகள்) விவரிக்கிறேன்.