செறிவான கோரிக்கைகளில், கணக்கெடுப்பு தரவு ஒரு பெரிய தரவு மூலத்தைச் சுற்றி சூழலை உருவாக்குகிறது, அதில் சில முக்கிய அளவீடுகள் உள்ளன, ஆனால் மற்றவர்களுடனும் இல்லை.
கணக்கெடுப்புத் தரவு மற்றும் பெரிய தரவு ஆதாரங்களை ஒன்றிணைக்க ஒரு வழி, செறிவான கோரிக்கையை நான் அழைக்கிறேன். செறிவான கோரிக்கைகளில், ஒரு பெரிய தரவு ஆதாரம் சில முக்கிய அளவீடுகளைக் கொண்டுள்ளது, ஆனால் மற்ற அளவீடுகளைக் கொண்டிருக்கவில்லை, அதனால் ஆய்வாளர் ஆராய்ச்சியில் காணாமல் போன அளவீடுகளை சேகரித்து, இரண்டு தரவு ஆதாரங்களை ஒன்றாக இணைத்துள்ளார். பேஸ்புக்கில் தொடர்புகொள்வது தொடர்பாக Burke and Kraut (2014) படிப்படியாக செழுமையாக கேட்கும் ஒரு எடுத்துக்காட்டு, பிரிவு 3.2 இல் விவரிக்கப்பட்ட நட்பு வலிமையை அதிகரிக்கிறது). அந்த வழக்கில், பர்க் மற்றும் க்ராட் ஆகியோர் பேஸ்புக் பதிவு தரவுடன் கணக்கெடுப்புத் தரவுகளை இணைத்தனர்.
எனினும், புர்கே மற்றும் க்ராட் பணிபுரியும் அமைப்பு, எனினும், ஆராய்ச்சியாளர்கள் செறிவான கேட்டல் பொதுவாக எதிர்கொள்ளும் இரண்டு பெரிய பிரச்சினைகளை சமாளிக்க வேண்டிய அவசியம் இல்லை. முதலாவதாக, தனிப்பட்ட தரவுத் தரவு தொகுப்புகளை ஒன்றாக இணைக்கும், ஒரு தரவுத்தளத்தில் சரியான பதிவுகள் சரியான பதிவோடு பொருந்துகிறதா என்பதை உறுதிப்படுத்த, தரவு மூலங்களில் தனிப்பட்ட அடையாளங்காட்டி இல்லை என்றால் பதிவு இணைப்பு இணைப்பு எனப்படும் செயல்முறை கடினமாக இருக்கலாம். மற்ற தரவுத்தொகுப்பில். செறிவான கேட்கும் இரண்டாவது முக்கிய பிரச்சனை என்னவென்றால், பெரிய தரவுகளின் தரமானது, ஆராய்ச்சியாளர்கள் மதிப்பீடு செய்வதற்கு கடினமாக இருக்கும் என்பதால், தரவு உருவாக்கிய செயல்முறை தனியுரிமை மற்றும் அத்தியாயம் 2 இல் விவரிக்கப்பட்டுள்ள பல சிக்கல்களுக்கு எளிதில் பாதிக்கப்படலாம். வேறு வார்த்தைகளில் கூறுவதானால், செறிவான கோரிக்கை என்பது அடிக்கடி அறியப்படாத தரவின் கறுப்பு-பாக்ஸ் தரவு ஆதாரங்களுக்கான தவறான பிணைப்பை இணைக்கும். எவ்வாறாயினும், இந்த பிரச்சினைகள் இருந்த போதினும், ஸ்டீபன் அன்சாலாபேரெ மற்றும் ஈடன் ஹெர்ஷ் (2012) ஆகியோரால் ஐக்கிய மாகாணங்களில் வாக்களிக்கும் முறைகளில் தங்கள் ஆராய்ச்சியால் நிரூபிக்கப்பட்டதன் மூலம், முக்கியமான ஆராய்ச்சியை மேற்கொள்ளும் வகையில்,
அரசியல் விஞ்ஞானத்தில் விரிவான ஆராய்ச்சியின் விளைவாக வாக்காளர் வாக்குப்பதிவு இடம்பெற்றுள்ளது, கடந்த காலத்தில், யார் மதிப்பெண்களைப் பற்றிய ஆராய்ச்சியாளர்களின் புரிந்துணர்வு மற்றும் பொதுவாக சர்வே தரவரிசை பகுப்பாய்வை அடிப்படையாகக் கொண்டது. எவ்வாறாயினும், ஐக்கிய மாகாணங்களில் வாக்களிப்பது ஒவ்வொரு குடிமகனும் வாக்களித்திருக்கிறதா என்பதை அரசாங்கம் பதிவுசெய்வதில் ஒரு அசாதாரண நடத்தை ஆகும் (நிச்சயமாக, ஒவ்வொரு குடிமகனும் யார் வாக்களிக்கும் என்பதை அரசாங்கம் பதிவு செய்யவில்லை). பல ஆண்டுகளாக, இந்த அரசாங்க வாக்களிப்பு பதிவுகள் காகித வடிவங்களில் கிடைக்கின்றன, நாடு முழுவதும் பல்வேறு உள்ளூர் அரசாங்க அலுவலகங்களில் சிதறி. அரசியல் விஞ்ஞானிகள் வாக்காளர்களின் முழுமையான படம் மற்றும் அவர்களின் உண்மையான வாக்களிக்கும் நடத்தை (Ansolabehere and Hersh 2012) உடன் வாக்களிப்பதைப் பற்றி மக்கள் என்ன கூறுகிறார்கள் என்பதை ஒப்பிட்டுப் பார்ப்பதற்கு மிகவும் கடினமானதாக ஆனால் இது சாத்தியமற்றது.
ஆனால் இந்த வாக்களிப்பு பதிவுகள் இப்போது டிஜிட்டல் செய்யப்பட்டுவிட்டன, பல தனியார் நிறுவனங்களும் முறையாக சேகரிக்கப்பட்டன மற்றும் அவற்றை ஒருங்கிணைத்து, விரிவான மாஸ்டர் வாக்களிக்கும் கோப்புகளை உருவாக்குகின்றன, இதில் அனைத்து அமெரிக்கர்களின் வாக்களிப்பு நடத்தை உள்ளது. வாக்காளர்களின் சிறந்த படத்தை அபிவிருத்தி செய்வதற்கு அவர்களின் மாஸ்டர் வாக்குப்பதிவுப் படிவத்தைப் பயன்படுத்த, இந்த நிறுவனங்களில் ஒன்றான காஸ்டிஸ்ட் LCC- உடன் அன்சலபேரெர் மற்றும் ஹெர்ஷ் பங்கு பெற்றனர். தரவு சேகரிப்பு மற்றும் ஒத்திசைவுகளில் கணிசமான ஆதாரங்களை முதலீடு செய்திருந்த நிறுவனத்தால் சேகரிக்கப்பட்ட மற்றும் கவரப்பட்ட டிஜிட்டல் பதிவுகளில் தங்களுடைய ஆய்வு நம்பியிருந்ததால், நிறுவனங்களின் உதவியின்றி, அனலாக் பதிவுகள் பயன்படுத்துவதன் மூலம் முந்தைய முயற்சிகள் மீது பல நன்மைகள் வழங்கப்பட்டன.
அத்தியாயம் 2 இல் உள்ள பெரிய தரவு ஆதாரங்களைப் போலவே, காஸ்டிஸ்ட் மாஸ்டர் கோப்பில் அசுலபாஹெர்ஹெர் மற்றும் ஹெர்ஷிற்கும் தேவைப்படும் மக்கள் தொகை, மனோபாவங்கள் மற்றும் நடத்தை சார்ந்த தகவல்கள் ஆகியவை அடங்கியிருக்கவில்லை. உண்மையில், அவர்கள் வாக்களிக்கும் வாக்களிப்பு நடத்தைகளை ஆய்வாளர்களால் சரிபார்க்கப்பட்ட வாக்களிக்கும் நடத்தை (அதாவது, காடானிஸ்ட் தரவுத்தளத்தில் உள்ள தகவல்) ஒப்பிடுவதில் குறிப்பாக ஆர்வமாக இருந்தனர். எனவே அன்சாராலேஹெர்ஹெர் மற்றும் ஹெர்ஷ் ஆகியோர் இந்த அத்தியாயத்தில் குறிப்பிட்டுள்ள ஒரு பெரிய சமூக ஆய்வு, சி.சி.இ.இ., என அவர்கள் விரும்பிய தரவுகளை சேகரித்தனர். பின்னர் அவர்கள் தங்களது தரவை காடலிஸ்ட்டிடம் கொடுத்தனர், மற்றும் காடஸ்டிஸ்ட் அவர்களிடமிருந்து இணைக்கப்பட்ட தரவுக் கோப்பை திருத்தியமைக்கப்பட்ட வாக்களிக்கும் நடத்தை (காடஸ்டிஸ்ட்), சுய தகவல் அறிக்கை நடத்தை (CCES) மற்றும் பதிவாளர்களின் (சி.சி.இ.இ.) 3.13). வேறு வார்த்தைகளில் கூறுவதானால், அன்சலபெர்ஹெர் மற்றும் ஹெர்ஷ் ஆகியோர் தரவுத்தள தரவுகளை தனித்தனியாக தரவு மூலையுடன் கூடிய சாத்தியமற்றதாக ஆய்ந்து ஆய்வு செய்வதற்கு கணக்கெடுப்பு தரவுடன் இணைத்துள்ளனர்.
அவர்களது ஒருங்கிணைந்த தரவுக் கோப்புடன், அன்சலபேர் மற்றும் ஹெர்ஷ் ஆகிய மூன்று முக்கியமான முடிவுகளுக்கு வந்தனர். முதலாவதாக, வாக்களிக்கும் வாக்கெடுப்பு மிகப்பெரியது: வாக்காளர்களில் அரைவாசி வாக்களிப்பதாக அறிவித்துள்ளனர், மேலும் வாக்களிக்கும் ஒருவர் அறிக்கை செய்தால், அவர்கள் வாக்களித்த 80% வாய்ப்பு மட்டுமே உள்ளது. இரண்டாவதாக, மேலதிக தகவல்களிப்பு சீரற்றதாக இல்லை: பொது விவகாரங்களில் ஈடுபட்டிருக்கும் உயர் வருவாய், நன்கு பயிற்றுவிக்கப்பட்ட, பாரபட்சமான, பாரியளவிலான பொதுமக்கள் மத்தியில் பொதுவானவை. வேறு வார்த்தைகளில் கூறுவதானால், வாக்களிக்கும் வாய்ப்பு அதிகம் இருக்கும் மக்கள் வாக்களிப்பதைப் பற்றி பொய் கூறலாம். மூன்றாவது மற்றும் மிகவும் விமர்சன ரீதியாக, மேலதிக தகவல்களின் அடிப்படையில் அமைந்த தன்மை காரணமாக, வாக்காளர்களுக்கும் நோட்டோரர்களுக்கும் இடையேயான உண்மையான வேறுபாடுகள் ஆய்வாளர்களிடமிருந்து தோன்றும் விட சிறியவை. உதாரணமாக, ஒரு இளங்கலை பட்டம் பெற்றவர்கள் 22 சதவீத புள்ளிகள் அதிகமாக வாக்களிக்கும் வாய்ப்பு உள்ளது, ஆனால் உண்மையில் வாக்களிக்க 10 சதவீத புள்ளிகள் அதிகம். வாக்களிக்கும் நேரத்தை அடிப்படையாகக் கொண்ட ஆதார அடிப்படையிலான கோட்பாடுகள் வாக்களிப்பதை (அதாவது ஆராய்ச்சியாளர்கள் கடந்த காலங்களில் பயன்படுத்தும் தரவு) யார் உண்மையில் வாக்களிக்கும் என்பதைக் கணிப்பதை விட அதிகமாக இருக்கும் என்று கணிப்பதில் மிகச் சிறந்தது என்று ஒருவேளை வியப்புக்குரியதாக இல்லை. எனவே, Ansolabehere and Hersh (2012) அனுபவ ரீதியான கண்டுபிடிப்பு புதிய கோட்பாடுகளுக்கு வாக்களிப்பதை புரிந்துகொண்டு கணிக்க Ansolabehere and Hersh (2012) .
ஆனால் இந்த முடிவுகளை நாங்கள் எவ்வளவு நம்ப வேண்டும்? பிழைகள் தெரியாத அளவிலான பிழைகளுடன் கருப்பு-பாக்ஸ் தரவிற்கான பிழையான பிணைப்பு தொடர்பான இந்த முடிவுகளை நினைவில் கொள்க. மேலும் குறிப்பாக, இரண்டு முக்கிய படிகள் மீது கீல் முடிவுகள்: (1) துல்லியமான மாஸ்டர் தரவுப் பெயரை தயாரிப்பதற்கு பல வித்தியாசமான தரவு ஆதாரங்களை இணைக்கும் காடலிஸ்டியின் திறன் மற்றும் (2) சர்வே தரவை அதன் முதன்மை தரவுத்தளத்துடன் இணைக்க காடலிசத்தின் திறன். இந்த வழிமுறைகளில் ஒவ்வொருவகை கடினமானது, மேலும் படிப்படியான தவறுகள் ஆராய்ச்சியாளர்களை தவறான முடிவுகளுக்கு இட்டுச் செல்லும். இருப்பினும், தரவு செயலாக்கம் மற்றும் இணைத்தல் இரண்டுமே கம்பெனிஸ்ட் நிறுவனமாக இருப்பதாகக் கருதுவதால், இந்த சிக்கல்களை தீர்ப்பதில் வளங்களை முதலீடு செய்யலாம், பெரும்பாலும் எந்த அளவிலான கல்வி ஆராய்ச்சியாளரும் பொருந்தக்கூடாது. அவர்களது தாளில், அன்சாலாபேர் மற்றும் ஹெர்ஷ் ஆகிய இரண்டு படிகளின் முடிவுகளை சரிபார்க்க பல நடவடிக்கைகளை மேற்கொண்டுள்ளனர்-இவர்களில் சிலர் உரிமையுடையவர்களாக இருந்தாலும், இந்த பரிசோதனைகள், கருத்தியல் தரவுகளை கறுப்பு-பெட்டி பெரிய தரவுடன் இணைக்க விரும்பும் பிற ஆராய்ச்சியாளர்களுக்கு பயனுள்ளதாக இருக்கும் ஆதாரங்கள்.
ஆராய்ச்சியாளர்கள் இந்த ஆய்விலிருந்து எடுக்கும் பொதுவான பாடங்களை என்ன? முதலாவதாக, பெரிய தரவு ஆதாரங்களை கணக்கெடுப்பு தரவரிசையில் இருந்து பெருமளவில் மதிப்பிடுவது மற்றும் பெரிய தரவு ஆதாரங்களைக் கொண்ட கணக்கெடுப்பு தரவரிசைகளைச் செம்மைப்படுத்துவதில் இருந்து (நீங்கள் இந்த ஆய்வு அல்லது வழிமுறையைப் பார்க்க முடியும்). இந்த இரு தரவு ஆதாரங்களை இணைப்பதன் மூலம், ஆராய்ச்சியாளர்கள் தனித்தனியாகவோ அல்லது இயலாமல் இயங்குவோ ஏதோ செய்ய முடிந்தது. இரண்டாவது பொதுப் பாடமாக, காடலிஸ்ட்டின் தரவைப் போன்ற திரட்டப்பட்ட, வணிக தரவு மூலங்கள் "தரையில் சத்தியம்" எனக் கருதப்படக்கூடாது, சில சந்தர்ப்பங்களில் அவை பயனுள்ளதாக இருக்கும். சில நேரங்களில் இந்த தொகுக்கப்பட்ட, வணிகத் தரவு ஆதாரத்தை முழுமையான சத்தியத்துடன் ஒப்பிட்டு, இந்த தரவு ஆதாரங்கள் குறுகியதாக இருப்பதை சுட்டிக்காட்டுகின்றன. எனினும், இந்த விஷயத்தில், சந்தேகங்கள் தவறான ஒப்பீடுகளை செய்கின்றன: ஆய்வாளர்கள் முழுமையான சத்தியத்தின் குறுகிய பகுதியைப் பயன்படுத்துகின்ற அனைத்துத் தரவுகளும். அதற்கு பதிலாக, ஒருங்கிணைக்கப்பட்ட, வர்த்தக தரவு ஆதாரங்களை மற்ற கிடைக்கக்கூடிய தரவு மூலங்களுடன் ஒப்பிட இது சிறந்தது (எ.கா., சுய தகவல் வாக்களிப்பு நடத்தை), இது தவிர்க்க முடியாத பிழைகள் கொண்டது. இறுதியாக, Ansolabehere மற்றும் ஹெர்ஷின் ஆய்வின் மூன்றாவது பொதுப் பாடம், சில சூழ்நிலைகளில், பல தனியார் நிறுவனங்கள் சிக்கலான சமூக தரவுத் தொகுப்பை சேகரித்து, ஒத்திசைப்பதில் பெரும் முதலீடுகளை செய்து வருகின்றன.