समृद्ध पूछने में, सर्वेक्षण डेटा एक बड़े डेटा स्रोत के आसपास संदर्भ बनाता है जिसमें कुछ महत्वपूर्ण माप होते हैं लेकिन दूसरों की कमी होती है।
सर्वेक्षण डेटा और बड़े डेटा स्रोतों को गठबंधन करने का एक तरीका एक ऐसी प्रक्रिया है जिसे मैं समृद्ध पूछता हूं। समृद्ध पूछने में, एक बड़े डेटा स्रोत में कुछ महत्वपूर्ण माप होते हैं लेकिन अन्य मापों की कमी होती है ताकि शोधकर्ता इन लापता मापों को एक सर्वेक्षण में एकत्र कर लेता है और फिर दो डेटा स्रोतों को एक साथ जोड़ता है। समृद्ध पूछने का एक उदाहरण Burke and Kraut (2014) है कि फेसबुक पर बातचीत करने से दोस्ती की शक्ति बढ़ जाती है, जिसे मैंने धारा 3.2 में वर्णित किया है)। उस मामले में, बर्क और क्रौट ने फेसबुक लॉग डेटा के साथ संयुक्त सर्वेक्षण डेटा जोड़ा।
जिस सेटिंग में बर्क और क्रूट काम कर रहे थे, उनका मतलब था कि उन्हें दो बड़ी समस्याओं से निपटने की ज़रूरत नहीं थी, जो शोधकर्ता समृद्ध होकर आम तौर पर चेहरे से पूछते थे। सबसे पहले, वास्तव में व्यक्तिगत स्तर के डेटा सेट को एक साथ जोड़ने, रिकॉर्ड लिंक नामक एक प्रक्रिया, मुश्किल हो सकती है यदि डेटा स्रोत दोनों में कोई अद्वितीय पहचानकर्ता नहीं है जिसका उपयोग यह सुनिश्चित करने के लिए किया जा सकता है कि एक डेटासेट में सही रिकॉर्ड सही रिकॉर्ड के साथ मेल खाता है अन्य डेटासेट में। समृद्ध पूछताछ के साथ दूसरी मुख्य समस्या यह है कि बड़े डेटा स्रोत की गुणवत्ता अक्सर शोधकर्ताओं के आकलन के लिए मुश्किल होगी क्योंकि जिस प्रक्रिया के माध्यम से डेटा बनाया जाता है वह स्वामित्व हो सकता है और अध्याय 2 में वर्णित कई समस्याओं के लिए अतिसंवेदनशील हो सकता है। दूसरे शब्दों में, समृद्ध पूछताछ में अक्सर अज्ञात गुणवत्ता के काले-बॉक्स डेटा स्रोतों के सर्वेक्षणों के त्रुटि-प्रवण लिंकिंग शामिल होंगे। हालांकि, इन समस्याओं के बावजूद, समृद्ध पूछताछ का उपयोग महत्वपूर्ण अनुसंधान करने के लिए किया जा सकता है, जैसा संयुक्त राज्य अमेरिका में मतदान पैटर्न पर उनके शोध में स्टीफन अंसोलबेयर और ईटन हर्ष (2012) द्वारा प्रदर्शित किया गया था।
मतदाता मतदान राजनीतिक विज्ञान में व्यापक शोध का विषय रहा है, और अतीत में, शोधकर्ताओं की समझ है कि कौन वोट और आम तौर पर सर्वेक्षण डेटा के विश्लेषण पर आधारित क्यों है। हालांकि, संयुक्त राज्य अमेरिका में मतदान करना एक असामान्य व्यवहार है जिसमें सरकार ने रिकॉर्ड किया है कि क्या प्रत्येक नागरिक ने मतदान किया है (बेशक, सरकार रिकॉर्ड नहीं करती है कि प्रत्येक नागरिक किसके लिए मतदान करता है)। कई सालों से, इन सरकारी मतदान रिकॉर्ड देश भर के विभिन्न स्थानीय सरकारी कार्यालयों में बिखरे हुए पेपर फॉर्मों पर उपलब्ध थे। राजनीतिक वैज्ञानिकों के पास मतदाताओं की पूरी तस्वीर रखने के लिए और उनके वास्तविक वोटिंग व्यवहार (Ansolabehere and Hersh 2012) साथ मतदान के बारे में सर्वेक्षण में लोगों की तुलना करने के लिए यह बहुत मुश्किल है, लेकिन असंभव नहीं है।
लेकिन इन मतदान रिकॉर्डों को अब डिजिटाइज किया गया है, और कई निजी कंपनियों ने व्यवस्थित रूप से एकत्रित किया है और उन्हें व्यापक मास्टर वोटिंग फाइलों का उत्पादन करने के लिए विलय कर दिया है जिसमें सभी अमेरिकियों के मतदान व्यवहार शामिल हैं। Ansolabehere और हर्ष ने इन कंपनियों में से एक के साथ साझेदारी की- कैटलिस्ट एलसीसी - मतदाताओं की एक बेहतर तस्वीर विकसित करने में मदद के लिए अपनी मास्टर वोटिंग फ़ाइल का उपयोग करने के लिए। इसके अलावा, क्योंकि उनके अध्ययन ने डेटा संग्रह और सामंजस्यीकरण में पर्याप्त संसाधनों का निवेश करने वाली कंपनी द्वारा एकत्रित और क्यूरेट किए गए डिजिटल रिकॉर्ड पर भरोसा किया, इसने कंपनियों के सहायता के बिना और एनालॉग रिकॉर्ड का उपयोग करके किए गए पिछले प्रयासों पर कई फायदे दिए।
अध्याय 2 में कई बड़े डेटा स्रोतों की तरह, कैटलिस्ट मास्टर फ़ाइल में जनसांख्यिकीय, अनुवांशिक और व्यवहार संबंधी जानकारी शामिल नहीं थी जिसमें Ansolabehere और Hersh की आवश्यकता थी। वास्तव में, वे विशेष रूप से मान्य मतदान व्यवहार (यानी, कैटलिस्ट डेटाबेस में जानकारी) के साथ सर्वेक्षण में रिपोर्टिंग मतदान व्यवहार की तुलना करने में विशेष रुचि रखते थे। इसलिए Ansolabehere और हर्ष ने डेटा एकत्र किया कि वे एक बड़े सामाजिक सर्वेक्षण के रूप में चाहते थे, सीसीईएस, जो इस अध्याय में पहले उल्लेख किया गया था। फिर उन्होंने अपना डेटा कैटलिस्ट को दिया, और कैटलिस्ट ने उन्हें एक विलयित डेटा फ़ाइल वापस दी जिसमें वैध मतदान व्यवहार (कैटलिस्ट से), आत्म-रिपोर्ट किए गए मतदान व्यवहार (सीसीईएस से) और जनसांख्यिकी और उत्तरदाताओं के दृष्टिकोण (सीसीईएस से) (आंकड़ा) शामिल थे 3.13)। दूसरे शब्दों में, Ansolabehere और Hersh ने सर्वेक्षण डेटा के साथ मतदान रिकॉर्ड डेटा को संयुक्त किया ताकि अनुसंधान किया जा सके जो व्यक्तिगत रूप से डेटा स्रोत के साथ संभव नहीं था।
उनकी संयुक्त डेटा फ़ाइल के साथ, Ansolabehere और Hersh तीन महत्वपूर्ण निष्कर्षों पर आया था। सबसे पहले, मतदान की अधिक रिपोर्टिंग प्रचलित है: लगभग आधे मतदाताओं ने मतदान की सूचना दी, और अगर किसी ने मतदान की सूचना दी, तो केवल 80% मौका है कि उन्होंने वास्तव में मतदान किया। दूसरा, ओवर-रिपोर्टिंग यादृच्छिक नहीं है: सार्वजनिक मामलों में लगे उच्च आय वाले, अच्छी तरह से शिक्षित, पार्टियों के बीच अधिक रिपोर्टिंग अधिक आम है। दूसरे शब्दों में, जिन लोगों को वोट देने की सबसे अधिक संभावना है वे भी मतदान के बारे में झूठ बोलने की संभावना रखते हैं। तीसरा, और सबसे गंभीर रूप से, अधिक रिपोर्टिंग की व्यवस्थित प्रकृति के कारण, मतदाताओं और गैर-मतदाताओं के बीच वास्तविक अंतर सर्वेक्षण से दिखाई देने से छोटे होते हैं। उदाहरण के लिए, स्नातक की डिग्री वाले लोग लगभग 22 प्रतिशत अंक मतदान की रिपोर्ट करने की अधिक संभावना रखते हैं, लेकिन वास्तव में मतदान करने की संभावना केवल 10 प्रतिशत अधिक है। यह संभवतः आश्चर्य की बात नहीं है कि वोटिंग के मौजूदा संसाधन-आधारित सिद्धांत भविष्यवाणी करने वाले लोगों की तुलना में वोटिंग की रिपोर्ट करेंगे (जो डेटा जो शोधकर्ताओं ने अतीत में उपयोग किया है) की तुलना में बेहतर है। इस प्रकार, Ansolabehere and Hersh (2012) के अनुभवजन्य खोज मतदान सिद्धांतों को समझने और भविष्यवाणी करने के लिए नए सिद्धांतों के लिए कहते हैं।
लेकिन हमें इन परिणामों पर कितना भरोसा करना चाहिए? याद रखें, ये परिणाम अज्ञात मात्रा में त्रुटि के साथ ब्लैक-बॉक्स डेटा से जोड़ने वाली त्रुटि-प्रवण पर निर्भर करते हैं। अधिक विशेष रूप से, परिणाम दो महत्वपूर्ण चरणों पर निर्भर करते हैं: (1) कैटलिस्ट की क्षमता एक सटीक मास्टर डेटाफाइल बनाने के लिए कई अलग-अलग डेटा स्रोतों को गठबंधन करने के लिए और (2) सर्वेक्षण डेटा को अपने मास्टर डेटाफ़ाइल से जोड़ने के लिए कैटलिस्ट की क्षमता को जोड़ती है। इन चरणों में से प्रत्येक मुश्किल है, और किसी भी चरण में त्रुटियां शोधकर्ताओं को गलत निष्कर्षों का कारण बन सकती हैं। हालांकि, डेटा प्रोसेसिंग और लिंकिंग एक कंपनी के रूप में कैटलिस्ट के निरंतर अस्तित्व के लिए महत्वपूर्ण हैं, इसलिए यह इन समस्याओं को हल करने में संसाधनों का निवेश कर सकती है, अक्सर ऐसे पैमाने पर जो कोई अकादमिक शोधकर्ता मेल नहीं खा सकता है। अपने पेपर में, Ansolabehere और Hersh इन दो चरणों के परिणामों की जांच करने के लिए कई कदम उठाते हैं-भले ही उनमें से कुछ स्वामित्व हैं- और ये जांच अन्य शोधकर्ताओं के लिए सहायक हो सकती हैं जो सर्वेक्षण डेटा को ब्लैक-बॉक्स बड़े डेटा से लिंक करना चाहते हैं सूत्रों का कहना है।
शोधकर्ताओं ने इस अध्ययन से क्या आकर्षित कर सकते हैं? सबसे पहले, सर्वेक्षण डेटा के साथ बड़े डेटा स्रोतों को समृद्ध करने और बड़े डेटा स्रोतों के साथ सर्वेक्षण डेटा समृद्ध करने से दोनों का जबरदस्त मूल्य है (आप इस अध्ययन को किसी भी तरह से देख सकते हैं)। इन दो डेटा स्रोतों को संयोजित करके, शोधकर्ता कुछ ऐसा करने में सक्षम थे जो व्यक्तिगत रूप से असंभव था। दूसरा सामान्य सबक यह है कि यद्यपि एकत्रित, वाणिज्यिक डेटा स्रोत, जैसे कि कैटलिस्ट के डेटा, को कुछ मामलों में "ग्राउंड सच्चाई" नहीं माना जाना चाहिए, वे उपयोगी हो सकते हैं। संदेहवादी कभी-कभी इन समेकित, वाणिज्यिक डेटा स्रोत की पूर्ण सत्य के साथ तुलना करते हैं और इंगित करते हैं कि ये डेटा स्रोत कम हो जाते हैं। हालांकि, इस मामले में, संदेहवादी गलत तुलना कर रहे हैं: शोधकर्ताओं का पूरा डेटा पूर्ण सत्य से कम हो जाता है। इसके बजाए, समेकित, वाणिज्यिक डेटा स्रोतों की तुलना अन्य उपलब्ध डेटा स्रोतों (उदाहरण के लिए, स्वयं रिपोर्ट किए गए मतदान व्यवहार) की तुलना करना बेहतर है, जिसमें हमेशा त्रुटियां भी होती हैं। अंत में, Ansolabehere और हर्ष के अध्ययन का तीसरा सामान्य सबक यह है कि कुछ स्थितियों में, शोधकर्ता बड़े निवेश से लाभ उठा सकते हैं कि कई निजी कंपनियां जटिल सामाजिक डेटा सेट एकत्र करने और सामंजस्य बनाने में सक्षम हैं।