हालांकि यह गंदा हो सकता है, समृद्ध पूछ शक्तिशाली हो सकता है।
डिजिटल डेटा का पता लगाने के अधूरेपन के साथ काम करने के लिए एक अलग दृष्टिकोण सर्वेक्षण के आंकड़ों, एक प्रक्रिया है कि मैं समृद्ध पूछ फोन करता हूँ के साथ सीधे यह संतुष्ट करने के लिए है। समृद्ध पूछ का एक उदाहरण का अध्ययन है Burke and Kraut (2014) , जो मैं अध्याय में वर्णित पहले (धारा 3.2) के बारे में फेसबुक पर दोस्ती बातचीत शक्ति बढ़ जाती है, चाहे। उस मामले में, बर्क और Kraut फेसबुक लॉग डेटा के साथ सर्वेक्षण के आंकड़ों संयुक्त।
सेटिंग है कि बर्क और Kraut में काम कर रहे थे, लेकिन मतलब है कि वे दो बड़ी समस्याओं कर रही है कि शोधकर्ताओं समृद्ध पूछ चेहरे के साथ सौदा करने के लिए नहीं था। सबसे पहले, वास्तव में एक साथ डेटा सेट-एक प्रक्रिया बुलाया रिकॉर्ड उठाना, अन्य नीचे इस समस्या का एक उदाहरण डाटासेट-कर सकते हैं कठिन और त्रुटि प्रवण हो (जैसा कि हम देखेंगे में उचित रिकॉर्ड के साथ एक डाटासेट में एक रिकार्ड का मिलान जोड़ने )। समृद्ध पूछ की दूसरी मुख्य समस्या यह है कि डिजिटल निशान की गुणवत्ता अक्सर शोधकर्ताओं का आकलन करने के लिए मुश्किल हो जाएगा। उदाहरण के लिए, कभी कभी प्रक्रिया है जिसके माध्यम से इसे एकत्र किया जाता है स्वामित्व है और अध्याय 2 में वर्णित दूसरे शब्दों में समस्याओं के कई के लिए अतिसंवेदनशील हो सकता है, समृद्ध पूछ अक्सर अज्ञात के ब्लैक बॉक्स डेटा सूत्रों के सर्वेक्षण के त्रुटि प्रवण जोड़ने में शामिल होगी गुणवत्ता। चिंता है कि इन दोनों समस्याओं को पेश होने के बावजूद, यह रूप में स्टीफन Ansolabehere और Eitan हर्ष द्वारा प्रदर्शन किया गया इस रणनीति के साथ महत्वपूर्ण अनुसंधान का संचालन करने के लिए संभव है (2012) अमेरिका में मतदान पैटर्न पर अपने अनुसंधान में। यह कुछ विस्तार से इस अध्ययन पर जाने के लिए सार्थक है रणनीति है कि Ansolabehere और हर्ष विकसित समृद्ध पूछ के अन्य अनुप्रयोगों में उपयोगी हो जाएगा के कई कारण है।
मतदान राजनीतिक विज्ञान के क्षेत्र में व्यापक शोध का विषय रहा है, और अतीत में, जो वोट और क्यों आम तौर पर सर्वेक्षण के आंकड़ों के विश्लेषण के आधार पर किया गया है की 'शोधकर्ताओं समझ। अमेरिका में मतदान, तथापि, कि सरकार के रिकॉर्ड के लिए प्रत्येक नागरिक को वोट दिया है कि क्या में एक असामान्य व्यवहार है (बेशक, सरकार के लिए जो प्रत्येक नागरिक वोट रिकॉर्ड नहीं है)। कई सालों के लिए, इन सरकारी मतदान रिकॉर्ड कागज रूपों पर उपलब्ध थे, देश भर के विभिन्न स्थानीय सरकारी कार्यालयों में बिखरे हुए। यह मुश्किल है, लेकिन असंभव नहीं, राजनीतिक वैज्ञानिकों मतदाताओं की एक पूरी तस्वीर है और क्या लोगों को उनकी वास्तविक मतदान व्यवहार के लिए मतदान के बारे में सर्वेक्षण में कहना है की तुलना करने के लिए बनाया (Ansolabehere and Hersh 2012) ।
लेकिन, अब इन मतदान रिकॉर्ड डिजीटल किया गया है, और निजी कंपनियों की संख्या में व्यवस्थित ढंग से एकत्र किया है और इन मतदान रिकॉर्ड विलय कर दिया व्यापक मास्टर मतदान फ़ाइलें है कि सभी अमेरिकियों के मतदान व्यवहार रिकॉर्ड उत्पादन करने के लिए। Ansolabehere और हर्ष के क्रम में उनकी गुरु मतदान फ़ाइल का उपयोग करने में मदद करने के लिए मतदाताओं का एक बेहतर तस्वीर का विकास में एलसीसी-इन कंपनियों-Catalist में से एक के साथ भागीदारी की। इसके अलावा, क्योंकि यह एकत्र की है और एक कंपनी द्वारा क्यूरेट डिजिटल रिकॉर्ड पर भरोसा किया, यह शोधकर्ताओं द्वारा पिछले प्रयास है कि कंपनियों की सहायता और एनालॉग रिकॉर्ड का उपयोग किए बिना किया गया था पर लाभ के एक नंबर की पेशकश की।
अध्याय 2 में डिजिटल ट्रेस सूत्रों के कई तरह, Catalist मास्टर फ़ाइल, जनसांख्यिकीय व्यवहार, और व्यवहार की जानकारी है कि Ansolabehere और हर्ष की जरूरत के ज्यादा शामिल नहीं किया था। इस जानकारी के अलावा, Ansolabehere और हर्ष विशेष रूप से मान्य मतदान व्यवहार (यानी, Catalist डेटाबेस में जानकारी) को सूचना दी मतदान व्यवहार की तुलना में रुचि रखते थे। तो, शोधकर्ताओं डेटा है कि वे सहकारी कांग्रेस के चुनाव अध्ययन (CCES), एक बड़े सामाजिक सर्वेक्षण के हिस्से के रूप में करना चाहता था एकत्र। अगला, शोधकर्ताओं Catalist के लिए इस डेटा दी, और Catalist शोधकर्ताओं कि मान्य शामिल (Catalist से) मतदान व्यवहार किसी मर्ज किए गए डेटा फ़ाइल, स्वयं रिपोर्ट मतदान व्यवहार (CCES से) और जनसांख्यिकी और उत्तरदाताओं के नजरिए वापस (CCES से दे दी है )। दूसरे शब्दों में, Ansolabehere और हर्ष सर्वेक्षण के आंकड़ों के साथ मतदान डेटा समृद्ध, और जिसके परिणामस्वरूप विलय फ़ाइल उन्हें कुछ है कि न तो फ़ाइल को व्यक्तिगत रूप से सक्षम ऐसा करने में सक्षम बनाता है।
सर्वेक्षण के आंकड़ों के साथ Catalist मास्टर डाटा फाइल को समृद्ध बनाने के द्वारा, Ansolabehere और हर्ष तीन महत्वपूर्ण निष्कर्ष करने के लिए आया था। सबसे पहले, ओवर-रिपोर्टिंग मतदान की बड़े पैमाने पर है: गैर मतदाताओं में से लगभग आधे मतदान की सूचना दी। या, इसे देखने का एक और तरीका है कि अगर किसी को मतदान की सूचना है, वहाँ केवल एक 80% मौका है कि वे वास्तव में मतदान है। दूसरा, ओवर-रिपोर्टिंग यादृच्छिक नहीं है; ओवर-रिपोर्टिंग अच्छी तरह से शिक्षित, उच्च आय के बीच और अधिक आम है, partisans जो सार्वजनिक मामलों में लगे हुए हैं। दूसरे शब्दों में, लोग हैं, जो सबसे अधिक मतदान होने की संभावना है भी सबसे अधिक मतदान के बारे में झूठ की संभावना है। तीसरा, और सबसे गंभीर है, अधिक रिपोर्टिंग, मतदाताओं और गैर मतदाताओं के बीच वास्तविक मतभेद छोटे से वे सर्वेक्षणों से सिर्फ दिखाई देते हैं के व्यवस्थित स्वभाव की वजह से। उदाहरण के लिए, एक स्नातक की डिग्री के साथ उन लोगों के बारे में 22 प्रतिशत अंक अधिक मतदान रिपोर्ट की संभावना है, लेकिन केवल 10 प्रतिशत अंक अधिक वास्तविक मतदान होने की संभावना है। इसके अलावा, मतदान के मौजूदा संसाधन आधारित सिद्धांतों ज्यादा का अनुमान लगाया है जो वास्तव में जो वोट, एक अनुभवजन्य निष्कर्ष नए सिद्धांत को समझते हैं और मतदान की भविष्यवाणी करने के लिए कहता है कि अधिक से मतदान रिपोर्ट करेंगे पर बेहतर कर रहे हैं।
लेकिन, कितना हम इन परिणामों पर भरोसा करना चाहिए? याद रखें इन परिणामों त्रुटि के अज्ञात मात्रा के साथ ब्लैक बॉक्स के आंकड़ों के त्रुटि प्रवण जोड़ने पर निर्भर करते हैं। अधिक विशेष रूप से, परिणाम दो महत्वपूर्ण कदम पर टिकी हुई हैं: 1) कई अलग डेटा स्रोतों गठबंधन करने के लिए एक सटीक मास्टर datafile और 2) अपने गुरु datafile करने के सर्वेक्षण के आंकड़ों से जोड़ने के लिए Catalist की क्षमता का उत्पादन करने की क्षमता Catalist। इन कदमों से प्रत्येक काफी मुश्किल है और या तो कदम पर त्रुटियों गलत निष्कर्ष करने के लिए शोधकर्ताओं का नेतृत्व कर सकता है। हालांकि, दोनों डाटा प्रोसेसिंग और मिलान तो यह इन समस्याओं को सुलझाने में संसाधनों का निवेश कर सकते हैं, अक्सर पैमाने है कि कोई व्यक्ति अकादमिक शोधकर्ता या शोधकर्ताओं के समूह मेल कर सकते हैं पर एक कंपनी के रूप में Catalist के जारी अस्तित्व के लिए महत्वपूर्ण हैं। अध्याय के अंत में आगे पढ़ने में, मैं और अधिक विस्तार से और कैसे Ansolabehere और हर्ष उनके परिणाम में विश्वास बनाने में इन समस्याओं का वर्णन है। हालांकि इन विवरणों इस अध्ययन के लिए विशिष्ट हैं, इन करने के लिए इसी तरह के मुद्दों अन्य ब्लैक बॉक्स डिजिटल ट्रेस डेटा स्रोतों से जोड़ने के लिए बधाई देने के शोधकर्ताओं के लिए पैदा होगा।
सामान्य सबक शोधकर्ताओं ने इस अध्ययन से आकर्षित कर सकते हैं क्या हैं? सबसे पहले, वहाँ सर्वेक्षण के आंकड़ों के साथ डिजिटल निशान को समृद्ध बनाने से जबरदस्त मूल्य है। दूसरा, भले ही इन एकत्रित, वाणिज्यिक डेटा स्रोतों नहीं "जमीनी सच्चाई" विचार किया जाना चाहिए, कुछ मामलों में वे उपयोगी हो सकता है। वास्तव में, यह इन डेटा स्रोतों परम सत्य के लिए नहीं (जिसमें से वे हमेशा कम गिर जाएगी) की तुलना करने के लिए सबसे अच्छा है। दरअसल, यह उन्हें जो सदा ही त्रुटियों के रूप में अच्छी तरह से अन्य उपलब्ध डेटा स्रोतों की तुलना में बेहतर है।