तापनि यसलाई गंदा हुन सक्छ, सार्थक सोधेर शक्तिशाली हुन सक्छ।
डिजिटल ट्रेस डेटा को incompleteness सामना गर्ने एउटा फरक दृष्टिकोण सर्वेक्षण, म सार्थक सोधेर बोलाउछु एक प्रक्रिया यसलाई सिधै अर्थपूर्ण छ। समृद्ध सोधेर को एक उदाहरण को अध्ययन हो Burke and Kraut (2014) जो म पहिले फेसबुकमा अन्तरक्रिया मित्रता बल बढ्छ कि बारे, अध्याय मा वर्णन (धारा 3.2)। त्यस अवस्थामा, बर्क र Kraut फेसबुक लग डेटा संग सर्वेक्षण संयुक्त।
बर्क र Kraut काम थियो कि सेटिङ तथापि, तिनीहरूले अनुसन्धानकर्ताहरूले अर्थपूर्ण सोधेर अनुहार गरिरहेको दुई ठूलो समस्या सामना गर्न छैन पापीलाई। पहिलो, वास्तवमा डाटा सेट-एक प्रक्रिया भनिन्छ रेकर्ड संपर्क, तल यो समस्या अन्य उदाहरण डेटासेटको-सक्छन् कठिन र त्रुटि-खतरा हुन (हामी देख्नु उचित रेकर्ड संग एक डेटासेटको रेकर्ड को मिल्दो सँगै लिङ्क )। समृद्ध सोधेर को दोस्रो मुख्य समस्या डिजिटल निशान गुणस्तर बारम्बार अनुसन्धानकर्ताहरूले आकलन गर्न को लागि कठिन हुनेछ भन्ने छ। उदाहरणका लागि, कहिलेकाहीं यो संकलित छ, जो मार्फत प्रक्रिया स्वामित्व छ र अर्को शब्दमा अध्याय 2 मा वर्णन समस्या थुप्रै susceptible हुन सक्छ, सार्थक सोधेर बारम्बार अज्ञात को कालो-बक्स डाटा स्रोतहरु गर्न सर्वेक्षण को त्रुटि-खतरा लिंक समावेश गुणस्तर। यी दुई समस्या परिचय भन्ने चिन्ता भए तापनि यसलाई स्टीफन Ansolabehere र Eitan Hersh द्वारा प्रदर्शन थियो यो रणनीति महत्त्वपूर्ण अनुसन्धान सञ्चालन गर्न सम्भव छ (2012) अमेरिकामा मतदान ढाँचाहरू मा आफ्नो अनुसन्धान मा। यसले केही विवरण यस अध्ययन भन्दा जान लाभदायी छ किनभने Ansolabehere र Hersh समृद्ध सोधेर अन्य अनुप्रयोगमा उपयोगी हुनेछ विकास भन्ने रणनीति धेरै।
मतदाता .वाराणसी राजनीतिक विज्ञान मा व्यापक अनुसन्धान विषयको भएको छ, र विगतमा, वोट र किन साधारण सर्वेक्षण को विश्लेषण आधारित छ जो को अनुसन्धानकर्ताहरूले 'समझ। अमेरिकामा मतदान तथापि, कि सरकार प्रत्येक नागरिक मतदान छ कि छैन रेकर्ड मा एक असामान्य व्यवहार छ (को पाठ्यक्रम, सरकार रेकर्ड छैन कसले प्रत्येक नागरिक वोट)। धेरै वर्ष को लागि, यी सरकारी मतदान रेकर्ड देश वरिपरि विभिन्न स्थानीय सरकार कार्यालय मा छरिएका, कागज प्रकारका उपलब्ध थिए। यो गाह्रो छ, तर असम्भव छैन, राजनीतिक वैज्ञानिकहरु निर्वाचक मण्डल पूर्ण चित्र छ र मान्छे आफ्नो वास्तविक मतदान व्यवहार गर्न मतदान बारेमा सर्वेक्षणमा भन्न के तुलना गर्न को लागि बनेको (Ansolabehere and Hersh 2012) ।
तर, अब यी मतदान रेकर्ड डिजीटल गरिएका छन्, र निजी कम्पनीहरु को एक नम्बर प्रणालीबद्ध संकलन गरेका छन् र सबै अमेरिका मतदान व्यवहार रेकर्ड कि व्यापक मास्टर मतदान फाइलहरू उत्पादन गर्न यी मतदान रेकर्ड मर्ज। Ansolabehere र Hersh आफ्नो मास्टर मतदान फाइल निर्वाचक मण्डल को एक राम्रो तस्वीर मदत गर्न प्रयोग गर्न LCC-यी कम्पनीहरु-Catalist को एक साथ सहयोगी। साथै, संकलित र एक कम्पनी द्वारा संगठित डिजिटल रेकर्ड मा भरोसा किनभने, यो कम्पनीहरु को सहायता र एनालग रेकर्ड प्रयोग बिना गरिएको थियो अनुसन्धानकर्ताहरूले द्वारा अघिल्लो प्रयासमा भन्दा लाभ को एक नम्बर प्रस्ताव राखे।
अध्याय 2 मा डिजिटल ट्रेस स्रोतहरू धेरै जस्तै Catalist मास्टर फाइल, डेमोग्राफिक attitudinal र व्यवहार जानकारी Ansolabehere र Hersh चाहिन्छ भनेर धेरै समावेश गरिएको थिएन। यो जानकारी साथै, Ansolabehere र Hersh मान्य मतदान व्यवहार (अर्थात्, गरेको Catalist डेटाबेस जानकारी) रिपोर्ट मतदान व्यवहार तुलना मा विशेष रुचि थियो। त्यसैले, शोधकर्ताओं तिनीहरूले सहकारी कांग्रेस निर्वाचन अध्ययन (CCES), एक ठूलो सामाजिक सर्वेक्षण भागको रूपमा चाहेको डाटा संकलन। अर्को, शोधकर्ताओं Catalist यो डाटा दिनुभयो, र Catalist शोधकर्ताओं मान्य भनेर समावेश गरिएका मतदान व्यवहार (Catalist देखि) मर्ज गरिएको डाटा फाइल, सेल्फ-रिपोर्ट मतदान व्यवहार (CCES देखि) र जनसंख्या तथ्याङ्क र उत्तरदाताओं मनोवृत्ति फिर्ता (CCES देखि दिनुभयो )। अर्को शब्दमा, Ansolabehere र Hersh सर्वेक्षण संग मतदान डाटा सार्थक र परिणाम मर्ज फाइल तिनीहरूलाई न फाइल व्यक्तिगत सक्षम कुरा गर्न सक्षम बनाउँछ।
सर्वेक्षण संग Catalist मास्टर डाटा फाइल अर्थपूर्ण गरेर, Ansolabehere र Hersh तीन महत्त्वपूर्ण निष्कर्ष आए। पहिलो, माथि-रिपोर्टिङ मतदान को व्याप्त छ: गैर-मतदाता लगभग आधा रिपोर्ट मतदान। अथवा, यो देख अर्को तरिका भने कसैले मतदान रिपोर्ट, त्यहाँ मात्र एक 80% तिनीहरूले वास्तवमा मतदान मौका छ। दोस्रो, माथि-रिपोर्टिङ अनियमित छ; माथि-रिपोर्टिङ राम्ररी शिक्षित, उच्च-आय बीच अधिक साधारण छ, सार्वजनिक मामिलामा संलग्न छन् जो partisans। अर्को शब्दमा, मतदान गर्न सबै भन्दा अधिक संभावना जो मान्छे पनि सबैभन्दा मतदान बारेमा झूठ संभावना छ। तेस्रो र सबैभन्दा critically, किनभने माथि-रिपोर्टिङ, मतदाता र गैर-मतदाता बीच वास्तविक मतभेद भन्दा तिनीहरूले सर्वेक्षण देखि बस देखा साना हुन्छन् को व्यवस्थित प्रकृति को। उदाहरणका लागि, एक Bachelors डिग्री संग बारे 22 प्रतिशत अंक थप मतदान रिपोर्ट संभावना छ, तर वास्तविक मत मात्र 10 प्रतिशत अंक बढी सम्भावना हुन्छ। यसबाहेक, मतदान को अवस्थित स्रोत-आधारित सिद्धान्त भन्दा वास्तवमा जो वोट, एक empirical खोजन लागि नयाँ सिद्धान्त बुझ्न र मतदान भविष्यवाणी गर्न भनिएको छ कि मतदान रिपोर्ट गर्ने भविष्यवाणी मा धेरै राम्रो हो।
तर, कति हामी यी परिणाम भरोसा गर्नुपर्छ? सम्झना यी परिणाम त्रुटि को अज्ञात मात्रा संग काले-बक्स डाटा गर्न त्रुटि-खतरा लिंक भर पर्छन्। थप विशेष, परिणाम दुई प्रमुख कदम भर पर्नुपर्दैन: 1) सही मास्टर datafile र 2) यसको मास्टर datafile गर्न सर्वेक्षण लिङ्क गर्न Catalist को क्षमता उत्पादन गर्न धेरै disparate डाटा स्रोतहरु संयोजन गर्न Catalist को क्षमता। यी कदम प्रत्येक एकदम गाह्रो छ र त चरण मा त्रुटिहरू गलत निष्कर्ष गर्न अनुसन्धानकर्ताहरूले नेतृत्व सक्छ। तर, डाटा प्रोसेसिंग र मिलान दुवै त्यसैले यो अक्सर भनी अनुसन्धानकर्ताहरू को कुनै व्यक्तिगत शैक्षिक शोधकर्ता वा समूह मेल गर्न सक्छन् मात्रा मा यी समस्याहरू समाधान स्रोतहरू लगानी गर्न सक्छन् एक कम्पनीको रूपमा Catalist को जारी अस्तित्व गर्न महत्वपूर्ण हो। अध्याय को अन्त्यमा थप पढ्दा, म थप विस्तार र कसरी Ansolabehere र Hersh आफ्नो परिणाम भरोसा निर्माण यी समस्या वर्णन। यी विवरण यस अध्ययन निर्दिष्ट हुन्छन् तापनि यी समान मुद्दाहरू कालो-बक्स डिजिटल ट्रेस डेटा स्रोतहरु लिंक गर्न चाहने अन्य अनुसन्धानकर्ताहरूले लागि खडा हुनेछन्।
सामान्य पाठ अनुसन्धानकर्ताहरूले यो अध्ययन बाट आकर्षित गर्न सक्छन् के-के हुन्? पहिलो, सर्वेक्षण संग डिजिटल निशान अर्थपूर्ण देखि अथाह मूल्य छ। दोस्रो, यी थपिन तापनि, व्यावसायिक डाटा स्रोतहरु "जमीन सत्य" छलफल हुँदैन, केही अवस्थामा तिनीहरूले उपयोगी हुन सक्छ। वास्तवमा, यी डाटा स्रोतहरु (तिनीहरूले सधैं छोटो पतन हुनेछ, जसबाट) छैन निरपेक्ष सत्य गर्न तुलना गर्न सबै भन्दा राम्रो छ। बरु, यो संधै साथै त्रुटिहरू छन् जो अन्य उपलब्ध डाटा स्रोतहरु, तिनीहरूलाई तुलना गर्न राम्रो छ।