यह खंड के बजाय एक कथा के रूप में पढ़ा जा करने के लिए एक संदर्भ के रूप में इस्तेमाल किया जा करने के लिए बनाया गया है।
इस अध्याय में विषयों के कई लोग भी इस तरह के रूप पब्लिक ओपिनियन रिसर्च के अमेरिकन एसोसिएशन (AAPOR) में हाल ही में राष्ट्रपति को संबोधित किया, में गूँजती दिया है Dillman (2002) , Newport (2011) , Santos (2014) , और Link (2015) ।
सर्वेक्षण अनुसंधान के विकास के बारे में और अधिक ऐतिहासिक पृष्ठभूमि के लिए, देखें Smith (1976) और Converse (1987) । सर्वेक्षण अनुसंधान के तीन युगों के विचार पर अधिक के लिए, देखें Groves (2011) और Dillman, Smyth, and Christian (2008) (जो थोड़ा अलग तीन युगों टूट जाता है)।
सर्वेक्षण अनुसंधान के क्षेत्र में दूसरे युग के लिए पहले से संक्रमण के अंदर एक चोटी है Groves and Kahn (1979) , जो बीच में एक विस्तृत सिर से सिर तुलना करता है एक का सामना करने वाली चेहरा और टेलीफोन सर्वेक्षण। Brick and Tucker (2007) यादृच्छिक अंकों डायलन नमूना तरीकों के ऐतिहासिक विकास में वापस लग रहा है।
अधिक कैसे सर्वेक्षण अनुसंधान समाज में बदलाव के जवाब में अतीत में बदल गया है के लिए, देखें Tourangeau (2004) , Mitofsky (1989) , और Couper (2011) ।
सवाल पूछ रही द्वारा आंतरिक राज्यों के बारे में सीखना समस्याग्रस्त किया जा सकता क्योंकि कभी कभी उत्तरदाताओं खुद को अपने आंतरिक राज्यों के बारे में पता नहीं कर रहे हैं। उदाहरण के लिए, Nisbett and Wilson (1977) "अधिक से अधिक हम पता कर सकते हैं कह रही::। मानसिक प्रक्रियाओं पर मौखिक रिपोर्ट" पत्र में लेखक निष्कर्ष: "विषयों कभी कभी (क) के अनजान हैं विचारोत्तेजक शीर्षक के साथ एक अद्भुत कागज है एक उत्तेजना है कि महत्वपूर्ण बात यह एक प्रतिक्रिया के अस्तित्व को प्रभावित किया, (ख) प्रतिक्रिया का अस्तित्व है, और (ग) से अनजान है कि प्रोत्साहन प्रतिक्रिया को प्रभावित किया है के बारे में पता। "
तर्क है कि शोधकर्ताओं ने बताया व्यवहार या व्यवहार करने के लिए मनाया व्यवहार पसंद करते हैं चाहिए के लिए, देखें Baumeister, Vohs, and Funder (2007) (मनोविज्ञान) और Jerolmack and Khan (2014) और प्रतिक्रियाओं (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (समाजशास्त्र)। पूछ रहा है और यह भी अवलोकन के बीच के अंतर को अर्थशास्त्र, जहां शोधकर्ताओं कहा गया है और पता चला प्राथमिकताओं के बारे में बात करने में उठता है। उदाहरण के लिए, एक शोधकर्ता उत्तरदाताओं कि क्या वे आइसक्रीम खाने या (कहा प्राथमिकताएं) जिम जा रहा पसंद करते हैं पूछ सकते हैं या अनुसंधान का निरीक्षण कर सकता कितनी बार लोगों को आइसक्रीम खाने और जिम (पता चला प्राथमिकताएं) के पास जाओ। वहाँ कुछ अर्थशास्त्र में कहा गया है वरीयताओं डेटा के प्रकार के गहरे संदेह है (Hausman 2012) ।
इन बहसों से एक मुख्य विषय है कि रिपोर्ट व्यवहार हमेशा सही नहीं है। लेकिन, स्वचालित रूप से दर्ज व्यवहार, सही नहीं किया जा सकता है ब्याज का एक नमूना पर एकत्र नहीं किया जा सकता है, और शोधकर्ताओं के लिए सुलभ नहीं हो सकता है। इस प्रकार, कुछ स्थितियों में, मुझे लगता है कि रिपोर्ट व्यवहार उपयोगी हो सकता है। इसके अलावा, इन बहसों से एक दूसरे मुख्य विषय यह है कि भावनाओं, ज्ञान, उम्मीदों, और राय के बारे में रिपोर्ट हमेशा सही नहीं हो रहा है। लेकिन, यदि इन आंतरिक राज्यों के बारे में जानकारी द्वारा की आवश्यकता है शोधकर्ताओं-या तो मदद करने के लिए कुछ व्यवहार की व्याख्या के रूप में या बात को समझाया-तब जा पूछ उपयुक्त हो सकता है।
कुल सर्वेक्षण त्रुटि पर किताब लंबाई उपचार के लिए, देखें Groves et al. (2009) या Weisberg (2005) । कुल सर्वेक्षण त्रुटि के विकास का एक इतिहास के लिए, देखें Groves and Lyberg (2010) ।
एक अनुसंधान एजेंडा: प्रतिनिधित्व के मामले में, गैर प्रतिक्रिया और गैर प्रतिक्रिया पूर्वाग्रह के मुद्दों के लिए एक महान परिचय सामाजिक विज्ञान सर्वेक्षण में nonresponse पर राष्ट्रीय अनुसंधान परिषद की रिपोर्ट है (2013) । एक और उपयोगी अवलोकन द्वारा प्रदान की जाती है (Groves 2006) । इसके अलावा, सरकारी आंकड़ों के जर्नल, जनता की राय त्रैमासिक, और राजनीतिक और सामाजिक विज्ञान के अमेरिकन अकादमी के इतिहास की संपूर्ण विशेष मुद्दों गैर प्रतिक्रिया के विषय पर प्रकाशित किया गया है। अंत में, वहाँ की प्रतिक्रिया की दर की गणना के लिए वास्तव में कई अलग अलग तरीके हैं; इन तरीकों जनता की राय शोधकर्ताओं के अमेरिकन एसोसिएशन (AAPOR) की एक रिपोर्ट में विस्तार से वर्णन किया गया हैं (Public Opinion Researchers} 2015) ।
1936 साहित्यिक डाइजेस्ट चुनाव के बारे में विस्तार से अध्ययन किया गया है (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) । यह भी एक दृष्टान्त बेतरतीब डेटा संग्रह के खिलाफ चेतावनी देने के लिए के रूप में इस्तेमाल किया गया है (Gayo-Avello 2011) । 1936 में, जॉर्ज गैलप नमूने का एक और अधिक परिष्कृत रूप में प्रयोग किया जाता है, और एक बहुत छोटे नमूने के साथ और अधिक सटीक अनुमान का उत्पादन करने में सक्षम था। साहित्यिक डाइजेस्ट के ऊपर गैलप की सफलता के लिए एक मील का पत्थर सर्वेक्षण अनुसंधान का विकास किया गया (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) ।
माप के संदर्भ में, डिजाइनिंग प्रश्नावली के लिए एक महान पहली संसाधन है Bradburn, Sudman, and Wansink (2004) । रवैया सवालों पर विशेष रूप से ध्यान केंद्रित एक और अधिक उन्नत उपचार के लिए, देखें Schuman and Presser (1996) । पूर्व परीक्षण के सवालों पर अधिक में उपलब्ध है Presser and Blair (1994) , Presser et al. (2004) , और के अध्याय 8 Groves et al. (2009) ।
सर्वेक्षण लागत और सर्वेक्षण त्रुटियों के बीच व्यापार बंद की क्लासिक, किताब लंबाई उपचार है Groves (2004) ।
मानक संभावना नमूना और आकलन की क्लासिक किताब लंबाई उपचार कर रहे हैं Lohr (2009) (अधिक परिचयात्मक) और Särndal, Swensson, and Wretman (2003) (और अधिक उन्नत)। बाद के स्तरीकरण और संबंधित तरीकों में से एक क्लासिक किताब लंबाई उपचार है Särndal and Lundström (2005) । कुछ डिजिटल युग सेटिंग्स में, शोधकर्ताओं ने गैर उत्तरदाताओं, जो न अक्सर अतीत में सच था बारे में काफी कुछ जानते हैं। गैर प्रतिक्रिया समायोजन के विभिन्न रूपों संभव हो रहे हैं शोधकर्ताओं गैर उत्तरदाताओं के बारे में जानकारी नहीं है जब (Kalton and Flores-Cervantes 2003; Smith 2011) ।
के एक्सबॉक्स अध्ययन Wang et al. (2015) एक तकनीक बहुस्तरीय प्रतिगमन और बाद के स्तरीकरण बुलाया (एमआरपी, कभी कभी "मिस्टर पी" कहा जाता है) है कि शोधकर्ताओं ने अनुमान लगाने के लिए सेल का मतलब है यहाँ तक कि जब वहाँ कई, कई कोशिकाओं रहे हैं अनुमति देता है का उपयोग करता है। हालांकि इस तकनीक से अनुमान की गुणवत्ता के बारे में कुछ बहस चल रही है, यह एक आशाजनक क्षेत्र का पता लगाने के लिए की तरह लगता है। तकनीक में पहली बार इस्तेमाल किया गया था Park, Gelman, and Bafumi (2004) , और बाद के उपयोग और बहस कर दिया गया है (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) । अलग-अलग वजन और सेल आधारित वजन के बीच संबंध के बारे में अधिक के लिए देखें Gelman (2007) ।
भार वेब सर्वेक्षण के अन्य तरीकों के लिए, देखें Schonlau et al. (2009) , Valliant and Dever (2011) , और Bethlehem (2010) ।
नमूना मिलान द्वारा प्रस्तावित किया गया था Rivers (2007) । Bethlehem (2015) का तर्क है कि नमूना मिलान के प्रदर्शन वास्तव में अन्य नमूने दृष्टिकोण (जैसे, स्तरीकृत नमूना) और अन्य समायोजन दृष्टिकोण (जैसे, पोस्ट-स्तरीकरण) के समान हो जाएगा। ऑनलाइन पैनल पर अधिक के लिए, देखें Callegaro et al. (2014) ।
कभी कभी शोधकर्ताओं ने पाया है कि संभावना नमूने और गैर संभावना नमूने समान गुणवत्ता के अनुमान उपज (Ansolabehere and Schaffner 2014) , लेकिन अन्य तुलना पाया है कि गैर संभावना नमूने भी बदतर कर (Malhotra and Krosnick 2007; Yeager et al. 2011) । इन मतभेदों के लिए एक संभावित कारण यह है कि गैर संभावना नमूने समय के साथ सुधार किया है। गैर संभावना नमूने के तरीकों में से एक अधिक निराशावादी दृष्टिकोण के लिए देखें गैर संभावना नमूने पर AAPOR टास्क फोर्स (Baker et al. 2013) , और मैं भी टिप्पणी है कि सारांश रिपोर्ट इस प्रकार है पढ़ने की सलाह देते।
भार गैर संभावना नमूनों में पूर्वाग्रह को कम करने के प्रभाव पर एक मेटा-विश्लेषण के लिए, तालिका 2.4 देख Tourangeau, Conrad, and Couper (2013) जो लेखक होता है "समाप्त करने के लिए समायोजन उपयोगी लेकिन अविश्वसनीय सुधार होने लगते हैं। । । "
Conrad and Schober (2008) भविष्य के सर्वेक्षण साक्षात्कार Envisioning शीर्षक से एक संपादित मात्रा प्रदान करता है, और यह इस खंड में विषयों के कई संबोधित करते हैं। Couper (2011) इसी तरह के विषयों के पते, और Schober et al. (2015) कैसे डेटा संग्रह तरीकों कि एक नई सेटिंग के आधार पर कर रहे हैं उच्च गुणवत्ता डेटा में परिणाम कर सकते हैं का एक अच्छा उदाहरण प्रस्तुत करता है।
सामाजिक विज्ञान सर्वेक्षण के लिए फेसबुक क्षुधा का उपयोग करने का एक और दिलचस्प उदाहरण के लिए, वहाँ Bail (2015) ।
सर्वेक्षण के प्रतिभागियों के लिए एक सुखद और मूल्यवान अनुभव बनाने पर अधिक सलाह के लिए, सिलवाया डिजाइन विधि पर काम देखते हैं (Dillman, Smyth, and Christian 2014) ।
Stone et al. (2007) पारिस्थितिक क्षणिक आकलन और संबंधित विधियों की एक किताब लंबाई उपचार प्रदान करता है।
Judson (2007) के रूप में सर्वेक्षण और प्रशासनिक डेटा संयोजन की प्रक्रिया का वर्णन "जानकारी एकीकरण," इस दृष्टिकोण के कुछ फायदे की चर्चा है, और कुछ उदाहरण प्रदान करता है।
एक और तरीका है कि शोधकर्ताओं ने डिजिटल निशान और प्रशासनिक डेटा का उपयोग कर सकते हैं विशिष्ट विशेषताओं के साथ लोगों के लिए एक नमूना फ्रेम है। हालांकि, का उपयोग इन अभिलेखों भी गोपनीयता से संबंधित सवालों बना सकते हैं एक नमूना फ्रेम में इस्तेमाल किया जा करने के लिए (Beskow, Sandler, and Weinberger 2006) ।
प्रवर्धित पूछ के बारे में, इस दृष्टिकोण के रूप में यह कैसे मैं यह वर्णित है से प्रकट हो सकता है के रूप में नया नहीं है। यह दृष्टिकोण तीन बड़े आँकड़ों-मॉडल के आधार पर पद-स्तरीकरण में क्षेत्रों के लिए गहरे संबंध है (Little 1993) , इलज़ाम (Rubin 2004) , और छोटे से क्षेत्र के आकलन (Rao and Molina 2015) । यह भी चिकित्सा अनुसंधान के क्षेत्र में किराए की चर के उपयोग से संबंधित है (Pepe 1992) ।
डिजिटल ट्रेस डेटा तक पहुँचने के बारे में नैतिक मुद्दों के अलावा, प्रवर्धित पूछ भी संवेदनशील लक्षण है कि लोगों को एक सर्वेक्षण में खुलासा करने के लिए चयन नहीं हो सकता अनुमान किया जा सकता है (Kosinski, Stillwell, and Graepel 2013) ।
में लागत और समय का अनुमान है Blumenstock, Cadamuro, and On (2015) ऐसे लागत को साफ और कॉल डेटा की प्रक्रिया के रूप में चर लागत से एक अतिरिक्त सर्वेक्षण और तय शामिल नहीं हैं लागत की लागत के लिए अधिक देखें। सामान्य तौर पर, प्रवर्धित पूछ शायद उच्च निर्धारित लागत और कम चर डिजिटल प्रयोगों (अध्याय 4 देखें) के लिए इसी तरह की लागत होगा। में इस्तेमाल किया डेटा पर अधिक जानकारी Blumenstock, Cadamuro, and On (2015) कागज में हैं Blumenstock and Eagle (2010) और Blumenstock and Eagle (2012) । कई imputuation से दृष्टिकोण (Rubin 2004) प्रवर्धित पूछ से अनुमान में कब्जा अनिश्चितता मदद कर सकता है। शोधकर्ताओं ही पूछ कुल मायने रखता है, बजाय अलग-अलग स्तर के लक्षण के बारे में परवाह परिलक्षित कर रही है, उसके बाद में दृष्टिकोण King and Lu (2008) और Hopkins and King (2010) के लिए उपयोगी हो सकता है। में मशीन सीखने दृष्टिकोण के बारे में अधिक जानकारी के लिए Blumenstock, Cadamuro, and On (2015) , वहाँ James et al. (2013) (अधिक परिचयात्मक) या Hastie, Tibshirani, and Friedman (2009) (और अधिक उन्नत)। एक अन्य लोकप्रिय मशीन सीखने पाठ्यपुस्तक है Murphy (2012) ।
समृद्ध पूछ के बारे में, Ansolabehere और हर्ष में परिणाम (2012) दो प्रमुख कदम पर टिकी हुई हैं: 1) के लिए सर्वेक्षण के आंकड़ों एक सटीक मास्टर datafile उत्पादन करने के लिए कई अलग डेटा स्रोतों गठबंधन करने के लिए और 2) Catalist की क्षमता जोड़ने के लिए Catalist की क्षमता अपने गुरु datafile। इसलिए, Ansolabehere और हर्ष इन चरणों में से प्रत्येक ध्यान से जाँच करें।
मास्टर datafile बनाने के लिए, Catalist को जोड़ती है और सहित कई विभिन्न स्रोतों से जानकारी harmonizes: अन्य अनिर्दिष्ट वाणिज्यिक प्रदाताओं से प्रत्येक राज्य से कई मतदान रिकॉर्ड फोटो, पोस्ट ऑफिस के अभिभाषण रजिस्ट्री की राष्ट्रीय परिवर्तन से डेटा, और डेटा। कैसे यह सब साफ सफाई और विलय होता है के बारे रक्त का विवरण इस पुस्तक के दायरे से बाहर हैं, लेकिन इस प्रक्रिया है, कोई फर्क नहीं पड़ता कैसे सावधान, मूल डेटा स्रोतों में त्रुटियों प्रचार करेंगे और त्रुटियों को लागू करेगा। हालांकि Catalist अपने डाटा प्रोसेसिंग पर चर्चा करने और अपने कच्चे डेटा के कुछ प्रदान करने के लिए तैयार किया गया था, यह बस असंभव था शोधकर्ताओं ने पूरे Catalist डेटा पाइपलाइन की समीक्षा करने के लिए। बल्कि, शोधकर्ताओं ने एक ऐसी स्थिति है जहां Catalist डेटा फ़ाइल किसी अज्ञात है, और शायद अज्ञात, त्रुटि की राशि थी में थे। यह एक गंभीर चिंता का विषय है क्योंकि एक आलोचक अटकलें सकता है कि CCES पर सर्वेक्षण रिपोर्ट और Catalist मास्टर डाटा फाइल में व्यवहार के बीच बड़े मतभेद मास्टर डाटा फाइल में त्रुटियों के कारण किया गया, उत्तरदाताओं ने misreporting से नहीं है।
Ansolabehere और हर्ष डेटा की गुणवत्ता चिंता का विषय को संबोधित करने के लिए दो अलग अलग दृष्टिकोण ले लिया। सबसे पहले, Catalist मास्टर फ़ाइल में मतदान करने के लिए स्वयं रिपोर्ट मतदान की तुलना करने के अलावा, शोधकर्ताओं ने यह भी तुलना में स्वयं रिपोर्ट पार्टी, जाति, मतदाता पंजीकरण की स्थिति (जैसे, पंजीकृत है या नहीं पंजीकृत) और मतदान विधि (जैसे, व्यक्ति में, अनुपस्थित मतदान, आदि) उन मूल्यों Catalist डेटाबेस में पाया। इन चार जनसांख्यिकीय चर के लिए, शोधकर्ताओं ने मतदान के लिए की तुलना में Catalist मास्टर फ़ाइल में सर्वेक्षण रिपोर्ट और डेटा के बीच समझौते की बहुत उच्च स्तर पाया गया। इस प्रकार, Catalist मास्टर डाटा फाइल को सुझाव है कि यह गरीब समग्र गुणवत्ता का नहीं है मतदान के अलावा अन्य लक्षण के लिए उच्च गुणवत्ता की जानकारी है प्रकट होता है। दूसरा, Catalist से डेटा का उपयोग कर भाग में, Ansolabehere और हर्ष काउंटी मतदान रिकॉर्ड की गुणवत्ता के तीन विभिन्न उपायों का विकास किया है, और उन्होंने पाया कि मतदान के ओवर-रिपोर्टिंग की अनुमानित दर अनिवार्य रूप से इन आंकड़ों की गुणवत्ता के उपायों में से किसी को असंबंधित था, एक खोज है कि सुझाव है कि अधिक-रिपोर्टिंग की उच्च दर असामान्य रूप से कम डेटा की गुणवत्ता के साथ काउंटियों से प्रेरित नहीं किया जा रहा है।
इस मास्टर मतदान फ़ाइल के निर्माण को देखते हुए, संभावित त्रुटियों के दूसरे स्रोत यह करने के लिए सर्वेक्षण रिकॉर्ड जोड़ने के लिए है। उदाहरण के लिए, यदि इस संबंध में गलत तरीके से किया जाता है यह सूचना दी और मान्य मतदान व्यवहार के बीच अंतर का एक से अधिक अनुमान करने के लिए ले जा सकता है (Neter, Maynes, and Ramanathan 1965) । अगर हर व्यक्ति एक स्थिर, अद्वितीय पहचानकर्ता है कि दोनों डेटा स्रोतों में था, तब लिंकेज तुच्छ होगा। अमेरिका और अधिकांश अन्य देशों में, हालांकि, वहाँ कोई सार्वभौमिक पहचानकर्ता है। इसके अलावा, यहां तक कि अगर वहाँ इस तरह के थे एक पहचानकर्ता के लोगों को शायद सर्वेक्षण शोधकर्ताओं के लिए यह प्रदान करने के लिए संकोच होगा! नाम, लिंग, जन्म वर्ष, और घर का पता: इस प्रकार, Catalist अपूर्ण पहचानकर्ता प्रत्येक प्रतिवादी के बारे में जानकारी के चार टुकड़े का उपयोग कर, इस मामले में कड़ी करना था। उदाहरण के लिए, Catalist तय अगर CCES में Homie जे सिम्पसन अपने गुरु डेटा फ़ाइल में होमर जे सिम्पसन के रूप में एक ही व्यक्ति था। अभ्यास में, मिलान के लिए एक मुश्किल और गन्दा प्रक्रिया है, और, मामले को बदतर बनाने के लिए शोधकर्ताओं के लिए, Catalist इसका मिलान तकनीक माना मालिकाना होने के लिए।
आदेश मिलान एल्गोरिदम को मान्य करने के लिए, वे दो चुनौतियों पर भरोसा किया। MITRE निगम: सबसे पहले, Catalist एक मेल प्रतियोगिता है कि एक स्वतंत्र, तीसरे पक्ष द्वारा चलाया गया था में भाग लिया। MITRE सभी प्रतिभागियों को दो शोर डेटा फ़ाइलों को प्रदान करने के लिए मिलान किया, और अलग अलग टीमों MITRE करने के लिए सबसे अच्छा मिलान लौटने के लिए प्रतिस्पर्धा की। क्योंकि MITRE ही सही मिलान पता था कि वे टीमों स्कोर करने में सक्षम थे। 40 कंपनियों को प्रतिस्पर्धा में से Catalist दूसरे स्थान पर आ गया। स्वतंत्र, तीसरे पक्ष के स्वामित्व प्रौद्योगिकी के मूल्यांकन की इस तरह की काफी दुर्लभ और अविश्वसनीय रूप से महत्वपूर्ण है; यह हमें विश्वास है कि Catalist का मिलान प्रक्रियाओं राज्य के-कला में अनिवार्य रूप से देना चाहिए। लेकिन राज्य के अत्याधुनिक काफी अच्छा है? इस मिलान प्रतियोगिता के अलावा, Ansolabehere और हर्ष Catalist के लिए अपने स्वयं के मिलान चुनौती बनाया। पहले के एक परियोजना से, Ansolabehere और हर्ष फ्लोरिडा से मतदाता रिकॉर्ड इकट्ठा किया था। वे अपने क्षेत्रों Catalist को संशोधित और फिर उनके वास्तविक मूल्यों के लिए इन क्षेत्रों के Catalist की रिपोर्ट की तुलना में से कुछ के साथ इन अभिलेखों के कुछ प्रदान की। सौभाग्य से, Catalist की रिपोर्ट पर रोक लगाई मूल्यों के करीब थे, यह दर्शाता है कि उनकी Catalist मास्टर डाटा फ़ाइल पर आंशिक मतदाता रिकॉर्ड मैच सकता है। इन दोनों चुनौतियों, एक तीसरे पक्ष द्वारा एक और एक Ansolabehere और हर्ष द्वारा, हमें हम अपनी सटीक कार्यान्वयन खुद की समीक्षा नहीं कर सकते हैं, भले ही Catalist मिलान एल्गोरिदम में और अधिक आत्मविश्वास दे।
वहाँ मतदान मान्य करने के लिए पिछले कई प्रयास हो चुके हैं। कि साहित्य के अवलोकन के लिए, वहाँ Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , और Hanmer, Banks, and White (2014) ।
यह ध्यान रखें कि हालांकि इस मामले में शोधकर्ताओं Catalist से डेटा की गुणवत्ता द्वारा प्रोत्साहित किया गया, वाणिज्यिक विक्रेताओं के अन्य मूल्यांकन कम उत्साही किया गया है महत्वपूर्ण है। शोधकर्ताओं ने खराब गुणवत्ता पाया है जब विपणन सिस्टम्स ग्रुप से एक उपभोक्ता फाइल करने के लिए एक सर्वेक्षण से डेटा (जो अपने आप तीन प्रदाताओं से एक साथ विलय कर दिया डेटा: Acxiom, Experian, और InfoUSA) (Pasek et al. 2014) । यही कारण है, डेटा फ़ाइल सर्वेक्षण प्रतिक्रियाओं है कि शोधकर्ताओं ने सही होने की उम्मीद से मेल नहीं खाती, datafile था लापता लापता डेटा पैटर्न सवालों की एक बड़ी संख्या है, और के लिए डेटा की सूचना दी सर्वेक्षण मूल्य को (सहसंबद्ध था दूसरे शब्दों लापता डेटा व्यवस्थित था , बिना सोचे समझे नहीं)।
सर्वेक्षण और प्रशासनिक डेटा के बीच रिकॉर्ड संबंध के बारे में अधिक के लिए, देखें Sakshaug and Kreuter (2012) और Schnell (2013) । सामान्य तौर पर रिकॉर्ड संबंध के बारे में अधिक के लिए, देखें Dunn (1946) और Fellegi and Sunter (1969) (ऐतिहासिक) और Larsen and Winkler (2014) (आधुनिक)। इसी तरह के दृष्टिकोण को भी इस तरह के डेटा deduplication, उदाहरण पहचान, नाम मिलान, डुप्लिकेट का पता लगाने के रूप में नाम के तहत कंप्यूटर विज्ञान के क्षेत्र में विकसित किया गया है, और रिकॉर्ड का पता लगाने नकल (Elmagarmid, Ipeirotis, and Verykios 2007) । वहाँ भी गोपनीयता लिंकेज जो व्यक्तिगत रूप से जानकारी की पहचान के संचरण की आवश्यकता नहीं है रिकॉर्ड करने के लिए दृष्टिकोण को जीवित रखा है (Schnell 2013) । फेसबुक में शोधकर्ताओं probabilisticsly मतदान व्यवहार करने के लिए उनके रिकॉर्ड जोड़ने के लिए एक प्रक्रिया विकसित (Jones et al. 2013) ; इस संबंध में एक प्रयोग है कि मैं तुम्हें अध्याय 4 में के बारे में बताता हूँ मूल्यांकन करने के लिए किया गया था (Bond et al. 2012)
सरकार प्रशासनिक रिकॉर्ड करने के लिए एक बड़े पैमाने पर सामाजिक सर्वेक्षण को जोड़ने का एक और उदाहरण स्वास्थ्य और सेवानिवृत्ति सर्वेक्षण और सामाजिक सुरक्षा प्रशासन से आता है। उस अध्ययन पर अधिक जानकारी के लिए, सहमति की प्रक्रिया के बारे में जानकारी सहित, वहाँ Olson (1996) और Olson (1999) ।
एक मास्टर datafile-प्रक्रिया है कि Catalist कुछ राष्ट्रीय सरकारों के सांख्यिकीय कार्यालयों में आम कर्मचारियों-है में प्रशासनिक रिकॉर्ड के कई स्रोत के संयोजन की प्रक्रिया। सांख्यिकी स्वीडन से दो शोधकर्ताओं विषय पर एक विस्तृत किताब लिखी है (Wallgren and Wallgren 2007) । (Olmstead काउंटी, मिनेसोटा, मेयो क्लीनिक के घर) संयुक्त राज्य अमेरिका में एक भी काउंटी में इस दृष्टिकोण का एक उदाहरण के लिए, देखें Sauver et al. (2011) । त्रुटि है कि प्रशासनिक रिकॉर्ड में प्रदर्शित कर सकते हैं पर अधिक के लिए, देखें Groen (2012) ।