Representation अपने लक्ष्य की आबादी के लिए अपने उत्तरदाताओं से inferences बनाने के बारे में है।
बड़ी आबादी के उत्तरदाताओं से बात करते समय होने वाली त्रुटियों को समझने के लिए, आइए साहित्यिक डाइजेस्ट स्ट्रॉ पोल पर विचार करें जिसने 1 9 36 अमेरिकी राष्ट्रपति चुनाव के नतीजे की भविष्यवाणी करने की कोशिश की। हालांकि यह 75 साल पहले हुआ था, लेकिन आज भी शोधकर्ताओं को पढ़ाने के लिए इस हार का एक महत्वपूर्ण सबक है।
साहित्यिक डाइजेस्ट एक लोकप्रिय सामान्य रुचि पत्रिका थी, और 1 9 20 से शुरू हुई, उन्होंने राष्ट्रपति चुनावों के परिणामों की भविष्यवाणी करने के लिए स्ट्रॉ चुनाव चलाए। इन भविष्यवाणियों को बनाने के लिए, वे बहुत से लोगों को मतपत्र भेज देंगे और फिर वापस लौटे गए मतपत्रों को टैली करेंगे; साहित्यिक डाइजेस्ट ने गर्व से बताया कि उन्हें प्राप्त मतपत्र न तो "भारित, समायोजित, और न ही व्याख्या किए गए थे।" इस प्रक्रिया ने 1 9 20, 1 9 24, 1 9 28 और 1 9 32 में चुनावों के विजेताओं की सही भविष्यवाणी की थी। 1 9 36 में, ग्रेट डिप्रेशन, साहित्यिक के बीच में डाइजेस्ट ने 10 मिलियन लोगों को मतपत्र भेजे, जिनके नाम मुख्य रूप से टेलीफोन निर्देशिकाओं और ऑटोमोबाइल पंजीकरण रिकॉर्ड से आए थे। यहां बताया गया है कि उन्होंने अपनी पद्धति का वर्णन कैसे किया:
"डीआईजीईटी की चिकनी चलने वाली मशीन मुश्किल तथ्यों को अनुमान लगाने के लिए तीस साल के अनुभव की तेज परिशुद्धता के साथ आगे बढ़ती है ... इस हफ्ते 500 पेन एक दिन में एक लाख से अधिक पते खरोंच करते हैं। हर दिन, न्यूयॉर्क में मोटर-रिबन वाले चौथे एवेन्यू से ऊपर एक महान कमरे में, 400 श्रमिक छः शहर के ब्लॉक को चार्ज करने के लिए पर्याप्त रूप से मुद्रित पदार्थों के लाखों टुकड़े स्लाइड करते हैं-संबोधित लिफाफे [एसआईसी] में। हर घंटे, डिगस्ट के स्वयं के पोस्ट ऑफिस सबस्टेशन में, तीन चापलूसी पोस्टिंग मीटरींग मशीनों को सील कर दिया गया और सफेद आंगन मुद्रित किया गया; कुशल डाक कर्मचारियों ने उन्हें मेलस्क्स उछालने में फिसल दिया; बेड़े के डिगस्ट ट्रक ने उन्हें मेल-ट्रेनों को व्यक्त करने के लिए प्रेरित किया। । । अगले हफ्ते, इन दस मिलियन से पहले उत्तरों चिह्नित मतपत्रों की आने वाली ज्वार शुरू करेंगे, तीन बार पार-सत्यापित, सत्यापित, पांच गुना पार वर्गीकृत और कुल मिलाकर। जब आखिरी आंकड़ा टेट और चेक किया गया है, यदि पिछले अनुभव एक मानदंड है, तो देश को 1 मिलियन के अंश के भीतर चालीस मिलियन [मतदाताओं] के वास्तविक लोकप्रिय वोट के बारे में पता चल जाएगा। "(22 अगस्त, 1 9 36)
साहित्यिक डाइजेस्ट का आकार का बुतलाकरण आज किसी भी "बड़े डेटा" शोधकर्ता के लिए तुरंत पहचानने योग्य है। 10 मिलियन मतपत्र वितरित किए गए, एक अद्भुत 2.4 मिलियन लौटे थे-जो आधुनिक राजनीतिक चुनावों की तुलना में लगभग 1,000 गुना बड़ा है। इन 2.4 मिलियन उत्तरदाताओं से, फैसले स्पष्ट था: अल्फ लैंडन मौजूदा फ्रेंकलिन रूजवेल्ट को पराजित करने जा रहा था। लेकिन, वास्तव में, रूजवेल्ट ने भूस्खलन में लैंडन को हरा दिया। इतने सारे डेटा के साथ साहित्यिक डाइजेस्ट गलत कैसे हो सकता है? नमूनाकरण की हमारी आधुनिक समझ साहित्यिक डाइजेस्ट की गलतियों को स्पष्ट करती है और हमें भविष्य में इसी तरह की गलतियों को करने में मदद करती है।
नमूनाकरण के बारे में स्पष्ट रूप से सोचने के लिए हमें लोगों के चार अलग-अलग समूहों (आंकड़ा 3.2) पर विचार करना आवश्यक है। पहला समूह लक्षित आबादी है ; यह वह समूह है जो शोधकर्ता ब्याज की आबादी के रूप में परिभाषित करता है। साहित्यिक डाइजेस्ट के मामले में, लक्षित जनसंख्या 1 9 36 के राष्ट्रपति चुनाव में मतदाताओं थी।
लक्षित आबादी का निर्णय लेने के बाद, एक शोधकर्ता को उन लोगों की एक सूची विकसित करने की आवश्यकता होती है जिनका उपयोग नमूनाकरण के लिए किया जा सकता है। इस सूची को एक नमूना फ्रेम कहा जाता है और इसके लोगों को फ्रेम आबादी कहा जाता है। आदर्श रूप से, लक्ष्य आबादी और फ्रेम आबादी बिल्कुल वही होगी, लेकिन व्यवहार में अक्सर यह मामला नहीं होता है। उदाहरण के लिए, साहित्यिक डाइजेस्ट के मामले में, फ्रेम आबादी 10 मिलियन लोग थी जिनके नाम मुख्य रूप से टेलीफोन निर्देशिकाओं और ऑटोमोबाइल पंजीकरण रिकॉर्ड से आए थे। लक्षित आबादी और फ्रेम आबादी के बीच अंतर कवरेज त्रुटि कहा जाता है। कवरेज त्रुटि, स्वयं ही गारंटी की गारंटी नहीं देती है। हालांकि, यह कवरेज पूर्वाग्रह का कारण बन सकता है यदि फ्रेम आबादी में लोग लक्षित आबादी के लोगों से व्यवस्थित रूप से अलग हैं जो फ्रेम आबादी में नहीं हैं। वास्तव में, साहित्यिक डाइजेस्ट सर्वेक्षण में वास्तव में क्या हुआ। उनकी फ्रेम आबादी में लोग आल्फ लैंडन का समर्थन करने की अधिक संभावना रखते थे, क्योंकि वे अमीर थे (याद रखें कि 1 9 36 में टेलीफोन और ऑटोमोबाइल अपेक्षाकृत नए और महंगे थे)। इसलिए, साहित्यिक डाइजेस्ट सर्वेक्षण में, कवरेज त्रुटि ने कवरेज पूर्वाग्रह का नेतृत्व किया।
फ्रेम आबादी को परिभाषित करने के बाद, अगला कदम एक शोधकर्ता के लिए नमूना आबादी का चयन करना है; ये वे लोग हैं जो शोधकर्ता साक्षात्कार का प्रयास करेंगे। यदि नमूना फ्रेम आबादी की तुलना में अलग-अलग विशेषताएं हैं, तो नमूनाकरण नमूना त्रुटि शुरू कर सकता है। हालांकि, साहित्यिक डाइजेस्ट फियास्को के मामले में, वास्तव में फ्रेम नमूना में सभी से संपर्क करने के लिए पत्रिका नहीं थी - और इसलिए कोई नमूना त्रुटि नहीं थी। कई शोधकर्ता नमूना त्रुटि पर ध्यान केंद्रित करते हैं- यह आम तौर पर सर्वेक्षणों में रिपोर्ट की गई त्रुटि के मार्जिन द्वारा प्राप्त त्रुटि का एकमात्र प्रकार है - लेकिन साहित्यिक डाइजेस्ट फियास्को हमें याद दिलाता है कि हमें यादृच्छिक और व्यवस्थित दोनों त्रुटि के सभी स्रोतों पर विचार करने की आवश्यकता है।
अंत में, नमूना आबादी चुनने के बाद, एक शोधकर्ता अपने सभी सदस्यों से साक्षात्कार करने का प्रयास करता है। जिन लोगों को सफलतापूर्वक साक्षात्कार दिया जाता है उन्हें उत्तरदाताओं कहा जाता है। आदर्श रूप में, नमूना आबादी और उत्तरदाता बिल्कुल वही होंगे, लेकिन व्यवहार में गैर प्रतिक्रिया है। यही है, नमूने में चुने गए लोग कभी-कभी भाग नहीं लेते हैं। यदि उत्तर देने वाले लोग उन लोगों से भिन्न होते हैं जो प्रतिक्रिया नहीं देते हैं, तो गैर-प्रतिक्रिया पूर्वाग्रह हो सकता है । गैर-प्रतिक्रिया पूर्वाग्रह साहित्यिक डाइजेस्ट सर्वेक्षण के साथ दूसरी मुख्य समस्या थी। मतपत्र प्राप्त करने वाले लोगों में से केवल 24% ने जवाब दिया, और यह पता चला कि लैंडन का समर्थन करने वाले लोगों को जवाब देने की अधिक संभावना थी।
प्रतिनिधित्व के विचारों को पेश करने के लिए केवल एक उदाहरण होने के अलावा, साहित्यिक डाइजेस्ट पोल एक बार-बार दृष्टांत है, जो शोधकर्ताओं को खतरनाक नमूना के खतरों के बारे में चेतावनी देता है। दुर्भाग्य से, मुझे लगता है कि इस कहानी से कई लोग जो सबक आकर्षित करते हैं वह गलत है। कहानी का सबसे आम नैतिक यह है कि शोधकर्ता गैर-संभाव्यता नमूने से कुछ भी नहीं सीख सकते हैं (यानी प्रतिभागियों को चुनने के लिए सख्त संभावना-आधारित नियमों के बिना नमूने)। लेकिन, जैसा कि मैं बाद में इस अध्याय में दिखाऊंगा, यह बिल्कुल सही नहीं है। इसके बजाय, मुझे लगता है कि इस कहानी में वास्तव में दो नैतिकताएं हैं; नैतिकताएं जो आज भी सच थीं क्योंकि वे 1 9 36 में थीं। सबसे पहले, बड़ी संख्या में खतरनाक रूप से एकत्रित डेटा एक अच्छे अनुमान की गारंटी नहीं देगा। आम तौर पर, बड़ी संख्या में उत्तरदाता अनुमानों के भिन्नता को कम करते हैं, लेकिन यह आवश्यक रूप से पूर्वाग्रह को कम नहीं करता है। बहुत सारे डेटा के साथ, शोधकर्ता कभी-कभी गलत चीज़ का सटीक अनुमान प्राप्त कर सकते हैं; वे ठीक से गलत हो सकते हैं (McFarland and McFarland 2015) । साहित्यिक डाइजेस्ट फियास्को का दूसरा मुख्य सबक यह है कि शोधकर्ताओं को यह अनुमान लगाने की आवश्यकता होती है कि अनुमान लगाने के दौरान उनका नमूना कैसे एकत्र किया गया था। दूसरे शब्दों में, क्योंकि साहित्यिक डाइजेस्ट पोल में नमूना प्रक्रिया कुछ उत्तरदाताओं की ओर व्यवस्थित रूप से खराब हो गई थी, शोधकर्ताओं को एक और जटिल आकलन प्रक्रिया का उपयोग करने की आवश्यकता थी जो कुछ उत्तरदाताओं को दूसरों से अधिक भारित करता था। बाद में इस अध्याय में, मैं आपको ऐसी एक भारोत्तोलन प्रक्रिया-पोस्ट-स्तरीकरण दिखाऊंगा-जो आपको खतरनाक नमूने से बेहतर अनुमान लगाने में सक्षम बनाता है।