Representation अपने लक्ष्य की आबादी के लिए अपने उत्तरदाताओं से inferences बनाने के बारे में है।
आदेश में त्रुटि है कि जब बड़ी आबादी के लिए उत्तरदाताओं से inferring हो सकता है की तरह समझने के लिए, साहित्य डाइजेस्ट भूसे जनमत सर्वेक्षण कि 1936 के अमेरिकी राष्ट्रपति चुनाव के परिणाम की भविष्यवाणी करने की कोशिश की पर विचार करते हैं। हालांकि यह 75 से अधिक साल पहले की बात है, इस पराजय अभी भी एक महत्वपूर्ण सबक आज शोधकर्ताओं को पढ़ाने के लिए है।
साहित्यिक डाइजेस्ट एक लोकप्रिय सामान्य ब्याज पत्रिका था, और 1920 में शुरू होने वाले वे राष्ट्रपति चुनाव के परिणाम की भविष्यवाणी करने के लिए पुआल चुनाव चलने लगे। इन भविष्यवाणियों बनाने के लिए वे लोगों की बहुत सारी करने मतपत्र भेजना होगा, और फिर बस मतपत्र लौट रहे थे कि मिलान, साहित्यिक डाइजेस्ट गर्व से खबर दी है कि मतपत्र प्राप्त हुए थे वे न तो ", भारित समायोजित, और न ही व्याख्या की।" यह प्रक्रिया सही ढंग से विजेता की भविष्यवाणी की 1920, 1924, 1928 और 1932 में चुनाव के 1936 में, ग्रेट डिप्रेशन के बीच में, साहित्यिक डाइजेस्ट बाहर मतपत्र 10 लाख लोगों को, जिनके नाम पर मुख्यतः टेलीफोन निर्देशिका और ऑटोमोबाइल पंजीकरण रिकॉर्ड से आया करने के लिए भेजा है। यहाँ कैसे वे अपनी कार्यप्रणाली में वर्णित है:
"तीस वर्षों के अनुभव की स्विफ्ट परिशुद्धता के साथ डाइजेस्ट की चिकनी चल मशीन चाल तथ्यों को अटकलबाजी को कम करने के लिए। । । .इस सप्ताह 500 कलम एक लाख पतों की एक चौथाई एक दिन से अधिक बाहर खरोंच। हर दिन, एक महान ऊपर मोटर-रिबन चौथा एवेन्यू उच्च रूम, न्यू यॉर्क में, 400 श्रमिकों चतुराई से बात-पर्याप्त चालीस शहर ब्लॉक-में संबोधित लिफाफे [वैसा] प्रशस्त करने के लिए मुद्रित के एक लाख टुकड़े स्लाइड। हर घंटे, डाइजेस्ट के स्वयं के डाकघर सबस्टेशन में, तीन बकबक डाक पैमाइश मशीनों को सील और सफेद oblongs मुहर लगी; कुशल डाक कर्मचारियों उन्हें mailsacks उभड़ा में फ़्लिप किया; बेड़े डाइजेस्ट ट्रकों उन्हें मेल-एक्सप्रेस गाड़ियों के लिए उड़ गए। । । अगले सप्ताह, इन दस करोड़ से पहले जवाब, उल्लेखनीय मतपत्रों की आने वाले ज्वार शुरू हो जाएगा ट्रिपल जाँच की, पांच बार पार ढेर सारे सत्यापित और कुल होना करने के लिए। जब पिछली आंकड़ा totted किया गया है और जाँच की, अगर अतीत के अनुभव एक कसौटी है, देश के 1 प्रतिशत के चालीस मिलियन [मतदाताओं] वास्तविक लोकप्रिय वोट के एक अंश के भीतर करने के लिए पता चल जाएगा। "(22 अगस्त, 1936)
आकार की डाइजेस्ट के fetishization आज किसी भी "बिग डाटा" शोधकर्ता को तुरंत पहचानने योग्य है। की 10 लाख मतपत्र वितरित की, एक अद्भुत 24 लाख मतपत्र लौटे-थे कि मोटे तौर पर 1,000 बार आधुनिक राजनीतिक चुनाव की तुलना में बड़ा है। इन 24 लाख उत्तरदाताओं से फैसले में स्पष्ट किया गया: साहित्यिक डाइजेस्ट भविष्यवाणी की है कि चैलेंजर Alf लंदन अवलंबी फ्रेंकलिन रूजवेल्ट को हराने के लिए जा रहा था। लेकिन, वास्तव में, सटीक विपरीत हुआ। रूजवेल्ट एक भूस्खलन में लंदन से हराया। कैसे साहित्यिक डाइजेस्ट इतना डेटा के साथ गलत जा सकता है? हमारे नमूने के आधुनिक समझ साहित्यिक डाइजेस्ट की त्रुटियों को स्पष्ट करता है और हमें भविष्य में इसी तरह की त्रुटियों करने से बचने में मदद करता है।
नमूने के बारे में स्पष्ट रूप से सोच हमें (चित्रा 3.1) लोगों के चार अलग अलग समूहों पर विचार करने की आवश्यकता है। लोगों के पहले समूह के लक्ष्य की आबादी है; इस समूह है कि अनुसंधान ब्याज की जनसंख्या के रूप में परिभाषित करता है। साहित्यिक डाइजेस्ट के मामले में लक्ष्य की आबादी 1936 के राष्ट्रपति चुनाव में मतदाताओं था। लक्ष्य आबादी पर निर्णय लेने के बाद, एक शोधकर्ता अगले है कि लोगों को नमूना लेने के लिए इस्तेमाल किया जा सकता है की एक सूची को विकसित करने की जरूरत है। इस सूची में एक नमूना फ्रेम कहा जाता है और नमूना फ्रेम पर जनसंख्या फ्रेम आबादी कहा जाता है। साहित्यिक डाइजेस्ट के मामले में फंसाने की आबादी 10 लाख लोगों को जिनके नाम टेलीफोन निर्देशिका और ऑटोमोबाइल पंजीकरण रिकॉर्ड से मुख्यतः आया था। आदर्श रूप में लक्षित जनसंख्या और फ्रेम आबादी बिल्कुल वैसा ही होगा, लेकिन व्यवहार में इस बार मामला नहीं है। लक्षित जनसंख्या और फ्रेम आबादी के बीच मतभेद कवरेज त्रुटि को कहा जाता है। कवरेज त्रुटि नहीं, स्वयं के द्वारा समस्याओं की गारंटी देता है। लेकिन, अगर फ्रेम जनसंख्या में लोगों को लोगों से व्यवस्थित ढंग से अलग कर रहे हैं नहीं फ्रेम जनसंख्या में वहाँ कवरेज पूर्वाग्रह होगा। कवरेज त्रुटि को साहित्यिक डाइजेस्ट चुनाव के साथ प्रमुख खामियों के पहले था। वे मतदाताओं-कि था के बारे में जानने के लिए चाहते थे कि उनके लक्ष्य जनसंख्या लेकिन यह है कि अमीर से अधिक प्रतिनिधित्व वे टेलीफोन निर्देशिका और ऑटोमोबाइल रजिस्ट्रियों सूत्रों से मुख्यतः एक नमूना फ्रेम निर्माण अमेरिकियों जो अधिक इन प्रौद्योगिकियों के दोनों कि Alf लंदन (याद समर्थन करने की संभावना थी, जो आम हैं आज, समय पर और कहा कि अमेरिका के ग्रेट डिप्रेशन के बीच में था) अपेक्षाकृत नए थे।
फ्रेम आबादी को परिभाषित करने के बाद, अगले कदम के लिए एक शोधकर्ता नमूना जनसंख्या का चयन करने के लिए है; इन लोगों की है कि शोधकर्ता साक्षात्कार करने का प्रयास कर रहे हैं। नमूना फ्रेम आबादी की तुलना में अलग विशेषताएं हैं, तो हम नमूना त्रुटि लागू कर सकते हैं। इस त्रुटि के मार्जिन कि आम तौर पर अनुमान accompanies में मात्रा निर्धारित त्रुटि की तरह है। साहित्यिक डाइजेस्ट असफलता के मामले में, वहाँ वास्तव में कोई नमूना था; वे फ्रेम आबादी में हर किसी से संपर्क करने का प्रयास किया। हालांकि वहाँ कोई नमूना त्रुटि थी, उसमें निश्चित रूप से अभी भी त्रुटि थी। यह स्पष्ट किया है कि त्रुटियों के हाशिये कि आम तौर पर सर्वेक्षणों के अनुमानों से रिपोर्ट कर रहे हैं आमतौर पर गुमराह छोटे हैं; वे त्रुटि के सभी स्रोतों शामिल नहीं हैं।
अंत में, एक शोधकर्ता नमूना जनसंख्या में हर किसी को साक्षात्कार के लिए प्रयास करता है। उन लोगों को जो सफलतापूर्वक साक्षात्कार कर रहे हैं उत्तरदाताओं कहा जाता है। आदर्श रूप में, नमूना जनसंख्या और उत्तरदाताओं बिल्कुल वैसा ही होगा, लेकिन व्यवहार में गैर प्रतिक्रिया नहीं है। यही कारण है कि लोग हैं, जो नमूने में चयन कर रहे हैं भाग लेने से मना है। लोग हैं, जो प्रतिक्रिया है जो उन लोगों का जवाब नहीं है से अलग कर रहे हैं, तो वहाँ गैर प्रतिक्रिया पूर्वाग्रह हो सकता है। गैर प्रतिक्रिया पूर्वाग्रह साहित्यिक डाइजेस्ट चुनाव के साथ दूसरा मुख्य समस्या थी। लोग हैं, जो एक मतपत्र प्राप्त की केवल 24% जवाब दिया, और यह है कि जो लोग लंदन समर्थित अधिक प्रतिक्रिया की संभावना थे निकला।
सिर्फ प्रतिनिधित्व के विचारों को लागू करने के लिए एक उदाहरण जा रहा से परे, साहित्यिक डाइजेस्ट सर्वेक्षण से सावधान बेतरतीब नमूने के खतरों के बारे में शोधकर्ताओं ने एक बार बार दोहराया दृष्टान्त है। दुर्भाग्य से, मुझे लगता है कि सबक यह है कि कई लोगों को इस कहानी से आकर्षित गलत है। कहानी का सबसे आम नैतिक कि शोधकर्ताओं (प्रतिभागियों के चयन के लिए सख्त संभावना के आधार पर नियमों के बिना यानी, नमूने) गैर संभावना नमूनों से कुछ भी नहीं सीख सकते है। लेकिन, जैसा कि मैं बाद में इस अध्याय में दिखाता हूँ, कि नहीं काफी सही है। इसके बजाय, मुझे लगता है कि वहाँ वास्तव में इस कहानी के लिए दो नैतिकता कर रहे हैं; नैतिकता है कि सच के रूप में आज के रूप में वे 1936 प्रथम में थे, संयोग से एकत्र डेटा की एक बड़ी राशि एक अच्छा अनुमान की गारंटी नहीं होगी। दूसरा, शोधकर्ताओं ने कैसे अपने डेटा एकत्र किया गया था जब वे यह अनुमान से बना रहे हैं के लिए खाते में करने की जरूरत है। दूसरे शब्दों में, क्योंकि साहित्यिक डाइजेस्ट सर्वेक्षण में डेटा संग्रह की प्रक्रिया को व्यवस्थित कुछ उत्तरदाताओं की ओर टेढ़ी था, शोधकर्ताओं ने दूसरों की तुलना में है कि वजन कुछ उत्तरदाताओं अधिक एक अधिक जटिल प्रक्रिया के आकलन का उपयोग करने की जरूरत है। इस अध्याय में बाद में, मैं आपको एक ऐसी प्रक्रिया भार-पोस्ट-स्तरीकरण-कि गैर संभावना नमूनों के साथ बेहतर अनुमान बनाने के लिए आप सक्षम कर सकते हैं दिखाता हूँ।