गैर-सम्भावना नमूनाहरू संग, वजन भएको कल्पित नमूना प्रक्रिया कारण विकृतिहरु सच्याउन सक्नुहुन्छ।
अनुसन्धानकर्ताहरूले सम्भावना नमूनाहरू देखि प्रतिक्रियाहरू वजन कि यस्तै, तिनीहरूले पनि गैर-सम्भावना नमूनाहरू देखि प्रतिक्रियाहरू वजन गर्न सक्छन्। उदाहरणका लागि, सीपीएस लागि वैकल्पिक रूपमा, तपाईँले बेरोजगारी दर अनुमान गर्न एक सर्वेक्षण लागि सहभागीहरू रंगरुट वेबसाइट हजारौं मा ब्यानर विज्ञापन राखिएको भनेर कल्पना गर्नुहोस्। स्वाभाविक, तपाईंले आफ्नो नमूनाको सरल मतलब बेरोजगारी दर राम्रो अनुमान भनेर संदेह हुनेछ। तपाईं केही मानिसहरू अरूलाई भन्दा आफ्नो सर्वेक्षण पूरा गर्न बढी सम्भावना हुन्छ भन्ने सोचाइ किनभने आफ्नो शंका सायद छ। उदाहरणका लागि, वेब मा धेरै समय खर्च नगर्ने मान्छे आफ्नो सर्वेक्षण पूरा गर्न कम सम्भावना हुन्छ।
हामी अन्तिम खण्ड देखे रूपमा, तर, यदि हामी थाहा नमूना चयन-रूपमा थियो हामी कसरी सम्भावना संग के नमूनाहरू-त्यसपछि हामी नमूना प्रक्रिया कारण विकृतिहरु सच्याउन सक्नुहुन्छ। दुर्भाग्यवश, जब गैर-सम्भावना नमूनाहरू संग काम गर्न, हामी नमूना चयन गरिएको कसरी थाहा छैन। तर, हामी नमूना प्रक्रियाको बारेमा अनुमानको बनाउन सक्छ र त्यसपछि नै तरिकामा भार लागू हुन्छ। यी अनुमानको सही छन् भने, त्यसपछि भार नमूना प्रक्रिया कारण पनि विकृतिहरु पूर्ववत हुनेछ।
उदाहरणका लागि, आफ्नो ब्यानर विज्ञापन प्रतिक्रिया, तपाईं 1,00,000 उत्तरदाताओं recruited भनेर कल्पना गर्नुहोस्। तथापि, तपाईं यी 1,00,000 उत्तरदाताओं अमेरिकी वयस्क को एक सरल अनियमित नमुना हो भनेर विश्वास छैन। वास्तवमा, तपाईं अमेरिकी जनसंख्या आफ्नो उत्तरदाताओं तुलना गर्दा, तपाईं केही भन्छ (जस्तै, न्यूयोर्क) मानिसहरूलाई केही भन्छ (जस्तै, अलास्का) देखि माथि-प्रतिनिधित्व र मान्छे हो कि अन्तर्गत-प्रतिनिधित्व छन् पाउँछौं। तसर्थ, आफ्नो नमूनाको बेरोजगारी दर लक्षित जनसंख्या मा बेरोजगारी दर खराब अनुमान हुन सम्भावना छ।
कि नमूना प्रक्रियामा भयो गर्ने विकृति पूर्ववत एउटा तरिका प्रत्येक व्यक्ति वजन नियुक्त गर्न छ; नमूना (जस्तै, अलास्का) मा अन्तर्गत-प्रतिनिधित्व गर्दै छन् अमेरिका देखि नमूना (जस्तै, न्यूयोर्क) र उच्च वजन मान्छे मा भन्दा-प्रतिनिधित्व गर्दै छन् अमेरिका मानिसहरूलाई कम वजन। थप विशेष, प्रत्येक प्रतिवादीको लागि वजन अमेरिकी जनसंख्या मा आफ्नो प्रसार गर्न आफ्नो नमूना नातेदार आफ्नो प्रसार गर्न सम्बन्धित छ। यो भार प्रक्रिया पोस्ट-स्तरीकरण भनिन्छ, र वजन को विचार जहाँ रोड आइल्याण्ड बाट उत्तरदाताओं क्यालिफोर्निया उत्तरदाताओं भन्दा कम तौल दिइएको थियो खण्ड 3.4.1 मा उदाहरण तपाईं सम्झाउनुपर्छ। पोस्ट-स्तरीकरण तपाईं आफ्नो उत्तरदाताओं समूह मा राख्न र प्रत्येक समूहमा लक्षित जनसंख्याको अनुपात थाहा गर्न पर्याप्त आवश्यक छ।
सम्भावनालाई नमूनाको र गैर-सम्भावना नमूनाको भार नै गणितीय (प्राविधिक परिशिष्ट हेर्नुहोस्) हो तापनि तिनीहरूले विभिन्न परिस्थितिको मा काम। यस शोधकर्ता सिद्ध सम्भावना नमूना (अर्थात्, कुनै कवरेज त्रुटि र कुनै गैर-प्रतिक्रिया) छ भने, त्यसपछि भार सबै अवस्थामा सबै गुण लागि unbiased अनुमान उत्पादन हुनेछ। सम्भावना नमूनाहरू को समर्थकले उनलाई यति आकर्षक किन यो बलियो सैद्धान्तिक ग्यारेन्टी छ। अर्कोतर्फ, भार गैर-सम्भावना नमूनाहरू प्रतिक्रिया propensities प्रत्येक समूहमा सबैका लागि समान छन् भने सबै गुण लागि unbiased अनुमान मात्र उत्पादन हुनेछ। अर्को शब्दमा, हाम्रो उदाहरण फिर्ता सोच पोस्ट-स्तरीकरण प्रयोग न्यूयोर्क सबैलाई सहभागी र अलास्का सबैलाई सहभागी र यति मा को नै सम्भावना छ को नै सम्भावना छ भने unbiased अनुमान उत्पादन हुनेछ। यो धारणा पनि homogeneous प्रतिक्रिया-propensities-भित्र-समूह धारणा भनिन्छ, र यो पोस्ट-स्तरीकरण गैर-सम्भावना नमूनाहरू राम्रोसँग काम भने थाह मा एक प्रमुख भूमिका खेल्छ।
दुर्भाग्यवश, हाम्रो उदाहरणमा, homogeneous प्रतिक्रिया-propensities-भित्र-समूह धारणा साँचो हुन असम्भाव्य देखिन्छ। छ, यो अलास्का सबैलाई आफ्नो सर्वेक्षण मा हुनुको एउटै सम्भावना छ असम्भाव्य देखिन्छ। तर, त्यहाँ सबै जो यो थप होनहार जस्तो बनाउन पोस्ट-स्तरीकरण बारेमा मनमा राख्न तीन बुँदा छन्।
पहिलो, homogeneous प्रतिक्रिया-propensities-भित्र-समूह धारणा समूह बढ संख्या बढी plausible हुन्छ। र, अनुसन्धानकर्ताहरूले बस एक भौगोलिक आयाम आधारित समूह सीमित छैन। उदाहरणका लागि, हामी राज्य, उमेर, लिंग, र शिक्षा को स्तर मा आधारित समूह सिर्जना गर्न सक्छ। यो त्यहाँ 18-29 को समूह भित्र homogeneous प्रतिक्रिया propensities छ कि थप plausible देखिन्छ, अलास्का बस्ने सबै मानिसहरूको समूह भित्र भन्दा अलास्का बस्ने महिला, कलेज स्नातकहरूको। तसर्थ, पोस्ट-स्तरीकरण बढ लागि प्रयोग समूह संख्या को रूप मा, अनुमानको यसलाई थप व्यावहारिक बन्न समर्थन गर्न आवश्यक थियो। यो तथ्यलाई दिइएको, यो एक अनुसन्धानकर्ताहरूले पोस्ट-स्तरीकरण लागि समूह को एक विशाल नम्बर सिर्जना गर्न चाहनुहुन्छ जस्तै देखिन्छ। डाटा sparsity: तर, समूह बढ संख्या रूपमा, अनुसन्धानकर्ताहरूले फरक समस्या चलान। प्रत्येक समूहमा मान्छे मात्र एउटा सानो नम्बर हो भने, त्यसपछि अनुमान थप अनिश्चित हुनेछ, र चरम मामला मा जहाँ कुनै उत्तरदाताओं छ कि एक समूह छ, त्यसपछि पोस्ट-स्तरीकरण पूर्ण तल खण्डन। त्यहाँ homogeneous- प्रतिक्रिया-propensity-भित्र-समूह धारणा को plausibility र प्रत्येक समूहमा उचित नमूना आकार लागि मांग बीच यस निहित तनाव बाहिर दुई तरिकाहरू छन्। एक दृष्टिकोण वजन गणना लागि एक थप परिष्कृत तथ्याङ्क मोडेल सार्न छ र अन्य प्रत्येक समूहमा उचित नमूना आकार सुनिश्चित गर्न मद्दत गर्छ जो एक ठूलो, अधिक विविध नमूना, सङ्कलन गर्न छ। र, म तल थप विस्तृत वर्णन छौँ रूपमा, अनुसन्धानकर्ताहरूले कहिलेकाहीं के दुवै।
जब गैर-सम्भावना नमूनाहरू देखि पोस्ट-स्तरीकरण संग काम दोस्रो विचार गर्ने homogeneous प्रतिक्रिया-propensity-भित्र-समूह धारणा पहिले नै बारम्बार सम्भावना नमूनाहरू विश्लेषण गर्दा बनेको छ भन्ने छ। यो धारणा व्यवहार मा सम्भावना नमूनाहरू लागि आवश्यक छ भनेर कारण सम्भावना नमूनाहरू गैर-प्रतिक्रिया छ कि छ, र माथि वर्णन गैर-प्रतिक्रिया को लागि समायोजन सबै भन्दा सामान्य विधि पोस्ट-स्तरीकरण छ। निस्सन्देह, धेरै अनुसन्धानकर्ताहरूले एक निश्चित धारणा तपाईं पनि यसलाई के गर्नुपर्छ भन्ने होइन बनाउन बस किनभने। तर, यो अभ्यास मा सम्भावना नमूनाहरू गर्न गैर-सम्भावना नमूनाहरू तुलना गर्दा हामी दुवै क्रम अनुमान उत्पादन गर्न मा अनुमानको र सहायक जानकारी निर्भर भनेर मनमा राख्नु पर्छ मतलब। सबैभन्दा व्यावहारिक सेटिङमा, त्यहाँ बस inference कुनै धारणा-मुक्त दृष्टिकोण छ।
अन्तमा, तपाईं हाम्रो उदाहरण बेरोजगारी मा विशेष-करिब एक अनुमान ख्याल यदि दर-त तपाईं homogeneous प्रतिक्रिया-propensity-भित्र-समूह धारणा भन्दा कमजोर सर्त आवश्यक छ। विशेष गरी, तपाईं मात्र प्रत्येक समूह भित्र प्रतिक्रिया propensity र बेरोजगारी दर बीच कुनै सम्बन्ध छ कि मान गर्न आवश्यक सबैलाई एउटै प्रतिक्रिया propensity छ मान गर्न आवश्यक छैन। निस्सन्देह, पनि यो कमजोर अवस्थामा केही परिस्थितिमा पकड छैन। उदाहरणका लागि, स्वयंसेवक काम भनेर अमेरिका को अनुपात अनुमान कल्पना गर्नुहोस्। स्वयंसेवक काम गर्ने मान्छे एक सर्वेक्षण मा सहमत छु बढी सम्भावना हुन्छ भने, त्यसपछि अनुसन्धानकर्ताहरूले हुनेछ प्रणालीबद्ध भन्दा-अनुमान तिनीहरूले पोस्ट-स्तरीकरण समायोजन द्वारा empirically प्रकट गरिएको छ कि एक परिणाम के पनि भने, स्वयं सेवा को मात्रा Abraham, Helms, and Presser (2009) ।
म पहिले भन्यो, गैर-सम्भावना नमूनाहरू ठूलो शंका संग सामाजिक वैज्ञानिकहरू द्वारा, भाग मा किनभने सर्वेक्षण अनुसन्धान को प्रारम्भिक दिनमा सबैभन्दा लाजमर्दो असफलता केही आफ्नो भूमिका को ठानिन्छ। हामी गैर-सम्भावना नमूनाहरू संग आएका छन् कति टाढा को एक स्पष्ट उदाहरण सही अमेरिकी Xbox प्रयोगकर्ताहरूको एक गैर-सम्भावना नमूना प्रयोग गरेर 2012 अमेरिकी चुनाव नतिजा बरामद कि वी वैंग, दाऊदले Rothschild, Sharad Goel र अन्द्रियास Gelman को अनुसन्धान छ अमेरिका -A बेशक गैर-अनियमित नमुना (Wang et al. 2015) । शोधकर्ताओं Xbox को खेल प्रणालीबाट उत्तरदाताओं recruited, र तपाईं आशा सक्छ को रूप मा, Xbox नमूना पुरुष skewed र जवान skewed: 18 - 29 वर्ष को बच्चाहरु माथि बनाउन निर्वाचक मण्डल को 19% तर Xbox नमूनाको 65% र पुरुष बनेको 47% यस निर्वाचक मण्डल र Xbox नमूना (चित्रा 3.4) को 93% को। किनभने यी बलियो डेमोग्राफिक पक्षपात को, काँचो Xbox डाटा चुनाव लाभ को एक गरिब सूचक थियो। यो बराक ओबामा भन्दा पन्जा Romney लागि बलियो विजय भविष्यवाणी। फेरि, यो कच्चा, असमायोजित गैर-सम्भावना नमूनाहरू खतराहरूबाट अर्को उदाहरण हो र साहित्य डाइजेस्ट fiasco को reminiscent छ।
तर, वांग र सहयोगिहरु यी समस्याहरू सजग थिए र नमूना प्रक्रिया को लागि सुधार्न उत्तरदाताओं वजन कोसिस गर्यो। खासगरी, तिनीहरूले पोस्ट-स्तरीकरण म बारेमा भन्नुभयो अझ परिष्कृत रूप प्रयोग। यसलाई अलिकति आफ्नो दृष्टिकोण बारेमा थप सिक्ने यो पोस्ट-स्तरीकरण बारेमा अंतर्ज्ञान बनाउँछ किनभने लायक छ, र विशेष संस्करण वांग र सहयोगिहरु प्रयोग भार गैर-सम्भावना नमूनाहरू गर्न सबैभन्दा रोचक दृष्टिकोण एक छ।
धारा 3.4.1 मा बेरोजगारी अनुमान बारेमा हाम्रो सरल उदाहरण हामी निवास राज्य आधारित समूह मा जनसंख्या विभाजित। यसको विपरीत, वांग र सहयोगिहरु 176.256 समूह द्वारा परिभाषित मा मा जनसंख्या विभाजित: लिङ्ग (2 विभाग), दौड (4 विभाग), उमेर (4 विभाग), शिक्षा (4 विभाग), राज्य (51 विभाग), पार्टी आईडी (3 विभाग), विचारधारा (3 विभाग) र 2008 मत (3 विभाग)। थप समूहहरूसँग, शोधकर्ताओं यो प्रत्येक समूह भित्र, प्रतिक्रिया propensity ओबामा लागि समर्थन uncorrelated थियो झन् संभावना हुनेछ भन्ने आशा गरे। अर्को, बरु हामी हाम्रो उदाहरण मा जस्तै, व्यक्तिगत-स्तर वजन निर्माण भन्दा, वांग र सहयोगिहरु एक जटिल मोडेल ओबामा लागि मतदान भनेर प्रत्येक समूहमा मान्छे को अनुपात अनुमान गर्न प्रयोग। अन्तमा, तिनीहरू समर्थन को एक अनुमानित समग्र स्तर उत्पादन गर्न प्रत्येक समूह को ज्ञात आकार संग समर्थन यी समूह अनुमान संयुक्त। अर्को शब्दमा, तिनीहरू जनसंख्याको फरक समूह मा, कटी प्रत्येक समूहमा ओबामा लागि समर्थन अनुमानित, र त्यसपछि एक समग्र अनुमान उत्पादन गर्न समूह अनुमान एक भारित औसत गरे।
तसर्थ, आफ्नो दृष्टिकोण मा ठूलो चुनौती यी 176.256 समूह प्रत्येक ओबामा लागि समर्थन अनुमान छ। आफ्नो प्यानल 345.858 अद्वितीय सहभागीहरू, निर्वाचन मतदान को स्तरअनुसार एक विशाल संख्या समावेश भए तापनि, त्यहाँ वांग र सहयोगिहरु लगभग कुनै उत्तरदाताओं थियो जसको लागि धेरै, धेरै समूह थिए। त्यसैले, प्रत्येक तिनीहरूले एक प्रविधी प्रयोग अनुसन्धानकर्ताहरूले माया श्री पी मूलतः, एक विशिष्ट समूह भित्र ओबामा लागि समर्थन अनुमान गर्न, श्री पी पूल धेरै जानकारी कल जो पोस्ट-स्तरीकरण संग बहु प्रतिगमनमा भनिन्छ समूह, मा समर्थन अनुमान गर्न राम्ररी समूह सम्बन्धित। उदाहरणका लागि, महिला, Hispanics को बीचमा ओबामा लागि समर्थन अनुमान को चुनौती, 18-29 वर्ष पुरानो बीच, विचार कलेज स्नातकहरूको, डेमोक्रेट दर्ता भएका, moderates रूपमा आत्म-पहिचान गर्ने को हो, र 2008. मा ओबामा लागि मतदान गर्ने यो एक धेरै, अति विशिष्ट समूह छ, र यो त्यहाँ यी विशेषताहरु संग नमूनामा कसैले हो भनेर सम्भव छ। त्यसैले यो समूह बारेमा अनुमान गर्न, श्री पी पूल सँगै धेरै समान समूहमा मान्छे देखि अनुमान।
यो विश्लेषण रणनीति प्रयोग गरेर वांग र सहयोगिहरु धेरै नजिकबाट ओबामा 2012 चुनाव मा पाएको समग्र समर्थन अनुमान गर्न Xbox को गैर-सम्भावना नमूना प्रयोग गर्न सक्षम थिए (चित्रा 3.5)। वास्तवमा आफ्नो अनुमान सार्वजनिक राय पोल को समग्र भन्दा बढी सही थिए। तसर्थ, यस मामला मा, भार-विशेष श्री गैर-सम्भावना डाटा मा पक्षपात सही राम्रो काम गर्न पी-देखिन्छ; पक्षपात जब तपाईं असमायोजित Xbox डाटा देखि अनुमान हेर्न देखिने छन्।
त्यहाँ वांग र सहयोगिहरु को अध्ययनबाट दुई मुख्य पाठ हो। पहिलो, असमायोजित गैर-सम्भावना नमूनाहरू खराब अनुमान गर्न सक्छ; यो धेरै अनुसन्धानकर्ताहरूले अघि सुनेका एक पाठ हो। तथापि, दोस्रो पाठ गैर-सम्भावना नमूनाहरू, ठीक भारित गर्दा, वास्तवमा एकदम राम्रो अनुमान उत्पादन गर्न सक्छन् भन्ने छ। वास्तवमा, आफ्नो अनुमान pollster.com, अधिक परम्परागत चुनाव चुनाव को एक एकत्रीकरण देखि अनुमान भन्दा बढी सही थिए।
अन्तमा, हामी यो एक विशिष्ट अध्ययन सिक्न सक्छौं के गर्न महत्त्वपूर्ण सीमितता छन्। बस किनभने पोस्ट-स्तरीकरण यस विशेष मामला मा राम्रो काम गरेको छ, त्यहाँ अन्य अवस्थामा राम्रो काम गर्नेछ भन्ने कुनै ग्यारेन्टी छ। वास्तवमा, चुनाव pollsters लगभग 100 वर्षसम्म चुनाव अध्ययन गरिएको छ किनभने सायद सजिलो सेटिङहरू एक हो, त्यहाँ नियमित प्रतिक्रिया (हामी जो चुनाव जितेकी देख्न सक्छन्), र पार्टी पहिचान छ र डेमोग्राफिक विशेषताहरु मतदान अपेक्षाकृत भविष्यवाणी छन्। यो विन्दुमा हामी ठोस सिद्धान्त र जान्न गैर-सम्भावना नमूनाहरू गर्न भार समायोजन पर्याप्त सही अनुमान उत्पादन हुनेछ जब empirical अनुभव कमी छ। स्पष्ट छ कि एउटा कुरा, तर, तपाईं गैर-सम्भावना नमूनाहरू काम गर्न बाध्य छन् भने छ, त्यसपछि त्यहाँ समायोजित अनुमान गैर-समायोजित अनुमान भन्दा राम्रो हुनेछ भन्ने विश्वास गर्न बलियो कारण हो।