गैर-सम्भावना नमूनाहरू संग, वजन भएको कल्पित नमूना प्रक्रिया कारण विकृतिहरु सच्याउन सक्नुहुन्छ।
अनुसन्धानकर्ताहरूले सम्भावना नमूनाहरू देखि प्रतिक्रियाहरू वजन कि यस्तै, तिनीहरूले पनि गैर-सम्भावना नमूनाहरू देखि प्रतिक्रियाहरू वजन गर्न सक्छन्। उदाहरणका लागि, सीपीएस लागि वैकल्पिक रूपमा, तपाईँले बेरोजगारी दर अनुमान गर्न एक सर्वेक्षण लागि सहभागीहरू रंगरुट वेबसाइट हजारौं मा ब्यानर विज्ञापन राखिएको भनेर कल्पना गर्नुहोस्। स्वाभाविक, तपाईंले आफ्नो नमूनाको सरल मतलब बेरोजगारी दर राम्रो अनुमान भनेर संदेह हुनेछ। तपाईं केही मानिसहरू अरूलाई भन्दा आफ्नो सर्वेक्षण पूरा गर्न बढी सम्भावना हुन्छ भन्ने सोचाइ किनभने आफ्नो शंका सायद छ। उदाहरणका लागि, वेब मा धेरै समय खर्च नगर्ने मान्छे आफ्नो सर्वेक्षण पूरा गर्न कम सम्भावना हुन्छ।
हामी अन्तिम खण्ड देखे रूपमा, तर, यदि हामी थाहा नमूना चयन-रूपमा थियो हामी कसरी सम्भावना संग के नमूनाहरू-त्यसपछि हामी नमूना प्रक्रिया कारण विकृतिहरु सच्याउन सक्नुहुन्छ। दुर्भाग्यवश, जब गैर-सम्भावना नमूनाहरू संग काम गर्न, हामी नमूना चयन गरिएको कसरी थाहा छैन। तर, हामी नमूना प्रक्रियाको बारेमा अनुमानको बनाउन सक्छ र त्यसपछि नै तरिकामा भार लागू हुन्छ। यी अनुमानको सही छन् भने, त्यसपछि भार नमूना प्रक्रिया कारण पनि विकृतिहरु पूर्ववत हुनेछ।
उदाहरणका लागि, आफ्नो ब्यानर विज्ञापन प्रतिक्रिया, तपाईं 1,00,000 उत्तरदाताओं recruited भनेर कल्पना गर्नुहोस्। तथापि, तपाईं यी 1,00,000 उत्तरदाताओं अमेरिकी वयस्क को एक सरल अनियमित नमुना हो भनेर विश्वास छैन। वास्तवमा, तपाईं अमेरिकी जनसंख्या आफ्नो उत्तरदाताओं तुलना गर्दा, तपाईं केही भन्छ (जस्तै, न्यूयोर्क) मानिसहरूलाई केही भन्छ (जस्तै, अलास्का) देखि माथि-प्रतिनिधित्व र मान्छे हो कि अन्तर्गत-प्रतिनिधित्व छन् पाउँछौं। तसर्थ, आफ्नो नमूनाको बेरोजगारी दर लक्षित जनसंख्या मा बेरोजगारी दर खराब अनुमान हुन सम्भावना छ।
कि नमूना प्रक्रियामा भयो गर्ने विकृति पूर्ववत एउटा तरिका प्रत्येक व्यक्ति वजन नियुक्त गर्न छ; नमूना (जस्तै, अलास्का) मा अन्तर्गत-प्रतिनिधित्व गर्दै छन् अमेरिका देखि नमूना (जस्तै, न्यूयोर्क) र उच्च वजन मान्छे मा भन्दा-प्रतिनिधित्व गर्दै छन् अमेरिका मानिसहरूलाई कम वजन। थप विशेष, प्रत्येक प्रतिवादीको लागि वजन अमेरिकी जनसंख्या मा आफ्नो प्रसार गर्न आफ्नो नमूना नातेदार आफ्नो प्रसार गर्न सम्बन्धित छ। यो भार प्रक्रिया पोस्ट-स्तरीकरण भनिन्छ, र वजन को विचार जहाँ रोड आइल्याण्ड बाट उत्तरदाताओं क्यालिफोर्निया उत्तरदाताओं भन्दा कम तौल दिइएको थियो खण्ड 3.4.1 मा उदाहरण तपाईं सम्झाउनुपर्छ। पोस्ट-स्तरीकरण तपाईं आफ्नो उत्तरदाताओं समूह मा राख्न र प्रत्येक समूहमा लक्षित जनसंख्याको अनुपात थाहा गर्न पर्याप्त आवश्यक छ।
सम्भावनालाई नमूनाको र गैर-सम्भावना नमूनाको भार नै गणितीय (प्राविधिक परिशिष्ट हेर्नुहोस्) हो तापनि तिनीहरूले विभिन्न परिस्थितिको मा काम। यस शोधकर्ता सिद्ध सम्भावना नमूना (अर्थात्, कुनै कवरेज त्रुटि र कुनै गैर-प्रतिक्रिया) छ भने, त्यसपछि भार सबै अवस्थामा सबै गुण लागि unbiased अनुमान उत्पादन हुनेछ। सम्भावना नमूनाहरू को समर्थकले उनलाई यति आकर्षक किन यो बलियो सैद्धान्तिक ग्यारेन्टी छ। अर्कोतर्फ, भार गैर-सम्भावना नमूनाहरू प्रतिक्रिया propensities प्रत्येक समूहमा सबैका लागि समान छन् भने सबै गुण लागि unbiased अनुमान मात्र उत्पादन हुनेछ। अर्को शब्दमा, हाम्रो उदाहरण फिर्ता सोच पोस्ट-स्तरीकरण प्रयोग न्यूयोर्क सबैलाई सहभागी र अलास्का सबैलाई सहभागी र यति मा को नै सम्भावना छ को नै सम्भावना छ भने unbiased अनुमान उत्पादन हुनेछ। यो धारणा पनि homogeneous प्रतिक्रिया-propensities-भित्र-समूह धारणा भनिन्छ, र यो पोस्ट-स्तरीकरण गैर-सम्भावना नमूनाहरू राम्रोसँग काम भने थाह मा एक प्रमुख भूमिका खेल्छ।
दुर्भाग्यवश, हाम्रो उदाहरणमा, homogeneous प्रतिक्रिया-propensities-भित्र-समूह धारणा साँचो हुन असम्भाव्य देखिन्छ। छ, यो अलास्का सबैलाई आफ्नो सर्वेक्षण मा हुनुको एउटै सम्भावना छ असम्भाव्य देखिन्छ। तर, त्यहाँ सबै जो यो थप होनहार जस्तो बनाउन पोस्ट-स्तरीकरण बारेमा मनमा राख्न तीन बुँदा छन्।
पहिलो, homogeneous प्रतिक्रिया-propensities-भित्र-समूह धारणा समूह बढ संख्या बढी plausible हुन्छ। र, अनुसन्धानकर्ताहरूले बस एक भौगोलिक आयाम आधारित समूह सीमित छैन। उदाहरणका लागि, हामी राज्य, उमेर, लिंग, र शिक्षा को स्तर मा आधारित समूह सिर्जना गर्न सक्छ। यो त्यहाँ 18-29 को समूह भित्र homogeneous प्रतिक्रिया propensities छ कि थप plausible देखिन्छ, अलास्का बस्ने सबै मानिसहरूको समूह भित्र भन्दा अलास्का बस्ने महिला, कलेज स्नातकहरूको। तसर्थ, पोस्ट-स्तरीकरण बढ लागि प्रयोग समूह संख्या को रूप मा, अनुमानको यसलाई थप व्यावहारिक बन्न समर्थन गर्न आवश्यक थियो। यो तथ्यलाई दिइएको, यो एक अनुसन्धानकर्ताहरूले पोस्ट-स्तरीकरण लागि समूह को एक विशाल नम्बर सिर्जना गर्न चाहनुहुन्छ जस्तै देखिन्छ। डाटा sparsity: तर, समूह बढ संख्या रूपमा, अनुसन्धानकर्ताहरूले फरक समस्या चलान। प्रत्येक समूहमा मान्छे मात्र एउटा सानो नम्बर हो भने, त्यसपछि अनुमान थप अनिश्चित हुनेछ, र चरम मामला मा जहाँ कुनै उत्तरदाताओं छ कि एक समूह छ, त्यसपछि पोस्ट-स्तरीकरण पूर्ण तल खण्डन। त्यहाँ homogeneous- प्रतिक्रिया-propensity-भित्र-समूह धारणा को plausibility र प्रत्येक समूहमा उचित नमूना आकार लागि मांग बीच यस निहित तनाव बाहिर दुई तरिकाहरू छन्। एक दृष्टिकोण वजन गणना लागि एक थप परिष्कृत तथ्याङ्क मोडेल सार्न छ र अन्य प्रत्येक समूहमा उचित नमूना आकार सुनिश्चित गर्न मद्दत गर्छ जो एक ठूलो, अधिक विविध नमूना, सङ्कलन गर्न छ। र, म तल थप विस्तृत वर्णन छौँ रूपमा, अनुसन्धानकर्ताहरूले कहिलेकाहीं के दुवै।
जब गैर-सम्भावना नमूनाहरू देखि पोस्ट-स्तरीकरण संग काम दोस्रो विचार गर्ने homogeneous प्रतिक्रिया-propensity-भित्र-समूह धारणा पहिले नै बारम्बार सम्भावना नमूनाहरू विश्लेषण गर्दा बनेको छ भन्ने छ। यो धारणा व्यवहार मा सम्भावना नमूनाहरू लागि आवश्यक छ भनेर कारण सम्भावना नमूनाहरू गैर-प्रतिक्रिया छ कि छ, र माथि वर्णन गैर-प्रतिक्रिया को लागि समायोजन सबै भन्दा सामान्य विधि पोस्ट-स्तरीकरण छ। निस्सन्देह, धेरै अनुसन्धानकर्ताहरूले एक निश्चित धारणा तपाईं पनि यसलाई के गर्नुपर्छ भन्ने होइन बनाउन बस किनभने। तर, यो अभ्यास मा सम्भावना नमूनाहरू गर्न गैर-सम्भावना नमूनाहरू तुलना गर्दा हामी दुवै क्रम अनुमान उत्पादन गर्न मा अनुमानको र सहायक जानकारी निर्भर भनेर मनमा राख्नु पर्छ मतलब। सबैभन्दा व्यावहारिक सेटिङमा, त्यहाँ बस inference कुनै धारणा-मुक्त दृष्टिकोण छ।
अन्तमा, तपाईं हाम्रो उदाहरण बेरोजगारी मा विशेष-करिब एक अनुमान ख्याल यदि दर-त तपाईं homogeneous प्रतिक्रिया-propensity-भित्र-समूह धारणा भन्दा कमजोर सर्त आवश्यक छ। विशेष गरी, तपाईं मात्र प्रत्येक समूह भित्र प्रतिक्रिया propensity र बेरोजगारी दर बीच कुनै सम्बन्ध छ कि मान गर्न आवश्यक सबैलाई एउटै प्रतिक्रिया propensity छ मान गर्न आवश्यक छैन। निस्सन्देह, पनि यो कमजोर अवस्थामा केही परिस्थितिमा पकड छैन। उदाहरणका लागि, स्वयंसेवक काम भनेर अमेरिका को अनुपात अनुमान कल्पना गर्नुहोस्। स्वयंसेवक काम गर्ने मान्छे एक सर्वेक्षण मा सहमत छु बढी सम्भावना हुन्छ भने, त्यसपछि अनुसन्धानकर्ताहरूले हुनेछ प्रणालीबद्ध भन्दा-अनुमान तिनीहरूले पोस्ट-स्तरीकरण समायोजन द्वारा empirically प्रकट गरिएको छ कि एक परिणाम के पनि भने, स्वयं सेवा को मात्रा Abraham, Helms, and Presser (2009) ।
म पहिले भन्यो, गैर-सम्भावना नमूनाहरू ठूलो शंका संग सामाजिक वैज्ञानिकहरू द्वारा, भाग मा किनभने सर्वेक्षण अनुसन्धान को प्रारम्भिक दिनमा सबैभन्दा लाजमर्दो असफलता केही आफ्नो भूमिका को ठानिन्छ। हामी गैर-सम्भावना नमूनाहरू संग आएका छन् कति टाढा को एक स्पष्ट उदाहरण सही अमेरिकी Xbox प्रयोगकर्ताहरूको एक गैर-सम्भावना नमूना प्रयोग गरेर 2012 अमेरिकी चुनाव नतिजा बरामद कि वी वैंग, दाऊदले Rothschild, Sharad Goel र अन्द्रियास Gelman को अनुसन्धान छ अमेरिका -A बेशक गैर-अनियमित नमुना (Wang et al. 2015) । शोधकर्ताओं Xbox को खेल प्रणालीबाट उत्तरदाताओं recruited, र तपाईं आशा सक्छ को रूप मा, Xbox नमूना पुरुष skewed र जवान skewed: 18 - 29 वर्ष को बच्चाहरु माथि बनाउन निर्वाचक मण्डल को 19% तर Xbox नमूनाको 65% र पुरुष बनेको 47% यस निर्वाचक मण्डल र Xbox नमूना (चित्रा 3.4) को 93% को। किनभने यी बलियो डेमोग्राफिक पक्षपात को, काँचो Xbox डाटा चुनाव लाभ को एक गरिब सूचक थियो। यो बराक ओबामा भन्दा पन्जा Romney लागि बलियो विजय भविष्यवाणी। फेरि, यो कच्चा, असमायोजित गैर-सम्भावना नमूनाहरू खतराहरूबाट अर्को उदाहरण हो र साहित्य डाइजेस्ट fiasco को reminiscent छ।
चित्रा 3.4: मा उत्तरदाताओं जनसांख्यिकी Wang et al. (2015) । उत्तरदाताओं Xbox को बाट recruited किनभने, तिनीहरू जवान र थप 2012 चुनाव मा पुरुष, मतदाता सापेक्षित हुन संभावना हुने बढी सम्भावना थिए।
तर, वांग र सहयोगिहरु यी समस्याहरू सजग थिए र नमूना प्रक्रिया को लागि सुधार्न उत्तरदाताओं वजन कोसिस गर्यो। खासगरी, तिनीहरूले पोस्ट-स्तरीकरण म बारेमा भन्नुभयो अझ परिष्कृत रूप प्रयोग। यसलाई अलिकति आफ्नो दृष्टिकोण बारेमा थप सिक्ने यो पोस्ट-स्तरीकरण बारेमा अंतर्ज्ञान बनाउँछ किनभने लायक छ, र विशेष संस्करण वांग र सहयोगिहरु प्रयोग भार गैर-सम्भावना नमूनाहरू गर्न सबैभन्दा रोचक दृष्टिकोण एक छ।
धारा 3.4.1 मा बेरोजगारी अनुमान बारेमा हाम्रो सरल उदाहरण हामी निवास राज्य आधारित समूह मा जनसंख्या विभाजित। यसको विपरीत, वांग र सहयोगिहरु 176.256 समूह द्वारा परिभाषित मा मा जनसंख्या विभाजित: लिङ्ग (2 विभाग), दौड (4 विभाग), उमेर (4 विभाग), शिक्षा (4 विभाग), राज्य (51 विभाग), पार्टी आईडी (3 विभाग), विचारधारा (3 विभाग) र 2008 मत (3 विभाग)। थप समूहहरूसँग, शोधकर्ताओं यो प्रत्येक समूह भित्र, प्रतिक्रिया propensity ओबामा लागि समर्थन uncorrelated थियो झन् संभावना हुनेछ भन्ने आशा गरे। अर्को, बरु हामी हाम्रो उदाहरण मा जस्तै, व्यक्तिगत-स्तर वजन निर्माण भन्दा, वांग र सहयोगिहरु एक जटिल मोडेल ओबामा लागि मतदान भनेर प्रत्येक समूहमा मान्छे को अनुपात अनुमान गर्न प्रयोग। अन्तमा, तिनीहरू समर्थन को एक अनुमानित समग्र स्तर उत्पादन गर्न प्रत्येक समूह को ज्ञात आकार संग समर्थन यी समूह अनुमान संयुक्त। अर्को शब्दमा, तिनीहरू जनसंख्याको फरक समूह मा, कटी प्रत्येक समूहमा ओबामा लागि समर्थन अनुमानित, र त्यसपछि एक समग्र अनुमान उत्पादन गर्न समूह अनुमान एक भारित औसत गरे।
तसर्थ, आफ्नो दृष्टिकोण मा ठूलो चुनौती यी 176.256 समूह प्रत्येक ओबामा लागि समर्थन अनुमान छ। आफ्नो प्यानल 345.858 अद्वितीय सहभागीहरू, निर्वाचन मतदान को स्तरअनुसार एक विशाल संख्या समावेश भए तापनि, त्यहाँ वांग र सहयोगिहरु लगभग कुनै उत्तरदाताओं थियो जसको लागि धेरै, धेरै समूह थिए। त्यसैले, प्रत्येक तिनीहरूले एक प्रविधी प्रयोग अनुसन्धानकर्ताहरूले माया श्री पी मूलतः, एक विशिष्ट समूह भित्र ओबामा लागि समर्थन अनुमान गर्न, श्री पी पूल धेरै जानकारी कल जो पोस्ट-स्तरीकरण संग बहु प्रतिगमनमा भनिन्छ समूह, मा समर्थन अनुमान गर्न राम्ररी समूह सम्बन्धित। उदाहरणका लागि, महिला, Hispanics को बीचमा ओबामा लागि समर्थन अनुमान को चुनौती, 18-29 वर्ष पुरानो बीच, विचार कलेज स्नातकहरूको, डेमोक्रेट दर्ता भएका, moderates रूपमा आत्म-पहिचान गर्ने को हो, र 2008. मा ओबामा लागि मतदान गर्ने यो एक धेरै, अति विशिष्ट समूह छ, र यो त्यहाँ यी विशेषताहरु संग नमूनामा कसैले हो भनेर सम्भव छ। त्यसैले यो समूह बारेमा अनुमान गर्न, श्री पी पूल सँगै धेरै समान समूहमा मान्छे देखि अनुमान।
यो विश्लेषण रणनीति प्रयोग गरेर वांग र सहयोगिहरु धेरै नजिकबाट ओबामा 2012 चुनाव मा पाएको समग्र समर्थन अनुमान गर्न Xbox को गैर-सम्भावना नमूना प्रयोग गर्न सक्षम थिए (चित्रा 3.5)। वास्तवमा आफ्नो अनुमान सार्वजनिक राय पोल को समग्र भन्दा बढी सही थिए। तसर्थ, यस मामला मा, भार-विशेष श्री गैर-सम्भावना डाटा मा पक्षपात सही राम्रो काम गर्न पी-देखिन्छ; पक्षपात जब तपाईं असमायोजित Xbox डाटा देखि अनुमान हेर्न देखिने छन्।
चित्रा 3.5: बाट अनुमान Wang et al. (2015) । असमायोजित Xbox को नमूना गलत अनुमान उत्पादन। तर, यो भार Xbox को नमूना सम्भावना आधारित टेलिफोन सर्वेक्षण को एक औसत भन्दा बढी सही थिए भनेर अनुमान उत्पादन।
त्यहाँ वांग र सहयोगिहरु को अध्ययनबाट दुई मुख्य पाठ हो। पहिलो, असमायोजित गैर-सम्भावना नमूनाहरू खराब अनुमान गर्न सक्छ; यो धेरै अनुसन्धानकर्ताहरूले अघि सुनेका एक पाठ हो। तथापि, दोस्रो पाठ गैर-सम्भावना नमूनाहरू, ठीक भारित गर्दा, वास्तवमा एकदम राम्रो अनुमान उत्पादन गर्न सक्छन् भन्ने छ। वास्तवमा, आफ्नो अनुमान pollster.com, अधिक परम्परागत चुनाव चुनाव को एक एकत्रीकरण देखि अनुमान भन्दा बढी सही थिए।
अन्तमा, हामी यो एक विशिष्ट अध्ययन सिक्न सक्छौं के गर्न महत्त्वपूर्ण सीमितता छन्। बस किनभने पोस्ट-स्तरीकरण यस विशेष मामला मा राम्रो काम गरेको छ, त्यहाँ अन्य अवस्थामा राम्रो काम गर्नेछ भन्ने कुनै ग्यारेन्टी छ। वास्तवमा, चुनाव pollsters लगभग 100 वर्षसम्म चुनाव अध्ययन गरिएको छ किनभने सायद सजिलो सेटिङहरू एक हो, त्यहाँ नियमित प्रतिक्रिया (हामी जो चुनाव जितेकी देख्न सक्छन्), र पार्टी पहिचान छ र डेमोग्राफिक विशेषताहरु मतदान अपेक्षाकृत भविष्यवाणी छन्। यो विन्दुमा हामी ठोस सिद्धान्त र जान्न गैर-सम्भावना नमूनाहरू गर्न भार समायोजन पर्याप्त सही अनुमान उत्पादन हुनेछ जब empirical अनुभव कमी छ। स्पष्ट छ कि एउटा कुरा, तर, तपाईं गैर-सम्भावना नमूनाहरू काम गर्न बाध्य छन् भने छ, त्यसपछि त्यहाँ समायोजित अनुमान गैर-समायोजित अनुमान भन्दा राम्रो हुनेछ भन्ने विश्वास गर्न बलियो कारण हो।