इस परिशिष्ट में, मैं अध्याय से कुछ विचारों को थोड़ा और गणितीय रूप में वर्णित करूंगा। यहां का लक्ष्य सर्वेक्षण शोधकर्ताओं द्वारा उपयोग किए गए नोटेशन और गणितीय ढांचे के साथ सहज महसूस करने में आपकी सहायता करना है ताकि आप इन विषयों पर लिखी गई कुछ और तकनीकी सामग्री में बदलाव कर सकें। मैं संभाव्यता नमूनाकरण शुरू करके शुरू करूंगा, फिर गैर-प्रतिक्रिया के साथ संभाव्यता नमूनाकरण में आगे बढ़ूंगा, और अंत में, गैर-संभाव्यता नमूनाकरण।
सम्भाव्यता नमूनाचयन
एक चल रहे उदाहरण के रूप में, आइए संयुक्त राज्य अमेरिका में बेरोजगारी दर का आकलन करने के लक्ष्य पर विचार करें। चलो \(U = \{1, \ldots, k, \ldots, N\}\) लक्ष्य आबादी \(y_k\) और व्यक्ति \(k\) के परिणाम परिणाम के मान से \(y_k\) \(k\) । इस उदाहरण में \(y_k\) यह है कि क्या व्यक्ति \(k\) बेरोजगार है। अंत में, \(F = \{1, \ldots, k, \ldots, N\}\) फ्रेम आबादी \(F = \{1, \ldots, k, \ldots, N\}\) , जो सादगी के लिए लक्ष्य जनसंख्या के समान ही माना जाता है।
एक बुनियादी नमूना डिजाइन प्रतिस्थापन के बिना सरल यादृच्छिक नमूना है। इस मामले में, प्रत्येक व्यक्ति को नमूना \(s = \{1, \ldots, i, \ldots, n\}\) में समान रूप से शामिल होने की संभावना है। जब इस नमूना डिजाइन के साथ डेटा एकत्र किया जाता है, तो एक शोधकर्ता नमूना के साथ आबादी बेरोजगारी दर का आकलन कर सकते हैं:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
जहां \(\bar{y}\) आबादी में बेरोजगारी दर है और \(\hat{\bar{y}}\) बेरोजगारी दर का अनुमान है ( \(\hat{ }\) आमतौर पर है एक अनुमानक इंगित करने के लिए प्रयोग किया जाता है)।
हकीकत में, शोधकर्ता शायद ही कभी प्रतिस्थापन के बिना सरल यादृच्छिक नमूना का उपयोग करते हैं। विभिन्न कारणों से (जिसमें से एक मैं एक पल में वर्णन करूंगा), शोधकर्ता अक्सर समावेशन की असमान संभावनाओं के साथ नमूने बनाते हैं। उदाहरण के लिए, शोधकर्ता फ्लोरिडा में लोगों को कैलिफ़ोर्निया के लोगों की तुलना में शामिल करने की उच्च संभावना के साथ चुन सकते हैं। इस मामले में, नमूना मतलब (eq। 3.1) एक अच्छा अनुमानक नहीं हो सकता है। इसके बजाय, जब समावेश की असमान संभावनाएं होती हैं, तो शोधकर्ता उपयोग करते हैं
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
जहां \(\hat{\bar{y}}\) बेरोजगारी दर का अनुमान है और \(\pi_i\) व्यक्ति \(i\) शामिल करने की संभावना है। मानक अभ्यास के बाद, मैं अनुमानक को eq में कॉल करूंगा। 3.2 हॉर्वित्ज़-थॉम्पसन अनुमानक। होर्विट्ज़-थॉम्पसन अनुमानक बेहद उपयोगी है क्योंकि इससे किसी भी संभावना नमूना डिजाइन (Horvitz and Thompson 1952) निष्पक्ष अनुमानों की ओर अग्रसर होता है। चूंकि होर्विट्ज़-थॉम्पसन अनुमानक इतनी बार आता है, यह ध्यान देने योग्य है कि इसे फिर से लिखा जा सकता है
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
जहां \(w_i = 1 / \pi_i\) । ईक के रूप में 3.3 बताता है, होर्वित्ज़-थॉम्पसन अनुमानक एक भारित नमूना है जहां वजन चयन की संभावना से विपरीत रूप से संबंधित है। दूसरे शब्दों में, नमूना में एक व्यक्ति को कम से कम शामिल किया जाना चाहिए, व्यक्ति को अनुमान में जितना अधिक वजन मिलना चाहिए।
जैसा कि पहले वर्णित है, शोधकर्ता अक्सर शामिल होने की असमान संभावनाओं वाले लोगों का नमूना देते हैं। एक डिज़ाइन का एक उदाहरण जो समावेशन की असमान संभावनाओं का कारण बन सकता है, स्तरीकृत नमूनाकरण है , जो समझना महत्वपूर्ण है क्योंकि यह पोस्ट-स्तरीकरण नामक अनुमान प्रक्रिया से निकटता से संबंधित है। स्तरीकृत नमूनाकरण में, एक शोधकर्ता लक्ष्य आबादी को \(H\) परस्पर अनन्य और संपूर्ण समूहों में विभाजित करता है। इन समूहों को स्ट्रेट कहा जाता है और उन्हें \(U_1, \ldots, U_h, \ldots, U_H\) रूप में इंगित किया जाता है। इस उदाहरण में, स्तर राज्य हैं। समूहों के आकार \(N_1, \ldots, N_h, \ldots, N_H\) रूप में इंगित किए जाते हैं। एक शोधकर्ता यह सुनिश्चित करने के लिए स्तरीकृत नमूनाकरण का उपयोग करना चाहता है कि उसके पास बेरोजगारी के राज्य स्तरीय अनुमान बनाने के लिए प्रत्येक राज्य में पर्याप्त लोग हैं।
एक बार आबादी को स्ट्रेट में विभाजित कर दिया गया है, मान लीजिए कि शोधकर्ता प्रत्येक स्तर से स्वतंत्र रूप से आकार \(n_h\) प्रतिस्थापन के बिना एक साधारण यादृच्छिक नमूना चुनता है। इसके अलावा, मान लीजिए कि नमूने में चयनित हर कोई उत्तरदायी बन जाता है (मैं अगले खंड में गैर-प्रतिक्रिया संभालूंगा)। इस मामले में, शामिल करने की संभावना है
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
चूंकि इस संभावनाएं व्यक्ति से अलग-अलग हो सकती हैं, जब इस नमूना डिजाइन से अनुमान लगाते हैं, तो शोधकर्ताओं को हॉर्विट्स-थॉम्पसन अनुमानक (ईक 3.2) का उपयोग करके शामिल करने की उनकी संभावना के विपरीत प्रत्येक उत्तरदाता को वजन कम करने की आवश्यकता होती है।
भले ही होर्वित्ज़-थॉम्पसन अनुमानक निष्पक्ष है, शोधकर्ता सहायक जानकारी के साथ नमूना संयोजन करके अधिक सटीक (यानी, कम भिन्नता) अनुमान उत्पन्न कर सकते हैं। कुछ लोगों को यह आश्चर्य की बात है कि यह सही है जब पूरी तरह से निष्पादित संभाव्यता नमूनाकरण किया जाता है। सहायक जानकारी का उपयोग करने वाली ये तकनीकें विशेष रूप से महत्वपूर्ण हैं क्योंकि, जैसा कि मैं बाद में दिखाऊंगा, गैर-प्रतिक्रिया और गैर-संभाव्यता नमूने के साथ संभाव्यता नमूने से अनुमान बनाने के लिए सहायक जानकारी महत्वपूर्ण है।
सहायक जानकारी का उपयोग करने के लिए एक आम तकनीक पोस्ट-स्तरीकरण है । कल्पना कीजिए, उदाहरण के लिए, एक शोधकर्ता 50 राज्यों में से प्रत्येक में पुरुषों और महिलाओं की संख्या जानता है; हम इन समूह आकारों को \(N_1, N_2, \ldots, N_{100}\) रूप में इंगित कर सकते हैं। नमूना के साथ इस सहायक जानकारी को गठबंधन करने के लिए, शोधकर्ता नमूना को \(H\) समूहों में विभाजित कर सकता है (इस मामले में 100), प्रत्येक समूह के लिए अनुमान लगाएं, और उसके बाद इन समूह का भारित औसत बनाएं:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
लगभग, अनुमान में eq। 3.5 अधिक सटीक होने की संभावना है क्योंकि यह ज्ञात आबादी की जानकारी का उपयोग करता है- \(N_h\) - सही अनुमानों के लिए यदि असंतुलित नमूना चुना जाना है। इसके बारे में सोचने का एक तरीका यह है कि पोस्ट-स्तरीकरण डेटा पहले से ही एकत्रित होने के बाद स्तरीकरण को अनुमानित करना है।
अंत में, इस खंड ने कुछ नमूना डिजाइनों का वर्णन किया है: प्रतिस्थापन के बिना सरल यादृच्छिक नमूनाकरण, असमान संभावना के साथ नमूनाकरण, और स्तरीकृत नमूनाकरण। इसने अनुमान के बारे में दो मुख्य विचारों का भी वर्णन किया है: हॉर्विट-थॉम्पसन अनुमानक और पोस्ट-स्तरीकरण। संभाव्यता नमूना डिजाइन की अधिक औपचारिक परिभाषा के लिए, Särndal, Swensson, and Wretman (2003) अध्याय 2 देखें। स्तरीकृत नमूनाकरण के अधिक औपचारिक और पूर्ण उपचार के लिए, Särndal, Swensson, and Wretman (2003) धारा 3.7 देखें। होर्वित्ज़-थॉम्पसन अनुमानक के गुणों के तकनीकी विवरण के लिए, Overton and Stehman (1995) Horvitz and Thompson (1952) , Overton and Stehman (1995) , या @ sarndal_model_2003 की धारा 2.8 देखें। पोस्ट-स्तरीकरण के अधिक औपचारिक उपचार के लिए, Holt and Smith (1979) , Smith (1991) , Little (1993) , या Särndal, Swensson, and Wretman (2003) धारा 7.6 देखें।
गैर प्रतिक्रिया के साथ संभावना नमूनाकरण
लगभग सभी वास्तविक सर्वेक्षणों में गैर-प्रतिक्रिया होती है; यही है, नमूना जनसंख्या में हर कोई हर सवाल का जवाब नहीं देता है। गैर-प्रतिक्रिया के दो मुख्य प्रकार हैं: आइटम nonresponse और इकाई nonresponse । आइटम गैर-प्रतिक्रिया में, कुछ उत्तरदाता कुछ वस्तुओं का उत्तर नहीं देते हैं (उदाहरण के लिए, कभी-कभी उत्तरदाता उन प्रश्नों का उत्तर नहीं देना चाहते हैं जिन्हें वे संवेदनशील मानते हैं)। इकाई गैर-प्रतिक्रिया में, नमूने आबादी के लिए चुने गए कुछ लोग सर्वेक्षण का जवाब नहीं देते हैं। इकाई गैर-प्रतिक्रिया के लिए दो सबसे आम कारण यह हैं कि नमूने वाले व्यक्ति से संपर्क नहीं किया जा सकता है और नमूना व्यक्ति से संपर्क किया जाता है लेकिन भाग लेने से इंकार कर दिया जाता है। इस खंड में, मैं यूनिट गैर-प्रतिक्रिया पर ध्यान केंद्रित करूंगा; आइटम nonresponse में दिलचस्पी पाठकों को लिटिल और रूबिन (2002) देखना चाहिए।
शोधकर्ता अक्सर दो चरण नमूना प्रक्रिया के रूप में यूनिट गैर प्रतिक्रिया के साथ सर्वेक्षण के बारे में सोचते हैं। पहले चरण में, शोधकर्ता एक नमूना \(s\) का चयन करता है जैसे कि प्रत्येक व्यक्ति को शामिल करने की संभावना है \(\pi_i\) (जहां \(0 < \pi_i \leq 1\) )। फिर, दूसरे चरण में, नमूने में चुने गए लोग संभावना \(\phi_i\) (जहां \(0 < \phi_i \leq 1\) साथ प्रतिक्रिया देते हैं)। उत्तरदाताओं के अंतिम सेट में यह दो चरण की प्रक्रिया परिणाम \(r\) । इन दो चरणों के बीच एक महत्वपूर्ण अंतर यह है कि शोधकर्ता नमूना चुनने की प्रक्रिया को नियंत्रित करते हैं, लेकिन वे नियंत्रित नहीं करते कि इनमें से कौन सा नमूना लोग उत्तरदाताओं बन जाते हैं। इन दो प्रक्रियाओं को एक साथ रखकर, संभावना है कि कोई उत्तरदाता होगा
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
सादगी के लिए, मैं उस मामले पर विचार करूंगा जहां मूल नमूना डिजाइन प्रतिस्थापन के बिना सरल यादृच्छिक नमूना है। यदि कोई शोधकर्ता आकार \(n_s\) का नमूना चुनता है जो \(n_r\) उत्तरदाताओं को उत्पन्न करता है, और यदि शोधकर्ता गैर-प्रतिक्रिया को अनदेखा करता है और उत्तरदाताओं के माध्य का उपयोग करता है, तो अनुमान का पूर्वाग्रह होगा:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
जहां \(cor(\phi, y)\) प्रतिक्रिया प्रवृत्ति और परिणाम (उदाहरण के लिए, बेरोजगारी की स्थिति) के बीच जनसंख्या सहसंबंध है, \(S(y)\) आबादी मानक परिणाम विचलन है (उदाहरण के लिए, बेरोजगारी स्थिति), \(S(\phi)\) प्रतिक्रिया अनुपात की जनसंख्या मानक विचलन है, और \(\bar{\phi}\) जनसंख्या औसत प्रतिक्रिया प्रवृत्ति (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) ।
Eq। 3.7 दिखाता है कि यदि निम्न शर्तों में से कोई भी पूरा हो जाता है तो गैर-प्रतिक्रिया पूर्वाग्रह नहीं पेश करेगी:
दुर्भाग्यवश, इनमें से कोई भी स्थिति संभवतः प्रतीत नहीं होती है। ऐसा लगता है कि रोजगार की स्थिति में कोई बदलाव नहीं होगा या प्रतिक्रिया प्रवृत्तियों में कोई बदलाव नहीं होगा। इस प्रकार, eq में कुंजी शब्द। 3.7 सहसंबंध है: \(cor(\phi, y)\) । उदाहरण के लिए, यदि लोग बेरोजगार हैं तो प्रतिक्रिया देने की अधिक संभावना है, तो अनुमानित रोजगार दर पक्षपातपूर्ण होगी।
गैर-प्रतिक्रिया होने पर अनुमान लगाने के लिए चाल सहायक जानकारी का उपयोग करना है। उदाहरण के लिए, एक तरीका जिसमें आप सहायक जानकारी का उपयोग कर सकते हैं पोस्ट-स्तरीकरण (उपर्युक्त 3.5 से ऊपर) याद रखें। यह पता चला है कि पोस्ट-स्तरीकरण अनुमानक का पूर्वाग्रह है:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
जहां \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , और \(\bar{\phi}^{(h)}\) को ऊपर के रूप में परिभाषित किया गया है लेकिन समूह \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) में लोगों तक ही सीमित है। इस प्रकार, यदि प्रत्येक पोस्ट-स्तरीकरण समूह में पूर्वाग्रह छोटा होता है तो समग्र पूर्वाग्रह छोटा होगा। दो पोस्ट तरीके हैं जिन्हें मैं प्रत्येक पोस्ट-स्तरीकरण समूह में पूर्वाग्रह को छोटा बनाने के बारे में सोचना पसंद करता हूं। सबसे पहले, आप एकरूप समूह बनाने की कोशिश करना चाहते हैं जहां प्रतिक्रिया प्रवृत्ति में थोड़ा भिन्नता है ( \(S(\phi)^{(h)} \approx 0\) ) और परिणाम ( \(S(y)^{(h)} \approx 0\) )। दूसरा, आप उन समूहों को बनाना चाहते हैं जहां आप जो लोग देखते हैं वे ऐसे लोगों की तरह हैं जिन्हें आप नहीं देखते हैं ( \(cor(\phi, y)^{(h)} \approx 0\) )। ईक की तुलना 3.7 और ईक। 3.8 स्पष्टीकरण में मदद करता है जब पोस्ट-स्तरीकरण गैर-प्रतिक्रिया के कारण पूर्वाग्रह को कम कर सकता है।
अंत में, इस खंड ने गैर-प्रतिक्रिया के साथ संभाव्यता नमूनाकरण के लिए एक मॉडल प्रदान किया है और पूर्वाग्रह दिखाया है कि गैर-प्रतिक्रिया दोनों पोस्ट-स्तरीकरण समायोजन के बिना और बिना पेश कर सकते हैं। Bethlehem (1988) अधिक सामान्य नमूना डिजाइनों के लिए गैर-प्रतिक्रिया के कारण पूर्वाग्रहों का व्युत्पन्न प्रदान करता है। गैर-प्रतिक्रिया के लिए समायोजन के लिए पोस्ट-स्तरीकरण का उपयोग करने के लिए, Smith (1991) और Gelman and Carlin (2002) । पोस्ट-स्तरीकरण अंशांकन Särndal and Lundström (2005) नामक तकनीकों के एक अधिक सामान्य परिवार का हिस्सा है, एक पुस्तक-लंबाई उपचार के लिए एक लेख-लंबाई उपचार और Särndal and Lundström (2005) लिए झांग (2000) देखें। गैर-प्रतिक्रिया के लिए समायोजन के लिए अन्य अन्य भारोत्तोलन विधियों के बारे में अधिक जानकारी के लिए, Kalton and Flores-Cervantes (2003) Särndal and Lundström (2005) Kalton and Flores-Cervantes (2003) , Brick (2013) , और Särndal and Lundström (2005) ।
गैर संभावित नमूना
गैर-संभावना नमूने में कई प्रकार के डिज़ाइन शामिल हैं (Baker et al. 2013) । विशेष रूप से वांग और सहकर्मियों (W. Wang et al. 2015) द्वारा एक्सबॉक्स उपयोगकर्ताओं के नमूने पर ध्यान केंद्रित करते हुए, आप उस तरह के नमूने के बारे में सोच सकते हैं जहां नमूना डिजाइन का मुख्य हिस्सा \(\pi_i\) ( समावेशन की शोधकर्ता संचालित संभावना) लेकिन \(\phi_i\) (उत्तरदाता द्वारा संचालित प्रतिक्रिया प्रवृत्तियों)। स्वाभाविक रूप से, यह आदर्श नहीं है क्योंकि \(\phi_i\) अज्ञात हैं। लेकिन, वांग और सहयोगियों ने दिखाया, इस तरह के ऑप्ट-इन नमूना-यहां तक कि भारी कवरेज त्रुटि के साथ एक नमूना फ्रेम से भी-आपदाजनक नहीं होना चाहिए यदि शोधकर्ता के पास अच्छी सहायक जानकारी है और इन समस्याओं के लिए एक अच्छा सांख्यिकीय मॉडल है।
Bethlehem (2010) गैर-प्रतिक्रिया और कवरेज त्रुटियों दोनों को शामिल करने के लिए पोस्ट-स्तरीकरण के बारे में उपर्युक्त व्युत्पन्नों में से कई को बढ़ाता है। पोस्ट-स्तरीकरण के अलावा, गैर-संभाव्यता नमूने के साथ काम करने के लिए अन्य (Ansolabehere and Rivers 2013; ??? ) कवरेज त्रुटियों और गैर-प्रतिक्रिया के साथ संभाव्यता नमूने-नमूना मिलान (Ansolabehere and Rivers 2013; ??? ) , प्रवृत्ति स्कोर भार (Lee 2006; Schonlau et al. 2009) , और अंशांकन (Lee and Valliant 2009) । इन तकनीकों के बीच एक आम विषय सहायक जानकारी का उपयोग है।