गणित नोटहरू

यो अनुवाद एक कम्प्यूटर द्वारा सिर्जना गरिएको थियो। ×

गणित नोटहरू

यस परिशिष्टमा, म थोडा अधिक गणितीय रूप मा केहि अध्यायहरु को वर्णन गर्नेछु। यहाँ लक्ष्य तपाईं सर्वेक्षण शोधकर्ताहरु द्वारा प्रयोग गरिएको सूचना र गणितीय ढाँचा संग सहज प्राप्त गर्न मद्दत गर्नको लागि हो ताकि तपाइँ यी विषयहरूमा लिखित अधिक केहि भौतिक सामाग्रीहरूमा संक्रमण गर्न सक्नुहुनेछ। म सम्भावना नमूना परिचय शुरू गरेर शुरू गर्नेछु, त्यसपछि nonresponse संग सम्भावना नमूनामा जानुहोस्, र अन्तमा, गैर सम्भावना नमूना।

सम्भावना नमूना

एक चलिरहेको उदाहरणको रूपमा, हामी संयुक्त राज्य अमेरिका मा बेरोजगारी दर को अनुमान को लक्ष्य को विचार गरौं। $U = \{1, \ldots, k, \ldots, N\}$ लाई लक्षित आबादी दिनुहोस् र व्यक्ति $k$ व्यक्तिको लागि परिणाम चरको मान $y_k$ अनुमति दिनुहोस्। यस उदाहरणमा $y_k$ यो हो कि व्यक्ति $k$ बेरोजगार छ कि? अन्तमा, चलो $F = \{1, \ldots, k, \ldots, N\}$ फ्रेम आबादी हुन, जुन साक्षरता लक्ष्य लक्षित जनसंख्याको रूपमा मानिन्छ।

एक आधारभूत नमूना डिजाइन बिना प्रतिस्थापन बिना सरल अनियमित नमूना हो। यस अवस्थामा, प्रत्येक व्यक्ति नमूना $s = \{1, \ldots, i, \ldots, n\}$ । जब यो नमूना डिजाइनको साथ डेटा एकत्रित गरिन्छ, एक शोधकर्ताले नमूनाको साथ जनसंख्या बेरोजगारी दर अनुमान गर्न सक्छन्:

$\hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)$

जहाँ $\bar{y}$ जनसंख्यामा बेरोजगारी दर हो र $\hat{\bar{y}}$ बेरोजगारी दरको अनुमान हो $\hat{ }$ सामान्यतया $\hat{ }$ एक अनुमानक संकेत गर्न प्रयोग गरिन्थ्यो)।

वास्तविकता मा, शोधकर्ताओं को शायद ही कभी बिना बदलन को बिना सरल यादृच्छिक नमूना प्रयोग गर्छन। विभिन्न कारणहरूका लागि (जसमा मैले एक क्षणमा वर्णन गर्नेछु), शोधकर्ताहरू अक्सर असम्भव सम्भावनाहरू समावेश गर्नका लागि नमूनाहरू सिर्जना गर्छन्। उदाहरणको लागि, क्यालेन्डरहरूले क्यालिफोर्नियाका व्यक्तिहरूको तुलनामा थप सम्भावना समावेश गर्न फ्लोरिडामा व्यक्तिहरू चयन गर्न सक्छन्। यस अवस्थामा, नमूना मतलब (अंक 3.1) एक राम्रो अनुमानक हुन सक्छ। यसको सट्टा, जब समावेशको असमान संभावनाहरू छन्, शोधकर्ताहरू प्रयोग गर्छन्

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)$

जहाँ $\hat{\bar{y}}$ बेरोजगारी दरको अनुमान हो र $\pi_i$ व्यक्ति $i$ समावेशको सम्भावना हो। मानक अभ्यास पछि, म अनुमानकलाई फोन गर्दछ। 3.2 होर्भेज-थम्पसन अनुमानक। Horvitz-Thompson अनुमानक अत्यन्त उपयोगी छ किनभने यो कुनै सम्भाव्यता नमूना डिजाइन (Horvitz and Thompson 1952) लागि निष्पक्ष अनुमान हो। किनभने Horvitz-Thompson अनुमानक धेरै पटक उठ्छ, यो नोटिस गर्न उपयोगी छ कि यो पुन: लिखित रूपमा गर्न सकिन्छ।

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)$

जहाँ $w_i = 1 / \pi_i$ । जस्तै। 3.3 ले प्रकट गर्दछ, होर्भिट्ज-थोम्पसन अनुमानक एक वजनयुक्त नमूना हो जहाँ वजन अदृश्य रूपमा चयनको सम्भावनासँग सम्बन्धित छ। अन्य शब्दहरूमा, कम सम्भावना एक व्यक्ति नमूनामा समावेश हुनुपर्छ, अधिक वजन कि व्यक्ति अनुमान मा प्राप्त गर्नु पर्छ।

जस्तै वर्णन गरिएको, शोधकर्ताहरूले प्रायः समावेश व्यक्तिहरूको असामान्य सम्भावनाहरूलाई नमूना गर्दछ। एक डिजाइन को एक उदाहरण जो असामान्य संभावनाहरु को नेतृत्व गर्न सक्छ को लागी स्तरीकृत नमूना हो , जो बुझन को लागि महत्वपूर्ण छ किनकी यो पोस्ट-स्तरीकरण नामक अनुमान अनुमानित प्रक्रिया संग सम्बन्धित छ। स्तरीकृत नमूना मा, एक शोधकर्ता लक्ष्य आबादी $H$ पारस्परिक अनन्य र विस्तृत समूहों मा विभाजित गर्दछ। यी समूह strata भनिन्छ र रूपमा संकेत गर्दै $U_1, \ldots, U_h, \ldots, U_H$ । यस उदाहरणमा, ढाँचाहरू राज्य हुन्। समूहहरूको आकार $N_1, \ldots, N_h, \ldots, N_H$ रूपमा संकेत गरिएको छ। एक शोधकर्ताले स्तरीकृत नमूना प्रयोग गर्न चाहानुहुन्छ कि उनीहरुले बेरोजगारीको राज्य-स्तरको अनुमान बनाउन प्रत्येक राज्यमा पर्याप्त व्यक्ति छन् भन्ने कुरा सुनिश्चित गर्न।

एक पटक जनसंख्या विभाजित गर्न को लागी स्ट्रैटमा , मानिन्छ कि शोधकर्ताले स्वत: प्रत्येक $n_h$ बाट आकार $n_h$ आकार $n_h$ बिना सरल यादृच्छिक नमूना चयन गर्दछ। त्यसोभए, नमूनामा सबैले रोजेका सबै प्रतिवादी बन्यो (म अर्को खण्डमा गैर-प्रतिक्रियालाई सम्भाल्नेछु)। यस अवस्थामा, समावेश को सम्भावना छ

$\pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)$

यस नमूना डिजाइनको अनुमानको अनुमान गर्दा यी सम्भावनाहरू व्यक्ति-व्यक्तिबाट फरक पर्न सक्छन् किनभने, शोधकर्ताहरूले प्रत्येक प्रतिवादीलाई Horvitz-Thompson अनुमानक (इ.ए. 3.2) प्रयोग गरेर समावेशको सम्भावनाको व्युत्पन्न गर्न आवश्यक हुन्छ।

यद्यपि Horvitz-Thompson अनुमानक निष्पक्ष छ भने, शोधकर्ता सहायक जानकारी संग नमूना संयोजन गरेर अधिक सटीक (यानी, कम भिन्नता) अनुमानहरू उत्पन्न गर्न सक्छन्। केही व्यक्तिहरूले यो आश्चर्यजनक कुरा पत्ता लगाउँछन् कि त्यहाँ निष्पक्ष सम्भावना नमूना हुने बेला पनि यो सत्य हो। सहायक प्रविधिहरू प्रयोग गरी यी प्रविधिहरू विशेष रूपमा महत्त्वपूर्ण हुन्छन् किनकी, पछि मैले देखाउनेछु, सहायक जानकारी सम्भावना नमूनाहरूको अनुमान नगरी गैरप्रणाली र गैर-सम्भावनात्मक नमूनाहरूको अनुमान गर्न महत्वपूर्ण छ।

सहायक जानकारीको प्रयोगको लागि एक साधारण प्रविधि हो पोस्ट स्तरीकरण । कल्पना गर्नुहोस्, उदाहरणका लागि, कि एक शोधकर्ताले 50 वटा राज्यहरूमा पुरुष र महिलाहरूको संख्या थाहा पाउँछ; हामी यी समूह आकार $N_1, N_2, \ldots, N_{100}$ रूपमा $N_1, N_2, \ldots, N_{100}$ गर्न सक्दछौं। नमूना संग यो सहायक जानकारी को संयोजन गर्न को लागि, शोधकर्ता नमूना विभाजित गर्न सक्छन् $H$ समूह (यस मामला 100 मा), प्रत्येक समूह को लागि अनुमान बनाउन को लागि, र फेरि यो समूह को एक भारित औसत को मतलब छ:

$\hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)$

अक्टोबरमा एनिमेटर। 3.5 अधिक सटीक हुन सक्छ किनभने यो ज्ञात आबादी जानकारी प्रयोग गर्दछ - यदि एक असंतुलित नमूना चयन हुने हुन्छ भने $N_h$ सही अनुमानमा। यसको बारेमा सोच्ने एक तरिका यो छ कि पोस्ट-स्तरीकरण डाटा डाटा पहिले नै संकलन गरेपछि स्तरीय निकटता जस्तै छ।

अन्त्यमा, यस खण्डले केही नमूना डिजाइनहरू वर्णन गरेको छ: साधारण बेरोजगार नमूना बिना प्रतिस्थापन, असामान्य सम्भाव्यतासँग नमूना, र स्तरीकृत नमूना। यो अनुमान को बारे मा दुई मुख्य विचारहरु लाई वर्णन गरेको छ: होर्भिट्ज थामसन अनुमानक र पोस्ट-स्तरीकरण। सम्भावना नमूना डिजाइनहरूको थप औपचारिक परिभाषाको लागि, Särndal, Swensson, and Wretman (2003) 2) को अध्याय 2 हेर्नुहोस्। स्तरीकृत नमूनाको थप औपचारिक र पूर्ण उपचारको लागि, Särndal, Swensson, and Wretman (2003) धारा 3.7 हेर्नुहोस्। होर्भिट्ज-थोम्पसन अनुमानकहरूको गुणहरूको प्राविधिक विवरणको लागि, Overton and Stehman (1995) Horvitz and Thompson (1952) , Overton and Stehman (1995) , वा खण्ड 2.8 को @ sarndal_model_2003 हेर्नुहोस्। पोस्ट स्ट्रैटिटेशन को अधिक औपचारिक उपचार को लागी, Holt and Smith (1979) , Smith (1991) , Little (1993) , या Särndal, Swensson, and Wretman (2003) सेक्शन 7.6 Särndal, Swensson, and Wretman (2003) ।

Nonresponse संग सम्भावना नमूना

लगभग सबै वास्तविक सर्वेक्षणहरू गैरप्रणालीहरू छन्; त्यो होइन, नमूना जनसंख्यामा सबैले हरेक प्रश्नको जवाफ दिदैनन्। त्यहाँ दुई मुख्य प्रकारका गैरप्रणालीहरू छन्: वस्तु निक्षेप र इकाई निक्षेप । वस्तु गैर अनुशासनमा, केहि उत्तरदाताहरूले केही चीजहरूको जवाफ दिँदैन (उदाहरणका लागि, कहिलेकाहीं उत्तरदायीहरू तिनीहरुसँग संवेदनशील मान्ने प्रश्नहरूको उत्तर दिन चाहँदैनन्)। एकाइ nonresponse मा, नमूना जनसंख्याका लागि चयन गरिएका केही व्यक्ति सर्वेक्षणमा प्रतिक्रिया गर्दैनन्। एकाइ गैरप्राप्तिका लागि दुईवटा सामान्य कारण हुन् कि नमूना व्यक्तिलाई सम्पर्क गर्न सकिँदैन र नमूना व्यक्तिलाई सम्पर्क गरिएको छ तर भाग लिन इन्कार गर्न सकिन्छ। यस खण्डमा, म एकाइ nonresponse मा फोकस गर्नेछु; वस्तुहरूमा रुचि राख्ने पाठकहरू गैरप्रणाली लिटिल र रुबिन (2002) हेर्नु पर्दछ।

शोधकर्ताहरूले प्राय: दुई-चरण नमूना गर्ने प्रक्रियाको रूपमा इकाईको प्रतिक्रिया बिना सर्वेक्षणको बारेमा सोच्न सक्छन्। पहिलो चरणमा, शोधकर्ताले नमूना $s$ चयन गर्दछ जुन प्रत्येक व्यक्ति समावेश समावेशको संभावना छ $\pi_i$ (जहाँ $0 < \pi_i \leq 1$ )। त्यसपछि, दोस्रो चरणमा, जो नमूनामा चयन गरिएका छन् सम्भाव्यतासँग $\phi_i$ प्रतिक्रिया गर्नुहोस् $\phi_i$ (जहाँ $0 < \phi_i \leq 1$ )। यो दुई-चरण प्रक्रिया उत्तरदायीहरूको अन्तिम सेटमा नतिजा $r$ । यी दुई चरणहरू बीचको एक महत्वपूर्ण भिन्नता यो हो कि शोधकर्ताले नमूना चयन गर्ने प्रक्रियालाई नियन्त्रण गर्दछ, तर तिनीहरू नियन्त्रणमा राख्दैनन् ती नमूना व्यक्तिहरू प्रतिक्रियावादी बनेका छन्। यी दुई प्रक्रियाहरू सँगसँगै राख्नु, सम्भावना जुन कसैलाई प्रतिवादी हुनेछ

$pr(i \in r) = \pi_i \phi_i \qquad(3.6)$

सादगी को लागी, म यस मामला मा विचार गर्नेछु जहां मूल नमूना डिज़ाइन सरल बदमाशी नमूना को बदलन को बिना छ। यदि एक शोधकर्ताले आकार $n_s$ नमूना $n_s$ नमूना चयन गर्दछ जुन $n_r$ प्रतिक्रियाकारहरू उत्पन्न गर्दछ, र यदि शोधकर्ताहरूले प्रतिक्रिया $n_r$ प्रतिक्रिया र प्रयोग $n_r$ भने, त्यसपछि अनुमानको पूर्वाधार हुनेछ:

$\mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)$

जहाँ प्रतिक्रिया (परिणाम, बेरोजगारीको स्थिति), $S(y)$ आबादी जनसंख्या मानक परिणाम (उदाहरणार्थ, बेरोजगारी हो जहाँ $cor(\phi, y)$ प्रतिक्रिया जनसंख्या र परिणाम बीचको जनसंख्या सहसंबंध हो। स्थिति), $S(\phi)$ आबादी प्रतिक्रिया प्रबर्धनको मानक विचलन हो, र $\bar{\phi}$ आबादी भनेको प्रतिक्रिया प्रबर्धन हो (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) ।

Eq। 3.7 देखाउँछ भने गैरप्रतिक्रियाले पूर्वाधारहरू परिचय गर्नेछैन भने निम्न सर्तहरू भेटिएका छन् भने:

बेरोजगारीको स्थितिमा कुनै भिन्नता छैन $(S(y) = 0)$ ।
प्रतिक्रियामा कुनै पनि भिन्नता छैन $(S(\phi) = 0)$ ।
प्रतिक्रिया प्रवर्द्धन र बेरोजगारी स्थितिको बीचमा कुनै सम्बन्ध छैन $(cor(\phi, y) = 0)$ ।

दुर्भाग्यवश, ती सर्तहरू मध्ये कुनैपनि सम्भव लाग्दैन। यो असुविधाजनक देखिन्छ जस्तो लाग्छ कि रोजगारीको स्थितिमा कुनै भिन्नता हुनेछैन वा प्रतिक्रियामा प्रतिक्रियामा कुनै परिवर्तन हुनेछैन। यसरी, eq मा कुञ्जी शब्द। 3.7 सहसंबंध हो: $cor(\phi, y)$ । उदाहरणका लागि, यदि व्यक्तिहरू बेरोजगारी अधिक प्रतिक्रियाको सम्भावना छन् भने अनुमानित रोजगारी दर पक्षपात माथि बढिनेछ।

जब गैर अनुशासन सहायक जानकारी प्रयोग गर्ने हो भने अनुमानहरू गर्न चाल। उदाहरणका लागि, एक तरिका जसमा तपाइँ सहायक जानकारी प्रयोग गर्न सक्नुहुनेछ पोस्ट-स्ट्र्याटिफिकेसन (माथिबाट 3.5 ई-मेल सम्झनुहोस्)। यो पङ्क्तिबद्ध गर्दछ कि पोस्ट-स्टटाइम एनिमेटरको पूर्वाधार हो:

$bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)$

जहाँ $cor(\phi, y)^{(h)}$ , $S(y)^{(h)}$ , $S(\phi)^{(h)}$ र $\bar{\phi}^{(h)}$ माथिको रूपमा परिभाषित गरिएको छ तर समूहमा मानिसहरूको लागि प्रतिबन्धित $h$ (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) । त्यसकारण, सबै पोस्ट स्तरीकरण समूहमा पूर्वाग्रह सानो छ भने समग्र पूर्वाग्रह सानो हुनेछ। त्यहाँ दुई तरिकाहरू छन् जुन मलाई प्रत्येक पोस्ट-स्तरीय समूहमा पूर्वाग्रह बनाउने बारे सोच्न मन लाग्छ। पहिलो, तपाईं सम्वन्धित समूहहरू बनाउन प्रयास गर्न चाहानुहुन्छ जुन प्रतिक्रिया प्रवर्धनमा (फरक) भिन्नता छ ( $S(\phi)^{(h)} \approx 0$ ) र परिणाम ( $S(y)^{(h)} \approx 0$ )। दोस्रो, तपाइँ समूहहरू जहाँ तपाइँहरू देख्नुहुने व्यक्तिहरू बनाउन चाहनुहुन्छ जस्तो कि मानिसहरू जुन तपाईंले देख्दैनन् जस्तो लाग्छ ( $cor(\phi, y)^{(h)} \approx 0$ )। Eq तुलना गर्दै। 3.7 र eq। 3.8 ले स्पष्टीकरण गर्दछ जब पोस्ट स्तरीयेशन nonresponse द्वारा पक्षपातशील हुन सक्छ।

अन्तमा, यस खण्डले सम्भावना नमूनाको लागि गैर-प्रतिक्रियाको साथ एक नमूना प्रदान गरेको छ र पूर्वाग्रह देखाइएको छ कि गैरप्रसादले बिना-स्तरीय समायोजन समायोजनको साथ दुवै परिचय गर्न सक्छ। Bethlehem (1988) अधिक सामान्य नमूना डिजाइन को लागि nonresponse द्वारा पूर्वाग्रह को एक व्युत्पत्ति प्रदान गर्दछ। गैरप्रतिक्रियाको लागि समायोजन गर्न पोस्ट-स्तरीकरण प्रयोग गर्न थप, Smith (1991) र Gelman and Carlin (2002) । पोस्ट-स्तरीकरण एक अंशांकन एन्टिमिटर भनिने प्रविधिको अधिक सामान्य परिवारको भाग हो, Särndal and Lundström (2005) (2000) ले लेख-लम्बाइ उपचार र Särndal and Lundström (2005) पुस्तक पुस्तक लम्बाइको लागि हेर्नुहोस्। Kalton and Flores-Cervantes (2003) लागि समायोजन को लागी अन्य अन्य वजन मा अधिक तरीकों को लागी, Kalton and Flores-Cervantes (2003) , Brick (2013) , र Särndal and Lundström (2005) ।

गैर सम्भावना नमूना

गैर सम्भावना नमूना समावेश एक विशाल विविधता डिजाइन (Baker et al. 2013) । विशेष गरी फोकस र सहकर्मीहरूले Xbox प्रयोगकर्ताहरूको नमूनामा फोकस गर्दै (W. Wang et al. 2015) , (W. Wang et al. 2015) , तपाईं यस्तो नमूनाको रूपमा सोच्न सक्नुहुन्छ जहाँ नमूना डिजाइनको प्रमुख भाग $\pi_i$ ( समावेश गर्ने शोधकर्ताले सम्भावित संभावना) तर $\phi_i$ (प्रतिवादी-प्रेरित प्रतिक्रिया क्षमताहरू)। स्वाभाविक रूप देखि, यो आदर्श छैन किनभने $\phi_i$ अज्ञात छन्। तर, वाङ र साथीहरूले देखाएअनुसार, यो नमूना अप्ट-इन नमूना-एक नमूना फ्रेमबाट पनि ठूलो कभर त्रुटिको साथ-आवश्यक भइहाल्छ भने शोधकर्ताले राम्रो सहायक सूचना र एक राम्रो सांख्यिकीय मोडेलसँग यी समस्याहरूको लागि खाता बनाउन।

Bethlehem (2010) पछि पोस्ट स्तरीकरणको बारेमा माथिको डेरिभेटिशनको धेरै विस्तार गर्न को लागी दुवै गैरप्रणाली र कवरेज त्रुटिहरू समावेश गर्दछ। पोस्ट-स्तरीकरण पछि, कुनै सम्भावनात्मक नमूनाहरूसँग काम गर्न अन्य प्रविधिहरू-कभर त्रुटि र nonresponse- नमूना मिलान (Ansolabehere and Rivers 2013; ??? ) , प्रक्षेपण स्कोर भार (Lee 2006; Schonlau et al. 2009) , र अंशांकन (Lee and Valliant 2009) । यी प्रविधिहरू बीच एक साधारण विषयवस्तु सहायक जानकारीको प्रयोग हो।