यस परिशिष्टमा, म थोडा अधिक गणितीय रूप मा केहि अध्यायहरु को वर्णन गर्नेछु। यहाँ लक्ष्य तपाईं सर्वेक्षण शोधकर्ताहरु द्वारा प्रयोग गरिएको सूचना र गणितीय ढाँचा संग सहज प्राप्त गर्न मद्दत गर्नको लागि हो ताकि तपाइँ यी विषयहरूमा लिखित अधिक केहि भौतिक सामाग्रीहरूमा संक्रमण गर्न सक्नुहुनेछ। म सम्भावना नमूना परिचय शुरू गरेर शुरू गर्नेछु, त्यसपछि nonresponse संग सम्भावना नमूनामा जानुहोस्, र अन्तमा, गैर सम्भावना नमूना।
सम्भावना नमूना
एक चलिरहेको उदाहरणको रूपमा, हामी संयुक्त राज्य अमेरिका मा बेरोजगारी दर को अनुमान को लक्ष्य को विचार गरौं। U={1,…,k,…,N}U={1,…,k,…,N} लाई लक्षित आबादी दिनुहोस् र व्यक्ति k व्यक्तिको लागि परिणाम चरको मान yk अनुमति दिनुहोस्। यस उदाहरणमा yk यो हो कि व्यक्ति k बेरोजगार छ कि? अन्तमा, चलो F={1,…,k,…,N} फ्रेम आबादी हुन, जुन साक्षरता लक्ष्य लक्षित जनसंख्याको रूपमा मानिन्छ।
एक आधारभूत नमूना डिजाइन बिना प्रतिस्थापन बिना सरल अनियमित नमूना हो। यस अवस्थामा, प्रत्येक व्यक्ति नमूना s={1,…,i,…,n} । जब यो नमूना डिजाइनको साथ डेटा एकत्रित गरिन्छ, एक शोधकर्ताले नमूनाको साथ जनसंख्या बेरोजगारी दर अनुमान गर्न सक्छन्:
ˆˉy=∑i∈syin(3.1)
जहाँ ˉy जनसंख्यामा बेरोजगारी दर हो र ˆˉy बेरोजगारी दरको अनुमान हो ^ सामान्यतया ^ एक अनुमानक संकेत गर्न प्रयोग गरिन्थ्यो)।
वास्तविकता मा, शोधकर्ताओं को शायद ही कभी बिना बदलन को बिना सरल यादृच्छिक नमूना प्रयोग गर्छन। विभिन्न कारणहरूका लागि (जसमा मैले एक क्षणमा वर्णन गर्नेछु), शोधकर्ताहरू अक्सर असम्भव सम्भावनाहरू समावेश गर्नका लागि नमूनाहरू सिर्जना गर्छन्। उदाहरणको लागि, क्यालेन्डरहरूले क्यालिफोर्नियाका व्यक्तिहरूको तुलनामा थप सम्भावना समावेश गर्न फ्लोरिडामा व्यक्तिहरू चयन गर्न सक्छन्। यस अवस्थामा, नमूना मतलब (अंक 3.1) एक राम्रो अनुमानक हुन सक्छ। यसको सट्टा, जब समावेशको असमान संभावनाहरू छन्, शोधकर्ताहरू प्रयोग गर्छन्
ˆˉy=1N∑i∈syiπi(3.2)
जहाँ ˆˉy बेरोजगारी दरको अनुमान हो र πi व्यक्ति i समावेशको सम्भावना हो। मानक अभ्यास पछि, म अनुमानकलाई फोन गर्दछ। 3.2 होर्भेज-थम्पसन अनुमानक। Horvitz-Thompson अनुमानक अत्यन्त उपयोगी छ किनभने यो कुनै सम्भाव्यता नमूना डिजाइन (Horvitz and Thompson 1952) लागि निष्पक्ष अनुमान हो। किनभने Horvitz-Thompson अनुमानक धेरै पटक उठ्छ, यो नोटिस गर्न उपयोगी छ कि यो पुन: लिखित रूपमा गर्न सकिन्छ।
ˆˉy=1N∑i∈swiyi(3.3)
जहाँ wi=1/πi । जस्तै। 3.3 ले प्रकट गर्दछ, होर्भिट्ज-थोम्पसन अनुमानक एक वजनयुक्त नमूना हो जहाँ वजन अदृश्य रूपमा चयनको सम्भावनासँग सम्बन्धित छ। अन्य शब्दहरूमा, कम सम्भावना एक व्यक्ति नमूनामा समावेश हुनुपर्छ, अधिक वजन कि व्यक्ति अनुमान मा प्राप्त गर्नु पर्छ।
जस्तै वर्णन गरिएको, शोधकर्ताहरूले प्रायः समावेश व्यक्तिहरूको असामान्य सम्भावनाहरूलाई नमूना गर्दछ। एक डिजाइन को एक उदाहरण जो असामान्य संभावनाहरु को नेतृत्व गर्न सक्छ को लागी स्तरीकृत नमूना हो , जो बुझन को लागि महत्वपूर्ण छ किनकी यो पोस्ट-स्तरीकरण नामक अनुमान अनुमानित प्रक्रिया संग सम्बन्धित छ। स्तरीकृत नमूना मा, एक शोधकर्ता लक्ष्य आबादी H पारस्परिक अनन्य र विस्तृत समूहों मा विभाजित गर्दछ। यी समूह strata भनिन्छ र रूपमा संकेत गर्दै U1,…,Uh,…,UH । यस उदाहरणमा, ढाँचाहरू राज्य हुन्। समूहहरूको आकार N1,…,Nh,…,NH रूपमा संकेत गरिएको छ। एक शोधकर्ताले स्तरीकृत नमूना प्रयोग गर्न चाहानुहुन्छ कि उनीहरुले बेरोजगारीको राज्य-स्तरको अनुमान बनाउन प्रत्येक राज्यमा पर्याप्त व्यक्ति छन् भन्ने कुरा सुनिश्चित गर्न।
एक पटक जनसंख्या विभाजित गर्न को लागी स्ट्रैटमा , मानिन्छ कि शोधकर्ताले स्वत: प्रत्येक nh बाट आकार nh आकार nh बिना सरल यादृच्छिक नमूना चयन गर्दछ। त्यसोभए, नमूनामा सबैले रोजेका सबै प्रतिवादी बन्यो (म अर्को खण्डमा गैर-प्रतिक्रियालाई सम्भाल्नेछु)। यस अवस्थामा, समावेश को सम्भावना छ
πi=nhNh for all i∈h(3.4)
यस नमूना डिजाइनको अनुमानको अनुमान गर्दा यी सम्भावनाहरू व्यक्ति-व्यक्तिबाट फरक पर्न सक्छन् किनभने, शोधकर्ताहरूले प्रत्येक प्रतिवादीलाई Horvitz-Thompson अनुमानक (इ.ए. 3.2) प्रयोग गरेर समावेशको सम्भावनाको व्युत्पन्न गर्न आवश्यक हुन्छ।
यद्यपि Horvitz-Thompson अनुमानक निष्पक्ष छ भने, शोधकर्ता सहायक जानकारी संग नमूना संयोजन गरेर अधिक सटीक (यानी, कम भिन्नता) अनुमानहरू उत्पन्न गर्न सक्छन्। केही व्यक्तिहरूले यो आश्चर्यजनक कुरा पत्ता लगाउँछन् कि त्यहाँ निष्पक्ष सम्भावना नमूना हुने बेला पनि यो सत्य हो। सहायक प्रविधिहरू प्रयोग गरी यी प्रविधिहरू विशेष रूपमा महत्त्वपूर्ण हुन्छन् किनकी, पछि मैले देखाउनेछु, सहायक जानकारी सम्भावना नमूनाहरूको अनुमान नगरी गैरप्रणाली र गैर-सम्भावनात्मक नमूनाहरूको अनुमान गर्न महत्वपूर्ण छ।
सहायक जानकारीको प्रयोगको लागि एक साधारण प्रविधि हो पोस्ट स्तरीकरण । कल्पना गर्नुहोस्, उदाहरणका लागि, कि एक शोधकर्ताले 50 वटा राज्यहरूमा पुरुष र महिलाहरूको संख्या थाहा पाउँछ; हामी यी समूह आकार N1,N2,…,N100 रूपमा N1,N2,…,N100 गर्न सक्दछौं। नमूना संग यो सहायक जानकारी को संयोजन गर्न को लागि, शोधकर्ता नमूना विभाजित गर्न सक्छन् H समूह (यस मामला 100 मा), प्रत्येक समूह को लागि अनुमान बनाउन को लागि, र फेरि यो समूह को एक भारित औसत को मतलब छ:
ˆˉypost=∑h∈HNhNˆˉyh(3.5)
अक्टोबरमा एनिमेटर। 3.5 अधिक सटीक हुन सक्छ किनभने यो ज्ञात आबादी जानकारी प्रयोग गर्दछ - यदि एक असंतुलित नमूना चयन हुने हुन्छ भने Nh सही अनुमानमा। यसको बारेमा सोच्ने एक तरिका यो छ कि पोस्ट-स्तरीकरण डाटा डाटा पहिले नै संकलन गरेपछि स्तरीय निकटता जस्तै छ।
अन्त्यमा, यस खण्डले केही नमूना डिजाइनहरू वर्णन गरेको छ: साधारण बेरोजगार नमूना बिना प्रतिस्थापन, असामान्य सम्भाव्यतासँग नमूना, र स्तरीकृत नमूना। यो अनुमान को बारे मा दुई मुख्य विचारहरु लाई वर्णन गरेको छ: होर्भिट्ज थामसन अनुमानक र पोस्ट-स्तरीकरण। सम्भावना नमूना डिजाइनहरूको थप औपचारिक परिभाषाको लागि, Särndal, Swensson, and Wretman (2003) 2) को अध्याय 2 हेर्नुहोस्। स्तरीकृत नमूनाको थप औपचारिक र पूर्ण उपचारको लागि, Särndal, Swensson, and Wretman (2003) धारा 3.7 हेर्नुहोस्। होर्भिट्ज-थोम्पसन अनुमानकहरूको गुणहरूको प्राविधिक विवरणको लागि, Overton and Stehman (1995) Horvitz and Thompson (1952) , Overton and Stehman (1995) , वा खण्ड 2.8 को @ sarndal_model_2003 हेर्नुहोस्। पोस्ट स्ट्रैटिटेशन को अधिक औपचारिक उपचार को लागी, Holt and Smith (1979) , Smith (1991) , Little (1993) , या Särndal, Swensson, and Wretman (2003) सेक्शन 7.6 Särndal, Swensson, and Wretman (2003) ।
Nonresponse संग सम्भावना नमूना
लगभग सबै वास्तविक सर्वेक्षणहरू गैरप्रणालीहरू छन्; त्यो होइन, नमूना जनसंख्यामा सबैले हरेक प्रश्नको जवाफ दिदैनन्। त्यहाँ दुई मुख्य प्रकारका गैरप्रणालीहरू छन्: वस्तु निक्षेप र इकाई निक्षेप । वस्तु गैर अनुशासनमा, केहि उत्तरदाताहरूले केही चीजहरूको जवाफ दिँदैन (उदाहरणका लागि, कहिलेकाहीं उत्तरदायीहरू तिनीहरुसँग संवेदनशील मान्ने प्रश्नहरूको उत्तर दिन चाहँदैनन्)। एकाइ nonresponse मा, नमूना जनसंख्याका लागि चयन गरिएका केही व्यक्ति सर्वेक्षणमा प्रतिक्रिया गर्दैनन्। एकाइ गैरप्राप्तिका लागि दुईवटा सामान्य कारण हुन् कि नमूना व्यक्तिलाई सम्पर्क गर्न सकिँदैन र नमूना व्यक्तिलाई सम्पर्क गरिएको छ तर भाग लिन इन्कार गर्न सकिन्छ। यस खण्डमा, म एकाइ nonresponse मा फोकस गर्नेछु; वस्तुहरूमा रुचि राख्ने पाठकहरू गैरप्रणाली लिटिल र रुबिन (2002) हेर्नु पर्दछ।
शोधकर्ताहरूले प्राय: दुई-चरण नमूना गर्ने प्रक्रियाको रूपमा इकाईको प्रतिक्रिया बिना सर्वेक्षणको बारेमा सोच्न सक्छन्। पहिलो चरणमा, शोधकर्ताले नमूना s चयन गर्दछ जुन प्रत्येक व्यक्ति समावेश समावेशको संभावना छ πi (जहाँ 0<πi≤1 )। त्यसपछि, दोस्रो चरणमा, जो नमूनामा चयन गरिएका छन् सम्भाव्यतासँग ϕi प्रतिक्रिया गर्नुहोस् ϕi (जहाँ 0<ϕi≤1 )। यो दुई-चरण प्रक्रिया उत्तरदायीहरूको अन्तिम सेटमा नतिजा r । यी दुई चरणहरू बीचको एक महत्वपूर्ण भिन्नता यो हो कि शोधकर्ताले नमूना चयन गर्ने प्रक्रियालाई नियन्त्रण गर्दछ, तर तिनीहरू नियन्त्रणमा राख्दैनन् ती नमूना व्यक्तिहरू प्रतिक्रियावादी बनेका छन्। यी दुई प्रक्रियाहरू सँगसँगै राख्नु, सम्भावना जुन कसैलाई प्रतिवादी हुनेछ
pr(i∈r)=πiϕi(3.6)
सादगी को लागी, म यस मामला मा विचार गर्नेछु जहां मूल नमूना डिज़ाइन सरल बदमाशी नमूना को बदलन को बिना छ। यदि एक शोधकर्ताले आकार ns नमूना ns नमूना चयन गर्दछ जुन nr प्रतिक्रियाकारहरू उत्पन्न गर्दछ, र यदि शोधकर्ताहरूले प्रतिक्रिया nr प्रतिक्रिया र प्रयोग nr भने, त्यसपछि अनुमानको पूर्वाधार हुनेछ:
bias of sample mean=cor(ϕ,y)S(y)S(ϕ)ˉϕ(3.7)
जहाँ प्रतिक्रिया (परिणाम, बेरोजगारीको स्थिति), S(y) आबादी जनसंख्या मानक परिणाम (उदाहरणार्थ, बेरोजगारी हो जहाँ cor(ϕ,y) प्रतिक्रिया जनसंख्या र परिणाम बीचको जनसंख्या सहसंबंध हो। स्थिति), S(ϕ) आबादी प्रतिक्रिया प्रबर्धनको मानक विचलन हो, र ˉϕ आबादी भनेको प्रतिक्रिया प्रबर्धन हो (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) ।
Eq। 3.7 देखाउँछ भने गैरप्रतिक्रियाले पूर्वाधारहरू परिचय गर्नेछैन भने निम्न सर्तहरू भेटिएका छन् भने:
दुर्भाग्यवश, ती सर्तहरू मध्ये कुनैपनि सम्भव लाग्दैन। यो असुविधाजनक देखिन्छ जस्तो लाग्छ कि रोजगारीको स्थितिमा कुनै भिन्नता हुनेछैन वा प्रतिक्रियामा प्रतिक्रियामा कुनै परिवर्तन हुनेछैन। यसरी, eq मा कुञ्जी शब्द। 3.7 सहसंबंध हो: cor(ϕ,y) । उदाहरणका लागि, यदि व्यक्तिहरू बेरोजगारी अधिक प्रतिक्रियाको सम्भावना छन् भने अनुमानित रोजगारी दर पक्षपात माथि बढिनेछ।
जब गैर अनुशासन सहायक जानकारी प्रयोग गर्ने हो भने अनुमानहरू गर्न चाल। उदाहरणका लागि, एक तरिका जसमा तपाइँ सहायक जानकारी प्रयोग गर्न सक्नुहुनेछ पोस्ट-स्ट्र्याटिफिकेसन (माथिबाट 3.5 ई-मेल सम्झनुहोस्)। यो पङ्क्तिबद्ध गर्दछ कि पोस्ट-स्टटाइम एनिमेटरको पूर्वाधार हो:
bias(ˆˉypost)=1NH∑h=1Nhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)ˉϕ(h)(3.8)
जहाँ cor(ϕ,y)(h) , S(y)(h) , S(ϕ)(h) र ˉϕ(h) माथिको रूपमा परिभाषित गरिएको छ तर समूहमा मानिसहरूको लागि प्रतिबन्धित h (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) । त्यसकारण, सबै पोस्ट स्तरीकरण समूहमा पूर्वाग्रह सानो छ भने समग्र पूर्वाग्रह सानो हुनेछ। त्यहाँ दुई तरिकाहरू छन् जुन मलाई प्रत्येक पोस्ट-स्तरीय समूहमा पूर्वाग्रह बनाउने बारे सोच्न मन लाग्छ। पहिलो, तपाईं सम्वन्धित समूहहरू बनाउन प्रयास गर्न चाहानुहुन्छ जुन प्रतिक्रिया प्रवर्धनमा (फरक) भिन्नता छ ( S(ϕ)(h)≈0 ) र परिणाम ( S(y)(h)≈0 )। दोस्रो, तपाइँ समूहहरू जहाँ तपाइँहरू देख्नुहुने व्यक्तिहरू बनाउन चाहनुहुन्छ जस्तो कि मानिसहरू जुन तपाईंले देख्दैनन् जस्तो लाग्छ ( cor(ϕ,y)(h)≈0 )। Eq तुलना गर्दै। 3.7 र eq। 3.8 ले स्पष्टीकरण गर्दछ जब पोस्ट स्तरीयेशन nonresponse द्वारा पक्षपातशील हुन सक्छ।
अन्तमा, यस खण्डले सम्भावना नमूनाको लागि गैर-प्रतिक्रियाको साथ एक नमूना प्रदान गरेको छ र पूर्वाग्रह देखाइएको छ कि गैरप्रसादले बिना-स्तरीय समायोजन समायोजनको साथ दुवै परिचय गर्न सक्छ। Bethlehem (1988) अधिक सामान्य नमूना डिजाइन को लागि nonresponse द्वारा पूर्वाग्रह को एक व्युत्पत्ति प्रदान गर्दछ। गैरप्रतिक्रियाको लागि समायोजन गर्न पोस्ट-स्तरीकरण प्रयोग गर्न थप, Smith (1991) र Gelman and Carlin (2002) । पोस्ट-स्तरीकरण एक अंशांकन एन्टिमिटर भनिने प्रविधिको अधिक सामान्य परिवारको भाग हो, Särndal and Lundström (2005) (2000) ले लेख-लम्बाइ उपचार र Särndal and Lundström (2005) पुस्तक पुस्तक लम्बाइको लागि हेर्नुहोस्। Kalton and Flores-Cervantes (2003) लागि समायोजन को लागी अन्य अन्य वजन मा अधिक तरीकों को लागी, Kalton and Flores-Cervantes (2003) , Brick (2013) , र Särndal and Lundström (2005) ।
गैर सम्भावना नमूना
गैर सम्भावना नमूना समावेश एक विशाल विविधता डिजाइन (Baker et al. 2013) । विशेष गरी फोकस र सहकर्मीहरूले Xbox प्रयोगकर्ताहरूको नमूनामा फोकस गर्दै (W. Wang et al. 2015) , (W. Wang et al. 2015) , तपाईं यस्तो नमूनाको रूपमा सोच्न सक्नुहुन्छ जहाँ नमूना डिजाइनको प्रमुख भाग πi ( समावेश गर्ने शोधकर्ताले सम्भावित संभावना) तर ϕi (प्रतिवादी-प्रेरित प्रतिक्रिया क्षमताहरू)। स्वाभाविक रूप देखि, यो आदर्श छैन किनभने ϕi अज्ञात छन्। तर, वाङ र साथीहरूले देखाएअनुसार, यो नमूना अप्ट-इन नमूना-एक नमूना फ्रेमबाट पनि ठूलो कभर त्रुटिको साथ-आवश्यक भइहाल्छ भने शोधकर्ताले राम्रो सहायक सूचना र एक राम्रो सांख्यिकीय मोडेलसँग यी समस्याहरूको लागि खाता बनाउन।
Bethlehem (2010) पछि पोस्ट स्तरीकरणको बारेमा माथिको डेरिभेटिशनको धेरै विस्तार गर्न को लागी दुवै गैरप्रणाली र कवरेज त्रुटिहरू समावेश गर्दछ। पोस्ट-स्तरीकरण पछि, कुनै सम्भावनात्मक नमूनाहरूसँग काम गर्न अन्य प्रविधिहरू-कभर त्रुटि र nonresponse- नमूना मिलान (Ansolabehere and Rivers 2013; ??? ) , प्रक्षेपण स्कोर भार (Lee 2006; Schonlau et al. 2009) , र अंशांकन (Lee and Valliant 2009) । यी प्रविधिहरू बीच एक साधारण विषयवस्तु सहायक जानकारीको प्रयोग हो।