આ પરિશિષ્ટમાં, હું થોડા વધુ ગાણિતિક સ્વરૂપમાં પ્રકરણના કેટલાક વિચારો વર્ણવશે. મોજણી સંશોધકો દ્વારા ઉપયોગમાં લેવાયેલા સંકેત અને ગાણિતિક માળખા સાથે આરામદાયક થવામાં મદદ કરવા માટે અહીં ધ્યેય છે જેથી તમે આ મુદ્દાઓ પર લખેલ વધુ તકનિકી સામગ્રીમાં સંક્રમિત થઈ શકો. હું સંભાવના સેમ્પલિંગ રજૂ કરીને શરૂ કરીશ, પછી બિનપ્રક્રિયા સાથે સંભાવના નમૂના લેવા, અને છેવટે, બિન-સંભાવના સેમ્પલિંગ.
સંભવના સેમ્પલિંગ
ચાલી રહેલ ઉદાહરણ તરીકે, ચાલો યુનાઇટેડ સ્ટેટ્સમાં બેરોજગારીનો દરનો અંદાજ કાઢવાનો ધ્યેય નક્કી કરીએ. ચાલો \(U = \{1, \ldots, k, \ldots, N\}\) લક્ષ્ય વસ્તી હોઈ અને વ્યક્તિ માટે પરિણામ વેરિયેબલના મૂલ્ય દ્વારા \(y_k\) દો. \(k\) આ ઉદાહરણમાં \(y_k\) એ છે કે શું વ્યક્તિ \(k\) બેરોજગાર છે છેલ્લે, ચાલો દો \(F = \{1, \ldots, k, \ldots, N\}\) ફ્રેમની વસ્તી હોવી જોઈએ, જે સરળતાના કારણે લક્ષ્ય વસ્તી જેવી જ હોવાનું માનવામાં આવે છે.
મૂળ નમૂના નમૂના ડિઝાઇન વગર સરળ રેન્ડમ નમૂના છે. આ કિસ્સામાં, દરેક વ્યક્તિને નમૂનો \(s = \{1, \ldots, i, \ldots, n\}\) માં સમાનરૂપે સામેલ થવાની શક્યતા છે. જ્યારે આ નમૂના નમૂના સાથે માહિતી એકત્રિત કરવામાં આવે છે, ત્યારે સંશોધકો નમૂનાનું અર્થ ધરાવતા વસ્તીને બેરોજગારીનો અંદાજ કરી શકે છે:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
જ્યાં \(\bar{y}\) વસ્તીમાં બેરોજગારીનો દર છે અને \(\hat{\bar{y}}\) એ બેરોજગારીનો અંદાજ છે \(\hat{ }\) સામાન્ય રીતે એક અંદાજ સૂચવવા માટે વપરાય છે).
વાસ્તવમાં, સંશોધનકર્તાઓ રિપ્લેસમેન્ટ વગર ભાગ્યે જ સરળ રેન્ડમ નમૂનાનો ઉપયોગ કરે છે. વિવિધ કારણો માટે (જેમાંથી એક હું એક ક્ષણમાં વર્ણન કરું છું), સંશોધકો ઘણીવાર સમાવેશના અસમાન સંભાવનાઓ સાથે નમૂનાઓ બનાવતા હોય છે. ઉદાહરણ તરીકે, સંશોધકો ફ્લોરિડામાં લોકો કેલિફોર્નિયામાં લોકો કરતાં વધુ સંભાવનાને પસંદ કરી શકે છે. આ કિસ્સામાં, નમૂનાનું અર્થ (ઇક 3.1) કદાચ સારા અનુમાનકાર ન હોઈ શકે. તેના બદલે, જ્યારે સમાવવાની અસમાન સંભાવનાઓ હોય, સંશોધકો તેનો ઉપયોગ કરે છે
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
જ્યાં \(\hat{\bar{y}}\) એ બેરોજગારી દરનો અંદાજ છે અને \(\pi_i\) વ્યક્તિ \(i\) ની સમાવેશની સંભાવના છે પ્રમાણભૂત પ્રથાને અનુસરીને, હું અંદાજને Eq માં કૉલ કરીશ. 3.2 હોરવિટ્ઝ-થોમ્પસન અંદાજકાર હોરવિટ્ઝ-થોમ્પસન અંદાજકાર અત્યંત ઉપયોગી છે કારણ કે તે કોઈપણ સંભાવના નમૂના ડિઝાઇન (Horvitz and Thompson 1952) માટે નિશ્ચિત અંદાજ તરફ દોરી જાય છે. કારણ કે હોરવિટ્ઝ-થોમ્પ્સન અંદાજકાર વારંવાર આવે છે, તે નોંધવું ઉપયોગી છે કે તેને ફરીથી લખી શકાય છે
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
જ્યાં \(w_i = 1 / \pi_i\) . ઇક તરીકે 3.3 જણાવે છે, હોરવિટ્ઝ-થોમ્પસન અંદાજકાર એ વજનવાળા નમૂનાનો અર્થ છે કે જ્યાં વજનની વિપરીત પસંદગીની સંભાવના સાથે સંબંધિત છે. બીજા શબ્દોમાં કહીએ તો, નમૂનામાં વ્યક્તિને સામેલ કરવાની શક્યતા ઓછી હોય છે, તે વ્યક્તિને વધુ અંદાજમાં અંદાજ મેળવવો જોઈએ.
અગાઉ વર્ણવ્યા અનુસાર, સંશોધકો ઘણીવાર સમાવિષ્ટની અસમાન સંભાવના ધરાવતા લોકોનું નમૂના દાખવે છે. સમાવિષ્ટની અસમાન સંભાવનાઓને પરિણમી શકે તેવા ડિઝાઇનનું એક ઉદાહરણ એ સ્તરીકરણિત નમૂના છે , જે સમજવું અગત્યનું છે કારણ કે તે પોસ્ટ-સ્તરીકરણ તરીકે ઓળખાતી અંદાજ પ્રક્રિયા સાથે નજીકથી સંબંધિત છે. સ્તરીકૃત નમૂનામાં, સંશોધક લક્ષિત વસ્તીને \(H\) પરસ્પર વિશિષ્ટ અને વિસ્તૃત જૂથોમાં વિભાજિત કરે છે. આ જૂથોને સ્તર કહેવામાં આવે છે અને તે \(U_1, \ldots, U_h, \ldots, U_H\) તરીકે સૂચવવામાં આવે છે. આ ઉદાહરણમાં, આ સ્તર જણાવે છે જૂથોનાં કદને \(N_1, \ldots, N_h, \ldots, N_H\) . એક સંશોધક બેકારીને રાજ્ય-સ્તરના અંદાજ કરવા માટે દરેક રાજ્યમાં પૂરતા લોકો છે તેની ખાતરી કરવા માટે સ્તરીકૃત નમૂનાનો ઉપયોગ કરવો જોઈશે.
વસ્તીને એકવાર સ્તરમાં વિભાજીત કરવામાં આવે તે પછી ધારે છે કે સંશોધનકાર કદ \(n_h\) ને બદલે દરેક સ્ટ્રક્ટામાંથી સ્વતંત્ર રેન્ડમ નમૂના પસંદ કરે છે. વધુમાં, ધારે છે કે નમૂનામાં પસંદ કરેલ દરેક પ્રતિવાદી બની જાય છે (હું આગામી વિભાગમાં બિન-પ્રતિસાદને નિયંત્રિત કરીશ) આ કિસ્સામાં, સમાવેશની સંભાવના છે
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
કારણ કે આ સંભાવનાઓ વ્યકિતગત વ્યક્તિમાં બદલાઈ શકે છે, જ્યારે આ નમૂનાની ડિઝાઇનમાંથી અંદાજ કાઢે છે, સંશોધકોએ હોવવિટ્ઝ-થોમ્પસન અંદાજકાર (ઇક. 3.2) નો ઉપયોગ કરીને તેમની સંભાવનાની વ્યસ્તતા દ્વારા પ્રત્યેક પ્રતિવાદીને વજન કરવાની જરૂર છે.
જો હોરવિઝ-થોમ્પ્સન અંદાજકાર નિષ્પક્ષ હોવા છતાં, સંશોધક વધુ સચોટ (એટલે કે, નીચા અંતર) ઉત્પન્ન કરી શકે છે, જે સપોર્ટને સહાયક માહિતી સાથે જોડીને. કેટલાક લોકો આશ્ચર્યજનક રીતે શોધી કાઢે છે કે આ સાચું છે જ્યારે સંક્ષિપ્ત પરિપૂર્ણતા સેમ્પલીંગ સંપૂર્ણ રીતે ચલાવવામાં આવે છે. સહાયક માહિતીનો ઉપયોગ કરીને આ તકનીકો ખાસ કરીને મહત્વનું છે કારણ કે, હું પછીથી બતાવીશ, બિનસત્તાવાર અને બિન-સંભાવના નમૂનાઓથી સંભાવના નમૂનાઓનો અંદાજ કાઢવા માટે સહાયક માહિતી મહત્વપૂર્ણ છે.
સહાયક માહિતીનો ઉપયોગ કરવા માટેની એક સામાન્ય પદ્ધતિ પોસ્ટ-સ્તરીકરણ છે . કલ્પના કરો, ઉદાહરણ તરીકે, સંશોધક દરેક 50 રાજ્યોમાં પુરુષો અને સ્ત્રીઓની સંખ્યા જાણે છે; આપણે આ જૂથ કદને \(N_1, N_2, \ldots, N_{100}\) . નમૂના સાથે આ સહાયક માહિતીને જોડવા માટે, સંશોધક નમૂના \(H\) સમૂહોને વિભાજિત કરી શકે છે \(H\) આ કિસ્સામાં 100), દરેક જૂથ માટે અંદાજ બનાવો, અને પછી આ જૂથના ભારિત સરેરાશ બનાવો:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
આશરે, ઇકમાં અંદાજકાર 3.5 વધુ ચોક્કસ થવાની સંભાવના છે કારણ કે તે જાણીતી વસ્તી માહિતીનો ઉપયોગ કરે છે- \(N_h\) - સાચો અંદાજ જો કોઈ અસંતુલિત નમૂના પસંદ કરવામાં આવે તો. તે વિશે વિચારવાનો એક માર્ગ એ છે કે પોસ્ટ-સ્તરીકરણ ડેટા પહેલાથી જ એકત્રિત કરાયા પછી સ્તરીકરણની અંદાજ જેવું છે.
નિષ્કર્ષમાં, આ વિભાગમાં કેટલીક નમૂનાની રચનાઓ વર્ણવવામાં આવી છે: ફેરબદલ વિના સરળ રેન્ડમ નમૂના, અસમાન સંભાવના સાથે નમૂના અને સ્તરીકૃત નમૂના. તે અંદાજો વિશે બે મુખ્ય વિચારો પણ વર્ણવે છે: હોરવિટ્ઝ-થોમ્પસન અંદાજકાર અને પોસ્ટ-સ્તરીકરણ. સંભાવના નમૂનારૂપ ડિઝાઇનની વધુ ઔપચારિક વ્યાખ્યા માટે, Särndal, Swensson, and Wretman (2003) ના પ્રકરણ 2 જુઓ. સ્તરીકૃત નમૂના લેવાની વધુ ઔપચારિક અને સંપૂર્ણ સારવાર માટે, Särndal, Swensson, and Wretman (2003) ના વિભાગ 3.7 જુઓ. હોરવિટ્ઝ-થોમ્પસનના અંદાજપત્રના ગુણધર્મોના તકનીકી વર્ણન માટે, Horvitz and Thompson (1952) , Overton and Stehman (1995) , અથવા @ સર્ન્ડલ_ મોડેલ_2003 ના વિભાગ 2.8 નો જુઓ. પોસ્ટ સ્તરીકરણની વધુ ઔપચારિક સારવાર માટે, Holt and Smith (1979) , Smith (1991) , Little (1993) , અથવા Särndal, Swensson, and Wretman (2003) ના વિભાગ 7.6 જુઓ.
બિનસત્તાવાર સાથે સંભાવના નમૂનારૂપ
લગભગ તમામ વાસ્તવિક સર્વેક્ષણમાં બિનપ્રક્રિયા છે; એટલે કે, નમૂના વસ્તીમાં દરેકને દરેક પ્રશ્નનો જવાબ નથી. બે મુખ્ય પ્રકારો બિનપ્રક્રિયા છે: આઇટમ બિન પ્રતિભાવ અને એકમ બિન પ્રતિભાવ . આઇટમ બિન પ્રતિભાવ, કેટલાક ઉત્તરદાતાઓ કેટલીક વસ્તુઓનો જવાબ આપતા નથી (દા.ત. ક્યારેક, ઉત્તરદાતાઓ પ્રશ્નોના જવાબ આપવા માંગતા નથી કે તેઓ સંવેદનશીલતાને ધ્યાનમાં લેતા નથી) એકમ બિનપ્રક્રિયામાં, નમૂના લોકોની પસંદગી માટે પસંદ કરાયેલા કેટલાક લોકો સર્વેક્ષણને પ્રતિસાદ આપતા નથી. એકમ બિનપ્રક્રિયા માટેના બે સૌથી સામાન્ય કારણો એ છે કે નમૂનાત વ્યક્તિનો સંપર્ક થઈ શકતો નથી અને નમૂના વ્યક્તિનો સંપર્ક કરવામાં આવે છે પરંતુ ભાગ લેવાનો ઇનકાર કરે છે. આ વિભાગમાં, હું એકમ બિનપ્રક્રિયા પર ધ્યાન કેન્દ્રિત કરું છું; આઇટમ બિનપ્રક્રિયામાં રુચિ ધરાવતા વાચકોને લીટલ અને રુબિન (2002) જોવા જોઈએ.
સંશોધકો ઘણીવાર બે તબક્કાનું નમૂનાકરણ પ્રક્રિયા તરીકે એકમ બિન પ્રતિભાવ તરીકે સર્વેક્ષણ વિશે વિચારે છે. પ્રથમ તબક્કે, સંશોધક એક નમૂનો \(s\) પસંદ કરે છે જેમ કે દરેક વ્યક્તિને સામેલ કરવાની સંભાવના છે \(\pi_i\) (જ્યાં \(0 < \pi_i \leq 1\) ). પછી, બીજા તબક્કામાં, જે લોકો નમૂનામાં પસંદ કરે છે તેઓ સંભાવના સાથે પ્રતિક્રિયા આપે છે \(\phi_i\) (જ્યાં \(0 < \phi_i \leq 1\) ). આ બે-તબક્કાની પ્રક્રિયા પરિણામોના અંતિમ સેટમાં પરિણામ \(r\) આ બે તબક્કા વચ્ચે એક મહત્વપૂર્ણ તફાવત એ છે કે સંશોધકો નમૂનાને પસંદ કરવાની પ્રક્રિયાને નિયંત્રિત કરે છે, પરંતુ તે નિયંત્રિત નથી કરતા કે તે નમૂનાવાળા લોકો ઉત્તરદાતા બન્યા છે. આ બે પ્રક્રિયાઓને એકસાથે મુકીને, સંભાવના છે કે કોઈ વ્યક્તિ પ્રતિવાદી હોવા જોઈએ
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
સરળતાના ખાતર, હું આ કેસને ધ્યાનમાં લઈશ જ્યાં મૂળ નમૂનાની ડિઝાઇન બદલી વગરના સરળ રેન્ડમ નમૂના છે. જો સંશોધક કદ \(n_s\) ઉપજાવે છે કે જે ઉપજાવે છે \(n_r\) ઉત્તરદાતાઓને પસંદ કરે છે, અને જો સંશોધક બિન-પ્રતિક્રિયાને અવગણશે અને ઉત્તરદાતાઓના \(n_r\) ઉપયોગ કરે છે, તો તે અંદાજનો પૂર્વગ્રહ હશે:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
જ્યાં \(cor(\phi, y)\) પ્રતિક્રિયા ઝોક અને પરિણામ (દા.ત. બેરોજગારી સ્થિતિ) વચ્ચે વસ્તીનો સહસંબંધ છે, \(S(y)\) પરિણામનું વસ્તી પ્રમાણભૂત વિચલન છે (દા.ત. બેરોજગારી સ્થિતિ \(S(\phi)\) ) \(S(\phi)\) ) \(S(\phi)\) પ્રતિક્રિયા ઝોકની વસ્તી પ્રમાણભૂત વિચલન છે, અને \(\bar{\phi}\) એ વસ્તીનો સરેરાશ પ્રતિક્રિયા ઝોક છે (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
ઇક. 3.7 બતાવે છે કે નીચેની શરતોની કોઇ પણ જોગવાઈ કરવામાં આવે તો બિનઅવચારાથી પૂર્વગ્રહની રજૂઆત કરવામાં આવશે નહીં:
કમનસીબે, આમાંના કોઈ પણ પરિસ્થિતિઓ સંભવિત લાગતા નથી. તે અસંભવિત લાગે છે કે રોજગાર સ્થિતિમાં કોઈ તફાવત રહેશે નહીં અથવા પ્રતિક્રિયા પ્રગતિમાં કોઈ ફેરફાર થતો નથી. આમ, ઇકમાં મુખ્ય શબ્દ 3.7 એ સહસંબંધ છે: \(cor(\phi, y)\) . ઉદાહરણ તરીકે, જો લોકો બેરોજગાર હોય તો તેઓ પ્રતિસાદ આપે છે, તો પછી અંદાજિત રોજગારી દર પક્ષપાતી રહેશે.
અયોગ્ય ન હોય ત્યારે અંદાજ કાઢવા માટેની યુક્તિ એ સહાયક માહિતીનો ઉપયોગ કરવાનું છે. ઉદાહરણ તરીકે, તમે સહાયક માહિતીનો ઉપયોગ કરી શકો છો તે એક રીત પોસ્ટ-સ્તરીકરણ છે (ઉપરના ઇક 3.5. તે તારણ આપે છે કે પોસ્ટ સ્તરીકરણ અંદાજનો પૂર્વગ્રહ એ છે:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
\(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , અને \(\bar{\phi}^{(h)}\) ઉપર પ્રમાણે વ્યાખ્યાયિત થયેલ છે પરંતુ જૂથના લોકો માટે પ્રતિબંધિત છે \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . આ રીતે, દરેક પોસ્ટ-સ્તરીકરણ જૂથમાં પૂર્વગ્રહ નાના હોય તો એકંદર પૂર્વગ્રહ નાના હશે. દરેક પોસ્ટ-સ્તરીકરણ જૂથમાં પૂર્વગ્રહ બનાવવા વિશે વિચારવા માટેના બે રીત છે. સૌપ્રથમ, તમે સમાન સમૂહો બનાવવાનું પ્રયાસ કરવા માંગો છો, જ્યાં પ્રતિભાવની પ્રકૃતિ ( \(S(\phi)^{(h)} \approx 0\) ) અને પરિણામ ( \(S(y)^{(h)} \approx 0\) ). બીજું, તમે જૂથો રચવા માંગો છો જ્યાં તમે જુઓ છો તે લોકો એવા લોકો જેવા છે જે તમે જોતા નથી ( \(cor(\phi, y)^{(h)} \approx 0\) ). ઇકની સરખામણી 3.7 અને ઇક. 3.8 જ્યારે પોસ્ટ-સ્તરીકરણ બિન પ્રતિભાવથી પક્ષપાતને ઘટાડી શકે ત્યારે સ્પષ્ટતા કરવામાં મદદ કરે છે.
નિષ્કર્ષમાં, આ વિભાગમાં બિન-પ્રતિક્રિયા સાથે સંભાવના નમૂના માટે એક મોડેલ પૂરું પાડવામાં આવ્યું છે અને તે પૂર્વગ્રહ દર્શાવ્યું છે કે જે બિન-પ્રતિભાવથી પોસ્ટ-સ્તરીકરણ એડજસ્ટમેન્ટ્સ વિના અને બન્ને સાથે પરિચય કરી શકે છે. Bethlehem (1988) વધુ સામાન્ય સેમ્પલિંગ ડિઝાઇન્સ માટે બિનઅનુભવના કારણે પૂર્વગ્રહનું વ્યુત્પત્તિ આપે છે. બિન-પ્રતિક્રિયા માટે સંતુલિત કરવા માટે પોસ્ટ સ્તરીકરણનો ઉપયોગ કરવા માટે વધુ જાણવા માટે, Smith (1991) અને Gelman and Carlin (2002) . પોસ્ટ-સ્તરીકરણ કેલિબ્રેશનના અંદાજો તરીકે ઓળખાતા તકનીકોના વધુ સામાન્ય પરિવારનો એક ભાગ છે, જે લેખ-લંબાઈની સારવાર માટે ઝાંગ (2000) Särndal and Lundström (2005) પુસ્તક-લંબાઈના ઉપચાર માટે Särndal and Lundström (2005) . બિન Kalton and Flores-Cervantes (2003) માટે એડજસ્ટ કરવા માટે અન્ય અન્ય વજન પદ્ધતિઓ પર, Kalton and Flores-Cervantes (2003) , Brick (2013) , અને Särndal and Lundström (2005) .
બિન-સંભાવના નમૂનારૂપ
બિન-સંભાવના નમૂનામાં વિશાળ વિવિધ ડિઝાઇનનો સમાવેશ થાય છે (Baker et al. 2013) . વાંગ અને સહકાર્યકરો (W. Wang et al. 2015) દ્વારા એક્સબોક્સ વપરાશકર્તાઓના નમૂના પર ખાસ ધ્યાન કેન્દ્રિત કરતા, તમે તે પ્રકારના નમૂનાનો એક વિચાર કરી શકો છો જ્યાં નમૂના ડિઝાઇનના ચાવીરૂપ ભાગ \(\pi_i\) ( સંશોધક-આધારિત સમાવેશની સંભાવના) પરંતુ \(\phi_i\) (પ્રતિવાદાત્મક-આધારિત પ્રતિભાવ પ્રવેગકો). સ્વાભાવિક રીતે, આદર્શ નથી કારણ કે \(\phi_i\) અજ્ઞાત છે. પરંતુ, વાંગ અને સહકર્મીઓએ બતાવ્યું છે કે, આ પ્રકારના નમૂનાનો વિકલ્પ-પણ વિશાળ કવરેજની ભૂલ-સેમ્પલ ફ્રેમથી પણ - આપત્તિજનક હોવાની જરૂર નથી જો સંશોધક પાસે સારી સહાયક માહિતી અને આ સમસ્યા માટે ખાતા માટે સારા આંકડાકીય મોડલ છે.
Bethlehem (2010) બિન-પ્રતિક્રિયા અને કવરેજ ભૂલો બંનેને સમાવવા માટે પોસ્ટ-સ્તરીકરણ અંગેના ઉપરોક્ત ડેરિવેશન્સને વિસ્તરે છે પોસ્ટ-સ્તરીકરણ ઉપરાંત, બિન-સંભાવના નમૂના સાથે કામ કરવા માટેની અન્ય (Ansolabehere and Rivers 2013; ??? ) કવરેજ ભૂલો અને બિનપ્રતિસાદા સાથેના સંભાવના (Ansolabehere and Rivers 2013; ??? ) નમૂના મેળ (Ansolabehere and Rivers 2013; ??? ) , (Ansolabehere and Rivers 2013; ??? ) સ્કોર વજન (Lee 2006; Schonlau et al. 2009) , અને કેલિબ્રેશન (Lee and Valliant 2009) . આ તકનીકોમાંની એક સામાન્ય થીમ સહાયક માહિતીનો ઉપયોગ છે.