આ પરિશિષ્ટમાં, હું થોડા વધુ ગાણિતિક સ્વરૂપમાં પ્રકરણના કેટલાક વિચારો વર્ણવશે. મોજણી સંશોધકો દ્વારા ઉપયોગમાં લેવાયેલા સંકેત અને ગાણિતિક માળખા સાથે આરામદાયક થવામાં મદદ કરવા માટે અહીં ધ્યેય છે જેથી તમે આ મુદ્દાઓ પર લખેલ વધુ તકનિકી સામગ્રીમાં સંક્રમિત થઈ શકો. હું સંભાવના સેમ્પલિંગ રજૂ કરીને શરૂ કરીશ, પછી બિનપ્રક્રિયા સાથે સંભાવના નમૂના લેવા, અને છેવટે, બિન-સંભાવના સેમ્પલિંગ.
સંભવના સેમ્પલિંગ
ચાલી રહેલ ઉદાહરણ તરીકે, ચાલો યુનાઇટેડ સ્ટેટ્સમાં બેરોજગારીનો દરનો અંદાજ કાઢવાનો ધ્યેય નક્કી કરીએ. ચાલો U={1,…,k,…,N}U={1,…,k,…,N} લક્ષ્ય વસ્તી હોઈ અને વ્યક્તિ માટે પરિણામ વેરિયેબલના મૂલ્ય દ્વારા ykyk દો. kk આ ઉદાહરણમાં ykyk એ છે કે શું વ્યક્તિ kk બેરોજગાર છે છેલ્લે, ચાલો દો F={1,…,k,…,N}F={1,…,k,…,N} ફ્રેમની વસ્તી હોવી જોઈએ, જે સરળતાના કારણે લક્ષ્ય વસ્તી જેવી જ હોવાનું માનવામાં આવે છે.
મૂળ નમૂના નમૂના ડિઝાઇન વગર સરળ રેન્ડમ નમૂના છે. આ કિસ્સામાં, દરેક વ્યક્તિને નમૂનો s={1,…,i,…,n}s={1,…,i,…,n} માં સમાનરૂપે સામેલ થવાની શક્યતા છે. જ્યારે આ નમૂના નમૂના સાથે માહિતી એકત્રિત કરવામાં આવે છે, ત્યારે સંશોધકો નમૂનાનું અર્થ ધરાવતા વસ્તીને બેરોજગારીનો અંદાજ કરી શકે છે:
ˆˉy=∑i∈syin(3.1)^¯y=∑i∈syin(3.1)
જ્યાં ˉy¯y વસ્તીમાં બેરોજગારીનો દર છે અને ˆˉy^¯y એ બેરોજગારીનો અંદાજ છે ^^ સામાન્ય રીતે એક અંદાજ સૂચવવા માટે વપરાય છે).
વાસ્તવમાં, સંશોધનકર્તાઓ રિપ્લેસમેન્ટ વગર ભાગ્યે જ સરળ રેન્ડમ નમૂનાનો ઉપયોગ કરે છે. વિવિધ કારણો માટે (જેમાંથી એક હું એક ક્ષણમાં વર્ણન કરું છું), સંશોધકો ઘણીવાર સમાવેશના અસમાન સંભાવનાઓ સાથે નમૂનાઓ બનાવતા હોય છે. ઉદાહરણ તરીકે, સંશોધકો ફ્લોરિડામાં લોકો કેલિફોર્નિયામાં લોકો કરતાં વધુ સંભાવનાને પસંદ કરી શકે છે. આ કિસ્સામાં, નમૂનાનું અર્થ (ઇક 3.1) કદાચ સારા અનુમાનકાર ન હોઈ શકે. તેના બદલે, જ્યારે સમાવવાની અસમાન સંભાવનાઓ હોય, સંશોધકો તેનો ઉપયોગ કરે છે
ˆˉy=1N∑i∈syiπi(3.2)^¯y=1N∑i∈syiπi(3.2)
જ્યાં ˆˉy^¯y એ બેરોજગારી દરનો અંદાજ છે અને πiπi વ્યક્તિ ii ની સમાવેશની સંભાવના છે પ્રમાણભૂત પ્રથાને અનુસરીને, હું અંદાજને Eq માં કૉલ કરીશ. 3.2 હોરવિટ્ઝ-થોમ્પસન અંદાજકાર હોરવિટ્ઝ-થોમ્પસન અંદાજકાર અત્યંત ઉપયોગી છે કારણ કે તે કોઈપણ સંભાવના નમૂના ડિઝાઇન (Horvitz and Thompson 1952) માટે નિશ્ચિત અંદાજ તરફ દોરી જાય છે. કારણ કે હોરવિટ્ઝ-થોમ્પ્સન અંદાજકાર વારંવાર આવે છે, તે નોંધવું ઉપયોગી છે કે તેને ફરીથી લખી શકાય છે
ˆˉy=1N∑i∈swiyi(3.3)^¯y=1N∑i∈swiyi(3.3)
જ્યાં wi=1/πiwi=1/πi . ઇક તરીકે 3.3 જણાવે છે, હોરવિટ્ઝ-થોમ્પસન અંદાજકાર એ વજનવાળા નમૂનાનો અર્થ છે કે જ્યાં વજનની વિપરીત પસંદગીની સંભાવના સાથે સંબંધિત છે. બીજા શબ્દોમાં કહીએ તો, નમૂનામાં વ્યક્તિને સામેલ કરવાની શક્યતા ઓછી હોય છે, તે વ્યક્તિને વધુ અંદાજમાં અંદાજ મેળવવો જોઈએ.
અગાઉ વર્ણવ્યા અનુસાર, સંશોધકો ઘણીવાર સમાવિષ્ટની અસમાન સંભાવના ધરાવતા લોકોનું નમૂના દાખવે છે. સમાવિષ્ટની અસમાન સંભાવનાઓને પરિણમી શકે તેવા ડિઝાઇનનું એક ઉદાહરણ એ સ્તરીકરણિત નમૂના છે , જે સમજવું અગત્યનું છે કારણ કે તે પોસ્ટ-સ્તરીકરણ તરીકે ઓળખાતી અંદાજ પ્રક્રિયા સાથે નજીકથી સંબંધિત છે. સ્તરીકૃત નમૂનામાં, સંશોધક લક્ષિત વસ્તીને HH પરસ્પર વિશિષ્ટ અને વિસ્તૃત જૂથોમાં વિભાજિત કરે છે. આ જૂથોને સ્તર કહેવામાં આવે છે અને તે U1,…,Uh,…,UHU1,…,Uh,…,UH તરીકે સૂચવવામાં આવે છે. આ ઉદાહરણમાં, આ સ્તર જણાવે છે જૂથોનાં કદને N1,…,Nh,…,NHN1,…,Nh,…,NH . એક સંશોધક બેકારીને રાજ્ય-સ્તરના અંદાજ કરવા માટે દરેક રાજ્યમાં પૂરતા લોકો છે તેની ખાતરી કરવા માટે સ્તરીકૃત નમૂનાનો ઉપયોગ કરવો જોઈશે.
વસ્તીને એકવાર સ્તરમાં વિભાજીત કરવામાં આવે તે પછી ધારે છે કે સંશોધનકાર કદ nhnh ને બદલે દરેક સ્ટ્રક્ટામાંથી સ્વતંત્ર રેન્ડમ નમૂના પસંદ કરે છે. વધુમાં, ધારે છે કે નમૂનામાં પસંદ કરેલ દરેક પ્રતિવાદી બની જાય છે (હું આગામી વિભાગમાં બિન-પ્રતિસાદને નિયંત્રિત કરીશ) આ કિસ્સામાં, સમાવેશની સંભાવના છે
πi=nhNh for all i∈h(3.4)πi=nhNh for all i∈h(3.4)
કારણ કે આ સંભાવનાઓ વ્યકિતગત વ્યક્તિમાં બદલાઈ શકે છે, જ્યારે આ નમૂનાની ડિઝાઇનમાંથી અંદાજ કાઢે છે, સંશોધકોએ હોવવિટ્ઝ-થોમ્પસન અંદાજકાર (ઇક. 3.2) નો ઉપયોગ કરીને તેમની સંભાવનાની વ્યસ્તતા દ્વારા પ્રત્યેક પ્રતિવાદીને વજન કરવાની જરૂર છે.
જો હોરવિઝ-થોમ્પ્સન અંદાજકાર નિષ્પક્ષ હોવા છતાં, સંશોધક વધુ સચોટ (એટલે કે, નીચા અંતર) ઉત્પન્ન કરી શકે છે, જે સપોર્ટને સહાયક માહિતી સાથે જોડીને. કેટલાક લોકો આશ્ચર્યજનક રીતે શોધી કાઢે છે કે આ સાચું છે જ્યારે સંક્ષિપ્ત પરિપૂર્ણતા સેમ્પલીંગ સંપૂર્ણ રીતે ચલાવવામાં આવે છે. સહાયક માહિતીનો ઉપયોગ કરીને આ તકનીકો ખાસ કરીને મહત્વનું છે કારણ કે, હું પછીથી બતાવીશ, બિનસત્તાવાર અને બિન-સંભાવના નમૂનાઓથી સંભાવના નમૂનાઓનો અંદાજ કાઢવા માટે સહાયક માહિતી મહત્વપૂર્ણ છે.
સહાયક માહિતીનો ઉપયોગ કરવા માટેની એક સામાન્ય પદ્ધતિ પોસ્ટ-સ્તરીકરણ છે . કલ્પના કરો, ઉદાહરણ તરીકે, સંશોધક દરેક 50 રાજ્યોમાં પુરુષો અને સ્ત્રીઓની સંખ્યા જાણે છે; આપણે આ જૂથ કદને N1,N2,…,N100N1,N2,…,N100 . નમૂના સાથે આ સહાયક માહિતીને જોડવા માટે, સંશોધક નમૂના HH સમૂહોને વિભાજિત કરી શકે છે HH આ કિસ્સામાં 100), દરેક જૂથ માટે અંદાજ બનાવો, અને પછી આ જૂથના ભારિત સરેરાશ બનાવો:
ˆˉypost=∑h∈HNhNˆˉyh(3.5)^¯ypost=∑h∈HNhN^¯yh(3.5)
આશરે, ઇકમાં અંદાજકાર 3.5 વધુ ચોક્કસ થવાની સંભાવના છે કારણ કે તે જાણીતી વસ્તી માહિતીનો ઉપયોગ કરે છે- NhNh - સાચો અંદાજ જો કોઈ અસંતુલિત નમૂના પસંદ કરવામાં આવે તો. તે વિશે વિચારવાનો એક માર્ગ એ છે કે પોસ્ટ-સ્તરીકરણ ડેટા પહેલાથી જ એકત્રિત કરાયા પછી સ્તરીકરણની અંદાજ જેવું છે.
નિષ્કર્ષમાં, આ વિભાગમાં કેટલીક નમૂનાની રચનાઓ વર્ણવવામાં આવી છે: ફેરબદલ વિના સરળ રેન્ડમ નમૂના, અસમાન સંભાવના સાથે નમૂના અને સ્તરીકૃત નમૂના. તે અંદાજો વિશે બે મુખ્ય વિચારો પણ વર્ણવે છે: હોરવિટ્ઝ-થોમ્પસન અંદાજકાર અને પોસ્ટ-સ્તરીકરણ. સંભાવના નમૂનારૂપ ડિઝાઇનની વધુ ઔપચારિક વ્યાખ્યા માટે, Särndal, Swensson, and Wretman (2003) ના પ્રકરણ 2 જુઓ. સ્તરીકૃત નમૂના લેવાની વધુ ઔપચારિક અને સંપૂર્ણ સારવાર માટે, Särndal, Swensson, and Wretman (2003) ના વિભાગ 3.7 જુઓ. હોરવિટ્ઝ-થોમ્પસનના અંદાજપત્રના ગુણધર્મોના તકનીકી વર્ણન માટે, Horvitz and Thompson (1952) , Overton and Stehman (1995) , અથવા @ સર્ન્ડલ_ મોડેલ_2003 ના વિભાગ 2.8 નો જુઓ. પોસ્ટ સ્તરીકરણની વધુ ઔપચારિક સારવાર માટે, Holt and Smith (1979) , Smith (1991) , Little (1993) , અથવા Särndal, Swensson, and Wretman (2003) ના વિભાગ 7.6 જુઓ.
બિનસત્તાવાર સાથે સંભાવના નમૂનારૂપ
લગભગ તમામ વાસ્તવિક સર્વેક્ષણમાં બિનપ્રક્રિયા છે; એટલે કે, નમૂના વસ્તીમાં દરેકને દરેક પ્રશ્નનો જવાબ નથી. બે મુખ્ય પ્રકારો બિનપ્રક્રિયા છે: આઇટમ બિન પ્રતિભાવ અને એકમ બિન પ્રતિભાવ . આઇટમ બિન પ્રતિભાવ, કેટલાક ઉત્તરદાતાઓ કેટલીક વસ્તુઓનો જવાબ આપતા નથી (દા.ત. ક્યારેક, ઉત્તરદાતાઓ પ્રશ્નોના જવાબ આપવા માંગતા નથી કે તેઓ સંવેદનશીલતાને ધ્યાનમાં લેતા નથી) એકમ બિનપ્રક્રિયામાં, નમૂના લોકોની પસંદગી માટે પસંદ કરાયેલા કેટલાક લોકો સર્વેક્ષણને પ્રતિસાદ આપતા નથી. એકમ બિનપ્રક્રિયા માટેના બે સૌથી સામાન્ય કારણો એ છે કે નમૂનાત વ્યક્તિનો સંપર્ક થઈ શકતો નથી અને નમૂના વ્યક્તિનો સંપર્ક કરવામાં આવે છે પરંતુ ભાગ લેવાનો ઇનકાર કરે છે. આ વિભાગમાં, હું એકમ બિનપ્રક્રિયા પર ધ્યાન કેન્દ્રિત કરું છું; આઇટમ બિનપ્રક્રિયામાં રુચિ ધરાવતા વાચકોને લીટલ અને રુબિન (2002) જોવા જોઈએ.
સંશોધકો ઘણીવાર બે તબક્કાનું નમૂનાકરણ પ્રક્રિયા તરીકે એકમ બિન પ્રતિભાવ તરીકે સર્વેક્ષણ વિશે વિચારે છે. પ્રથમ તબક્કે, સંશોધક એક નમૂનો ss પસંદ કરે છે જેમ કે દરેક વ્યક્તિને સામેલ કરવાની સંભાવના છે πiπi (જ્યાં 0<πi≤10<πi≤1 ). પછી, બીજા તબક્કામાં, જે લોકો નમૂનામાં પસંદ કરે છે તેઓ સંભાવના સાથે પ્રતિક્રિયા આપે છે ϕiϕi (જ્યાં 0<ϕi≤10<ϕi≤1 ). આ બે-તબક્કાની પ્રક્રિયા પરિણામોના અંતિમ સેટમાં પરિણામ rr આ બે તબક્કા વચ્ચે એક મહત્વપૂર્ણ તફાવત એ છે કે સંશોધકો નમૂનાને પસંદ કરવાની પ્રક્રિયાને નિયંત્રિત કરે છે, પરંતુ તે નિયંત્રિત નથી કરતા કે તે નમૂનાવાળા લોકો ઉત્તરદાતા બન્યા છે. આ બે પ્રક્રિયાઓને એકસાથે મુકીને, સંભાવના છે કે કોઈ વ્યક્તિ પ્રતિવાદી હોવા જોઈએ
pr(i∈r)=πiϕi(3.6)pr(i∈r)=πiϕi(3.6)
સરળતાના ખાતર, હું આ કેસને ધ્યાનમાં લઈશ જ્યાં મૂળ નમૂનાની ડિઝાઇન બદલી વગરના સરળ રેન્ડમ નમૂના છે. જો સંશોધક કદ ns ઉપજાવે છે કે જે ઉપજાવે છે nr ઉત્તરદાતાઓને પસંદ કરે છે, અને જો સંશોધક બિન-પ્રતિક્રિયાને અવગણશે અને ઉત્તરદાતાઓના nr ઉપયોગ કરે છે, તો તે અંદાજનો પૂર્વગ્રહ હશે:
bias of sample mean=cor(ϕ,y)S(y)S(ϕ)ˉϕ(3.7)
જ્યાં cor(ϕ,y) પ્રતિક્રિયા ઝોક અને પરિણામ (દા.ત. બેરોજગારી સ્થિતિ) વચ્ચે વસ્તીનો સહસંબંધ છે, S(y) પરિણામનું વસ્તી પ્રમાણભૂત વિચલન છે (દા.ત. બેરોજગારી સ્થિતિ S(ϕ) ) S(ϕ) ) S(ϕ) પ્રતિક્રિયા ઝોકની વસ્તી પ્રમાણભૂત વિચલન છે, અને ˉϕ એ વસ્તીનો સરેરાશ પ્રતિક્રિયા ઝોક છે (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
ઇક. 3.7 બતાવે છે કે નીચેની શરતોની કોઇ પણ જોગવાઈ કરવામાં આવે તો બિનઅવચારાથી પૂર્વગ્રહની રજૂઆત કરવામાં આવશે નહીં:
કમનસીબે, આમાંના કોઈ પણ પરિસ્થિતિઓ સંભવિત લાગતા નથી. તે અસંભવિત લાગે છે કે રોજગાર સ્થિતિમાં કોઈ તફાવત રહેશે નહીં અથવા પ્રતિક્રિયા પ્રગતિમાં કોઈ ફેરફાર થતો નથી. આમ, ઇકમાં મુખ્ય શબ્દ 3.7 એ સહસંબંધ છે: cor(ϕ,y) . ઉદાહરણ તરીકે, જો લોકો બેરોજગાર હોય તો તેઓ પ્રતિસાદ આપે છે, તો પછી અંદાજિત રોજગારી દર પક્ષપાતી રહેશે.
અયોગ્ય ન હોય ત્યારે અંદાજ કાઢવા માટેની યુક્તિ એ સહાયક માહિતીનો ઉપયોગ કરવાનું છે. ઉદાહરણ તરીકે, તમે સહાયક માહિતીનો ઉપયોગ કરી શકો છો તે એક રીત પોસ્ટ-સ્તરીકરણ છે (ઉપરના ઇક 3.5. તે તારણ આપે છે કે પોસ્ટ સ્તરીકરણ અંદાજનો પૂર્વગ્રહ એ છે:
bias(ˆˉypost)=1NH∑h=1Nhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)ˉϕ(h)(3.8)
cor(ϕ,y)(h) , S(y)(h) , S(ϕ)(h) , અને ˉϕ(h) ઉપર પ્રમાણે વ્યાખ્યાયિત થયેલ છે પરંતુ જૂથના લોકો માટે પ્રતિબંધિત છે h (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . આ રીતે, દરેક પોસ્ટ-સ્તરીકરણ જૂથમાં પૂર્વગ્રહ નાના હોય તો એકંદર પૂર્વગ્રહ નાના હશે. દરેક પોસ્ટ-સ્તરીકરણ જૂથમાં પૂર્વગ્રહ બનાવવા વિશે વિચારવા માટેના બે રીત છે. સૌપ્રથમ, તમે સમાન સમૂહો બનાવવાનું પ્રયાસ કરવા માંગો છો, જ્યાં પ્રતિભાવની પ્રકૃતિ ( S(ϕ)(h)≈0 ) અને પરિણામ ( S(y)(h)≈0 ). બીજું, તમે જૂથો રચવા માંગો છો જ્યાં તમે જુઓ છો તે લોકો એવા લોકો જેવા છે જે તમે જોતા નથી ( cor(ϕ,y)(h)≈0 ). ઇકની સરખામણી 3.7 અને ઇક. 3.8 જ્યારે પોસ્ટ-સ્તરીકરણ બિન પ્રતિભાવથી પક્ષપાતને ઘટાડી શકે ત્યારે સ્પષ્ટતા કરવામાં મદદ કરે છે.
નિષ્કર્ષમાં, આ વિભાગમાં બિન-પ્રતિક્રિયા સાથે સંભાવના નમૂના માટે એક મોડેલ પૂરું પાડવામાં આવ્યું છે અને તે પૂર્વગ્રહ દર્શાવ્યું છે કે જે બિન-પ્રતિભાવથી પોસ્ટ-સ્તરીકરણ એડજસ્ટમેન્ટ્સ વિના અને બન્ને સાથે પરિચય કરી શકે છે. Bethlehem (1988) વધુ સામાન્ય સેમ્પલિંગ ડિઝાઇન્સ માટે બિનઅનુભવના કારણે પૂર્વગ્રહનું વ્યુત્પત્તિ આપે છે. બિન-પ્રતિક્રિયા માટે સંતુલિત કરવા માટે પોસ્ટ સ્તરીકરણનો ઉપયોગ કરવા માટે વધુ જાણવા માટે, Smith (1991) અને Gelman and Carlin (2002) . પોસ્ટ-સ્તરીકરણ કેલિબ્રેશનના અંદાજો તરીકે ઓળખાતા તકનીકોના વધુ સામાન્ય પરિવારનો એક ભાગ છે, જે લેખ-લંબાઈની સારવાર માટે ઝાંગ (2000) Särndal and Lundström (2005) પુસ્તક-લંબાઈના ઉપચાર માટે Särndal and Lundström (2005) . બિન Kalton and Flores-Cervantes (2003) માટે એડજસ્ટ કરવા માટે અન્ય અન્ય વજન પદ્ધતિઓ પર, Kalton and Flores-Cervantes (2003) , Brick (2013) , અને Särndal and Lundström (2005) .
બિન-સંભાવના નમૂનારૂપ
બિન-સંભાવના નમૂનામાં વિશાળ વિવિધ ડિઝાઇનનો સમાવેશ થાય છે (Baker et al. 2013) . વાંગ અને સહકાર્યકરો (W. Wang et al. 2015) દ્વારા એક્સબોક્સ વપરાશકર્તાઓના નમૂના પર ખાસ ધ્યાન કેન્દ્રિત કરતા, તમે તે પ્રકારના નમૂનાનો એક વિચાર કરી શકો છો જ્યાં નમૂના ડિઝાઇનના ચાવીરૂપ ભાગ πi ( સંશોધક-આધારિત સમાવેશની સંભાવના) પરંતુ ϕi (પ્રતિવાદાત્મક-આધારિત પ્રતિભાવ પ્રવેગકો). સ્વાભાવિક રીતે, આદર્શ નથી કારણ કે ϕi અજ્ઞાત છે. પરંતુ, વાંગ અને સહકર્મીઓએ બતાવ્યું છે કે, આ પ્રકારના નમૂનાનો વિકલ્પ-પણ વિશાળ કવરેજની ભૂલ-સેમ્પલ ફ્રેમથી પણ - આપત્તિજનક હોવાની જરૂર નથી જો સંશોધક પાસે સારી સહાયક માહિતી અને આ સમસ્યા માટે ખાતા માટે સારા આંકડાકીય મોડલ છે.
Bethlehem (2010) બિન-પ્રતિક્રિયા અને કવરેજ ભૂલો બંનેને સમાવવા માટે પોસ્ટ-સ્તરીકરણ અંગેના ઉપરોક્ત ડેરિવેશન્સને વિસ્તરે છે પોસ્ટ-સ્તરીકરણ ઉપરાંત, બિન-સંભાવના નમૂના સાથે કામ કરવા માટેની અન્ય (Ansolabehere and Rivers 2013; ??? ) કવરેજ ભૂલો અને બિનપ્રતિસાદા સાથેના સંભાવના (Ansolabehere and Rivers 2013; ??? ) નમૂના મેળ (Ansolabehere and Rivers 2013; ??? ) , (Ansolabehere and Rivers 2013; ??? ) સ્કોર વજન (Lee 2006; Schonlau et al. 2009) , અને કેલિબ્રેશન (Lee and Valliant 2009) . આ તકનીકોમાંની એક સામાન્ય થીમ સહાયક માહિતીનો ઉપયોગ છે.