ఈ అనుబంధంలో, నేను అధ్యాయం నుండి కొంచెం గణితశాస్త్ర రూపంలో కొన్ని ఆలోచనలు వివరిస్తాను. ఈ లక్ష్యంలో మీరు సంజ్ఞా పరిశోధకులను ఉపయోగించిన సంజ్ఞామానం మరియు గణిత ఆకృతితో సౌకర్యవంతంగా ఉండటానికి సహాయం చేస్తారు, తద్వారా మీరు ఈ అంశాలపై వ్రాసిన మరింత సాంకేతిక అంశాలకు బదిలీ చేయవచ్చు. నేను సంభావ్యత నమూనాను పరిచయం చేయడం ద్వారా ప్రారంభమవుతుంది, తరువాత సంభావ్యత నమూనాను నాన్ రిప్రజెస్తో మరియు చివరకు, సంభావ్యత నమూనాకు తరలించండి.
సంభావ్యత నమూనా
అమలులో ఉన్న ఉదాహరణగా, యునైటెడ్ స్టేట్స్లో నిరుద్యోగం రేటును అంచనా వేయడం యొక్క లక్ష్యాన్ని పరిశీలిద్దాం. \(U = \{1, \ldots, k, \ldots, N\}\) లను లక్ష్య జనాభాగా మరియు \(y_k\) , \(y_k\) వ్యక్తి \(k\) ఫలితం వేరియబుల్ విలువ ద్వారా అనుమతించండి. ఈ ఉదాహరణలో \(y_k\) వ్యక్తి \(k\) నిరుద్యోగమేనా అనే విషయం. చివరగా, సరళత కొరకు లక్ష్య జనాభా మాదిరిగా భావించబడే ఫ్రేమ్ జనాభాను \(F = \{1, \ldots, k, \ldots, N\}\)
ప్రాథమిక నమూనా నమూనా అనేది సాధారణ యాదృచ్ఛిక మాదిరిని భర్తీ చేయకుండా ఉంటుంది. ఈ సందర్భంలో, ప్రతి వ్యక్తి నమూనాలో \(s = \{1, \ldots, i, \ldots, n\}\) లో సమానంగా ఉంటుంది. ఈ నమూనా రూపకల్పనతో డేటాను సేకరించినప్పుడు, నమూనా అర్ధంతో జనాభాలో నిరుద్యోగ రేటు అంచనా వేయవచ్చు:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
ఇక్కడ \(\bar{y}\) అనేది జనాభాలో నిరుద్యోగ రేటు మరియు \(\hat{\bar{y}}\) నిరుద్యోగ రేటు అంచనా ( \(\hat{ }\) ఒక అంచనాదారుడిని సూచించడానికి ఉపయోగిస్తారు).
వాస్తవానికి, పరిశోధకులు అరుదుగా సాధారణ యాదృచ్ఛిక నమూనాను భర్తీ లేకుండా ఉపయోగించుకుంటారు. విభిన్న కారణాల వల్ల (వీటిలో ఒకటి నేను క్షణం లో వర్ణించాను), పరిశోధకులు తరచూ అసమాన సంభావ్యతలను చేర్చడానికి నమూనాలను తయారుచేస్తారు. ఉదాహరణకు, కాలిఫోర్నియాలోని ప్రజల కంటే ఎక్కువ మంది సంభావ్యతతో పరిశోధకులు ఫ్లోరిడాలో ప్రజలను ఎంపిక చేసుకోవచ్చు. ఈ సందర్భంలో, నమూనా అర్థం (eq. 3.1) మంచి అంచనాదారుడిగా ఉండకపోవచ్చు. బదులుగా, చేర్చడానికి అసమాన సంభావ్యత ఉన్నప్పుడు, పరిశోధకులు ఉపయోగిస్తారు
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
ఇక్కడ \(\hat{\bar{y}}\) అనేది నిరుద్యోగ రేటు అంచనా మరియు \(\pi_i\) వ్యక్తి \(i\) యొక్క సంభావ్యత చేర్చడం. ప్రామాణిక అభ్యాసాన్ని అనుసరించి, నేను eq లో అంచనాదారుడిని పిలుస్తాను. 3.2 హార్విట్జ్-థాంప్సన్ అంచనాదారుడు. ఏ సంభావ్యత నమూనా నమూనా (Horvitz and Thompson 1952) కు నిష్పాక్షికమైన అంచనాలకు దారితీసినందున, హార్విట్జ్-థాంప్సన్ అంచనాదారు చాలా ఉపయోగకరంగా ఉంటుంది. హోర్విట్జ్-థాంప్సన్ అంచెలెవరూ చాలా తరచుగా వస్తున్నందున, అది తిరిగి వ్రాయబడవచ్చని గమనించటం సహాయపడుతుంది
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
ఇక్కడ \(w_i = 1 / \pi_i\) . Eq గా. 3.3 వెల్లడిస్తే, హర్విట్జ్-థాంప్సన్ ఎగ్జామినేటర్ అనేది ఒక బరువున్న మాదిరి, ఇది ఎంపికల యొక్క సంభావ్యతను బట్టి వివిక్తంగా సంబంధం కలిగి ఉంటుంది. మరో మాటలో చెప్పాలంటే, నమూనాలో చేర్చబడిన వ్యక్తిని తక్కువగా అంచనా వేయడం, అంచనా వేసిన వ్యక్తికి ఎక్కువ బరువు ఉండాలి.
ముందుగా చెప్పినట్లుగా, పరిశోధకులు తరచూ అసమానమైన సంభావ్యత కలిగిన వ్యక్తులను నమూనాగా చేర్చుతారు. చేర్చడం యొక్క అసమాన సంభావ్యతకు దారితీసే నమూనా యొక్క ఒక ఉదాహరణ, స్ట్రాటిఫైడ్ మాప్లింగ్ను అర్థం చేసుకోవడం, ఇది అర్థం చేసుకోవడం ముఖ్యం ఎందుకంటే పోస్ట్-స్ట్రాటిఫికేషన్ అని పిలిచే అంచనా పద్ధతికి ఇది దగ్గరగా ఉంటుంది. స్ట్రాటిఫైడ్ నమూనాలో, ఒక పరిశోధకుడు లక్ష్య జనాభాను \(H\) పరస్పరం మరియు విస్తృతమైన సమూహాలకు విడదీస్తుంది. ఈ గుంపులను strata అని పిలుస్తారు మరియు \(U_1, \ldots, U_h, \ldots, U_H\) . ఈ ఉదాహరణలో, స్ట్రాటా రాష్ట్రాలు. సమూహాల పరిమాణాలు \(N_1, \ldots, N_h, \ldots, N_H\) . నిరుద్యోగం యొక్క ప్రభుత్వ-స్థాయి అంచనాలను తయారు చేసేందుకు ప్రతి రాష్ట్రంలో ఆమెకు తగినంత మంది ప్రజలు ఉన్నాయని నిర్ధారించుకోవడానికి ఒక పరిశోధకుడు స్ట్రాటిఫైడ్ మాప్ ను ఉపయోగించుకోవచ్చు.
జనాభా వర్గాలలో విడిపోయారు ఒకసారి, పరిశోధకుడు పరిమాణం యొక్క భర్తీ లేకుండా ఒక సాధారణ యాదృచ్ఛిక నమూనా ఎంపిక భావించాలి \(n_h\) స్వతంత్రంగా ప్రతి వర్గాలలో నుండి. అంతేకాక, నమూనాలో ఎంపిక చేసుకున్న ప్రతిఒక్కరు ప్రతివాదిగా అవుతారు (తరువాతి విభాగంలో నేను నాన్-స్పందనను నిర్వహిస్తాను). ఈ సందర్భంలో, చేర్చడానికి సంభావ్యత
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
ఈ సంభావ్యత వ్యక్తి నుండి వ్యక్తికి మారుతూ ఉంటుంది, ఎందుకంటే ఈ నమూనా రూపకల్పన నుండి అంచనా వేసినప్పుడు, పరిశోధకులు హార్విట్జ్-థాంప్సన్ అంచనాదారుని (ఇక్. 3.2) ను ఉపయోగించి వారి సంభావ్యత యొక్క విలోమం ద్వారా ప్రతి ప్రతివాదిని బరువు తగ్గించుకోవాలి.
హోర్విట్జ్-థాంప్సన్ అంచనాదారు నిష్పాక్షికమైనప్పటికీ, పరిశోధకులు మరింత ఖచ్చితమైన (అనగా, తక్కువ వ్యత్యాసాల) అంచనాలను సహాయక సమాచారంతో నమూనాను కలపడం ద్వారా అంచనా వేస్తారు . సంపూర్ణంగా అమలు చేయబడిన సంభావ్యత నమూనా ఉన్నప్పుడు కూడా ఇది నిజం అని కొందరు ఆశ్చర్యం కలిగి ఉంటారు. సహాయక సమాచారమును వుపయోగిస్తున్న ఈ పద్ధతులు చాలా ముఖ్యమైనవి, ఎందుకంటే నేను తరువాత చూపిన విధంగా, సంభావ్యత నమూనాలు సంభావ్యత నమూనాలను నాన్ రిసెన్స్ మరియు నాన్-సంభావ్యత నమూనాల నుండి అంచనా వేయడానికి కీలకం.
సహాయక సమాచారమును ఉపయోగించుటకు ఒక సాధారణ సాంకేతికత పోస్ట్-స్ట్రాటిఫికేషన్ . ఉదాహరణకు, ఒక పరిశోధకుడు 50 రాష్ట్రాల్లోని ప్రతి పురుషుల, పురుషుల సంఖ్య గురించి తెలుసుకుంటాడు; మేము ఈ గుంపు పరిమాణాలను \(N_1, N_2, \ldots, N_{100}\) . నమూనాతో ఈ సహాయక సమాచారాన్ని మిళితం చేసేందుకు, పరిశోధకుడు నమూనా \(H\) సమూహాలలో (ఈ సందర్భంలో 100) విభజించగలడు, ప్రతి సమూహానికి అంచనా వేయండి, ఆపై ఈ సమూహం యొక్క సగటును సృష్టించండి:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
సుమారు, eq లో అంచనాదారుడు. 3.5 \(N_h\) నమూనా ఎంచుకోబడితే, తెలిసిన జనాభా \(N_h\) సరైన అంచనాలను ఉపయోగిస్తుంది ఎందుకంటే ఇది మరింత ఖచ్చితమైనది కావచ్చు. దాని గురించి ఆలోచించటానికి ఒక మార్గం ఏమిటంటే డేటా ఇప్పటికే సేకరించబడిన తర్వాత పోస్ట్ స్ట్రాటిఫికేషన్ స్తరీకరణకు సుమారుగా ఉంటుంది.
ముగింపులో, ఈ విభాగం కొన్ని నమూనా నమూనాలను వర్ణించింది: భర్తీ లేకుండా సాధారణ యాదృచ్ఛిక నమూనా, అసమాన సంభావ్యతతో నమూనా, మరియు క్రమబద్ధమైన మాదిరి. ఇది అంచనా గురించి రెండు ప్రధాన ఆలోచనలను కూడా వర్ణించింది: హార్విట్జ్-థాంప్సన్ అంచనా మరియు పోస్ట్-స్ట్రాటిఫికేషన్. సంభావ్యత నమూనా నమూనాల మరింత అధికారిక నిర్వచనం కోసం, Särndal, Swensson, and Wretman (2003) యొక్క Särndal, Swensson, and Wretman (2003) అధ్యాయం చూడండి. స్ట్రాటిఫైడ్ మాప్టింగ్ యొక్క మరింత అధికారిక మరియు సంపూర్ణ చికిత్స కోసం, Särndal, Swensson, and Wretman (2003) యొక్క విభాగం 3.7 చూడుము. హోర్విట్జ్-థాంప్సన్ అంచెల లక్షణాల యొక్క సాంకేతిక వర్ణన కోసం, Horvitz and Thompson (1952) , Overton and Stehman (1995) , లేదా @ sarndal_model_2003 యొక్క విభాగం 2.8 చూడండి. పోస్ట్ స్ట్రాటిఫికేషన్ యొక్క మరింత అధికారిక చికిత్స కోసం, Holt and Smith (1979) , Smith (1991) , Little (1993) , లేదా Särndal, Swensson, and Wretman (2003) యొక్క విభాగం 7.6 చూడండి.
Nonresponse తో ప్రాబబిలిటీ మాదిరి
దాదాపు అన్ని నిజమైన సర్వేలు nonresponse కలిగి; అంటే, నమూనా జనాభాలో ప్రతి ఒక్కరూ ప్రతి ప్రశ్నకు సమాధానమివ్వరు. Nonresponse యొక్క రెండు ప్రధాన రకాలు ఉన్నాయి: అంశం నాన్ రిసెన్స్ మరియు యూనిట్ nonresponse . అంశం కాని రిపోర్టులో, కొంతమంది ప్రతివాదులు కొన్ని అంశాలకు సమాధానం ఇవ్వరు (ఉదా., కొన్నిసార్లు ప్రతివాదులు సెన్సిటివ్గా భావించే ప్రశ్నలకు సమాధానం ఇవ్వకూడదు). యూనిట్ నాన్ రిసరెన్స్లో, నమూనా జనాభా కోసం ఎంపిక చేయబడిన కొంతమంది సర్వేకి సర్వే చేయలేరు. యూనిట్ నాన్ రిసెరెన్స్కు అత్యంత సాధారణ కారణాలు ఏమిటంటే, నమూనా వ్యక్తిని సంప్రదించలేరు మరియు నమూనా వ్యక్తిని సంప్రదించి, పాల్గొనడానికి తిరస్కరిస్తారు. ఈ విభాగంలో, యూనిట్ నాన్ రిప్రెస్స్పై నేను దృష్టి పెడతాను. అంశం నాన్ రిసెషన్లో ఆసక్తి ఉన్న పాఠకులు లిటిల్ అండ్ రూబిన్ (2002) చూస్తారు.
పరిశోధకులు తరచూ యూనిట్ కాని స్పందనతో రెండు-దశల మాదిరి ప్రక్రియగా సర్వేలు గురించి ఆలోచించారు. మొదటి దశలో, పరిశోధకుడు ఒక నమూనా ఎంపిక \(s\) ప్రతి వ్యక్తి చేర్చడానికి ఒక సంభావ్యత ఉంది అలాంటి \(\pi_i\) (పేరు \(0 < \pi_i \leq 1\) ). రెండవ దశలో, నమూనాలో ఎంపిక చేసిన వ్యక్తులు సంభావ్యతతో \(\phi_i\) (ఇక్కడ \(0 < \phi_i \leq 1\) . ఈ రెండు-దశల ప్రక్రియ ఫలితాల యొక్క చివరి సమితిలో \(r\) . ఈ రెండు దశల మధ్య ఒక ముఖ్యమైన వ్యత్యాసం ఏమిటంటే, పరిశోధకులు నమూనాను ఎంచుకునే ప్రక్రియను నియంత్రిస్తారు, కాని వారు నమూనాలో ఉన్నవారిలో ఏది ప్రతివాదులు అయినా నియంత్రించలేవు. కలిసి ఈ రెండు ప్రక్రియలు, ఎవరైనా ఒక ప్రతివాది అని సంభావ్యత
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
సరళత కొరకు, అసలైన మాదిరి డిజైన్ అనేది సాధారణ యాదృచ్చిక నమూనాను భర్తీ చేయని సందర్భంలో నేను పరిగణలోకి తీసుకుంటాను. ఒక పరిశోధకుడు, \(n_s\) అందించే పరిమాణం \(n_s\) \(n_r\) , మరియు పరిశోధకుడు ప్రతిస్పందనలను విస్మరిస్తాడు మరియు ప్రతివాది యొక్క సగటును ఉపయోగిస్తాడు, అప్పుడు అంచనా వేయబడిన వ్యత్యాసం ఉంటుంది:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
ఇక్కడ \(cor(\phi, y)\) స్పందన ప్రవృత్తిని మరియు ఫలితం (ఉదా, నిరుద్యోగం స్థితి), మధ్య జనాభాలో సహసంబంధం ఉంది \(S(y)\) ఫలితం జనాభా ప్రామాణిక విచలనం (ఉదా, నిరుద్యోగం స్థితి \(S(\phi)\) ), \(S(\phi)\) అనేది ప్రతిస్పందన ప్రవృత్తి యొక్క జనాభా ప్రామాణిక విచలనం, మరియు \(\bar{\phi}\) అనేది జనాభా ప్రతిస్పందన ప్రవృత్తిని సూచిస్తుంది (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
EQ. 3.7 ఈ క్రింది పరిస్థితులలో ఏవైనా ఉంటే పక్షపాతాన్ని పక్షపాతము చేయకూడదని చూపుతుంది:
దురదృష్టవశాత్తు, ఈ పరిస్థితులు ఏవీ లేవు. ఇది ఉద్యోగ హోదాలో వైవిధ్యం ఉండదు లేదా స్పందన ప్రత్యామ్నాయాలలో వైవిధ్యాలు లేవని భయపడవద్దు. అందువలన, eq లో కీ పదం. 3.7 సహసంబంధం: \(cor(\phi, y)\) . ఉదాహరణకు, ప్రజలు నిరుద్యోగులుగా స్పందించడం ఎక్కువగా ఉంటే, అంచనా వేసిన ఉపాధి రేటు పైకి పక్షపాతంతో ఉంటుంది.
Nonresponse ఉన్నప్పుడు అంచనాలు చేయడానికి ట్రిక్ సహాయక సమాచారం ఉపయోగించడానికి ఉంది. ఉదాహరణకు, మీరు సహాయక సమాచారాన్ని ఉపయోగించగల ఒక మార్గం పోస్ట్-స్ట్రాటిఫికేషన్ (ఎగువ నుండి 3.5 నుండి రీకాల్ చేయండి). ఇది పోస్ట్-స్ట్రాటిఫికేషన్ అంచనాదారు యొక్క పక్షపాతమే:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
ఇక్కడ \(cor(\phi, y)^{(h)}\) ,, \(S(y)^{(h)}\) ,, \(S(\phi)^{(h)}\) , మరియు \(\bar{\phi}^{(h)}\) పైన నిర్వచించబడ్డాయి కాని సమూహంలోని వ్యక్తులకు మాత్రమే పరిమితం చేయబడతాయి \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . అందువల్ల, ప్రతి పోస్ట్-స్ట్రాటిఫికేషన్ సమూహంలో పక్షపాతమే చిన్నగా ఉంటే మొత్తం పక్షపాతం చిన్నదిగా ఉంటుంది. ప్రతి పోస్ట్-స్ట్రాటిఫికేషన్ గ్రూపులో బయాస్ చిన్నవి కావడంపై నేను ఆలోచించే రెండు మార్గాలు ఉన్నాయి. మొదటిది, ప్రతిస్పందన ప్రకాశం ( \(S(\phi)^{(h)} \approx 0\) ) లో కొద్దిగా వైవిధ్యము ఉన్నందున మీరు సజాతీయ బృందాన్ని ఏర్పర్చడానికి ప్రయత్నించాలి మరియు ఫలితం ( \(S(y)^{(h)} \approx 0\) ). రెండవది, మీరు చూసే వ్యక్తులు మీరు చూడని వ్యక్తులు ( \(cor(\phi, y)^{(h)} \approx 0\) వంటి సమూహాలను ఏర్పరచాలని మీరు కోరుతున్నారు. Eq పోల్చడం. 3.7 మరియు eq. 3.8 పోస్ట్-స్ట్రాటిఫికేషన్ నాన్ రిసరెన్స్ వల్ల కలిగే పక్షపాతాన్ని తగ్గించేటప్పుడు స్పష్టం చేస్తుంది.
ముగింపులో, ఈ విభాగం నాన్-స్పందనతో సంభావ్యత నమూనాకు ఒక నమూనాను అందించింది మరియు తద్వారా పోస్ట్-స్ట్రాటిఫికేషన్ సర్దుబాట్లను మరియు రెండింటిని నాన్ రిసాన్సస్ రెండింటినీ పరిచయం చేయగల పక్షపాతాన్ని చూపించింది. Bethlehem (1988) మరింత సామాన్య నమూనా రూపకల్పనల కోసం నాన్ రిప్రెస్స్ వలన ఏర్పడిన పక్షపాతము యొక్క ఉత్పాదనను అందిస్తుంది. Nonresponse కోసం సర్దుబాటు చేయడానికి పోస్ట్ స్ట్రాటిఫికేషన్ను ఉపయోగించడం కోసం మరిన్ని కోసం, Smith (1991) మరియు Gelman and Carlin (2002) . పోస్ట్ స్ట్రాటిఫికేషన్ కాలిబ్రేషన్ ఎస్టేట్స్ అని పిలవబడే మరింత సాధారణ కుటుంబ పద్ధతులలో భాగం, ఒక వ్యాసం-పొడవు చికిత్స కోసం జాంగ్ (2000) Särndal and Lundström (2005) పుస్తకం-పొడవు చికిత్స కోసం Särndal and Lundström (2005) . Nonrontponse కోసం సర్దుబాటు కోసం ఇతర ఇతర పద్దతి పద్ధతులకు సంబంధించి, కల్టోన్ Kalton and Flores-Cervantes (2003) , Brick (2013) , మరియు Särndal and Lundström (2005) .
నాన్-సంభావ్యత నమూనా
నాన్-సంభావ్యత నమూనాలో భారీ రకాల డిజైన్లు ఉన్నాయి (Baker et al. 2013) . వాంగ్ మరియు సహచరులు (W. Wang et al. 2015) ద్వారా Xbox వినియోగదారుల నమూనాపై ప్రత్యేకంగా దృష్టి కేంద్రీకరించడం, నమూనా యొక్క ప్రధాన భాగం \(\pi_i\) చేర్చడానికి పరిశోధకుడు-ఆధారిత సంభావ్యత) కానీ \(\phi_i\) (ప్రతివాది-నడిచే స్పందన \(\phi_i\) ). సహజంగా, ఇది ఆదర్శం కాదు ఎందుకంటే \(\phi_i\) తెలియదు. కానీ, వాంగ్ మరియు సహచరులు చూపించిన విధంగా, ఈ విధమైన opt-in నమూనా- ఒక మాదిరి చట్రం నుండి చాలా పెద్ద కవరేజ్ లోపంతో-కూడా, పరిశోధకుడు మంచి సహాయక సమాచారం మరియు ఈ సమస్యలకు తగిన గణాంక నమూనా ఉంటే అది విపత్తు కావనివ్వదు.
Bethlehem (2010) నాన్ రిప్రెషన్ మరియు కవరేజ్ లోపాలు రెండింటినీ చేర్చడానికి పోస్ట్ స్ట్రాటిఫికేషన్ గురించి పైన పేర్కొన్న అనేక ఉత్పాదనలను విస్తరించింది. పోస్ట్ స్ట్రాటిఫికేషన్తోపాటు, సంభావ్యత లేని నమూనాలను మరియు సంభావ్యత నమూనాలను కవరేజ్ లోపాలతో మరియు nonresponse తో పని చేసే ఇతర పద్ధతులు-నమూనా సరిపోలిక (Ansolabehere and Rivers 2013; ??? ) , ప్రవృత్తి స్కోర్ వెయిటింగ్ (Lee 2006; Schonlau et al. 2009) , మరియు అమరిక (Lee and Valliant 2009) . ఈ పద్ధతుల్లో ఒక సాధారణ విషయం సహాయక సమాచార ఉపయోగం.