గణిత గమనికలు

ఈ అనుబంధంలో, నేను అధ్యాయం నుండి కొంచెం గణితశాస్త్ర రూపంలో కొన్ని ఆలోచనలు వివరిస్తాను. ఈ లక్ష్యంలో మీరు సంజ్ఞా పరిశోధకులను ఉపయోగించిన సంజ్ఞామానం మరియు గణిత ఆకృతితో సౌకర్యవంతంగా ఉండటానికి సహాయం చేస్తారు, తద్వారా మీరు ఈ అంశాలపై వ్రాసిన మరింత సాంకేతిక అంశాలకు బదిలీ చేయవచ్చు. నేను సంభావ్యత నమూనాను పరిచయం చేయడం ద్వారా ప్రారంభమవుతుంది, తరువాత సంభావ్యత నమూనాను నాన్ రిప్రజెస్తో మరియు చివరకు, సంభావ్యత నమూనాకు తరలించండి.

సంభావ్యత నమూనా

అమలులో ఉన్న ఉదాహరణగా, యునైటెడ్ స్టేట్స్లో నిరుద్యోగం రేటును అంచనా వేయడం యొక్క లక్ష్యాన్ని పరిశీలిద్దాం. U={1,,k,,N}U={1,,k,,N} లను లక్ష్య జనాభాగా మరియు ykyk , ykyk వ్యక్తి kk ఫలితం వేరియబుల్ విలువ ద్వారా అనుమతించండి. ఈ ఉదాహరణలో ykyk వ్యక్తి kk నిరుద్యోగమేనా అనే విషయం. చివరగా, సరళత కొరకు లక్ష్య జనాభా మాదిరిగా భావించబడే ఫ్రేమ్ జనాభాను F={1,,k,,N}F={1,,k,,N}

ప్రాథమిక నమూనా నమూనా అనేది సాధారణ యాదృచ్ఛిక మాదిరిని భర్తీ చేయకుండా ఉంటుంది. ఈ సందర్భంలో, ప్రతి వ్యక్తి నమూనాలో s={1,,i,,n}s={1,,i,,n} లో సమానంగా ఉంటుంది. ఈ నమూనా రూపకల్పనతో డేటాను సేకరించినప్పుడు, నమూనా అర్ధంతో జనాభాలో నిరుద్యోగ రేటు అంచనా వేయవచ్చు:

ˆˉy=isyin(3.1)^¯y=isyin(3.1)

ఇక్కడ ˉy¯y అనేది జనాభాలో నిరుద్యోగ రేటు మరియు ˆˉy^¯y నిరుద్యోగ రేటు అంచనా ( ^^ ఒక అంచనాదారుడిని సూచించడానికి ఉపయోగిస్తారు).

వాస్తవానికి, పరిశోధకులు అరుదుగా సాధారణ యాదృచ్ఛిక నమూనాను భర్తీ లేకుండా ఉపయోగించుకుంటారు. విభిన్న కారణాల వల్ల (వీటిలో ఒకటి నేను క్షణం లో వర్ణించాను), పరిశోధకులు తరచూ అసమాన సంభావ్యతలను చేర్చడానికి నమూనాలను తయారుచేస్తారు. ఉదాహరణకు, కాలిఫోర్నియాలోని ప్రజల కంటే ఎక్కువ మంది సంభావ్యతతో పరిశోధకులు ఫ్లోరిడాలో ప్రజలను ఎంపిక చేసుకోవచ్చు. ఈ సందర్భంలో, నమూనా అర్థం (eq. 3.1) మంచి అంచనాదారుడిగా ఉండకపోవచ్చు. బదులుగా, చేర్చడానికి అసమాన సంభావ్యత ఉన్నప్పుడు, పరిశోధకులు ఉపయోగిస్తారు

ˆˉy=1Nisyiπi(3.2)^¯y=1Nisyiπi(3.2)

ఇక్కడ ˆˉy^¯y అనేది నిరుద్యోగ రేటు అంచనా మరియు πiπi వ్యక్తి ii యొక్క సంభావ్యత చేర్చడం. ప్రామాణిక అభ్యాసాన్ని అనుసరించి, నేను eq లో అంచనాదారుడిని పిలుస్తాను. 3.2 హార్విట్జ్-థాంప్సన్ అంచనాదారుడు. ఏ సంభావ్యత నమూనా నమూనా (Horvitz and Thompson 1952) కు నిష్పాక్షికమైన అంచనాలకు దారితీసినందున, హార్విట్జ్-థాంప్సన్ అంచనాదారు చాలా ఉపయోగకరంగా ఉంటుంది. హోర్విట్జ్-థాంప్సన్ అంచెలెవరూ చాలా తరచుగా వస్తున్నందున, అది తిరిగి వ్రాయబడవచ్చని గమనించటం సహాయపడుతుంది

ˆˉy=1Niswiyi(3.3)^¯y=1Niswiyi(3.3)

ఇక్కడ wi=1/πiwi=1/πi . Eq గా. 3.3 వెల్లడిస్తే, హర్విట్జ్-థాంప్సన్ ఎగ్జామినేటర్ అనేది ఒక బరువున్న మాదిరి, ఇది ఎంపికల యొక్క సంభావ్యతను బట్టి వివిక్తంగా సంబంధం కలిగి ఉంటుంది. మరో మాటలో చెప్పాలంటే, నమూనాలో చేర్చబడిన వ్యక్తిని తక్కువగా అంచనా వేయడం, అంచనా వేసిన వ్యక్తికి ఎక్కువ బరువు ఉండాలి.

ముందుగా చెప్పినట్లుగా, పరిశోధకులు తరచూ అసమానమైన సంభావ్యత కలిగిన వ్యక్తులను నమూనాగా చేర్చుతారు. చేర్చడం యొక్క అసమాన సంభావ్యతకు దారితీసే నమూనా యొక్క ఒక ఉదాహరణ, స్ట్రాటిఫైడ్ మాప్లింగ్ను అర్థం చేసుకోవడం, ఇది అర్థం చేసుకోవడం ముఖ్యం ఎందుకంటే పోస్ట్-స్ట్రాటిఫికేషన్ అని పిలిచే అంచనా పద్ధతికి ఇది దగ్గరగా ఉంటుంది. స్ట్రాటిఫైడ్ నమూనాలో, ఒక పరిశోధకుడు లక్ష్య జనాభాను HH పరస్పరం మరియు విస్తృతమైన సమూహాలకు విడదీస్తుంది. ఈ గుంపులను strata అని పిలుస్తారు మరియు U1,,Uh,,UHU1,,Uh,,UH . ఈ ఉదాహరణలో, స్ట్రాటా రాష్ట్రాలు. సమూహాల పరిమాణాలు N1,,Nh,,NHN1,,Nh,,NH . నిరుద్యోగం యొక్క ప్రభుత్వ-స్థాయి అంచనాలను తయారు చేసేందుకు ప్రతి రాష్ట్రంలో ఆమెకు తగినంత మంది ప్రజలు ఉన్నాయని నిర్ధారించుకోవడానికి ఒక పరిశోధకుడు స్ట్రాటిఫైడ్ మాప్ ను ఉపయోగించుకోవచ్చు.

జనాభా వర్గాలలో విడిపోయారు ఒకసారి, పరిశోధకుడు పరిమాణం యొక్క భర్తీ లేకుండా ఒక సాధారణ యాదృచ్ఛిక నమూనా ఎంపిక భావించాలి nhnh స్వతంత్రంగా ప్రతి వర్గాలలో నుండి. అంతేకాక, నమూనాలో ఎంపిక చేసుకున్న ప్రతిఒక్కరు ప్రతివాదిగా అవుతారు (తరువాతి విభాగంలో నేను నాన్-స్పందనను నిర్వహిస్తాను). ఈ సందర్భంలో, చేర్చడానికి సంభావ్యత

πi=nhNh for all ih(3.4)πi=nhNh for all ih(3.4)

ఈ సంభావ్యత వ్యక్తి నుండి వ్యక్తికి మారుతూ ఉంటుంది, ఎందుకంటే ఈ నమూనా రూపకల్పన నుండి అంచనా వేసినప్పుడు, పరిశోధకులు హార్విట్జ్-థాంప్సన్ అంచనాదారుని (ఇక్. 3.2) ను ఉపయోగించి వారి సంభావ్యత యొక్క విలోమం ద్వారా ప్రతి ప్రతివాదిని బరువు తగ్గించుకోవాలి.

హోర్విట్జ్-థాంప్సన్ అంచనాదారు నిష్పాక్షికమైనప్పటికీ, పరిశోధకులు మరింత ఖచ్చితమైన (అనగా, తక్కువ వ్యత్యాసాల) అంచనాలను సహాయక సమాచారంతో నమూనాను కలపడం ద్వారా అంచనా వేస్తారు . సంపూర్ణంగా అమలు చేయబడిన సంభావ్యత నమూనా ఉన్నప్పుడు కూడా ఇది నిజం అని కొందరు ఆశ్చర్యం కలిగి ఉంటారు. సహాయక సమాచారమును వుపయోగిస్తున్న ఈ పద్ధతులు చాలా ముఖ్యమైనవి, ఎందుకంటే నేను తరువాత చూపిన విధంగా, సంభావ్యత నమూనాలు సంభావ్యత నమూనాలను నాన్ రిసెన్స్ మరియు నాన్-సంభావ్యత నమూనాల నుండి అంచనా వేయడానికి కీలకం.

సహాయక సమాచారమును ఉపయోగించుటకు ఒక సాధారణ సాంకేతికత పోస్ట్-స్ట్రాటిఫికేషన్ . ఉదాహరణకు, ఒక పరిశోధకుడు 50 రాష్ట్రాల్లోని ప్రతి పురుషుల, పురుషుల సంఖ్య గురించి తెలుసుకుంటాడు; మేము ఈ గుంపు పరిమాణాలను N1,N2,,N100N1,N2,,N100 . నమూనాతో ఈ సహాయక సమాచారాన్ని మిళితం చేసేందుకు, పరిశోధకుడు నమూనా HH సమూహాలలో (ఈ సందర్భంలో 100) విభజించగలడు, ప్రతి సమూహానికి అంచనా వేయండి, ఆపై ఈ సమూహం యొక్క సగటును సృష్టించండి:

ˆˉypost=hHNhNˆˉyh(3.5)^¯ypost=hHNhN^¯yh(3.5)

సుమారు, eq లో అంచనాదారుడు. 3.5 NhNh నమూనా ఎంచుకోబడితే, తెలిసిన జనాభా NhNh సరైన అంచనాలను ఉపయోగిస్తుంది ఎందుకంటే ఇది మరింత ఖచ్చితమైనది కావచ్చు. దాని గురించి ఆలోచించటానికి ఒక మార్గం ఏమిటంటే డేటా ఇప్పటికే సేకరించబడిన తర్వాత పోస్ట్ స్ట్రాటిఫికేషన్ స్తరీకరణకు సుమారుగా ఉంటుంది.

ముగింపులో, ఈ విభాగం కొన్ని నమూనా నమూనాలను వర్ణించింది: భర్తీ లేకుండా సాధారణ యాదృచ్ఛిక నమూనా, అసమాన సంభావ్యతతో నమూనా, మరియు క్రమబద్ధమైన మాదిరి. ఇది అంచనా గురించి రెండు ప్రధాన ఆలోచనలను కూడా వర్ణించింది: హార్విట్జ్-థాంప్సన్ అంచనా మరియు పోస్ట్-స్ట్రాటిఫికేషన్. సంభావ్యత నమూనా నమూనాల మరింత అధికారిక నిర్వచనం కోసం, Särndal, Swensson, and Wretman (2003) యొక్క Särndal, Swensson, and Wretman (2003) అధ్యాయం చూడండి. స్ట్రాటిఫైడ్ మాప్టింగ్ యొక్క మరింత అధికారిక మరియు సంపూర్ణ చికిత్స కోసం, Särndal, Swensson, and Wretman (2003) యొక్క విభాగం 3.7 చూడుము. హోర్విట్జ్-థాంప్సన్ అంచెల లక్షణాల యొక్క సాంకేతిక వర్ణన కోసం, Horvitz and Thompson (1952) , Overton and Stehman (1995) , లేదా @ sarndal_model_2003 యొక్క విభాగం 2.8 చూడండి. పోస్ట్ స్ట్రాటిఫికేషన్ యొక్క మరింత అధికారిక చికిత్స కోసం, Holt and Smith (1979) , Smith (1991) , Little (1993) , లేదా Särndal, Swensson, and Wretman (2003) యొక్క విభాగం 7.6 చూడండి.

Nonresponse తో ప్రాబబిలిటీ మాదిరి

దాదాపు అన్ని నిజమైన సర్వేలు nonresponse కలిగి; అంటే, నమూనా జనాభాలో ప్రతి ఒక్కరూ ప్రతి ప్రశ్నకు సమాధానమివ్వరు. Nonresponse యొక్క రెండు ప్రధాన రకాలు ఉన్నాయి: అంశం నాన్ రిసెన్స్ మరియు యూనిట్ nonresponse . అంశం కాని రిపోర్టులో, కొంతమంది ప్రతివాదులు కొన్ని అంశాలకు సమాధానం ఇవ్వరు (ఉదా., కొన్నిసార్లు ప్రతివాదులు సెన్సిటివ్గా భావించే ప్రశ్నలకు సమాధానం ఇవ్వకూడదు). యూనిట్ నాన్ రిసరెన్స్లో, నమూనా జనాభా కోసం ఎంపిక చేయబడిన కొంతమంది సర్వేకి సర్వే చేయలేరు. యూనిట్ నాన్ రిసెరెన్స్కు అత్యంత సాధారణ కారణాలు ఏమిటంటే, నమూనా వ్యక్తిని సంప్రదించలేరు మరియు నమూనా వ్యక్తిని సంప్రదించి, పాల్గొనడానికి తిరస్కరిస్తారు. ఈ విభాగంలో, యూనిట్ నాన్ రిప్రెస్స్పై నేను దృష్టి పెడతాను. అంశం నాన్ రిసెషన్లో ఆసక్తి ఉన్న పాఠకులు లిటిల్ అండ్ రూబిన్ (2002) చూస్తారు.

పరిశోధకులు తరచూ యూనిట్ కాని స్పందనతో రెండు-దశల మాదిరి ప్రక్రియగా సర్వేలు గురించి ఆలోచించారు. మొదటి దశలో, పరిశోధకుడు ఒక నమూనా ఎంపిక ss ప్రతి వ్యక్తి చేర్చడానికి ఒక సంభావ్యత ఉంది అలాంటి πiπi (పేరు 0<πi10<πi1 ). రెండవ దశలో, నమూనాలో ఎంపిక చేసిన వ్యక్తులు సంభావ్యతతో ϕiϕi (ఇక్కడ 0<ϕi10<ϕi1 . ఈ రెండు-దశల ప్రక్రియ ఫలితాల యొక్క చివరి సమితిలో rr . ఈ రెండు దశల మధ్య ఒక ముఖ్యమైన వ్యత్యాసం ఏమిటంటే, పరిశోధకులు నమూనాను ఎంచుకునే ప్రక్రియను నియంత్రిస్తారు, కాని వారు నమూనాలో ఉన్నవారిలో ఏది ప్రతివాదులు అయినా నియంత్రించలేవు. కలిసి ఈ రెండు ప్రక్రియలు, ఎవరైనా ఒక ప్రతివాది అని సంభావ్యత

pr(ir)=πiϕi(3.6)pr(ir)=πiϕi(3.6)

సరళత కొరకు, అసలైన మాదిరి డిజైన్ అనేది సాధారణ యాదృచ్చిక నమూనాను భర్తీ చేయని సందర్భంలో నేను పరిగణలోకి తీసుకుంటాను. ఒక పరిశోధకుడు, nsns అందించే పరిమాణం nsns nrnr , మరియు పరిశోధకుడు ప్రతిస్పందనలను విస్మరిస్తాడు మరియు ప్రతివాది యొక్క సగటును ఉపయోగిస్తాడు, అప్పుడు అంచనా వేయబడిన వ్యత్యాసం ఉంటుంది:

bias of sample mean=cor(ϕ,y)S(y)S(ϕ)ˉϕ(3.7)bias of sample mean=cor(ϕ,y)S(y)S(ϕ)¯ϕ(3.7)

ఇక్కడ cor(ϕ,y)cor(ϕ,y) స్పందన ప్రవృత్తిని మరియు ఫలితం (ఉదా, నిరుద్యోగం స్థితి), మధ్య జనాభాలో సహసంబంధం ఉంది S(y)S(y) ఫలితం జనాభా ప్రామాణిక విచలనం (ఉదా, నిరుద్యోగం స్థితి S(ϕ)S(ϕ) ), S(ϕ)S(ϕ) అనేది ప్రతిస్పందన ప్రవృత్తి యొక్క జనాభా ప్రామాణిక విచలనం, మరియు ˉϕ¯ϕ అనేది జనాభా ప్రతిస్పందన ప్రవృత్తిని సూచిస్తుంది (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

EQ. 3.7 ఈ క్రింది పరిస్థితులలో ఏవైనా ఉంటే పక్షపాతాన్ని పక్షపాతము చేయకూడదని చూపుతుంది:

  • నిరుద్యోగ స్థితి (S(y)=0)(S(y)=0) లో వైవిధ్యం లేదు.
  • ప్రత్యుత్పత్తి ప్రత్యామ్నాయాలలో తేడా లేదు (S(ϕ)=0)(S(ϕ)=0) .
  • ప్రతిస్పందన ప్రవృత్తి మరియు నిరుద్యోగం స్థితి మధ్య సహసంబంధం లేదు (cor(ϕ,y)=0)(cor(ϕ,y)=0) .

దురదృష్టవశాత్తు, ఈ పరిస్థితులు ఏవీ లేవు. ఇది ఉద్యోగ హోదాలో వైవిధ్యం ఉండదు లేదా స్పందన ప్రత్యామ్నాయాలలో వైవిధ్యాలు లేవని భయపడవద్దు. అందువలన, eq లో కీ పదం. 3.7 సహసంబంధం: cor(ϕ,y)cor(ϕ,y) . ఉదాహరణకు, ప్రజలు నిరుద్యోగులుగా స్పందించడం ఎక్కువగా ఉంటే, అంచనా వేసిన ఉపాధి రేటు పైకి పక్షపాతంతో ఉంటుంది.

Nonresponse ఉన్నప్పుడు అంచనాలు చేయడానికి ట్రిక్ సహాయక సమాచారం ఉపయోగించడానికి ఉంది. ఉదాహరణకు, మీరు సహాయక సమాచారాన్ని ఉపయోగించగల ఒక మార్గం పోస్ట్-స్ట్రాటిఫికేషన్ (ఎగువ నుండి 3.5 నుండి రీకాల్ చేయండి). ఇది పోస్ట్-స్ట్రాటిఫికేషన్ అంచనాదారు యొక్క పక్షపాతమే:

bias(ˆˉypost)=1NHh=1Nhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)ˉϕ(h)(3.8)bias(^¯ypost)=1NHh=1Nhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)¯ϕ(h)(3.8)

ఇక్కడ cor(ϕ,y)(h)cor(ϕ,y)(h) ,, S(y)(h)S(y)(h) ,, S(ϕ)(h)S(ϕ)(h) , మరియు ˉϕ(h)¯ϕ(h) పైన నిర్వచించబడ్డాయి కాని సమూహంలోని వ్యక్తులకు మాత్రమే పరిమితం చేయబడతాయి hh (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . అందువల్ల, ప్రతి పోస్ట్-స్ట్రాటిఫికేషన్ సమూహంలో పక్షపాతమే చిన్నగా ఉంటే మొత్తం పక్షపాతం చిన్నదిగా ఉంటుంది. ప్రతి పోస్ట్-స్ట్రాటిఫికేషన్ గ్రూపులో బయాస్ చిన్నవి కావడంపై నేను ఆలోచించే రెండు మార్గాలు ఉన్నాయి. మొదటిది, ప్రతిస్పందన ప్రకాశం ( S(ϕ)(h)0S(ϕ)(h)0 ) లో కొద్దిగా వైవిధ్యము ఉన్నందున మీరు సజాతీయ బృందాన్ని ఏర్పర్చడానికి ప్రయత్నించాలి మరియు ఫలితం ( S(y)(h)0S(y)(h)0 ). రెండవది, మీరు చూసే వ్యక్తులు మీరు చూడని వ్యక్తులు ( cor(ϕ,y)(h)0cor(ϕ,y)(h)0 వంటి సమూహాలను ఏర్పరచాలని మీరు కోరుతున్నారు. Eq పోల్చడం. 3.7 మరియు eq. 3.8 పోస్ట్-స్ట్రాటిఫికేషన్ నాన్ రిసరెన్స్ వల్ల కలిగే పక్షపాతాన్ని తగ్గించేటప్పుడు స్పష్టం చేస్తుంది.

ముగింపులో, ఈ విభాగం నాన్-స్పందనతో సంభావ్యత నమూనాకు ఒక నమూనాను అందించింది మరియు తద్వారా పోస్ట్-స్ట్రాటిఫికేషన్ సర్దుబాట్లను మరియు రెండింటిని నాన్ రిసాన్సస్ రెండింటినీ పరిచయం చేయగల పక్షపాతాన్ని చూపించింది. Bethlehem (1988) మరింత సామాన్య నమూనా రూపకల్పనల కోసం నాన్ రిప్రెస్స్ వలన ఏర్పడిన పక్షపాతము యొక్క ఉత్పాదనను అందిస్తుంది. Nonresponse కోసం సర్దుబాటు చేయడానికి పోస్ట్ స్ట్రాటిఫికేషన్ను ఉపయోగించడం కోసం మరిన్ని కోసం, Smith (1991) మరియు Gelman and Carlin (2002) . పోస్ట్ స్ట్రాటిఫికేషన్ కాలిబ్రేషన్ ఎస్టేట్స్ అని పిలవబడే మరింత సాధారణ కుటుంబ పద్ధతులలో భాగం, ఒక వ్యాసం-పొడవు చికిత్స కోసం జాంగ్ (2000) Särndal and Lundström (2005) పుస్తకం-పొడవు చికిత్స కోసం Särndal and Lundström (2005) . Nonrontponse కోసం సర్దుబాటు కోసం ఇతర ఇతర పద్దతి పద్ధతులకు సంబంధించి, కల్టోన్ Kalton and Flores-Cervantes (2003) , Brick (2013) , మరియు Särndal and Lundström (2005) .

నాన్-సంభావ్యత నమూనా

నాన్-సంభావ్యత నమూనాలో భారీ రకాల డిజైన్లు ఉన్నాయి (Baker et al. 2013) . వాంగ్ మరియు సహచరులు (W. Wang et al. 2015) ద్వారా Xbox వినియోగదారుల నమూనాపై ప్రత్యేకంగా దృష్టి కేంద్రీకరించడం, నమూనా యొక్క ప్రధాన భాగం πiπi చేర్చడానికి పరిశోధకుడు-ఆధారిత సంభావ్యత) కానీ ϕiϕi (ప్రతివాది-నడిచే స్పందన ϕiϕi ). సహజంగా, ఇది ఆదర్శం కాదు ఎందుకంటే ϕiϕi తెలియదు. కానీ, వాంగ్ మరియు సహచరులు చూపించిన విధంగా, ఈ విధమైన opt-in నమూనా- ఒక మాదిరి చట్రం నుండి చాలా పెద్ద కవరేజ్ లోపంతో-కూడా, పరిశోధకుడు మంచి సహాయక సమాచారం మరియు ఈ సమస్యలకు తగిన గణాంక నమూనా ఉంటే అది విపత్తు కావనివ్వదు.

Bethlehem (2010) నాన్ రిప్రెషన్ మరియు కవరేజ్ లోపాలు రెండింటినీ చేర్చడానికి పోస్ట్ స్ట్రాటిఫికేషన్ గురించి పైన పేర్కొన్న అనేక ఉత్పాదనలను విస్తరించింది. పోస్ట్ స్ట్రాటిఫికేషన్తోపాటు, సంభావ్యత లేని నమూనాలను మరియు సంభావ్యత నమూనాలను కవరేజ్ లోపాలతో మరియు nonresponse తో పని చేసే ఇతర పద్ధతులు-నమూనా సరిపోలిక (Ansolabehere and Rivers 2013; ??? ) , ప్రవృత్తి స్కోర్ వెయిటింగ్ (Lee 2006; Schonlau et al. 2009) , మరియు అమరిక (Lee and Valliant 2009) . ఈ పద్ధతుల్లో ఒక సాధారణ విషయం సహాయక సమాచార ఉపయోగం.