Այս հավելվածում ես նկարագրում եմ գաղափարներից մի քանիսը մի փոքր ավելի մաթեմատիկական ձեւով: Այստեղ նպատակն է օգնել ձեզ հարմարավետության հասնել հետազոտության հետազոտողների կողմից օգտագործվող նշանների եւ մաթեմատիկական շրջանակների հետ, որպեսզի դուք կարողանաք անցնել այս թեմաների վրա գրված ավելի շատ տեխնիկական նյութ: Ես կսկսեմ հավանականության նմուշառում ներկայացնել, ապա անցնել հավանականության նմուշառման պատասխան չպատասխանելով, եւ վերջապես, ոչ հավանականության նմուշառում:
Հավանականության նմուշառում
Որպես վառ օրինակ, եկեք հաշվի առնենք Միացյալ Նահանգներում գործազրկության մակարդակը գնահատելու նպատակ: Թույլատրեք թիրախային բնակչությանը եւ \(y_k\) ` \(k\) անձի ելքային փոփոխականի արժեքով թույլ տանք \(y_k\) \(U = \{1, \ldots, k, \ldots, N\}\) \(k\) : Այս օրինակում \(y_k\) այն է, թե անձը \(k\) գործազուրկ է: Ի վերջո, թույլ տվեք \(F = \{1, \ldots, k, \ldots, N\}\) , այն շրջանակի բնակչությունը, որը պարզունակությունը համարում է նույնը, ինչպես նպատակային բնակչությունը:
Հիմնական նմուշառման դիզայնը պարզ ընտրովի նմուշառումն է `առանց փոխարինելու: Այս դեպքում յուրաքանչյուր անձ հավասարապես հավանական է ընդգրկվել նմուշում \(s = \{1, \ldots, i, \ldots, n\}\) : Երբ տվյալները հավաքվում են այս նմուշառման դիզայնով, հետազոտողները կարող են գնահատել բնակչության գործազրկության մակարդակը նմուշի հետ `նշանակում է`
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
որտեղ \(\bar{y}\) բնակչության գործազրկության մակարդակը եւ \(\hat{\bar{y}}\) գործազրկության մակարդակի գնահատումը ( \(\hat{ }\) սովորաբար օգտագործվում է գնահատողի համար):
Իրականում, հետազոտողները հազվադեպ են օգտագործում պարզ ընտրովի նմուշառում, առանց փոխարինելու: Մի շարք պատճառներով (որոնցից մեկը ես նկարագրում եմ մի պահ), հետազոտողները հաճախ նմուշներ են ստեղծում ընդգրկվելու անհավասար հավանականությամբ: Օրինակ, հետազոտողները կարող են Ֆլորիդայում մարդկանց ընտրել, ավելի մեծ հավանականությամբ, քան Կալիֆոռնիայում: Այս դեպքում նմուշը նշանակում է (3.1-րդ), չի կարող լավ գնահատող լինել: Փոխարենը, երբ առկա են անհավասար հավանականություն, հետազոտողները օգտագործում են
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
որտեղ \(\hat{\bar{y}}\) գործազրկության մակարդակի գնահատումը եւ \(\pi_i\) - անձի \(i\) ի ներգրավման հավանականությունը: Ստանդարտ պրակտիկայից հետո ես կգնահատեմ գնահատողը `իշխանակով: 3.2 Հորվից-Թոմփսոնի գնահատողը: The Horvitz-Thompson գնահատողը չափազանց օգտակար է, քանի որ այն հանգեցնում է օբյեկտիվ գնահատականների ցանկացած հավանականության նմուշառման նախագծման համար (Horvitz and Thompson 1952) : Քանի որ Horvitz-Thompson գնահատողը շատ հաճախ գալիս է, օգտակար է նկատել, որ այն կարող է գրվել որպես
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
որտեղ \(w_i = 1 / \pi_i\) : Որպես eq. 3.3-ը բացահայտում է, որ Horvitz-Thompson գնահատողը կշռված նմուշ է, որտեղ կշիռները հակադարձ կապված են ընտրության հավանականության հետ: Այլ կերպ ասած, նմուշի մեջ պետք է ընդհանրապես մարդը ավելի քիչ հավանական լինի, այնքան ավելի մեծ կշիռ կստանա այդ մարդը:
Ավելի վաղ նկարագրված է, որ հետազոտողները հաճախ մարդկանց ընտրում են անհավասար հավանականությամբ: Դիզայնի օրինակներից մեկը, որը կարող է հանգեցնել ներգրավման հավասար հնարավորությունների հավանականությանը, ստրատիֆիկացված նմուշառում է , որը կարեւոր է հասկանալ, քանի որ այն սերտորեն կապված է գնահատման կարգի հետընտրական շերտավորման հետ : Գեղարվեստական նմուշառման մեջ հետազոտողը բաժանվում է թիրախային բնակչությանը \(H\) փոխադարձ բացառիկ եւ սպառիչ խմբերի մեջ: Այս խմբերը կոչվում են շերտ եւ նշված են որպես \(U_1, \ldots, U_h, \ldots, U_H\) : Այս օրինակում շերտերը պետություններ են: Խմբերի չափերը նշված են \(N_1, \ldots, N_h, \ldots, N_H\) : Գիտնականները կարող են օգտագործել ստարտացված նմուշառում, որպեսզի համոզվեն, որ նա ունի յուրաքանչյուր պետության բավարար մարդ, որպեսզի գործազրկության պետական մակարդակով գնահատումներ կատարեն:
Երբ բնակչությունը բաժանվել է շերտերի , ենթադրենք, որ հետազոտողը ընտրում է պարզ պատահական նմուշ առանց չափերի փոխարինման \(n_h\) , անկախ յուրաքանչյուր շերտից: Բացի այդ, ենթադրենք, որ նմուշում ընտրված բոլորը դառնում է պատասխանող (ես ոչ թե պատասխան կտամ հաջորդ բաժնում): Այս դեպքում ներգրավման հավանականությունը կա
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Քանի որ այս հավանականությունը կարող է տարբեր լինել անձից անձի համար, այս նմուշառման նախագծից գնահատելիս, հետազոտողները պետք է քաշեն յուրաքանչյուր հարցվողի քաշը, Հավվից-Թոմփսոնի գնահատողի կողմից կիրառվող հավանականության ներգրավման հակառակով (Էկ. 3.2):
Չնայած Horvitz-Thompson- ի գնահատողը անաչառ է, հետազոտողները կարող են ավելի ճշգրիտ (այսինքն, ցածր տատանումների) գնահատականներ ներկայացնել, օրինակ `համակցելով օժանդակ տեղեկատվությունը : Որոշ մարդիկ զարմանալի են գտնում, որ դա ճիշտ է, նույնիսկ այն դեպքում, երբ կատարյալ կատարված հավանականության նմուշառում կա: Հատուկ տեղեկատվության օգտագործմամբ այս մեթոդները հատկապես կարեւոր են, քանի որ, ինչպես ցույց կտամ ավելի ուշ, օժանդակ տեղեկատվությունը կարեւոր է ոչ հավանականության նմուշներից հավանական հավանականության նմուշներից եւ ոչ հավանականության նմուշներից հաշվարկներ կատարելու համար:
Օժանդակ տեղեկատվության օգտագործման մի ընդհանուր մեթոդ է հետծննդաբերական : Պատկերացրեք, օրինակ, գիտաշխատողը գիտի 50 պետությունների յուրաքանչյուր տղամարդկանց եւ կանանց թիվը, մենք կարող ենք այս խմբի չափերը նշել որպես \(N_1, N_2, \ldots, N_{100}\) : Այս օժանդակ տեղեկատվությունը ընտրանքի հետ համատեղելու համար հետազոտողը կարող է բաժանել ընտրանքը \(H\) խմբերի մեջ (այս դեպքում 100), գնահատել յուրաքանչյուր խմբի համար, ապա ստեղծել այդ խմբի միջոցների կշռված միջինը:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Դժբախտաբար, գնահատողը `ք. 3.5-ը, հավանաբար, ավելի ճշգրիտ կլինի, քանի որ այն օգտագործում է հայտնի բնակչության տեղեկատվությունը ` \(N_h\) - ճիշտ գնահատականների համար, եթե ընտրվի հավասարակշռված նմուշ: Այս մասին մտածելու ձեւերից մեկն այն է, որ հետծի շերտավորումն այնպիսին է, ինչպիսին է արդեն հավաքագրված տվյալների գոտուց մոտեցումը:
Վերջում այս բաժնում նկարագրված են մի քանի նմուշառման նմուշներ `պարզ ընտրովի նմուշառում, առանց փոխարինումների, նմուշառման անհավանական հավանականությամբ եւ շերտավոր նմուշառման: Նա նաեւ նկարագրել է երկու հիմնական գաղափար գնահատման մասին. Հորվից-Թոմփսոնի գնահատողը եւ հետտրիճանումը: Հավանականության նմուշառման նմուշների ավելի պաշտոնական սահմանման համար տեսեք Särndal, Swensson, and Wretman (2003) : Շերտավորված նմուշառման առավել պաշտոնական եւ ամբողջական բուժման համար տես Särndal, Swensson, and Wretman (2003) բաժինը 3.7: Հորվից-Թոմփսոնի գնահատողի հատկությունների տեխնիկական նկարագրության համար տես Horvitz and Thompson (1952) , Overton and Stehman (1995) , կամ @ sarndal_model_2003- ի 2.8 բաժինը: Post-stratification- ի ավելի ֆորմալ բուժման համար տես Holt and Smith (1979) , Smith (1991) , Little (1993) կամ Särndal, Swensson, and Wretman (2003) բաժինները 7.6:
Հավանականության նմուշառում `չպատասխանելով
Գրեթե բոլոր իրական հարցումները պատասխան չեն տալիս. այսինքն, ոչ բոլորն են ընտրված բնակչության մեջ յուրաքանչյուր հարցի պատասխան: Կան երկու հիմնական տիպի պատասխաններ ` ապրանքի պատասխանի եւ չպատասխանելու համար : Առարկան չպատասխանելու դեպքում որոշ հարցվողները չեն պատասխանել որոշ առարկաների (օրինակ, երբեմն հարցվողները չեն ցանկանում պատասխանել այն հարցերին, որոնք նրանք զգայուն են համարում): Անհամապատասխանության դեպքում, որոշ մարդիկ, որոնք ընտրվում են ընտրանքային բնակչության համար, չեն արձագանքում հարցմանը: Բաժնետոմսերի չպատասխանող երկու ամենատարածված պատճառներն այն են, որ ընտրված անձը չի կարող կապվել, եւ ընտրված անձը կապվում է, սակայն հրաժարվում է մասնակցել: Այս բաժնում, ես կանդրադառնամ միավոր չպատասխանելու համար. ընթերցողները, որոնք հետաքրքրված են ոչ պատասխանում, պետք է տեսնել Փոքրիկ եւ Ռուբին (2002) :
Հետազոտողները հաճախ մտածում են հարցումների մասին, որոնք անմիջական արձագանք չեն գտնում `որպես երկշաբաթյա ընտրանքի գործընթաց: Առաջին փուլում հետազոտողը ընտրում է նմուշ \(s\) , որ յուրաքանչյուր անձ ունի հավանականություն ներառման \(\pi_i\) (որտեղ \(0 < \pi_i \leq 1\) ): Այնուհետեւ, երկրորդ փուլում, նմուշում ընտրված մարդիկ պատասխանում են հավանականությամբ \(\phi_i\) (որտեղ \(0 < \phi_i \leq 1\) ): Այս երկու փուլով ընթացող գործընթացը հանգեցնում է հարցվողների վերջնական հավաքածուի \(r\) . Այս երկու փուլերի միջեւ կարեւոր տարբերությունն այն է, որ հետազոտողները վերահսկում են նմուշի ընտրության գործընթացը, սակայն նրանք չեն վերահսկում, թե որ նմուշներից են դարձել հարցվողները: Այս երկու գործընթացները միասին դնելը, հավանականությունը, որ ինչ-որ մեկը պատասխանող է լինելու
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Համար հանուն պարզության, ես կքննարկեմ այն դեպքը, երբ օրիգինալ նմուշի դիզայնը պարզ ընտրովի նմուշառում առանց փոխարինելու: Եթե հետազոտողը ընտրում է չափի նմուշ ( \(n_s\) որը զիջում է հարցվողներին \(n_r\) , եւ եթե հետազոտողը անտեսում է ոչ պատասխանը եւ օգտագործում է հարցվողների \(n_r\) , ապա գնահատման կողմնակալությունը կլինի.
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
որտեղ \(cor(\phi, y)\) բնակչության հարաբերակցությունը ռեակցիայի հակադրությունն է եւ արդյունքը (օրինակ `գործազրկության կարգավիճակը), \(S(y)\) բնակչության ստանդարտ շեղումը արդյունքների (օրինակ, գործազրկության կարգավիճակը), \(S(\phi)\) բնակչության ստանդարտ շեղումը արձագանքման հակումն է եւ \(\bar{\phi}\) բնակչությունը նշանակում է արձագանքման հակում (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) :
Էկ. 3.7-ը ցույց է տալիս, որ ոչ պատասխանը չի առաջադրի կողմնակալություն, եթե հետեւյալ պայմաններից որեւէ մեկը բավարարված է.
Ցավոք, նման պայմաններից ոչ մեկը հավանական է թվում: Անհասկանալի է թվում, որ զբաղվածության կարգավիճակում փոփոխություններ չեն լինի, կամ պատասխան տալու ոչ մի փոփոխություն չի լինի: Այսպիսով, առանցքային տերմինը, 3.7-ը հարաբերությունն է ` \(cor(\phi, y)\) : Օրինակ, եթե մարդիկ, ովքեր գործազուրկ են, ավելի հավանական է, որ արձագանքեն, ապա զբաղվածության գնահատված մակարդակը կաշկանդված կլինի:
Հաշվետվություն կատարելու հնարքը, երբ բացակայում է ոչ պատասխանում, օգտագործելու օժանդակ տեղեկություններ: Օրինակ, մեկ եղանակով, որով կարող եք օժանդակ նյութեր օգտագործել, post-stratification (հիշեք վերեւից 3.5-ը): Ստացվում է, որ պաստառապատման գնահատողի կողմնակալությունը հետեւյալն է.
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
որտեղ \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) եւ \(\bar{\phi}^{(h)}\) սահմանվում են որպես վերեւում, բայց սահմանափակվում է մարդկանց խմբի \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) : Այսպիսով, ընդհանուր կողմնակալությունը փոքր կլինի, եթե յուրաքանչյուր ստորաբաժանումում կողմնակալությունը փոքր լինի: Կան երկու եղանակներ, որոնք ես սիրում եմ մտածել, որ յուրաքանչյուր post-stratification խմբի մեջ փոքր կողմնորոշումը դարձնելու համար: Նախ, ուզում ես փորձել ձեւավորել միատարր խմբեր, որտեղ պակաս փոփոխականություն կա ` \(S(\phi)^{(h)} \approx 0\) ) եւ արդյունքը ( \(S(y)^{(h)} \approx 0\) ): Երկրորդը, դուք ցանկանում եք ձեւավորել խմբեր, որտեղ դուք տեսնում եք այն մարդիկ, որոնք տեսնում եք այն մարդկանց նման չեք ( \(cor(\phi, y)^{(h)} \approx 0\) ): Համեմատելով eq. 3.7 եւ այլն: 3.8-ը օգնում է հստակեցնել, երբ հետերկրատիզացիան կարող է նվազեցնել ոչ պատշաճ ձեւով առաջացած կողմնակալը:
Ի վերջո, այս բաժինը տրամադրել է հավանականության նմուշառման համար ոչ պատասխանի մոդել եւ ցույց է տվել, որ ոչ պատասխանը կարող է ներդնել թե առանց, թե հետխորհրդային ճշգրտումներով: Bethlehem (1988) առաջարկում է նմուշառման առաջացում, որն առաջանում է ոչ ստանդարտ նմուշառման նմուշների համար: Պատասխան չկիրառելու համար հարմարեցնելու հետընտրական շերտավորման օգտագործման համար տես Smith (1991) եւ Gelman and Carlin (2002) : Post-stratification- ը տեխնիկայի ավելի ընդհանուր ընտանիքի մաս է, որը կոչվում է կալբրացիայի գնահատողներ, տես Zhang (2000) հոդվածի երկարամյա բուժման եւ Särndal and Lundström (2005) : Kalton and Flores-Cervantes (2003) համար կարգավորելու այլ մեթոդների համար տես Kalton and Flores-Cervantes (2003) , Brick (2013) եւ Särndal and Lundström (2005) :
Ոչ հավանականության նմուշառում
Ոչ հավանականության նմուշառումն ընդգրկում է հսկայական բազմազան նմուշներ (Baker et al. 2013) : Հատուկ ուշադրություն դարձրեք Wang- ի եւ գործընկերների կողմից Xbox- ի օգտագործողների օրինակին (W. Wang et al. 2015) , դուք կարող եք մտածել նման նմուշի մասին, որտեղ նմուշառման նախագծման առանցքային մասը \(\pi_i\) հետազոտողի կողմից ներգրավվածության հավանականությունը), բայց \(\phi_i\) (պատասխանող կողմի արձագանքման հակվածությունը): Բնականաբար, դա իդեալական չէ, քանի որ \(\phi_i\) անհայտ է: Սակայն, ինչպես Վանգը եւ գործընկերները, ցույց տվեցին, որ նման ընտրություն կատարելը, նույնիսկ նմուշառման շրջանակից հսկայական ծածկույթի սխալով, կարիք չկա աղետալի լինել, եթե հետազոտողը լավ օժանդակ ինֆորմացիա ունի եւ լավ վիճակագրական մոդել, հաշվի առնի այդ խնդիրները:
Bethlehem (2010) տարածվում է վերը նշված շեղումներից շատերի համար, post-stratification մասին, ներառելով ոչ պատասխանի եւ ծածկույթի սխալները: Բացի post-stratification- ից, հավանական հավանականության նմուշների եւ հավանականության նմուշների հետ աշխատելու այլ մեթոդներ, ծածկույթի սխալներով եւ ոչ պատասխանում, ներառում նմուշի համապատասխանությունը (Ansolabehere and Rivers 2013; ??? ) , հակումի հաշվի քաշը (Lee 2006; Schonlau et al. 2009) եւ ստիբուլացման (Lee and Valliant 2009) : Այս տեխնիկայի մի ընդհանուր թեման օժանդակ տեղեկատվության օգտագործումն է: