F'dan l-appendiċi, se niddeskrivi wħud mill-ideat mill-kapitolu f'forma kemmxejn aktar matematika. L-għan hawnhekk huwa li jgħinek issir komda bin-notazzjoni u l-qafas matematiku użat mir-riċerkaturi ta 'l-istħarriġ sabiex tkun tista' tittrażmetti lil xi materjal tekniku ieħor fuq dawn is-suġġetti. Se nibda bl-introduzzjoni tat-teħid ta 'kampjuni ta' probabbiltà, imbagħad mur fit-teħid ta 'kampjuni ta' probabbiltà b'nuqqas ta 'risposta, u finalment, teħid ta' kampjuni mhux probabbli.
Teħid ta 'kampjuni ta' probabbiltà
Bħala eŜempju ta 'tħaddim, ejjew nikkunsidraw l-għan tal-istima tar-rata tal-qgħad fl-Istati Uniti. Ħalli \(U = \{1, \ldots, k, \ldots, N\}\) tkun il-popolazzjoni fil-mira u ħalli \(y_k\) bil-valur tal-varjabbli tal-eżitu għall-persuna \(k\) . F'dan l-eżempju \(y_k\) huwa jekk il-persuna \(k\) tkunx qiegħda. Fl-aħħarnett, ħalli \(F = \{1, \ldots, k, \ldots, N\}\) tkun il-popolazzjoni tal-qafas, li għall-fini tas-sempliċità hi meqjusa li hija l-istess bħall-popolazzjoni fil-mira.
Disinn bażiku ta 'kampjunar huwa kampjunar każwali sempliċi mingħajr sostituzzjoni. F'dan il-każ, kull persuna hija ugwalment probabbli li tkun inkluża fil-kampjun \(s = \{1, \ldots, i, \ldots, n\}\) . Meta d-dejta tinġabar b'dan id-disinn ta 'teħid ta' kampjuni, riċerkaturi jistgħu jistmaw ir-rata tal-qgħad tal-popolazzjoni bil-kampjun ifisser:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
fejn \(\bar{y}\) hija r-rata tal-qgħad fil-popolazzjoni u \(\hat{\bar{y}}\) hija l-istima tar-rata tal-qgħad (il- \(\hat{ }\) użati biex jindikaw stimatur).
Fir-realtà, ir-riċerkaturi rari jużaw kampjuni aleatorji sempliċi mingħajr sostituzzjoni. Għal diversi raġunijiet (li wieħed minnhom se niddeskrivi f'mument), ir-riċerkaturi ħafna drabi joħolqu kampjuni b'kapaċitajiet mhux ugwali ta 'inklużjoni. Pereżempju, ir-riċerkaturi jistgħu jagħżlu nies fi Florida bi probabbiltà akbar ta 'inklużjoni minn nies f'California. F'dan il-każ, il-medja tal-kampjun (eq. 3.1) tista 'ma tkunx stimatur tajjeb. Minflok, meta jkun hemm probabbiltajiet inugwali ta 'inklużjoni, ir-riċerkaturi jużaw
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
fejn \(\hat{\bar{y}}\) hija l-istima tar-rata tal-qgħad u \(\pi_i\) hija l-probabbiltà ta 'inklużjoni ta' persuna \(i\) . Wara prattika standard, jien se nsejjaħ lill-istimatur f'eq. 3.2 l-istimatur Horvitz-Thompson. L-istimatur Horvitz-Thompson huwa estremament utli għaliex iwassal għal estimi imparzjali għal kwalunkwe disinn tal-kampjunar tal-probabbiltà (Horvitz and Thompson 1952) . Minħabba li l-istimatur Horvitz-Thompson joħroġ spiss, huwa ta 'għajnuna li wieħed jara li jista' jerġa 'jinkiteb kif
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
fejn \(w_i = 1 / \pi_i\) . Kif eq. 3.3 juri, l-istimatur Horvitz-Thompson huwa kampjun medju peżat fejn il-piżijiet huma inversament relatati mal-probabbiltà ta 'l-għażla. Fi kliem ieħor, inqas hemm ċans li persuna tiġi nkluża fil-kampjun, iktar ikollha piż fuq dik l-istima.
Kif deskritt qabel, ir-riċerkaturi ħafna drabi juru n-nies bi probabbiltajiet inugwali ta 'inklużjoni. Eżempju wieħed ta 'disinn li jista' jwassal għal probabbiltajiet inugwali ta 'inklużjoni huwa t- teħid ta' kampjuni stratifikati , li huwa importanti li wieħed jifhem għaliex huwa marbut mill-qrib mal-proċedura ta 'stima msejħa wara l-istratifikazzjoni . Fit-teħid ta 'kampjuni stratifikati, riċerkatur jaqsam il-popolazzjoni fil-mira fi \(H\) gruppi reċiprokament esklussivi u eżawrjenti. Dawn il-gruppi jissejħu strata u huma indikati bħala \(U_1, \ldots, U_h, \ldots, U_H\) . F'dan l-eżempju, l-istrati huma stati. Id-daqsijiet tal-gruppi huma indikati bħala \(N_1, \ldots, N_h, \ldots, N_H\) . Riċerkatur jista 'jkun irid juża t-teħid ta' kampjuni stratifikati sabiex jiżgura li huwa għandu biżżejjed nies f'kull stat biex jagħmel stimi tal-qgħad fuq livell tal-istat.
Ladarba l-popolazzjoni tinqasam fi strata , nassumu li r-riċerkatur jagħżel kampjun każwali sempliċi mingħajr sostituzzjoni tad-daqs \(n_h\) , indipendentement minn kull strata. Barra minn hekk, nassumu li kulħadd magħżul fil-kampjun isir konvenut (jien ser nittratta n-nuqqas ta 'tweġiba fit-taqsima li jmiss). F'dan il-każ, il-probabbiltà ta 'inklużjoni hija
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Minħabba li dawn il-probabbiltajiet jistgħu jvarjaw minn persuna għal oħra, meta jsir stima minn dan id-disinn ta 'kampjunar, ir-riċerkaturi għandhom jitkejlu kull respondent bil-kontra tal-probabbiltà ta' inklużjoni tagħhom billi jużaw l-istimatur Horvitz-Thompson (eq 3.2).
Għalkemm l-istimatur Horvitz-Thompson huwa imparzjali, ir-riċerkaturi jistgħu jipproduċu stimi aktar preċiżi (jiġifieri, varjanza baxxa) billi jikkombinaw il-kampjun b'informazzjoni awżiljarja . Xi nies isibuha sorprendenti li dan huwa minnu anke meta jkun hemm teħid ta 'kampjuni probabbli perfettament. Dawn it-tekniki li jużaw informazzjoni awżiljarja huma partikolarment importanti għaliex, kif se nuri iktar 'il quddiem, l-informazzjoni awżiljarja hija kritika biex isiru estimi minn kampjuni ta' probabbiltà b'responsabbiltà u minn kampjuni mhux probabbli.
Teknika waħda komuni għall-użu ta 'informazzjoni awżiljarja hija wara l-istratifikazzjoni . Immaġina, per eżempju, li riċerkatur ikun jaf in-numru ta 'rġiel u nisa f'kull wieħed mill-50 stat; nistgħu nuru dawn il-qisien tal-grupp bħala \(N_1, N_2, \ldots, N_{100}\) . Biex tgħaqqad din l-informazzjoni awżiljarja mal-kampjun, ir-riċerkatur jista 'jaqsam il-kampjun fi gruppi \(H\) (f'dan il-każ 100), jagħmel stima għal kull grupp, u mbagħad joħloq medja peżata ta'
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Bejn wieħed u ieħor, l-istimatur f'eq. 3.5 x'aktarx li jkun aktar preċiż minħabba li juża l-informazzjoni magħrufa dwar il-popolazzjoni \(N_h\) għal estimi korretti jekk \(N_h\) 'kampjun żbilanċjat. Mod wieħed biex wieħed jaħseb dwarha huwa li wara l-istratifikazzjoni hija bħal approssimazzjoni ta 'l-istratifikazzjoni wara li d-data tkun diġà nġabret.
Bħala konklużjoni, din is-sezzjoni ddeskriviet ftit disinji ta 'teħid ta' kampjuni: kampjunar aleatorju sempliċi mingħajr sostituzzjonijiet, teħid ta 'kampjuni bi probabbiltà inugwali, u teħid ta' kampjuni stratifikati. Iddeskriva wkoll żewġ ideat ewlenin dwar l-istima: l-istimulatur Horvitz-Thompson u wara l-istratifikazzjoni. Għal definizzjoni aktar formali ta 'disinji ta' teħid ta 'kampjuni ta' probabbiltà, ara l-kapitolu 2 ta ' Särndal, Swensson, and Wretman (2003) . Għal trattament aktar formali u sħiħ ta 'teħid ta' kampjuni stratifikati, ara t-taqsima 3.7 ta ' Särndal, Swensson, and Wretman (2003) . Għal deskrizzjoni teknika tal-proprjetajiet tal-istimatur Horvitz-Thompson, ara Horvitz and Thompson (1952) , Overton and Stehman (1995) , jew it-taqsima 2.8 ta '@sarndal_model_2003. Għal trattament aktar formali ta 'wara l-istratifikazzjoni, ara Holt and Smith (1979) , Smith (1991) , Little (1993) , jew sezzjoni 7.6 ta' Särndal, Swensson, and Wretman (2003) .
Teħid ta 'kampjuni ta' probabbiltà b'nuqqas ta 'tweġiba
Kważi l-istħarriġiet kollha reali ma rrispondewx; jiġifieri, mhux kulħadd fil-popolazzjoni tal-kampjun jirrispondi għal kull mistoqsija. Hemm żewġ tipi ewlenin ta 'nuqqas ta' tweġib: nuqqas ta 'tweġiba ta' oġġett u unità ta 'rispons . Fil-każ ta 'nuqqas ta' tweġiba, xi wħud minn dawk li wieġbu ma jirrispondux xi punti (eż. Xi drabi dawk li wieġbu ma jridux iwieġbu mistoqsijiet li jikkunsidraw sensittivi). F'unità mhux risposta, xi nies li jintgħażlu għall-popolazzjoni tal-kampjuni ma jirrispondux għall-istħarriġ. Iż-żewġ raġunijiet l-aktar komuni għal unità ta 'nuqqas ta' tweġiba huma li l-persuna fil-kampjun ma tistax tiġi kkuntattjata u l-persuna tal-kampjun hija kkuntattjata iżda tirrifjuta li tipparteċipa. F'din it-taqsima, ser niffoka fuq nuqqas ta 'tweġiba ta' unità; il-qarrejja interessati f'numru ta 'rispons għandhom jaraw Little u Rubin (2002) .
Ir-riċerkaturi ħafna drabi jaħsbu dwar stħarriġ b'unità ta 'tweġiba bħala unità bħala proċess ta' teħid ta 'kampjuni f'żewġ stadji. Fl-ewwel stadju, ir-riċerkatur jagħżel kampjun \(s\) b'tali mod li kull persuna jkollha probabbiltà ta 'inklużjoni \(\pi_i\) (fejn \(0 < \pi_i \leq 1\) ). Imbagħad, fit-tieni stadju, in-nies li jintgħażlu fil-kampjun jirrispondu bi probabbiltà \(\phi_i\) (fejn \(0 < \phi_i \leq 1\) ). Dan il-proċess f'żewġ stadji jirriżulta fis-sett finali ta 'dawk li wieġbu \(r\) . Differenza importanti bejn dawn iż-żewġ stadji hija li r-riċerkaturi jikkontrollaw il-proċess tal-għażla tal-kampjun, iżda ma jikkontrollawx liema minn dawk in-nies fil-kampjun jaqblu. It-tqegħid flimkien ta 'dawn iż-żewġ proċessi, il-probabbiltà li xi ħadd se jkun il-konvenut huwa
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Għal raġunijiet ta 'sempliċità, jiena ser nikkunsidra l-każ fejn id-disinn tal-kampjun oriġinali huwa kampjunar każwali sempliċi mingħajr sostituzzjoni. Jekk riċerkatur jagħżel kampjun ta 'daqs \(n_s\) li jipproduċi \(n_r\) rispondenti, u jekk ir-riċerkatur jinjora nuqqas ta' tweġiba u juża l-medja ta 'dawk li wieġbu, allura l-preġudizzju tal-istima jkun:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
fejn \(cor(\phi, y)\) hija l-korrelazzjoni tal-popolazzjoni bejn il-propensità tar-rispons u r-riżultat (eż. status ta 'qgħad), \(S(y)\) hija d-devjazzjoni standard tal-popolazzjoni tar- riżultat (eż. L-istatus), \(S(\phi)\) hija d-devjazzjoni standard tal-popolazzjoni tal-propensità tar-rispons, u \(\bar{\phi}\) hija l-medja tal-medja ta 'propensità tar-rispons (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 juri li n-nuqqas ta 'tweġiba ma tintroduċix preġudizzju jekk jiġu ssodisfati xi waħda mill-kundizzjonijiet li ġejjin:
Sfortunatament, ebda waħda minn dawn il-kundizzjonijiet ma tidher probabbli. Jidher li huwa inutli li ma jkun hemm l-ebda varjazzjoni fl-istatus tal-impjieg jew li ma jkun hemm l-ebda varjazzjoni fil-propensitajiet ta 'rispons. Għalhekk, it-terminu ewlieni f'eq. 3.7 hija l-korrelazzjoni: \(cor(\phi, y)\) . Pereżempju, jekk in-nies li huma qiegħda huma aktar probabbli li jirrispondu, allura r-rata stmata ta 'impjieg se tkun ippreġudikata' l fuq.
It-trick biex isiru stimi meta jkun hemm nuqqas ta 'tweġiba huwa li tuża informazzjoni awżiljarja. Per eżempju, mod wieħed li bih tista 'tuża informazzjoni awżiljarja huwa wara l-istratifikazzjoni (irreferi għall-eq. 3.5 minn fuq). Jirriżulta li l-preġudizzju ta 'l-istimulatur ta' wara l-istratifikazzjoni huwa:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
fejn \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , u \(\bar{\phi}^{(h)}\) huma definiti hawn fuq iżda ristretti għal persuni fil-grupp \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Għalhekk, il-preġudizzju ġenerali jkun żgħir jekk il-preġudizzju f'kull grupp ta 'wara l-istratifikazzjoni jkun żgħir. Hemm żewġ modi li nixtieq naħseb dwar kif nagħmlu l-preġudizzju żgħir f'kull grupp ta 'wara l-istratifikazzjoni. L-ewwelnett, trid tipprova tifforma gruppi omoġenji fejn hemm ftit varjazzjoni fil-propensità ta 'rispons ( \(S(\phi)^{(h)} \approx 0\) ) u r-riżultat ( \(S(y)^{(h)} \approx 0\) ). It-tieni, inti tixtieq li tifforma gruppi fejn in-nies li tara huma bħall-persuni li ma tarax ( \(cor(\phi, y)^{(h)} \approx 0\) ). Tqabbil eq. 3.7 u eq. 3.8 jgħin jiċċara meta wara l-istratifikazzjoni jista 'jnaqqas il-preġudizzju kkawżat minn nuqqas ta' tweġiba.
Bħala konklużjoni, din it-taqsima pprovdiet mudell għall-kampjunar ta 'probabbiltà mingħajr tweġiba u wriet il-preġudizzju li n-nuqqas ta' tweġiba jista 'jintroduċi kemm mingħajr kif ukoll b'aġġustamenti ta' wara l-istratifikazzjoni. Bethlehem (1988) joffri derivazzjoni tal-preġudizzju kkawżat minn nuqqas ta 'tweġiba għal disinji ta' kampjuni aktar ġenerali. Għal aktar tagħrif dwar l-użu ta 'wara stratifikazzjoni biex taġġusta għal nuqqas ta' tweġiba, ara Smith (1991) u Gelman and Carlin (2002) . Post-stratifikazzjoni hija parti minn familja aktar ġenerali ta 'tekniki msejħa stima tal-kalibrazzjoni, ara Zhang (2000) għal trattament ta' oġġett u Särndal and Lundström (2005) għal trattament ta 'tul ta' ktieb. Għal aktar tagħrif dwar metodi oħra ta 'tagħbija għall-aġġustament għal nuqqas ta' tweġiba, ara Kalton and Flores-Cervantes (2003) , Brick (2013) , u Särndal and Lundström (2005) .
Teħid ta 'kampjuni mhux probabbli
Il-kampjunar mhux probabbli jinkludi varjetà kbira ta 'disinji (Baker et al. 2013) . Fokus speċifikament fuq il-kampjun ta 'utenti ta' Xbox minn Wang u kollegi (W. Wang et al. 2015) , tista 'taħseb dwar dak it-tip ta' kampjun bħala wieħed fejn il-parti ewlenija tad-disinn ta 'kampjunar mhijiex il- \(\pi_i\) il-probabbiltà ta 'inklużjoni mmexxija mir-riċerkatur) iżda l- \(\phi_i\) (il-propensitajiet ta' reazzjoni mmexxija mir-rispondenti). Naturalment, dan mhux ideali minħabba li l- \(\phi_i\) mhumiex magħrufa. Iżda, kif Wang u l-kollegi wrew, dan it-tip ta 'opt-in-kampjun saħansitra minn qafas ta' teħid ta 'kampjuni b'żball ta' kopertura enormi m'għandux ikun katastrofiku jekk ir-riċerkatur ikollu informazzjoni awżiljari tajba u mudell statistiku tajjeb biex jagħti kont ta 'dawn il-problemi.
Bethlehem (2010) testendi ħafna mid-derivazzjonijiet ta 'hawn fuq dwar l-istratifikazzjoni wara biex tinkludi ż-żbalji mhux relatati u l-kopertura. Minbarra l-istratifikazzjoni wara, tekniki oħra għal xogħol b'kampjuni ta 'probabbiltà mhux probabbli u kampjuni ta' probabbiltà b'żbalji ta 'kopertura u nuqqas ta' rispons jinkludu tqabbil tal-kampjuni (Ansolabehere and Rivers 2013; ??? ) , peżar tal-punteġġ ta 'propensità (Lee 2006; Schonlau et al. 2009) , u kalibrazzjoni (Lee and Valliant 2009) . Tema komuni waħda fost dawn it-tekniki hija l-użu ta 'l-informazzjoni awżiljarja.