I dette tillegget vil jeg beskrive noen av ideene fra kapittelet i en litt mer matematisk form. Målet her er å hjelpe deg med å bli komfortabel med notasjon og matematisk rammeverk som brukes av undersøkelsesforskere, slik at du kan overgå til noe mer teknisk materiale skrevet på disse emnene. Jeg vil begynne med å introdusere sannsynlighetsprøvetaking, og deretter flytte til sannsynlighetsprøvetaking med nonresponse, og til slutt, ikke-sannsynlig prøvetaking.
Sannsynlighetsprøving
Som et løpende eksempel, la oss vurdere målet om å estimere arbeidsledigheten i USA. La \(U = \{1, \ldots, k, \ldots, N\}\) være målpopulasjonen og la \(y_k\) av verdien av utfallsvariabelen for personen \(k\) . I dette eksemplet er \(y_k\) om personen \(k\) er arbeidsledig. Til slutt, la \(F = \{1, \ldots, k, \ldots, N\}\) være rammepopulasjonen, som for enkelhets skyld antas å være den samme som målpopulasjonen.
En grunnleggende prøvetakingsdesign er enkel tilfeldig prøvetaking uten utskifting. I dette tilfellet er hver person like sannsynlig å bli med i prøven \(s = \{1, \ldots, i, \ldots, n\}\) . Når dataene samles inn med denne prøvetakingsdesignen, kan en forsker estimere befolkningsarbeidsfrekvensen med prøveverdien:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
hvor \(\bar{y}\) er arbeidsledigheten i befolkningen og \(\hat{\bar{y}}\) er estimatet av arbeidsledigheten \(\hat{ }\) er vanlig brukes til å indikere en estimator).
I virkeligheten bruker forskere sjelden en enkel tilfeldig prøvetaking uten erstatning. Av en rekke årsaker (det ene jeg beskriver i et øyeblikk) lager forskere ofte prøver med ulik sannsynlighet for inkludering. For eksempel kan forskere velge folk i Florida med høyere sannsynlighet for inkludering enn folk i California. I dette tilfellet kan ikke prøveeksempelet (eq. 3.1) være en god estimator. I stedet, når det er ulik sannsynlighet for inkludering, bruker forskere
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
hvor \(\hat{\bar{y}}\) er estimatet av arbeidsledigheten og \(\pi_i\) er personens \(i\) Etter standard praksis, vil jeg ringe estimatoren i eq. 3.2 Horvitz-Thompson estimatoren. Horvitz-Thompson estimatoren er ekstremt nyttig fordi det fører til objektive estimater for alle mulige prøvetakingsdesign (Horvitz and Thompson 1952) . Fordi Horvitz-Thompson estimatoren kommer opp så ofte, er det nyttig å legge merke til at det kan skrives om igjen som
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
hvor \(w_i = 1 / \pi_i\) . Som eq. 3.3 viser at Horvitz-Thompson estimatoren er et vektet utvalgsmiddel hvor vektene er omvendt relatert til sannsynligheten for utvelgelse. Med andre ord, jo mindre sannsynlig en person skal inkluderes i prøven, desto større vekt skal personen få i estimatet.
Som tidligere beskrevet, prøver forskere ofte mennesker med ulik sannsynlighet for inkludering. Et eksempel på et design som kan føre til ulik sannsynlighet for inkludering er stratifisert prøvetaking , noe som er viktig å forstå fordi det er nært relatert til estimeringsprosedyren kalt post-stratifisering . I stratifisert prøvetaking deler en forsker målpopulasjonen inn i \(H\) gjensidig eksklusive og uttømmende grupper. Disse gruppene kalles strata og er angitt som \(U_1, \ldots, U_h, \ldots, U_H\) . I dette eksemplet er lagene stater. Størrelsene på gruppene er angitt som \(N_1, \ldots, N_h, \ldots, N_H\) . En forsker vil kanskje bruke stratifisert prøvetaking for å sikre at hun har nok folk i hver stat til å gjøre statlige nivåer av arbeidsledighet.
Når befolkningen er delt opp i strata , anta at forskeren velger en enkel tilfeldig prøve uten å erstatte størrelse \(n_h\) , uavhengig av hvert lag. Videre antar at alle som er valgt i prøven blir en respondent (jeg skal håndtere manglende respons i neste avsnitt). I dette tilfellet er sannsynligheten for inkludering
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Fordi disse sannsynlighetene kan variere fra person til person, må forskerne vekten hver respondent ved å angi estimatet fra inkluderingen ved hjelp av Horvitz-Thompson estimatoren (eq 3.2).
Selv om Horvitz-Thompson estimatoren er objektiv, kan forskere produsere mer nøyaktige estimater (lavere variasjoner) ved å kombinere prøven med tilleggsinformasjon . Noen mennesker finner det overraskende at dette er sant selv når det er perfekt utført sannsynlighetsprøve. Disse teknikkene ved hjelp av tilleggsinformasjon er spesielt viktige fordi, som jeg vil vise senere, er tilleggsinformasjon avgjørende for å lage estimater fra sannsynlighetsprøver med ikke-respons og fra ikke-sannsynlighetsprøver.
En vanlig teknikk for å benytte tilleggsinformasjon er etterlagring . Tenk for eksempel at en forsker vet antall menn og kvinner i hver av de 50 statene; Vi kan betegne disse gruppestørrelsene som \(N_1, N_2, \ldots, N_{100}\) . For å kombinere denne tilleggsinformasjonen med prøven kan forskeren dele prøven i \(H\) grupper (i dette tilfellet 100), lage et estimat for hver gruppe, og opprett deretter et veid gjennomsnitt for disse gruppene:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Grovt, estimatoren i eq. 3.5 er sannsynligvis mer nøyaktig fordi den bruker den kjente befolkningsinformasjonen- \(N_h\) - for å korrigere estimater hvis en ubalansert prøve kommer til å bli valgt. En måte å tenke på er at etterlagring er som tilnærmende lagdeling etter at dataene allerede er samlet.
Til slutt har denne delen beskrevet noen prøvetakingsdesign: enkel tilfeldig prøvetaking uten utskifting, prøvetaking med ulik sannsynlighet og lagdelt prøvetaking. Det har også beskrevet to hovedideer om estimering: Horvitz-Thompson estimator og postlagring. For en mer formell definisjon av sannsynlighetsprøvetaking, se kapittel 2 i Särndal, Swensson, and Wretman (2003) . For en mer formell og fullstendig behandling av stratifisert prøvetaking, se avsnitt 3.7 av Särndal, Swensson, and Wretman (2003) . For en teknisk beskrivelse av egenskapene til Horvitz-Thompson estimatoren, se Horvitz and Thompson (1952) , Overton and Stehman (1995) , eller avsnitt 2.8 av @ sarndal_model_2003. For en mer formell behandling av poststratifisering, se Holt and Smith (1979) , Smith (1991) , Little (1993) , eller seksjon 7.6 av Särndal, Swensson, and Wretman (2003) .
Sannsynlighetsprøvetaking med ikke-respons
Nesten alle virkelige undersøkelser har nonresponse; det vil si, ikke alle i utvalgspopulasjonen svarer på hvert spørsmål. Det er to hovedtyper av ikke-respons: elementet ikke-respons og enhetens ikke-respons . I enkelte spørsmål svarer enkelte respondenter ikke på noen ting (for eksempel kan respondentene ikke svare på spørsmål som de anser følsomme). I enhetens ikke-respons reagerer noen personer som ikke er valgt for utvalgsbefolkningen, ikke på undersøkelsen i det hele tatt. De to vanligste årsakene til at enheten ikke svarer er at den samplede personen ikke kan kontaktes og prøvenpersonen blir kontaktet, men nekter å delta. I denne delen vil jeg fokusere på enhetens ikke-respons; Lesere som er interessert i ikke-relaterte artikler, bør se Little and Rubin (2002) .
Forskere tenker ofte på spørreundersøkelser med ikke-responsenhet som en to-trinns prøvetakingsprosess. I første fase velger forskeren et eksempel \(s\) slik at hver person har en sannsynlighet for inkludering \(\pi_i\) (hvor \(0 < \pi_i \leq 1\) ). Så, i andre trinn, svarer folk som er valgt inn i prøven med sannsynligheten \(\phi_i\) (hvor \(0 < \phi_i \leq 1\) ). Denne to-trinns prosessen resulterer i det endelige settet av respondenter \(r\) . En viktig forskjell mellom disse to stadiene er at forskerne kontrollerer prosessen med å velge prøven, men de kontrollerer ikke hvilke av de samplede personene som blir respondenter. Å sette disse to prosessene sammen, er sannsynligheten for at noen vil være en respondent
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
For enkelhets skyld skal jeg vurdere saken der den opprinnelige prøveutformingen er enkel tilfeldig prøvetaking uten utskifting. Hvis en forsker velger et eksempel på størrelse \(n_s\) som gir \(n_r\) respondenter, og hvis forskeren ignorerer manglende respons og bruker gjennomsnittet av respondentene, vil estimatets forspenning være:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
hvor \(cor(\phi, y)\) er befolkningskorrelasjonen mellom responstilnærmingen og utfallet (f.eks. arbeidsledighetsstatus), er \(S(y)\) populasjonsstandardavviket for utfallet status), \(S(\phi)\) er populasjonsstandardavviket til responstilnærmetheten, og \(\bar{\phi}\) er populasjonsmiddelresponspropensiteten (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 viser at ikke-respons ikke vil innføre bias hvis noen av følgende betingelser er oppfylt:
Dessverre virker ingen av disse forholdene sannsynlig. Det virker utroligt at det ikke vil være noen variasjon i sysselsettingsstatus eller at det ikke vil være noen variasjon i tilbakemeldingstendenser. Dermed er nøkkelbetegnelsen i eq. 3,7 er korrelasjonen: \(cor(\phi, y)\) . For eksempel, hvis folk er som arbeidsledige er mer sannsynlig å svare, vil den estimerte sysselsettingsraten bli forspent oppadgående.
Trikset for å lage estimater når det ikke er et svar, er å bruke tilleggsinformasjon. En måte som du kan bruke hjelpefunksjon på, er for eksempel stratifiseringen (tilbakekall eq. 3.5 ovenfra). Det viser seg at bias av post-stratification estimator er:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
hvor \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) og \(\bar{\phi}^{(h)}\) er definert som ovenfor men begrenset til personer i gruppe \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Dermed vil den generelle forspenningen være liten hvis forspenningen i hver etterlagringsgruppe er liten. Det er to måter som jeg liker å tenke på å gjøre bias liten i hver etterlagringsgruppe. For det første vil du prøve å danne homogene grupper hvor det er liten variasjon i tilbakemeldingstypen ( \(S(\phi)^{(h)} \approx 0\) ) og resultatet ( \(S(y)^{(h)} \approx 0\) ). For det andre vil du danne grupper der folkene du ser er som de menneskene du ikke ser ( \(cor(\phi, y)^{(h)} \approx 0\) ). Sammenligning av eq. 3,7 og ekv. 3.8 bidrar til å avklare når postlagring kan redusere partisk forårsaket av ikke-respons.
Som konklusjon har denne delen gitt en modell for sannsynlighetsprøvetaking med manglende respons og vist bias som ikke-respons kan introdusere både uten og etter stratifiseringsjusteringer. Bethlehem (1988) gir en avledning av bias forårsaket av ikke-respons for mer generelle prøvetakingsdesign. For mer om bruk av post-stratifisering for å justere for ikke-respons, se Smith (1991) og Gelman and Carlin (2002) . Post-stratifisering er en del av en mer generell familie av teknikker kalt kalibreringsestimatorer, se Zhang (2000) for en artikkellengdebehandling og Särndal and Lundström (2005) for en boklengdsbehandling. For mer om andre vektingsmetoder for justering for ikke-respons, se Kalton and Flores-Cervantes (2003) , Brick (2013) , og Särndal and Lundström (2005) .
Ikke-sannsynlighet prøvetaking
Ikke-sannsynlig prøvetaking inneholder et stort utvalg av design (Baker et al. 2013) . Fokuserer spesielt på prøven av Xbox-brukere av Wang og kolleger (W. Wang et al. 2015) , kan du tenke på den typen prøve som en hvor nøkkelen av samplingsdesignet ikke er \(\pi_i\) den forsker-drevne sannsynligheten for inkludering), men \(\phi_i\) (respondent-drevet respons tilbøyelighet). Naturligvis er dette ikke ideelt fordi \(\phi_i\) er ukjent. Men som Wang og kolleger viste, må denne typen opt-in-prøve - selv fra en samplingsramme med stor dekningsfeil - ikke være katastrofalt dersom forskeren har god hjelpsinformasjon og en god statistisk modell for å ta hensyn til disse problemene.
Bethlehem (2010) utvider mange av de ovennevnte derivatene om post-stratifisering for å inkludere både ikke-respons og dekningsfeil. I tillegg til post-stratifisering, er andre teknikker for å arbeide med ikke-sannsynlighetsprøver og sannsynlighetsprøver med dekningsfeil og ikke-respons-inkludere samsvarende samsvar (Ansolabehere and Rivers 2013; ??? ) , (Lee 2006; Schonlau et al. 2009) , og kalibrering (Lee and Valliant 2009) . Et vanlig tema blant disse teknikkene er bruken av tilleggsinformasjonen.