I dette bilag vil jeg beskrive nogle af ideerne fra kapitlet i en lidt mere matematisk form. Målet her er at hjælpe dig med at blive fortrolig med den notation og matematiske ramme, der anvendes af undersøgelsesforskere, så du kan overgå til noget mere teknisk materiale skrevet om disse emner. Jeg vil begynde med at indføre sandsynlighedsprøveudtagning, og derefter flytte til sandsynlighedsprøvetagning med nonresponse og endelig ikke-sandsynlighedsprøvetagning.
Sandsynlighedsprøveudtagning
Som et løbende eksempel, lad os overveje målet om at estimere arbejdsløshedsprocenten i USA. Lad \(U = \{1, \ldots, k, \ldots, N\}\) være målpopulationen og lad \(y_k\) af værdien af resultatvariablen for personen \(k\) . I dette eksempel er \(y_k\) , om personen \(k\) er arbejdsløs. Endelig, lad \(F = \{1, \ldots, k, \ldots, N\}\) være rammepopulationen, som for enkelhedens skyld antages at være den samme som målpopulationen.
Et grundlæggende stikprøveudformning er simpel tilfældig prøveudtagning uden udskiftning. I dette tilfælde er hver person lige så sandsynligt at blive medtaget i prøven \(s = \{1, \ldots, i, \ldots, n\}\) . Når dataene indsamles med dette prøveudtagningsdesign, kan en forsker estimere befolkningsarbejdsløshedsprocenten med stikprøven:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
hvor \(\bar{y}\) er ledigheden i befolkningen og \(\hat{\bar{y}}\) er estimatet af arbejdsløsheden (den \(\hat{ }\) er almindeligt bruges til at indikere en estimator).
I virkeligheden bruger forskere sjældent simpelt stikprøveudtagning uden udskiftning. Af forskellige årsager (hvoraf jeg beskriver et øjeblik), skaber forskere ofte prøver med ulige sandsynligheder for integration. For eksempel kan forskere vælge folk i Florida med højere sandsynlighed for integration end folk i Californien. I dette tilfælde er stikprøveværdien (ækv. 3.1) måske ikke et godt estimat. I stedet, når der er ulige sandsynligheder for integration, bruger forskere
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
hvor \(\hat{\bar{y}}\) er skøn over arbejdsløshedsprocenten, og \(\pi_i\) er personens \(i\) \(\pi_i\) Efter standard praksis kalder jeg estimatoren i eq. 3.2 Horvitz-Thompson estimatoren. Horvitz-Thompson estimatoren er yderst nyttig, fordi den fører til upartiske estimater for ethvert sandsynlighedsprøveudtag (Horvitz and Thompson 1952) . Fordi Horvitz-Thompson estimatoren kommer op så ofte, er det nyttigt at bemærke, at det kan genskrives som
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
hvor \(w_i = 1 / \pi_i\) . Som eq. 3.3 viser, at Horvitz-Thompson estimatoren er en vægtet prøveværdi, hvor vægten er omvendt relateret til sandsynligheden for udvælgelse. Med andre ord, jo mindre sandsynligt en person skal indgå i stikprøven, jo mere vægt skal personen få i estimatet.
Som tidligere beskrevet prøver forskere ofte mennesker med ulige sandsynligheder for integration. Et eksempel på et design, der kan føre til ulige sandsynligheder for inklusion er stratificeret prøveudtagning , hvilket er vigtigt at forstå, fordi det er tæt forbundet med estimationsproceduren kaldet post-stratification . I stratificeret prøvetagning opdeler en forsker målpopulationen i \(H\) gensidigt eksklusive og udtømmende grupper. Disse grupper kaldes strata og er angivet som \(U_1, \ldots, U_h, \ldots, U_H\) . I dette eksempel er strata staterne. Størrelserne af grupperne er angivet som \(N_1, \ldots, N_h, \ldots, N_H\) . En forsker vil muligvis bruge stratificeret prøveudtagning for at sikre sig, at hun har nok folk i hver stat til at lave statslige skøn over arbejdsløshed.
Når befolkningen er opdelt i strata , antages det, at forskeren vælger en simpel tilfældig prøve uden udskiftning af størrelse \(n_h\) uafhængigt af hvert lag. Antag endvidere, at alle udvalgt i prøven bliver en respondent (jeg behandler manglende respons i næste afsnit). I dette tilfælde er sandsynligheden for inkludering
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Fordi disse sandsynligheder kan variere fra person til person, skal forskere, når de tager et skøn fra dette prøveudtag, desværre vægte hver respondent ved at inverse deres sandsynlighed for inklusion ved hjælp af Horvitz-Thompson estimatoren (ækv. 3.2).
Selvom Horvitz-Thompson estimatoren er upartisk, kan forskere producere mere præcise (dvs. lavere varians) estimater ved at kombinere prøven med hjælpefunktioner . Nogle mennesker finder det overraskende, at dette er sandt, selv når der er perfekt udført sandsynlighedsprøveudtagning. Disse teknikker, der bruger hjælpefunktioner, er særligt vigtige, fordi, som jeg vil vise senere, er hjælpedata afgørende for at lave estimater fra sandsynlighedsprøver med nonresponse og fra ikke-sandsynlighedsprøver.
En almindelig teknik til at udnytte hjælpefunktioner er efterlagring . Forestil dig for eksempel, at en forsker kender antallet af mænd og kvinder i hver af de 50 stater; vi kan angive disse gruppestørrelser som \(N_1, N_2, \ldots, N_{100}\) . For at kombinere denne hjælpeprofil med prøven kan forskeren dele prøven i \(H\) grupper (i dette tilfælde 100), lav et estimat for hver gruppe og derefter oprette et vægtet gennemsnit af disse gruppemetoder:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Groft estimatoren i eq. 3.5 er sandsynligvis mere præcis, fordi den bruger den kendte befolkningsinformation- \(N_h\) - for at korrigere estimater, hvis der opstår en ubalanceret prøve. En måde at tænke på er, at postlagdeling er som tilnærmet stratifikation, efter at dataene allerede er indsamlet.
Afslutningsvis har dette afsnit beskrevet et par prøveudtag: simple stikprøveudtagning uden udskiftninger, prøveudtagning med ulige sandsynlighed og lagdelt prøvetagning. Det har også beskrevet to hovedtanker om estimering: Horvitz-Thompson estimator og postlagdeling. For en mere formel definition af sandsynlighedsprøvetagningsdesigner, se kapitel 2 i Särndal, Swensson, and Wretman (2003) . For en mere formel og fuldstændig behandling af stratificeret prøveudtagning, se afsnit 3.7 af Särndal, Swensson, and Wretman (2003) . For en teknisk beskrivelse af Horvitz-Thompson estimatorens egenskaber, se Horvitz and Thompson (1952) , Overton and Stehman (1995) eller afsnit 2.8 af @ sarndal_model_2003. For en mere formel behandling af postlagdeling, se Holt and Smith (1979) , Smith (1991) , Little (1993) eller afsnit 7.6 af Särndal, Swensson, and Wretman (2003) .
Sandsynlighedsprøve med nonresponse
Næsten alle rigtige undersøgelser har ikke-respons; det vil sige, ikke alle i stikprøvepopulationen besvarer alle spørgsmål. Der er to hovedtyper af nonresponse: item nonresponse og unit nonresponse . I spørgsmål uden svar svarer nogle respondenter ikke på nogle ting (f.eks. Kan nogle gange ikke svare på spørgsmål, som de anser for følsomme). I enhedens nonresponse reagerer nogle mennesker, der ikke er valgt for stikprøvepopulationen, slet ikke på undersøgelsen. De to mest almindelige årsager til enhedens manglende respons er, at den samplede person ikke kan kontaktes, og prøvenpersonen bliver kontaktet, men nægter at deltage. I dette afsnit vil jeg fokusere på unit nonresponse; læsere, der er interesseret i ikke-relaterede artikler, bør se Little and Rubin (2002) .
Forskere tænker ofte på undersøgelser med enhedens manglende reaktion som en to-trins prøveudtagningsproces. I første fase vælger forskeren en prøve \(s\) således at hver person har en sandsynlighed for inkludering \(\pi_i\) (hvor \(0 < \pi_i \leq 1\) ). Så i anden fase svarer folk der er valgt i prøven med sandsynlighed \(\phi_i\) (hvor \(0 < \phi_i \leq 1\) ). Denne to-trins proces resulterer i det endelige sæt af respondenter \(r\) . En vigtig forskel mellem disse to faser er, at forskere kontrollerer processen med at vælge stikprøven, men de kontrollerer ikke, hvilke af de samplede mennesker bliver respondenter. At sætte disse to processer sammen, sandsynligheden for at nogen vil være en respondent er
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Af hensyn til enkelheden skal jeg overveje det tilfælde, hvor den oprindelige prøveudformning er simpel tilfældig prøveudtagning uden udskiftning. Hvis en forsker vælger en stikprøve af størrelse \(n_s\) der giver respondenterne \(n_r\) , og hvis forskeren ignorerer manglende reaktion og bruger middelværdien af respondenterne, så vil skønnet være:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
hvor \(cor(\phi, y)\) er befolkningskorrelationen mellem responstilnærmelsen og resultatet (fx ledighedsstatus), er \(S(y)\) udfaldet af befolkningens standardafvigelse status), \(S(\phi)\) er befolkningens standardafvigelse af responstilnærmelsen, og \(\bar{\phi}\) er befolkningens middelresponstilnærmelse (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 viser, at nonresponse ikke vil indføre bias, hvis en af følgende betingelser er opfyldt:
Desværre synes ingen af disse forhold sandsynligt. Det forekommer utroligt, at der ikke vil være nogen variation i beskæftigelsesstatus, eller at der ikke vil være nogen variation i responstilskyndelser. Således er nøglebetegnelsen i eq. 3,7 er sammenhængen: \(cor(\phi, y)\) . For eksempel, hvis folk er arbejdsløse, er de mere tilbøjelige til at reagere, så vil den anslåede beskæftigelsesfrekvens blive forspændt opad.
Tricket til at lave estimater, når der ikke er en reaktion, er at bruge hjælpefunktioner. En måde, hvor du kan bruge hjælpefunktioner, er f.eks. Post-stratificering (tilbagekaldelse eq. 3.5 ovenfra). Det viser sig, at skævhedens estimation er:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
hvor \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , og \(\bar{\phi}^{(h)}\) er defineret som ovenfor men begrænset til personer i gruppe \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Således vil den generelle forspænding være lille, hvis forspændingen i hver post-stratificeringsgruppe er lille. Der er to måder, som jeg kan lide at tænke over at gøre bias lille i hver post-stratificeringsgruppe. For det første vil du forsøge at danne homogene grupper, hvor der er ringe variation i responstilskyndelse ( \(S(\phi)^{(h)} \approx 0\) ) og resultatet ( \(S(y)^{(h)} \approx 0\) ). For det andet vil du danne grupper, hvor de mennesker, du ser, er som de mennesker, du ikke ser ( \(cor(\phi, y)^{(h)} \approx 0\) ). Sammenligning af eq. 3,7 og ækv. 3.8 hjælper med at afklare, hvornår post-stratification kan reducere den partisk forårsaget af nonresponse.
Afslutningsvis har dette afsnit givet en model for sandsynlighedsprøvetagning med manglende respons og vist den bias, at nonresponse kan introducere både uden og efter stratifikationsjusteringer. Bethlehem (1988) giver en afledning af bias forårsaget af nonresponse for mere generelle prøveudtagninger. For mere om brug af post-stratification for at justere for nonresponse, se Smith (1991) og Gelman and Carlin (2002) . Post-stratifikation er en del af en mere generel familie af teknikker kaldet kalibrerings estimatorer, se Zhang (2000) for en Särndal and Lundström (2005) til en boglængdesbehandling. For mere om andre andre vægtningsmetoder til justering for nonresponse se Kalton and Flores-Cervantes (2003) , Brick (2013) og Särndal and Lundström (2005) .
Ikke-sandsynlighedsprøvetagning
Ikke-sandsynlighedsprøvetagning omfatter et stort udvalg af designs (Baker et al. 2013) . Ved at fokusere specifikt på stikprøven af Xbox-brugere af Wang og kolleger (W. Wang et al. 2015) kan du tænke på den slags prøve som en, hvor hoveddelen af prøveudtagningsdesignet ikke er \(\pi_i\) den forsker-drevne sandsynlighed for inddragelse) men \(\phi_i\) (de respondent-drevne respons-tilbøjeligheder). Dette er naturligvis ikke ideelt, fordi \(\phi_i\) er ukendt. Men som Wang og kolleger viste, må denne type opt-in-prøve - selv fra en prøveudtagningsramme med enorm dækningsfejl - ikke være katastrofalt, hvis forskeren har gode hjælpedata og en god statistisk model til at tage højde for disse problemer.
Bethlehem (2010) udvider mange af de ovennævnte afledninger om post-stratificering for at inkludere både nonresponse og dækningsfejl. Ud over post-stratificering er andre teknikker til at arbejde med ikke-sandsynlighedsprøver og sandsynlighedsprøver med dækningsfejl og ikke- (Ansolabehere and Rivers 2013; ??? ) -inklusiv prøve matchning (Ansolabehere and Rivers 2013; ??? ) , vægtning af tilbøjelighedskarakteristik (Lee 2006; Schonlau et al. 2009) og kalibrering (Lee and Valliant 2009) . Et fælles tema blandt disse teknikker er brugen af hjælpeinformationen.