Matematiska anteckningar

I den här bilagan kommer jag att beskriva några av idéerna från kapitlet i en något mer matematisk form. Målet är att hjälpa dig att bli bekväm med den notation och matematiska ram som används av undersökningsforskare så att du kan övergå till mer teknisk material som skrivs om dessa ämnen. Jag börjar med att införa sannolikhetsprovtagning, sedan flytta till sannolikhetsprovtagning med nonresponse, och slutligen, icke-sannolikhetsprovtagning.

Sannolikhetsprovtagning

Som ett springande exempel, låt oss överväga målet att uppskatta arbetslösheten i USA. Låt \(U = \{1, \ldots, k, \ldots, N\}\) vara målpopulationen och låt \(y_k\) av värdet av utfallsvariabeln för personen \(k\) . I detta exempel är \(y_k\) om personen \(k\) är arbetslös. Slutligen, låt \(F = \{1, \ldots, k, \ldots, N\}\) vara rampopulationen, som för enkelhets skull antas vara densamma som målpopulationen.

En grundläggande provtagningsdesign är enkel slumpmässig provtagning utan ersättning. I det här fallet är varje person lika sannolikt att inkluderas i provet \(s = \{1, \ldots, i, \ldots, n\}\) . När uppgifterna samlas in med denna provtagningsdesign kan en forskare uppskatta befolkningsarbetslösheten med urvalsmetoden:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

där \(\bar{y}\) är arbetslösheten i befolkningen och \(\hat{\bar{y}}\) är uppskattningen av arbetslösheten \(\hat{ }\) är vanligen brukade indikera en estimator).

I verkligheten använder forskare sällan enkelt slumpmässigt stickprov utan ersättning. Av olika orsaker (en av vilka jag beskriver i ett ögonblick) skapar forskare ofta prover med ojämna sannolikheter för inkludering. Till exempel kan forskare välja personer i Florida med högre sannolikhet för inkludering än människor i Kalifornien. I det här fallet kan provvärdet (eq. 3.1) inte vara en bra bedömare. Istället, när det finns ojämna sannolikheter för inkludering, använder forskare

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

där \(\hat{\bar{y}}\) är uppskattningen av arbetslösheten och \(\pi_i\) är personens \(i\) Efter standardpraxis ringer jag estimatorn i ekv. 3.2 Horvitz-Thompson estimatorn. Horvitz-Thompson estimatorn är extremt användbar eftersom den leder till objektiva uppskattningar för alla sannolikhetsprovtagningsdesign (Horvitz and Thompson 1952) . Eftersom Horvitz-Thompson estimat kommer upp så ofta är det bra att märka att det kan skrivas om som

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

där \(w_i = 1 / \pi_i\) . Som ekv. 3.3 visar att Horvitz-Thompson estimatorn är ett viktat provmedel där vikterna är inversiellt relaterade till sannolikheten för urvalet. Med andra ord, ju mindre sannolikt en person ska ingå i urvalet, desto mer vikt ska personen få i uppskattningen.

Som tidigare beskrivits forskare ofta människor med ojämna sannolikheter för inkludering. Ett exempel på en design som kan leda till ojämlika sannolikheter för inkludering är stratifierad provtagning , vilket är viktigt att förstå, eftersom det är nära relaterat till uppskattningsförfarandet kallat efterlagring . I stratifierad provtagning delar en forskare målpopulationen i \(H\) ömsesidigt exklusiva och uttömmande grupper. Dessa grupper kallas strata och anges som \(U_1, \ldots, U_h, \ldots, U_H\) . I detta exempel anges strata. Storleken på grupperna anges som \(N_1, \ldots, N_h, \ldots, N_H\) . En forskare kanske vill använda stratifierad provtagning för att se till att hon har tillräckligt med människor i varje stat för att göra statlig uppskattning av arbetslöshet.

När befolkningen har delats upp i strata , antar att forskaren väljer ett enkelt slumpmässigt prov utan att ersätta storleken \(n_h\) , oberoende av varje strata. Antag vidare att alla som valts i provet blir svarande (jag hanterar svar i nästa avsnitt). I detta fall är sannolikheten för inkludering

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Eftersom dessa sannolikheter kan variera från person till person, måste forskare, när de gör en uppskattning från denna provtagningsdesign, väga varje respondent genom invers av deras sannolikhet för inkludering med hjälp av Horvitz-Thompson estimatorn (jämförelse 3.2).

Även om Horvitz-Thompson-estimatorn är opartisk kan forskare producera mer exakta (dvs. lägre varians) beräkningar genom att kombinera provet med hjälpinformation . Vissa människor tycker det är förvånande att detta är sant även när det finns en perfekt genomförd sannolikhetsprovtagning. Dessa tekniker som använder hjälpinformation är särskilt viktiga eftersom, som jag kommer att visa senare, är hjälpinformation avgörande för att göra uppskattningar från sannolikhetsprover med nonresponse och från icke-sannolikhetsprover.

En vanlig teknik för användning av hjälpinformation är efterlagring . Tänk dig att en forskare vet hur många män och kvinnor som är i vart och ett av de 50 staterna. vi kan beteckna dessa gruppstorlekar som \(N_1, N_2, \ldots, N_{100}\) . För att kombinera denna hjälpinformation med provet kan forskaren dela provet i \(H\) grupper (i detta fall 100), göra en uppskattning för varje grupp och skapa sedan ett vägt genomsnitt av dessa gruppmedel:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Grovt beräknas estimatorn i ekv. 3,5 är sannolikt att vara mer exakt eftersom den använder den kända befolkningsinformationen- \(N_h\) - för att korrigera uppskattningar om ett obalanserat prov händer att väljas. Ett sätt att tänka på är att efterlagring är som approximerande stratifiering efter att data redan har samlats in.

Sammanfattningsvis har det här avsnittet beskrivit några provtagningsdesigner: enkel slumpmässig provtagning utan ersättning, provtagning med ojämlik sannolikhet och stratifierad provtagning. Det har också beskrivit två huvudidéer om uppskattning: Horvitz-Thompson-estimatorn och efterlagring. För en mer formell definition av sannolikhetsprovtagningsdesigner, se kapitel 2 i Särndal, Swensson, and Wretman (2003) . För en mer formell och fullständig behandling av stratifierad provtagning, se avsnitt 3.7 i Särndal, Swensson, and Wretman (2003) . För en teknisk beskrivning av Horvitz-Thompson-estimatets egenskaper, se Horvitz and Thompson (1952) , Overton and Stehman (1995) eller avsnitt 2.8 av @ sarndal_model_2003. För en mer formell behandling av efterlagring, se Holt and Smith (1979) , Smith (1991) , Little (1993) eller avsnitt 7.6 i Särndal, Swensson, and Wretman (2003) .

Sannolikhetsprovtagning med nonresponse

Nästan alla riktiga undersökningar har nonresponse; det vill säga inte alla i provpopulationen svarar på varje fråga. Det finns två huvudtyper av nonresponse: item nonresponse och unit nonresponse . I fråga om icke-svar svarar vissa svarande inte på några saker (t.ex. ibland svarar inte de frågor som de anser vara känsliga). I unit nonresponse svarar inte några personer som valts för provpopulationen på undersökningen alls. De två vanligaste orsakerna till enhetens icke-respons är att den samplade personen inte kan kontaktas och provpersonen kontaktas men vägrar att delta. I detta avsnitt kommer jag att fokusera på unit nonresponse; läsare intresserade av objektet nonresponse bör se Little and Rubin (2002) .

Forskare tänker ofta på undersökningar med enhetens icke-respons som en tvåstegs provtagningsprocess. I det första steget väljer forskaren ett exempel \(s\) så att varje person har en sannolikhet för inkludering \(\pi_i\) (där \(0 < \pi_i \leq 1\) ). Sedan, i andra etappen, svarar folk som är valda i provet med sannolikhet \(\phi_i\) (där \(0 < \phi_i \leq 1\) ). Denna tvåstegsprocess resulterar i den slutliga uppsättningen respondenter \(r\) . En viktig skillnad mellan dessa två steg är att forskare kontrollerar processen att välja urvalet, men de kontrollerar inte vilka av de samplade personer som blir svarande. Att sätta dessa två processer tillsammans är sannolikheten för att någon kommer att vara en respondent

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

För enkelhetens skull kommer jag att överväga det fall där den ursprungliga provdesignen är enkel slumpmässig provtagning utan ersättning. Om en forskare väljer ett urval av storlek \(n_s\) som ger \(n_r\) respondenterna, och om forskaren ignorerar icke-svar och använder medelvärdet av de svarande, så kommer skatten att vara:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

där \(cor(\phi, y)\) är befolkningskorrelationen mellan svarbenägenheten och resultatet (t.ex. arbetslöshetsstatus), \(S(y)\) är utfallet av befolkningens standardavvikelse status), \(S(\phi)\) är populationsstandardavvikelsen för svarberoende, och \(\bar{\phi}\) är populationens medelresponsprovensitet (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 visar att nonresponse inte kommer att introduceras om något av följande villkor är uppfyllt:

  • Det finns ingen variation i arbetslöshetsstatus \((S(y) = 0)\) .
  • Det finns ingen variation i svarproviteterna \((S(\phi) = 0)\) .
  • Det finns ingen korrelation mellan responsbenägenhet och arbetslöshetstatus \((cor(\phi, y) = 0)\) .

Tyvärr verkar ingen av dessa förutsättningar troliga. Det verkar osannolikt att det inte kommer att finnas någon variation i sysselsättningsstatus eller att det inte kommer att finnas någon variation i svarprognosen. Således är nyckelordet i ekv. 3,7 är korrelationen: \(cor(\phi, y)\) . Till exempel, om människor är som är arbetslösa är mer benägna att svara, kommer den beräknade sysselsättningsgraden att vara partisk uppåtgående.

Tricket att göra uppskattningar när det inte finns något svar är att använda hjälpinformation. Ett sätt på vilket du kan använda hjälpinformation är till exempel efterlagring (återkall ekv 3,5 från ovan). Det visar sig att förskjutningsberäkatorns bias är:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

där \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , och \(\bar{\phi}^{(h)}\) definieras som ovan men begränsas till personer i grupp \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Således kommer den totala förspänningen att vara liten om förspänningen i varje post-stratifieringsgrupp är liten. Det finns två sätt att jag tycker om att göra förspänningen liten i varje stratifieringsgrupp. Först vill du försöka bilda homogena grupper där det finns liten variation i svartillståndet ( \(S(\phi)^{(h)} \approx 0\) ) och resultatet ( \(S(y)^{(h)} \approx 0\) ). För det andra vill du bilda grupper där de personer du ser är som de personer som du inte ser ( \(cor(\phi, y)^{(h)} \approx 0\) ). Jämförelse av ekv. 3,7 och ekv. 3.8 hjälper till att klargöra när efterlagring kan minska förspänningen orsakad av nonresponse.

Sammanfattningsvis har detta avsnitt gett en modell för sannolikhetsprovtagning med icke-svar och visat den bias som nonresponse kan introducera både utan och efter stratifieringsanpassningar. Bethlehem (1988) ger en avledning av bias som orsakas av nonresponse för mer generella provtagningsdesigner. För mer om att använda efterlagring för att justera för nonresponse, se Smith (1991) och Gelman and Carlin (2002) . Post-stratification är en del av en mer generell familj av tekniker som kallas kalibreringsestimatörer, se Zhang (2000) för en artikellängdsbehandling och Särndal and Lundström (2005) för en boklängdsbehandling. För mer om andra viktningsmetoder för justering för nonresponse, se Kalton and Flores-Cervantes (2003) , Brick (2013) och Särndal and Lundström (2005) .

Sannolikhetsprovtagning

Icke-sannolikhetsprovtagning innefattar ett stort antal mönster (Baker et al. 2013) . Fokusera specifikt på samplet av Xbox-användare av Wang och kollegor (W. Wang et al. 2015) kan du tänka på den typen av prov som en där huvuddelen av provtagningsdesignen inte är \(\pi_i\) den forskarstyrda sannolikheten för inkludering) men \(\phi_i\) (respondent-driven response propensities). Naturligtvis är detta inte idealiskt eftersom \(\phi_i\) är okänt. Men som Wang och kollegor visade, behöver denna typ av opt-in-prov - även från en samplingsram med enormt täckningsfel - inte vara katastrofalt om forskaren har bra hjälpinformation och en bra statistisk modell för att ta reda på dessa problem.

Bethlehem (2010) utökar många av ovanstående derivat om postlagring för att inkludera både icke-respons- och täckningsfel. Förutom efter stratifiering, andra metoder för att arbeta med icke-sannolikhetsprov och sannolikhetsprov med täckningsfel och icke-respons-inkludera sammankoppling (Ansolabehere and Rivers 2013; ??? ) , prognosticeringsviktning (Lee 2006; Schonlau et al. 2009) och kalibrering (Lee and Valliant 2009) . Ett vanligt tema bland dessa tekniker är användningen av hjälpinformationen.