In questu appendix, aghju scrivutu parechji di l'idee di u capiu in una forma ligeramente matematica. U scopu hè di aiutà aiutà à a cunfortione cù a notazione è a struttura matematica usata da i investigatori di a scuperta per avè pussutu transicionu à qualche di più materiale tècnicu scrittu annantu à questi temi. Cuminciare à inizià pruduzzione per a probazione, andendu dopu à probabilità di u dispunimentu cù nonresponse, è, finarmenti, un sampling non-probabilisticu.
Pruvalenza di probabilitati
Cum'è un esempiu chì eseguisce, fighjini u scopu di stima di a taxa di discu di l'upertu in i Stati Uniti. Let \(U = \{1, \ldots, k, \ldots, N\}\) sò a populazione di destinazione è dettu \(y_k\) da u valore di a varie variazione per a persona \(k\) . In questu esempiu \(y_k\) hè se persona \(k\) hè persone. Infine, let \(F = \{1, \ldots, k, \ldots, N\}\) sia a populazione di fotograficu, chì per elli di simplicità hè presumintatu chì hè stata cum'è a populazione di destinazione.
U duminiu bàsicu hè un simplicitate aleatoriu senza reposizione. In questu casu, ogni persona hè ugualmente propriu per esse cinsu in u sommu \(s = \{1, \ldots, i, \ldots, n\}\) . Quandu i so dati si sò coglie cù stu disegnu di mostra, i circhificatori puderà stummà a populazione di langue cun l'average sample:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
induve a \(\bar{y}\) hè a tasa di discu di a pupulazione in a pupulazione è \(\hat{\bar{y}}\) hè a stima di a taxa di discu (la \(\hat{ }\) hè cumunamenti utilizatu per indicà un estimatori).
In la realtà, i ricerche prestu raramente usà un meseta aleatoria senza reposizione. Per una variità di razze (una di quale scriviemu in un momentu), i circunstanti spessu cumincianu speciali incù probabilitati inugidenti di l'inclusi. Per esempiu, i circh merchante puderanu selezziunà e persone in Florida cù probabilità più grande di sclusione chì i persone in California. In questu casu, u medio sample (3.1) pò esse micca un bon calculatore. Invece, quandu ci sò e probabilitati inugidenti di l'inclusi, i furmaturi utilizanu
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
induve a \(\hat{\bar{y}}\) hè a stima di a taxa di discu è \(\pi_i\) hè a probabilità di inclusa di a person \(i\) . Dopu a pratica standard, chjamarà l'estimatore in eq. 3,2 l'estimatori Horvitz-Thompson. L'estimatori Horvitz-Thompson hè assai utile, perchè guida à estimi imparziali per qualsiasi probabilità di u dispunellu di u dispunimentu (Horvitz and Thompson 1952) . Perchè u stimulante Horvitz-Thompson hè ghjuntu cusì frequentamente, hè d'utile per vede chì pò esse riimpiutu
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
induve \(w_i = 1 / \pi_i\) . Cum'è eq. 3.3 insegna, l'estimatori Horvitz-Thompson hè una mostra di pezzi chì induve e pesi sò inversamente in relazione à a probabilità di scelta. In altri palori, unu menu prublema chì una persona hè esse crescita in l'esemplariu, u più di pisu quella persona hà avutu bisognu à l'estimazione.
Cumu l'avete scrittu prima, i circherosi spessu mostranu i persone cun probabilitati inugattivi di l'inclusi. Un esempiu di un disignu chì pò purtà à pruprietà inugualitati di l'inclusi hè stratificatu di u prucedimentu , chì hè impurtante per cumprà perchè hè strettu in relazione cù u prucessu di stima chjamatu post-stratificazione . In stratificatu di u prucedimentu, un investigatore divide a populazione di destinazione in \(H\) gruppi cullettivi u sfruttati mutuali. Questi gruppi sò chjamati strata è sò signalati com'è \(U_1, \ldots, U_h, \ldots, U_H\) . In questu esempiu, i strati sò stati. A dimensioni di i gruppi sò indicati com \(N_1, \ldots, N_h, \ldots, N_H\) . U ricchientariu puderia vulerà utilizà a stratificazione di u mumentu per esse sicura ch'eddu tenia bastanti persone in ogni statutu per fà estimazioni statali di u disimpronitu.
Quandu a pupulazione hè stata dividita in strata , assume chì l'inveller seleccione un sughjettu aleatu senzillu senza reemplazione di a grandària \(n_h\) , inde independente di ogni strata. Cumplementu, assume chì tutti selezziunate in u duminiu diventenu un accettate (aghju pigliatu a non-risposta in a secunna sezione). In questu casu, a probabilità di nclusioni hè
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Perchè sti probabilitate puderanu varià da persona à persona, quandu facenu un estimazione di stu pruduce di mostra, i circuncisi anu bisognu di pesu à tutti i rispondenti da l'inverse di a probabilità d'inclusi, usando l'estimatori Horvitz-Thompson (eq. 3.2).
Ancu l'estimulatore Horvitz-Thompson hè imparu, i ricerchi anu pudendu generà estimazioni più precisi (varianza, più varianza baixa) cumminendu a mostra di l'infurmazioni aiutu . Certi pirsuni stanu surprisivi chì questu hè veru ancu quandu ci hè un sampling di probabilità perfetta. Questi tecniche chì utilizanu l'infurmazioni furnirebuli sò particularmente impurtante perchè, cum'è avà versu dopu, l'infurmazioni aiutu hè criticu per fà estimazioni da probabilità samples with nonresponse e da non-probability samples.
Una tecnica cumuni per utilizà l'infurmazioni aiutu hè di postratazzioni . Imagine, per esempiu, chì un investigatore cunnosce u numaru d'omi è donne in tutti i 50 stati; pudemu assicurà esse talla di gruppu cum'è \(N_1, N_2, \ldots, N_{100}\) . Per cumbattà sta nfurmazione aiutu cù a specie, u ricunnisciutu pò split the sample in gruppi \(H\) (in questu casu 100), fate un estimu per ogni gruppu è da creà un average ponderatu di questu gruppu significa:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
A cosa, l'estimatore in eq. 3,5 hà prubabile d'esse più precisamente perchè usa a populazione d'informazione chjamata a \(N_h\) estimi correctivi si un santu unbalancede devenu esse sceltu. Una manera di penserà hè ch'ella stratificazione hè stratificazione quantu à l'appruvisazione dopu chì ei dati sò stati prisutu.
In cunclusioni, sta seccione hà discrittu quasi certi disinni di u dispusitivu: simprici aleatorii simpatici senza repertorii, prenotazione cù probabilitate inugee, è stratificatu di mostra. Hà scritta ancu dui idee principali di l'estimazione: l'estimatori Horvitz-Thompson è a postratazzioni. Per una definizione più furmale di probabilitati dissiminati, vede u capítulo 2 di Särndal, Swensson, and Wretman (2003) . Per un trattamentu furmale è furmatu cumpletu di a stratificazione, vede a seczione 3.7 di Särndal, Swensson, and Wretman (2003) . Per una description tècnica di e pruprietà di l'estimatori Horvitz-Thompson, vede Horvitz and Thompson (1952) , Overton and Stehman (1995) , o a seczione 2.8 di @ sarndal_model_2003. Per un trattamentu furmale formale di postratzzione, vede Holt and Smith (1979) , Smith (1991) , Little (1993) , o sezione 7.6 di Särndal, Swensson, and Wretman (2003) .
Pruvucione di probabilità cù nonresponse
Quasi tutti l'inserzi veri ùn anu rispunsèvule; hè questu, micca tutti in l'indirizziu di pupulazione risponde à ogni dumanda. Ci hè dui tipi principali di nonresponse: item nonresponse e unità nonresponse . In l'articulu ùn anu rispunsu, certi anu risposti ùn rispundenu micca qualchì articulu (per esempiu, certi volte chì i rispondenu ùn vulianu risposta à e dumande chì anu cunzidutu sensu). In una rispunsabilità unità, alcune persone ch'ùn sò selezziunati per a populazione di mostra ùn rispundenu à l'insegnamentu à tuttu. I dui mutivi più cumune di unità micca rispunsenu sò chì a persona di mostra ùn pò micca esse contactatu è u mostru persone hè contactatu ma refuse à participà. In questu sezzione, fisticate nantu à unità micca rispettu; lettori interested in item nonresponse must see Little and Rubin (2002) .
L'investigatore spessu pensanu à l'encuinzimi cù un rispunsabilità unità in quantu un prucessu di scogliu di scogliu. In u primu stadiu, u ricchientu sceglie un sample \(s\) per chì ogni persone hà a probabilità d'inclusi \(\pi_i\) (induve \(0 < \pi_i \leq 1\) ). Allora, in a seconda stage, i persone chì sò selezziunati in l'esemplariu rispundenu cun probabilitate \(\phi_i\) (induve \(0 < \phi_i \leq 1\) ). Stu prucessu di dui tappe risultati in u settore finali di i rispondenti \(r\) . Una differenza impurtante trà e duie tappe hè chì i circherosi cuntrollanu u prucessu di svià a mostra, ma ùn anu micca cuntrolatu quale di quelli paesi di mostra indè passanu à i rispondenu. Aduprate sti dui processi, a probabilità chì qualchissia serà un accettata
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Per via di simplicità, vi cunsigliu u casu induve u disenchinu d'esemplari uriginale é simplicità aleatoria senza sustituzione. Se un investigatore sceglie un sample of size \(n_s\) chì cede a \(n_r\) rispondenu, è se l'investigatore ignora a non-risposta è usa a media di i rispondenu, allura u preghjudiziu di stima serà:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
induve \(cor(\phi, y)\) hè a correlazione di pupulazione trà a propensità di risposta è u risultatu (per esempiu, u statu di disoccupazioni), \(S(y)\) hè a pupulazione standard di devenza di u risultatu (per esempiu, unemployment statutu), \(S(\phi)\) hè a pupulazione standard di u devenza di a propensità di rispùnenza, è \(\bar{\phi}\) hè a pupulazione di rispunsenza propensità (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3,7 mostra chì nonresponse ùn intruverà preghjudiziu à u qualunque di e cundizzioni:
Sfurtunatamente, nunda di sti cundizioni sò parechje. Puderia micca pruibitu chì ùn esiste micca variazione in u statutu di u travagliu o chì ùn esiste micca vulturu in risorse di propensità. Cusì, u termu chjave in eq. 3.7 hè a correlazione: \(cor(\phi, y)\) . Per esempiu, se a ghjente hè quella disoccupatu hè più prubabile di responde, a perchè a crescita di u travagliu di u travagliu serà sguassatu in risa.
U truccu per fà estimi quandu ùn ci hè micca rispunsenu hè di usà l'infurmazioni aiutu. Per esempiu, un modu in quale pudete aduprà infurmazioni furnitevule hè postestratifazione (ricordate eq. 3,5 da sopra). Ci hè chì u bias di l'estimatori postratralizazione hè:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
induve \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , e \(\bar{\phi}^{(h)}\) sò definiti cum'è prima, ma ristritti à i persone in u gruppu \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Cusì, u pianu generale sarà chjuchinu se u preghjudiziu in ogni gruppu post-stratificazione hè chjuca. Ci hè dui maneri chì mi piace di pensà à fà u preghjudiziu in u gruppu post-stratificazione. Prima, vulete pruvà pruduttu gruppi omogenei induve hè una vasta variazione à a risposta propensità ( \(S(\phi)^{(h)} \approx 0\) ) è u risultatu ( \(S(y)^{(h)} \approx 0\) ). Sicunna, vulete furmate gruppi chì e persone chì vede sò cum'è e persone chì ùn vedi micca ( \(cor(\phi, y)^{(h)} \approx 0\) ). Comparative eq. 3,7 e eq. 3,8 aiuta à clarificà quandu u postratratazione pò esse reducirà u preghjudiziu propie da nonresponse.
In cunclusioni, sta secunna hà datu un mudellu per probabilità di u prenotazione cù non-rispunse è dimustratu u preghjudiziu chì nonresponse pò intruduce senza è cù l'aghjurnamenti post-stratificazione. Bethlehem (1988) offri una derivazione di u preghjudiziu propie da nonresponse per i disinni di generale più generale. Per più nantu à u stratificazione dopu adducà per nonresponse, vede Smith (1991) è Gelman and Carlin (2002) . Post-stratificazione hè parti di una famiglia generale di tecniche chjamati stima di calibrazione, vede Zhang (2000) per un trattamentu di l'articulu di u Särndal and Lundström (2005) per un trattamentu di librettu. Per più nantu à altri mètte altre ponderante per l'aiutu per nonresponse, vede Kalton and Flores-Cervantes (2003) , Brick (2013) è Särndal and Lundström (2005) .
Sampling non-probability
Un sampling of non probabilisticu cuntene una grande varietà di dissenu (Baker et al. 2013) . Fighjendu specificamente nantu à u dispusitivu di l'utilizatori di Xbox per Wang è i culleghji (W. Wang et al. 2015) , pudete pinsà di quella specie di mostra quì chì a parte principale di u disenfranchizatu ùn hè micca u \(\pi_i\) ( a probabilità di l'inclusi di l'investigatore) ma l' \(\phi_i\) (a propensità di rispunsabilità propugnatu). Naturale, questu hè micca ideale perchè u \(\phi_i\) sò ignurati. Ma, cum'è Wang è i culleghi amparonu, stu tipu di opt-in, ancu di un corpu di mostrage cù un enormu errore di coverage, ùn deveru micca esse catastròficu si u ricunnisciutu hà una bona infurmazioni aiutu è un bonu mudellu statìsticu per contu di sti prublemi.
Bethlehem (2010) estende assai di e derivazioni supra nantu à a postratazzioni di cumpressu ancu e senza risposte è errore di a cobertura. In più di a postratazzioni, l'altri tecniche per u travagliu cù esempii di probabilitati è e mostdi di probabilità cù errore è e senza risposti-include match sample (Ansolabehere and Rivers 2013; ??? ) , pidata di propensità di puntu (Lee 2006; Schonlau et al. 2009) , è calibration (Lee and Valliant 2009) . Un tema cumuni trà e tecniche hè l'utilizazione di l'infurmazioni aiutu.