Neste apéndice, vou describir algunhas das ideas do capítulo dunha forma un pouco máis matemática. O obxectivo aquí é axudarche a estar cómodo coa notación e o marco matemático empregado polos investigadores para que poidas transitar a algún material máis técnico escrito sobre estes temas. Comezarei introducindo a mostraxe de probabilidade, despois pasar á mostraxe de probabilidade con nonresponsabilidade e, finalmente, a mostraxe non probábel.
Mostra de probabilidade
Como exemplo executivo, consideremos o obxectivo de estimar a taxa de desemprego nos Estados Unidos. Deixe \(U = \{1, \ldots, k, \ldots, N\}\) ser a poboación obxecto de aprendizaxe e deixar \(y_k\) polo valor da variable de resultado para a persoa \(k\) . Neste exemplo \(y_k\) é se a persoa \(k\) está desempregada. Finalmente, deixe que \(F = \{1, \ldots, k, \ldots, N\}\) sexa a poboación de cadros, que por razóns de sinxeleza suponse que é o mesmo que a poboación obxectivo.
Un deseño de mostraxe básico é unha simple mostraxe aleatoria sen reemplazo. Neste caso, cada persoa é igualmente probable que se inclúa na mostra \(s = \{1, \ldots, i, \ldots, n\}\) . Cando se recollen os datos con este deseño de mostraxe, os investigadores poden estimar a taxa de desemprego da poboación coa media de mostra:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
onde \(\bar{y}\) é a taxa de desemprego na poboación e \(\hat{\bar{y}}\) é a estimación da taxa de desemprego (o \(\hat{ }\) é comunmente usado para indicar un estimador).
En realidade, os investigadores raramente usan unha mostraxe aleatoria simple sen reemplazo. Por unha variedade de razóns (unha das que eu vou describir nun momento), os investigadores a miúdo crean mostras con probabilidades desiguales de inclusión. Por exemplo, os investigadores poderían seleccionar persoas en Florida con maior probabilidade de inclusión que as persoas en California. Neste caso, a media da mostra (eq. 3.1) pode non ser un bo estimador. En cambio, cando hai probabilidades desiguales de inclusión, os investigadores usan
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
onde \(\hat{\bar{y}}\) é a estimación da taxa de desemprego e \(\pi_i\) é a probabilidade de inclusión da persoa \(i\) . Seguindo a práctica estándar, chamaré ao estimador en eq. 3.2 o estimador Horvitz-Thompson. O estimador Horvitz-Thompson é sumamente útil porque conduce a estimacións imparciais para calquera deseño de mostraxe de probabilidade (Horvitz and Thompson 1952) . Debido a que o estimador Horvitz-Thompson aparece con tanta frecuencia, é útil notar que pode ser reescrito como
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
onde \(w_i = 1 / \pi_i\) . Como eq. 3.3 revela que o estimador Horvitz-Thompson é unha media de peso ponderada onde os pesos están inversamente relacionados coa probabilidade de selección. Noutras palabras, menos probabilidade de que se inclúa unha persoa na mostra, máis peso debe ter na estimación.
Como se describiu anteriormente, os investigadores a miúdo mostran persoas con probabilidades desiguales de inclusión. Un exemplo de deseño que pode levar a probabilidades desiguales de inclusión é a mostraxe estratificada , o que é importante comprender porque está intimamente relacionada co procedemento de estimación chamado postestratificación . Na mostraxe estratificada, un investigador divide á poboación obxecto de aprendizaxe en grupos \(H\) mutuamente excluíntes e exhaustivos. Estes grupos chámanse estratos e están indicados como \(U_1, \ldots, U_h, \ldots, U_H\) . Neste exemplo, os estratos son estados. Os tamaños dos grupos están indicados como \(N_1, \ldots, N_h, \ldots, N_H\) . Un investigador pode querer usar a mostra estratificada para asegurarse de que ten suficientes persoas en cada estado para facer estimacións a nivel estatal do desemprego.
Unha vez que a poboación estivese dividida en estratos , supoña que o investigador selecciona unha mostra aleatoria simple sen substitución do tamaño \(n_h\) , independentemente de cada estratos. Ademais, supoña que todos os seleccionados na mostra convértense en respondentes (manexarei non resposta na próxima sección). Neste caso, a probabilidade de inclusión é
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Debido a que estas probabilidades poden variar de persoa a persoa, ao facer unha estimación a partir deste deseño de mostraxe, os investigadores deben medir cada entrevistado pola inversa da súa probabilidade de inclusión usando o estimador Horvitz-Thompson (eq 3.2).
Aínda que o estimador Horvitz-Thompson é imparcial, os investigadores poden producir estimacións máis precisas (isto é, menores varianzas) combinando a mostra con información auxiliar . Algunhas persoas pensan que é sorprendente, mesmo cando hai unha mostraxe de probabilidade perfectamente executada. Estas técnicas que usan información auxiliar son particularmente importantes porque, como vou mostrar posteriormente, a información auxiliar é fundamental para facer estimacións a partir de mostras de probabilidade con non resposta e de mostras non probabilísticas.
Unha técnica común para a utilización de información auxiliar é a postestratificación . Imaxina, por exemplo, que un investigador coñece o número de homes e mulleres en cada un dos 50 estados; podemos denotar estes tamaños de grupo como \(N_1, N_2, \ldots, N_{100}\) . Para combinar esta información auxiliar coa mostra, o investigador pode dividir a mostra en grupos \(H\) (neste caso 100), facer unha estimación para cada grupo e, a continuación, crear unha media ponderada deste grupo significa:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Aproximadamente, o estimador en eq. 3.5 é probable que sexa máis preciso porque usa a información de poboación coñecida: o \(N_h\) -para estimacións correctas se se selecciona unha mostra desequilibrada. Unha forma de pensar diso é que a pos-estratificación é como aproximar a estratificación despois de que os datos xa foron recollidos.
En conclusión, esta sección describiu algúns debuxos de mostraxe: mostraxe aleatoria simple sen substitucións, mostraxe con probabilidade desigual e mostraxe estratificada. Tamén describiu dúas ideas principais sobre estimación: o estimador e postratratación de Horvitz-Thompson. Para unha definición máis formal de proxectos de mostraxe de probabilidade, consulte o capítulo 2 de Särndal, Swensson, and Wretman (2003) . Para un tratamento máis formal e completo da mostraxe estratificada, consulte a sección 3.7 de Särndal, Swensson, and Wretman (2003) . Para unha descrición técnica das propiedades do estimador Horvitz-Thompson, vexa Horvitz and Thompson (1952) , Overton and Stehman (1995) ou a sección 2.8 de @sarndal_model_2003. Para un tratamento máis formal da postestratificación, vexa Holt and Smith (1979) , Smith (1991) , Little (1993) , ou a sección 7.6 de Särndal, Swensson, and Wretman (2003) .
Probabilidade de mostraxe con non resposta
Case todas as enquisas reais non responden; É dicir, que non todos na poboación de mostra responden a todas as preguntas. Hai dous tipos principais de respostas non respostas: nonresponse do elemento e non resposta da unidade . No elemento non respostas, algúns entrevistados non responden algúns elementos (por exemplo, ás veces os entrevistados non queren responder preguntas que consideran sensibles). Na unidade de respostas, algunhas persoas que son seleccionadas para a poboación de mostra non responden á enquisa. Os dous motivos máis comúns para a non resposta dunha unidade son que a persoa en cuestión non se pode contactar e a persoa de mostra é contactada pero se rexeita a participar. Nesta sección, vou centrarme na nonresponsabilidade da unidade; os lectores interesados no artigo non responder deben ver a Little and Rubin (2002) .
Os investigadores adoitan pensar en enquisas con non resposta da unidade como un proceso de mostraxe en dúas etapas. Na primeira etapa, o investigador selecciona unha mostra \(s\) xeito que cada persoa teña unha probabilidade de inclusión \(\pi_i\) (onde \(0 < \pi_i \leq 1\) ). Entón, na segunda etapa, as persoas seleccionadas na mostra responden con probabilidade \(\phi_i\) (onde \(0 < \phi_i \leq 1\) ). Este proceso en dúas fases dá como resultado o conxunto final de entrevistados \(r\) . Unha diferenza importante entre estas dúas etapas é que os investigadores controlan o proceso de selección da mostra, pero non controlan cal das persoas que participaron na mostra responden. Ao poñer estes dous procesos xuntos, a probabilidade de que alguén sexa un entrevistado sexa
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
En aras da sinxeleza, vou considerar o caso en que o deseño da mostra orixinal é unha simple mostraxe aleatoria sen reemplazo. Se un investigador selecciona unha mostra de tamaño \(n_s\) que produce \(n_r\) enquisados, e se o investigador ignora a non resposta e usa a media dos entrevistados, entón o sesgo da estimación será:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
onde \(cor(\phi, y)\) é a correlación da poboación entre a propensión de resposta eo resultado (por exemplo, estado de desemprego), \(S(y)\) é a desviación estándar da poboación do resultado (por exemplo, o desemprego \(S(\phi)\) é a desviación estándar da poboación da propensión de resposta, e \(\bar{\phi}\) é a propensión de resposta media da poboación (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 mostra que a non resposta non introducirá o sesgo se se cumpre algunha das seguintes condicións:
Desafortunadamente, ningunha destas condicións parece probable. Parece implacable que non haberá variación na situación laboral ou que non haberá variación nas propensións de resposta. Así, o término clave en eq. 3.7 é a correlación: \(cor(\phi, y)\) . Por exemplo, se a xente está en situación de desemprego é máis probable que respondan, entón a taxa de emprego estimada estará prexudicada.
O truco para facer estimacións cando hai non resposta é usar información auxiliar. Por exemplo, unha forma na que pode usar información auxiliar é a postestratificación (lembra a ecuación 3.5 de arriba). Resulta que o sesgo do estimador postestratificación é:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
onde \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , e \(\bar{\phi}^{(h)}\) están definidas anteriormente, pero restrinxidas a persoas do grupo \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Así, o sesgo xeral será pequeno se o sesgo en cada grupo de postestratificación é pequeno. Existen dúas formas que me gustaría pensar en facer o sesgo pequeno en cada grupo de postestratificación. En primeiro lugar, pretende formar grupos homoxéneos onde existe pouca variación na propensión de resposta ( \(S(\phi)^{(h)} \approx 0\) ) eo resultado ( \(S(y)^{(h)} \approx 0\) ). En segundo lugar, quere formar grupos onde a xente que vexa é como a xente que non ve ( \(cor(\phi, y)^{(h)} \approx 0\) ). Comparando eq. 3.7 e eq. 3.8 axuda a aclarar cando a postestratación pode reducir o prexuízo causado pola falta de resposta.
En conclusión, esta sección proporcionou un modelo de mostraxe de probabilidade sen resposta e mostrou o prexuízo que a non resposta pode introducir sen axustes posteriores á estratificación. Bethlehem (1988) ofrece unha derivación do sesgo causado por non resposta para proxectos de mostraxe máis xerais. Para máis información sobre o uso da postestratación para axustarse a non resposta, consulte Smith (1991) e Gelman and Carlin (2002) . A postestratificación forma parte dunha familia máis xeral de técnicas denominadas estimadores de calibración, vexa Zhang (2000) para un tratamento de lonxitude de artigos e Särndal and Lundström (2005) para un tratamento de lonxitude de libro. Para máis información sobre outros métodos de ponderación para axustar a non resposta, vexa Kalton and Flores-Cervantes (2003) , Brick (2013) e Särndal and Lundström (2005) .
Mostraxe non probabilística
A mostraxe non probábel inclúe unha gran variedade de deseños (Baker et al. 2013) . Centrándonos específicamente na mostra de usuarios de Xbox por parte de Wang e compañeiros (W. Wang et al. 2015) , pódese pensar neste tipo de mostra como unha onde a parte crave do deseño de mostraxe non é a \(\pi_i\) ( a probabilidade de inclusión dirixida polo investigador), pero a \(\phi_i\) (as propensións de resposta impulsada polo responde). Por suposto, isto non é ideal porque o \(\phi_i\) é descoñecido. Non obstante, como demostrou Wang e os seus colegas, este tipo de mostra optativa (mesmo a partir dun cadro de mostraxe con enorme erro de cobertura) non debe ser catastrófico se o investigador ten boa información auxiliar e un bo modelo estatístico para explicar estes problemas.
Bethlehem (2010) estende moitas das derivacións anteriores sobre a post-estratificación para incluír tanto os erros non responder como os de cobertura. Ademais da postratratación, outras técnicas para traballar con mostras non probábeis (e mostras de probabilidade con erros de cobertura e non resposta) inclúen a correspondencia de mostra (Ansolabehere and Rivers 2013; ??? ) , ponderación de puntuación de propensión (Lee 2006; Schonlau et al. 2009) e calibración (Lee and Valliant 2009) . Un tema común entre estas técnicas é o uso da información auxiliar.