Neste apêndice, descreverei algumas das idéias do capítulo de uma forma um pouco mais matemática. O objetivo aqui é ajudá-lo a se familiarizar com a notação e a estrutura matemática usada pelos pesquisadores da pesquisa para que você possa fazer a transição para alguns dos materiais mais técnicos escritos sobre esses tópicos. Começarei introduzindo a amostragem probabilística e, em seguida, passarei para a amostragem probabilística com a não resposta e, finalmente, com a amostragem não probabilística.
Amostragem probabilística
Como exemplo, vamos considerar o objetivo de estimar a taxa de desemprego nos Estados Unidos. Seja \(U = \{1, \ldots, k, \ldots, N\}\) a população alvo e seja \(y_k\) pelo valor da variável de resultado para a pessoa \(k\) . Neste exemplo \(y_k\) é se a pessoa \(k\) está desempregada. Finalmente, let \(F = \{1, \ldots, k, \ldots, N\}\) é a população de quadros, que por uma questão de simplicidade é assumida como a mesma que a população alvo.
Um projeto básico de amostragem é uma amostragem aleatória simples, sem substituição. Nesse caso, é provável que cada pessoa seja incluída na amostra \(s = \{1, \ldots, i, \ldots, n\}\) . Quando os dados são coletados com este desenho amostral, os pesquisadores podem estimar a taxa de desemprego da população com a média da amostra:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
onde \(\bar{y}\) é a taxa de desemprego na população e \(\hat{\bar{y}}\) é a estimativa da taxa de desemprego (o \(\hat{ }\) é comumente usado para indicar um estimador).
Na realidade, os pesquisadores raramente usam amostragem aleatória simples sem reposição. Por uma variedade de razões (uma das quais vou descrever em um momento), os pesquisadores muitas vezes criam amostras com probabilidades de inclusão desiguais. Por exemplo, os pesquisadores podem selecionar pessoas na Flórida com maior probabilidade de inclusão do que as pessoas na Califórnia. Neste caso, a média da amostra (eq. 3.1) pode não ser um bom estimador. Em vez disso, quando há probabilidades desiguais de inclusão, os pesquisadores usam
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
onde \(\hat{\bar{y}}\) é a estimativa da taxa de desemprego e \(\pi_i\) é a probabilidade de inclusão da pessoa \(i\) . Seguindo a prática padrão, eu chamarei o estimador na eq. 3.2 o estimador de Horvitz-Thompson. O estimador de Horvitz-Thompson é extremamente útil porque leva a estimativas imparciais para qualquer projeto de amostragem probabilística (Horvitz and Thompson 1952) . Como o estimador de Horvitz-Thompson aparece com tanta frequência, é útil notar que ele pode ser reescrito como
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
onde \(w_i = 1 / \pi_i\) . Como eq. 3.3 revela, o estimador de Horvitz-Thompson é uma média ponderada da amostra onde os pesos são inversamente relacionados com a probabilidade de seleção. Em outras palavras, quanto menor a probabilidade de uma pessoa ser incluída na amostra, mais peso essa pessoa deve obter na estimativa.
Como descrito anteriormente, os pesquisadores costumam experimentar pessoas com probabilidades de inclusão desiguais. Um exemplo de um projeto que pode levar a probabilidades de inclusão desiguais é a amostragem estratificada , o que é importante entender porque está intimamente relacionado ao procedimento de estimativa chamado pós-estratificação . Na amostragem estratificada, um pesquisador divide a população alvo em \(H\) grupos mutuamente exclusivos e exaustivos. Esses grupos são chamados de estratos e são indicados como \(U_1, \ldots, U_h, \ldots, U_H\) . Neste exemplo, os estratos são estados. Os tamanhos dos grupos são indicados como \(N_1, \ldots, N_h, \ldots, N_H\) . Um pesquisador pode querer usar amostragem estratificada para ter certeza de que ela tem pessoas suficientes em cada estado para fazer estimativas de desemprego em nível estadual.
Uma vez que a população tenha sido dividida em estratos , assuma que o pesquisador seleciona uma amostra aleatória simples sem substituição do tamanho \(n_h\) , independentemente de cada estrato. Além disso, suponha que todos os selecionados na amostra se tornem um respondente (lidarei com a não resposta na próxima seção). Neste caso, a probabilidade de inclusão é
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Como essas probabilidades podem variar de pessoa para pessoa, ao fazer uma estimativa a partir desse desenho amostral, os pesquisadores precisam ponderar cada respondente pelo inverso de sua probabilidade de inclusão usando o estimador de Horvitz-Thompson (eq. 3.2).
Embora o estimador de Horvitz-Thompson seja imparcial, os pesquisadores podem produzir estimativas mais precisas (isto é, menor variância) combinando a amostra com informações auxiliares . Algumas pessoas acham surpreendente que isso seja verdade mesmo quando há amostragem probabilística perfeitamente executada. Essas técnicas que utilizam informações auxiliares são particularmente importantes porque, como mostrarei mais adiante, as informações auxiliares são críticas para fazer estimativas a partir de amostras probabilísticas com não-resposta e de amostras não probabilísticas.
Uma técnica comum para utilizar informações auxiliares é pós-estratificação . Imagine, por exemplo, que um pesquisador saiba o número de homens e mulheres em cada um dos 50 estados; podemos denotar esses tamanhos de grupo como \(N_1, N_2, \ldots, N_{100}\) . Para combinar essas informações auxiliares com a amostra, o pesquisador pode dividir a amostra em grupos \(H\) (nesse caso, 100), fazer uma estimativa para cada grupo e criar uma média ponderada dessas médias de grupo:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Grosso modo, o estimador na eq. 3.5 provavelmente será mais preciso porque usa as informações de população conhecidas - o \(N_h\) - para corrigir estimativas se uma amostra desbalanceada for selecionada. Uma maneira de pensar sobre isso é que a pós-estratificação é como aproximar a estratificação depois que os dados já foram coletados.
Em conclusão, esta seção descreveu alguns desenhos de amostragem: amostragem aleatória simples sem substituições, amostragem com probabilidade desigual e amostragem estratificada. Também descreveu duas idéias principais sobre estimação: o estimador de Horvitz-Thompson e a pós-estratificação. Para uma definição mais formal de projetos de amostragem probabilística, consulte o capítulo 2 de Särndal, Swensson, and Wretman (2003) . Para um tratamento mais formal e completo da amostragem estratificada, veja a seção 3.7 de Särndal, Swensson, and Wretman (2003) . Para uma descrição técnica das propriedades do estimador de Horvitz-Thompson, veja Horvitz and Thompson (1952) , Overton and Stehman (1995) , ou seção 2.8 de @ sarndal_model_2003. Para um tratamento mais formal da pós-estratificação, ver Holt and Smith (1979) , Smith (1991) , Little (1993) , ou seção 7.6 de Särndal, Swensson, and Wretman (2003) .
Amostragem de probabilidade com não resposta
Quase todas as pesquisas reais têm não resposta; ou seja, nem todos na população da amostra respondem a todas as perguntas. Existem dois tipos principais de não resposta: não resposta ao item e não resposta da unidade . No item não respondido, alguns respondentes não respondem a alguns itens (por exemplo, às vezes os entrevistados não querem responder perguntas que considerem sensíveis). Na falta de resposta da unidade, algumas pessoas selecionadas para a população da amostra não respondem à pesquisa. As duas razões mais comuns para a não resposta da unidade são que a pessoa da amostra não pode ser contatada e a pessoa da amostra é contatada, mas se recusa a participar. Nesta seção, vou me concentrar na não resposta da unidade; os leitores interessados no item não resposta devem ver Little e Rubin (2002) .
Pesquisadores costumam pensar em pesquisas com não-resposta unitária como um processo de amostragem em duas etapas. Na primeira etapa, o pesquisador seleciona uma amostra \(s\) tal que cada pessoa tem uma probabilidade de inclusão \(\pi_i\) (onde \(0 < \pi_i \leq 1\) ). Em seguida, no segundo estágio, as pessoas selecionadas na amostra respondem com probabilidade \(\phi_i\) (onde \(0 < \phi_i \leq 1\) ). Esse processo de dois estágios resulta no conjunto final de respondentes \(r\) . Uma diferença importante entre esses dois estágios é que os pesquisadores controlam o processo de seleção da amostra, mas não controlam quais dessas pessoas se tornam respondentes. Colocando esses dois processos juntos, a probabilidade de alguém ser um respondente é
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Por uma questão de simplicidade, considerarei o caso em que o desenho da amostra original é amostragem aleatória simples sem substituição. Se um pesquisador selecionar uma amostra de tamanho \(n_s\) que produza \(n_r\) respondentes, e se o pesquisador ignorar a não resposta e usar a média dos respondentes, então o viés da estimativa será:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
onde \(cor(\phi, y)\) é a correlação da população entre a propensão à resposta e o resultado (por exemplo, status de desemprego), \(S(y)\) é o desvio padrão da população do resultado (por exemplo, desemprego status), \(S(\phi)\) é o desvio padrão populacional da propensão à resposta, e \(\bar{\phi}\) é a propensão à resposta média da população (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 mostra que a não resposta não introduzirá viés se alguma das seguintes condições forem atendidas:
Infelizmente, nenhuma dessas condições parece provável. Parece implausível que não haverá variação no status de emprego ou que não haverá variação nas propensões de resposta. Assim, o termo chave na eq. 3.7 é a correlação: \(cor(\phi, y)\) . Por exemplo, se as pessoas são as que os desempregados têm maior probabilidade de responder, então a taxa de emprego estimada será tendenciosa para cima.
O truque para fazer estimativas quando há não resposta é usar informações auxiliares. Por exemplo, uma maneira pela qual você pode usar informações auxiliares é pós-estratificação (recordar a eq. 3.5 de cima). Acontece que o viés do estimador pós-estratificação é:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
onde \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , e \(\bar{\phi}^{(h)}\) são definidos como acima, mas restritos a pessoas do grupo \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Assim, o viés geral será pequeno se o viés em cada grupo de pós-estratificação for pequeno. Há duas maneiras que gosto de pensar em tornar o viés pequeno em cada grupo de pós-estratificação. Primeiro, você quer tentar formar grupos homogêneos onde há pouca variação na propensão à resposta ( \(S(\phi)^{(h)} \approx 0\) ) e o resultado ( \(S(y)^{(h)} \approx 0\) ). Segundo, você quer formar grupos onde as pessoas que você vê são como as pessoas que você não vê ( \(cor(\phi, y)^{(h)} \approx 0\) ). Comparando eq. 3.7 e eq. 3.8 ajuda a esclarecer quando a pós-estratificação pode reduzir o tendencioso causado pela não resposta.
Em conclusão, esta seção forneceu um modelo para amostragem probabilística com não-resposta e mostrou o viés que a não-resposta pode introduzir sem e com ajustes de pós-estratificação. Bethlehem (1988) oferece uma derivação do viés causado pela não resposta para projetos de amostragem mais gerais. Para mais informações sobre o uso da pós-estratificação para ajustar a não-resposta, ver Smith (1991) e Gelman and Carlin (2002) . A pós-estratificação faz parte de uma família mais geral de técnicas chamadas de estimadores de calibração, ver Zhang (2000) para um tratamento de extensão de artigo e Särndal and Lundström (2005) para um tratamento de comprimento de livro. Para mais informações sobre outros métodos de ponderação para ajuste para não resposta, ver Kalton and Flores-Cervantes (2003) , Brick (2013) e Särndal and Lundström (2005) .
Amostragem não probabilística
Amostragem não probabilística inclui uma enorme variedade de projetos (Baker et al. 2013) . Focando especificamente na amostra de usuários do Xbox por Wang e seus colegas (W. Wang et al. 2015) , você pode pensar nesse tipo de amostra como uma em que a parte principal do projeto de amostragem não é o \(\pi_i\) ( a probabilidade de inclusão conduzida pelo pesquisador), mas o \(\phi_i\) (as propensões de resposta orientada pelo respondente). Naturalmente, isso não é ideal porque os \(\phi_i\) são desconhecidos. Mas, como Wang e colegas mostraram, esse tipo de amostra opt-in - mesmo de um quadro de amostragem com enorme erro de cobertura - não precisa ser catastrófico se o pesquisador tiver boas informações auxiliares e um bom modelo estatístico para explicar esses problemas.
Bethlehem (2010) estende muitas das derivações acima sobre a pós-estratificação para incluir erros de não resposta e de cobertura. Além de pós-estratificação, outras técnicas para trabalhar com amostras de probabilidade não-e de probabilidade amostras com erros de cobertura e não-resposta incluem-correspondência amostra (Ansolabehere and Rivers 2013; ??? ) , propensão pontuação de ponderação (Lee 2006; Schonlau et al. 2009) e calibração (Lee and Valliant 2009) . Um tema comum entre essas técnicas é o uso da informação auxiliar.