Amostras de probabilidade e amostras não probabilísticas não são tão diferentes na prática; em ambos os casos, é tudo sobre os pesos.
A amostragem é fundamental para o levantamento de pesquisa. Pesquisadores quase nunca fazer suas perguntas a todos em sua população-alvo. A este respeito, estudos não são únicos. A maioria das pesquisas, de uma forma ou de outra, envolve amostragem. Às vezes, essa amostragem é feita explicitamente pelo pesquisador; outras vezes isso acontece de forma implícita. Por exemplo, um pesquisador que executa um experimento de laboratório sobre os estudantes de graduação em sua universidade também tomou uma amostra. Assim, a amostragem é um problema que surge ao longo deste livro. Na verdade, uma das preocupações mais comuns que ouço sobre fontes de idade digital de dados é "eles não são representativos." Como veremos nesta Secção, esta preocupação é tanto menos grave e mais sutil do que muitos céticos perceber. Na verdade, eu vou argumentar que todo o conceito de "representatividade" não é útil para pensar em amostras de probabilidade e não probabilidade. Em vez disso, a chave é pensar sobre como os dados foram coletados e como quaisquer preconceitos em que a recolha de dados pode ser desfeita ao fazer estimativas.
Atualmente, a abordagem teórica dominante a representação é amostragem probabilística. Quando os dados são coletados com um método de amostragem probabilística, que foi perfeitamente executada, os pesquisadores são capazes de ponderar os seus dados com base na maneira que eles foram coletadas para fazer estimativas imparciais sobre a população-alvo. No entanto, amostragem probabilística perfeita basicamente nunca acontece no mundo real. Há tipicamente dois principais problemas 1) diferenças entre a população-alvo e da população quadro e 2) não-resposta (estes são exatamente os problemas que destruíram a pesquisa Literary Digest). Assim, ao invés de pensar de amostragem probabilística como um modelo realista do que realmente acontece no mundo, é melhor pensar em amostragem probabilística como um modelo útil, abstrato, muito parecido com a maneira como os físicos pensam sobre uma bola de atrito rolando um infinitamente longo rampa.
A alternativa para a amostragem probabilística é a amostragem não probabilística. A principal diferença entre probabilidade e amostragem não probabilística é que, com probabilidade de amostragem toda a população tem uma probabilidade conhecida de inclusão. Há, de fato, muitas variedades de amostragem não probabilística, e estes métodos de coleta de dados estão se tornando cada vez mais comum na era digital. Mas, a amostragem não probabilística tem uma reputação terrível entre os cientistas e estatísticos sociais. Na verdade, a amostragem não probabilística está associada com algumas das falhas mais dramáticos de pesquisadores de pesquisa, como o fiasco Literary Digest (discutido anteriormente) ea previsão incorreta sobre as eleições presidenciais americanas de 1948 ( "Dewey Derrotas Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
No entanto, o tempo é direito de reconsiderar amostragem não probabilística por duas razões. Primeiro, como amostras probabilísticas tornaram-se cada vez mais difícil de fazer na prática, a linha entre amostras de probabilidade e amostras não probabilísticas está a esbater. Quando há altas taxas de não-resposta (como há em pesquisas reais agora), a probabilidade real de inclusões para os inquiridos não são conhecidos, e, portanto, amostras de probabilidade e amostras não probabilísticas não são tão diferentes como muitos pesquisadores acreditam. De fato, como veremos a seguir, ambas as abordagens basicamente contar com o mesmo método de estimação: pós-estratificação. Em segundo lugar, tem havido muitos desenvolvimentos na recolha e análise de amostras não probabilísticas. Estes métodos são diferentes o suficiente dos métodos que causaram problemas no passado que eu acho que faz sentido pensar nelas como "não-probabilidade de amostragem 2.0." Não devemos ter uma aversão irracional de métodos não-probabilística por causa de erros que aconteceram a muito tempo atrás.
Em seguida, a fim de tornar este argumento mais concreto, eu vou rever amostragem probabilística padrão e ponderação (Seção 3.4.1). A ideia fundamental é que como você recolheu os dados devem afetar o modo como você faz estimativas. Em particular, se todos não têm a mesma probabilidade de inclusão, em seguida, todos devem não têm o mesmo peso. Em outras palavras, se a sua amostragem não é democrático, então suas estimativas não deve ser democrático. Depois de analisar ponderação, vou descrever duas abordagens para amostragem não probabilística: uma que se concentra em ponderação para lidar com o problema de dados a esmo recolhidos (Seção 3.4.2), e um que tenta colocar mais controle sobre como os dados são coletado (Seção 3.4.3). Os argumentos no texto principal será explicado abaixo com palavras e imagens; leitores que gostariam de um tratamento mais matemática também deve ver o apêndice técnico.