A representação é sobre como fazer inferências a partir de seus respondentes à sua população-alvo.
A fim de entender o tipo de erros que podem acontecer quando inferir dos respondentes para a população maior, vamos considerar a palha sondagem Literary Digest que tentou prever o resultado da eleição 1936 presidencial dos EUA. Embora tenha sido mais de 75 anos atrás, este descalabro ainda tem uma importante lição a ensinar pesquisadores hoje.
Literary Digest era uma popular revista de interesse geral, e começando em 1920 eles começaram a correr votações para prever os resultados das eleições presidenciais. Para fazer essas previsões que iriam enviar cédulas para muitas pessoas, e depois simplesmente coaduna-se com as cédulas que foram devolvidos; Literary Digest orgulhosamente informou que as cédulas recebidas não eram nem "ponderado, ajustado, nem interpretados." Este procedimento previu corretamente o vencedor das eleições em 1920, 1924, 1928 e 1932. em 1936, no meio da Grande Depressão, Literary Digest enviou cédulas para 10 milhões de pessoas, cujos nomes predominantemente vieram de listas telefónicas e registros de registo automóvel. Veja como eles descreveram a sua metodologia:
"Move-se suave da máquina-executar o Digest com a precisão rápida de trinta anos de experiência para reduzir conjecturas a fatos concretos. . . .Este Semana 500 canetas riscado mais de um quarto de um milhão de endereços por dia. Todos os dias, em uma grande sala acima ribboned-motor Fourth Avenue, em Nova York, 400 trabalhadores habilmente deslizar um milhão de pedaços de material impresso, o suficiente para pavimentar quarenta blocos-na cidade os envelopes endereçados [sic]. A cada hora, na década de DIGEST própria Correios Subestação, três tagarelas máquinas de franquear selados e carimbados os oblongs brancos; funcionários dos correios qualificados virou-los em abaulamento mailsacks; caminhões da frota DIGEST acelerou-lhes expressar correio-trens. . . Na próxima semana, as primeiras respostas de estes dez milhões começará a maré das cédulas marcadas, para ser triplo-verificado, verificado, cinco vezes cross-classificadas e totalizados. Quando o último número foi totted e verificado, se a experiência passada é um critério, o país saberá dentro de uma fração de 1 por cento do voto popular real de quarenta milhões de [eleitores]. "(22 de agosto de 1936)
fetichização do tamanho da Digest é instantaneamente reconhecível para qualquer pesquisador "big data" hoje. Dos 10 milhões de cédulas distribuídas, um surpreendente 2,4 milhões de cédulas foram devolvidos-que é aproximadamente 1.000 vezes maior do que pesquisas políticas modernas. A partir desses 2,4 milhões de entrevistados o veredicto foi claro: Literary Digest previu que o desafiante Alf Landon estava indo para derrotar o titular Franklin Roosevelt. Mas, na verdade, o oposto aconteceu. Roosevelt derrotado Landon em um deslizamento de terra. Como poderia Literary Digest ir mal com tantos dados? Nossa compreensão moderna da amostragem faz erros do Literary Digest clara e nos ajuda a evitar cometer erros semelhantes no futuro.
Pensar claramente sobre a amostragem obriga-nos a considerar quatro grupos diferentes de pessoas (Figura 3.1). O primeiro grupo de pessoas é a população-alvo; este é o grupo que a pesquisa define como a população de interesse. No caso da Literary Digest a população-alvo era eleitores na eleição presidencial de 1936. Depois de decidir sobre uma população-alvo, pesquisador próxima necessita para desenvolver uma lista de pessoas que podem ser usados para a amostragem. Esta lista é chamada de quadro de amostragem ea população no quadro de amostragem é chamado a população quadro. No caso da Literary Digest da população quadro era os 10 milhões de pessoas cujos nomes vieram predominantemente a partir de listas telefónicas e registros de registo automóvel. Idealmente, a população-alvo e da população quadro seria exatamente o mesmo, mas na prática isso nem sempre é o caso. As diferenças entre a população-alvo e da população quadro são chamados de erro de cobertura. erro de cobertura não, por si só, garantir problemas. Mas, se as pessoas na população quadro são sistematicamente diferentes das pessoas não na população quadro haverá viés de cobertura. Erro de cobertura foi a primeira das principais falhas com a sondagem Literary Digest. Eles queriam aprender sobre os eleitores de que era a sua população alvo, mas eles construíram uma base de amostragem predominantemente a partir de listas telefónicas e registos de automóveis, fontes que sobre-representados mais ricos americanos que estavam mais propensos a apoiar Alf Landon (lembrar que ambas as tecnologias, que são hoje comuns, eram relativamente novos no momento e que os EUA estava no meio da Grande Depressão).
Após a definição da população quadro, o próximo passo é para um pesquisador para selecionar a população da amostra; estas são as pessoas que o investigador tentará entrevistar. Se a amostra tem características diferentes do que a população quadro, em seguida, podemos introduzir erro de amostragem. Este é o tipo de erro quantificado na margem de erro que normalmente acompanha estimativas. No caso do fiasco Literary Digest, realmente havia nenhuma amostra; eles tentaram entrar em contato com toda a população quadro. Mesmo que não houve erro de amostragem, houve, obviamente, ainda erro. Isto clarifica que as margens de erros que normalmente são relatados com as estimativas dos inquéritos são geralmente enganosamente pequena; eles não incluem todas as fontes de erro.
Finalmente, um pesquisador tenta entrevistar todos na população da amostra. Aquelas pessoas que são entrevistadas com êxito são chamados entrevistados. Idealmente, a população da amostra e os entrevistados seria exatamente o mesmo, mas na prática não é não-resposta. Ou seja, as pessoas que estão seleccionados para a amostra se recusar a participar. Se as pessoas que respondem são diferentes daqueles que não respondem, então não pode haver viés de não-resposta. Viés de não resposta foi o segundo problema principal com a pesquisa Literary Digest. Apenas 24% das pessoas que receberam uma cédula respondeu, e descobriu-se que as pessoas que apoiaram Landon eram mais propensos a responder.
Além de apenas ser um exemplo para introduzir as idéias de representação, a pesquisa Literary Digest é uma parábola muitas vezes repetida, alertando os pesquisadores sobre os perigos de amostragem aleatória. Infelizmente, eu acho que a lição que muitas pessoas tirar desta história é a pessoa errada. A moral mais comum da história é que os pesquisadores não pode aprender alguma coisa com amostras não probabilísticas (ou seja, amostras sem regras rígidas à base de probabilidade de selecção dos participantes). Mas, como mostrarei mais adiante neste capítulo, isso não é certo. Em vez disso, eu acho que há realmente dois moral para esta história; morais que são tão verdadeiras hoje como eram em 1936. Em primeiro lugar, uma grande quantidade de dados a esmo recolhidos não vai garantir uma boa estimativa. Em segundo lugar, os pesquisadores precisam dar conta de como seus dados foram recolhidos quando eles estão fazendo estimativas a partir dele. Em outras palavras, porque o processo de coleta de dados na pesquisa Literary Digest foi sistematicamente desviada para alguns entrevistados, os pesquisadores precisam usar um processo de estimativa mais complexo que pesa alguns entrevistados mais do que outros. Mais adiante neste capítulo, eu vou lhe mostrar um tal ponderação procedimento de pós-estratificação que pode permitir que você a fazer melhores estimativas com amostras não probabilísticas.