A representación é sobre como facer inferencias a partir dos seus respondentes á súa poboación obxectivo.
Co fin de entender o tipo de erros que poden ocorrer cando inferir dos respondentes á poboación maior, imos considerar a palla enquisa Literary Digest que intentou predicir o resultado da elección 1936 presidencial estadounidense. Aínda que foi máis de 75 anos, este descalabro aínda ten unha importante lección a ensinar investigadores hoxe.
Literary Digest era unha popular revista de interese xeral, e comezando en 1920 comezaron a funcionar votacións para prever os resultados das eleccións presidenciais. Para facer estas previsións que irían enviar papeletas para moita xente, e despois simplemente coaduna-se coas papeletas que foron devoltos; Literary Digest orgullosos informou que as papeletas recibidas non eran nin "ponderado, axustado, nin interpretados." Este procedemento previu correctamente o gañador das eleccións en 1920, 1924, 1928 e 1932. en 1936, no medio da Gran Depresión, Literary Digest enviou papeletas para 10 millóns de persoas, cuxos nomes predominantemente viñeron de listas telefónicas e rexistros de rexistro automóbil. Vexa como describiron a súa metodoloxía:
"Move-se suave da máquina-executar o Digest coa precisión rápida de trinta anos de experiencia para reducir conxecturas a feitos concretos. . . .Este Semana 500 plumas riscado máis dun cuarto de millón de enderezos día. Todos os días, nunha gran sala enriba ribboned-motor Fourth Avenue, en Nova York, 400 traballadores habilmente desprazar un millón de anacos de material impreso, o suficiente para pavimentar corenta bloques-na cidade os sobres enderezados [sic]. Cada hora, na década de DIGEST propia Correos Subestação, tres tagarelas maquinaria franquear selados e marcados os oblongs brancos; funcionarios de correos cualificados virou-los abaulamento mailsacks; camións da flota DIGEST acelerouse lles expresar correo-trens. . . A próxima semana, as primeiras respostas destes dez millóns comezará a marea das papeletas marcadas, para ser triple-comprobado, comprobado, cinco veces cross-clasificadas e totalizados. Cando o último número foi totted e comprobado, a experiencia pasada é un criterio, o país saberá dentro dunha fracción de 1 por cento do voto popular real de corenta millóns de [electores]. "(22 de agosto de 1936)
fetichização do tamaño da Digest é instantaneamente reconhecível para calquera investigador "big data" hoxe. Dos 10 millóns de papeletas distribuídas, un sorprendente 2,4 millóns de papeletas foron devoltos-que é aproximadamente 1.000 veces maior que buscas políticas modernas. A partir deses 2,4 millóns de entrevistados o veredicto foi claro: Literary Digest previu que o desafiante Alf Landon estaba indo a derrota o titular Franklin Roosevelt. Pero, en realidade, o contrario aconteceu. Roosevelt derrotado Landon nun deslizamento de terra. Como podería Literary Digest ir mal con tantos datos? Nosa comprensión moderna da mostraxe fai erros do Literary Digest clara e axúdanos a evitar cometer erros semellantes no futuro.
Pensar claramente sobre a mostraxe obríganos a considerar catro grupos diferentes de persoas (Figura 3.1). O primeiro grupo de persoas é a poboación obxectivo; este é o grupo que a investigación define como a poboación de interese. No caso da Literary Digest a poboación obxectivo era electores na elección presidencial de 1936. Despois de decidir sobre unha poboación de destino, investigador próxima precisa para desenvolver unha lista de persoas que poden ser usados para a mostraxe. Esta lista é chamada de cadro de mostraxe ea poboación no cadro de mostraxe é chamado a poboación cadro. No caso da Literary Digest da poboación cadro era os 10 millóns de persoas cuxos nomes viñeron predominantemente a partir de listas telefónicas e rexistros de rexistro automóbil. Ideal, a poboación obxecto de aprendizaxe e da poboación cadro sería exactamente o mesmo, pero na práctica isto non sempre é o caso. As diferenzas entre a poboación obxecto de aprendizaxe e da poboación cadro chámanse erro de cuberta. erro de cobertura non, por si só, garantir problemas. Pero, se a xente na poboación cadro son sistematicamente diferentes das persoas non na poboación cadro haberá viés de cuberta. Erro de cobertura foi a primeira das principais fallas coa sondaxe Literary Digest. Querían coñecer os electores de que era a súa poboación obxectivo, pero eles construíron unha base de mostraxe predominantemente a partir de listas telefónicas e rexistros de vehículos, fontes que sobre-representados máis ricos americanos que estaban máis propensos a apoiar Alf Landon (lembrar que ambas tecnoloxías, que son hoxe comúns, eran relativamente novos no momento e que EEUU estaba no medio da Gran Depresión).
Tras a definición da poboación cadro, o seguinte paso é para un investigador para seleccionar a poboación da mostra; estas son as persoas que o investigador intentará entrevistar. Se a mostra ten características diferentes do que a poboación cadro, a continuación, podemos introducir erro de mostraxe. Este é o tipo de erro cuantificado en marxe de erro que normalmente acompaña estimacións. No caso do fiasco Literary Digest, realmente había mostra; intentaron entrar en contacto con toda a poboación cadro. Aínda que non houbo erro de mostraxe, houbo, obviamente, aínda erro. Isto aclara que as marxes de erro que normalmente son relativos coas estimacións das enquisas son xeralmente erro pequena; non inclúen todas as fontes de erro.
Finalmente, un investigador intenta entrevistar todos na poboación da mostra. Aquelas persoas que son entrevistadas satisfactoriamente chámanse entrevistados. Ideal, a poboación da mostra e os entrevistados sería exactamente o mesmo, pero na práctica non é non-resposta. É dicir, as persoas que están seleccionados para a mostra rexeitar a participar. Se a xente que responden son diferentes dos que non responden, non pode haber viés de non-resposta. Viés de non resposta foi o segundo problema principal coa investigación Literary Digest. Só o 24% das persoas que recibiron unha cédula respondeu, e descubriuse que as persoas que apoiaron Landon eran máis propensos a responder.
Ademais de só ser un exemplo para introducir as ideas de representación, a investigación Literary Digest é unha parábola moitas veces repetida, alertando os investigadores sobre os perigos de mostraxe aleatoria. Desafortunadamente, eu creo que a lección que moita xente tomar esta historia é a persoa errada. A moral máis común da historia é que os investigadores non pode aprender algo con mostras non probabilísticas (é dicir, mostras sen regras ríxidas á base de probabilidade de selección dos participantes). Pero, como mostrarei máis adiante neste capítulo, isto non é certo. Pola contra, eu creo que hai realmente dous moral para esta historia; morais que son tan verdadeiras hoxe como eran en 1936. En primeiro lugar, unha gran cantidade de datos ao azar recollidas non vai garantir unha boa estimación. En segundo lugar, os investigadores teñen dar conta de como os seus datos foron recollidos cando están facendo estimacións a partir del. Noutras palabras, xa que o proceso de obtención de datos na investigación Literary Digest foi sistematicamente desviada para algúns entrevistados, os investigadores precisan usar un proceso de estimación máis complexo que pesa uns entrevistados máis que outros. Máis adiante neste capítulo, eu vou lle amosar un tal ponderación procedemento de post-estratificación que pode permitir que a facer mellores estimacións con mostras non probabilísticas.