A representación é sobre como facer inferencias a partir dos seus respondentes á súa poboación obxectivo.
Para comprender o tipo de erros que poden ocorrer cando se deducen os enquisados a unha poboación maior, consideremos a enquisa de paixón literal Digest que tentou predecir o resultado das eleccións presidenciais dos Estados Unidos de 1936. Aínda que pasou máis de 75 anos, esta desazón aínda ten unha importante lección para ensinar aos investigadores hoxe.
Literary Digest foi unha popular revista de interese xeral, e a partir de 1920 comezaron a realizar enquisas de palla para predecir os resultados das eleccións presidenciais. Para facer estas predicións, enviarían boletas a moitas persoas e logo simplemente acumularon as papeletas que foron devoltas; Literary Digest informou con orgullo que as papeletas recibidas non foron "ponderadas, axustadas nin interpretadas". Este procedemento predijo correctamente aos ganadores das eleccións en 1920, 1924, 1928 e 1932. En 1936, no medio da Gran Depresión, a literatura Digest enviou boletas a 10 millóns de persoas, cuxos nomes proviñan predominantemente de directorios telefónicos e rexistros de rexistro de automóbiles. Vexa como describiron a súa metodoloxía:
"A máquina de rodaxe de DIGEST móvese coa precisión rápida de trinta anos de experiencia para reducir as conjeturas a feitos difíciles ... Esta semana, 500 plumas rascaban máis dun cuarto de millón de enderezos por día. Todos os días, nunha gran sala moi por encima da Cuarta Avenida con motor, en Nova York, 400 traballadores desprazan con facilidade un millón de pezas impresas, o suficiente para pavimentar corenta bloques de cidade, nos envoltorios dirixidos [sic]. Cada hora, na subdivisión de correos propios de The Digest, tres medidores de correo chatter selados e estampados os oblongos brancos; Os empregados postales cualificados colocáronos en cremallera; A flota de camións DIGEST lanzoulles para expresar trens por correo. . . A próxima semana, as primeiras respostas a partir destes dez millóns iniciarán a marea entrante das papeletas marcadas, para ser verificadas de forma triple, verificadas, cinco veces clasificadas e totalizadas. Cando a última figura estivese marcada e comprobada, se a experiencia pasada é un criterio, o país saberá dentro dunha fracción do 1 por cento o voto popular real de corenta millóns de [votantes]. "(22 de agosto de 1936)
A fetichización de tamaño literal de tamaño é instantáneamente recoñecible a calquera investigador de "grandes datos" hoxe. Das 10 millóns de papeletas distribuídas, un sorprendente 2,4 millóns foron devoltos, que son aproximadamente 1.000 veces maiores que as enquisas políticas modernas. Dende estes 2,4 millóns de entrevistados, o veredicto foi claro: Alf Landon ía derrotar ao incumbente Franklin Roosevelt. Pero, de feito, Roosevelt derrotou a Landon nun derrube. Como podería Literary Digest ir mal con tantos datos? A nosa comprensión moderna da mostraxe fai que os erros de Literary Digest sexan claros e nos axude a evitar cometer erros similares no futuro.
Pensar claramente sobre a mostraxe require que consideremos catro grupos diferentes de persoas (figura 3.2). O primeiro grupo é a poboación obxectivo ; este é o grupo que o investigador define como a poboación de interese. No caso de Literary Digest , a poboación obxectivo era electores nas eleccións presidenciais de 1936.
Despois de decidir sobre unha poboación obxecto de aprendizaxe, un investigador debe desenvolver unha lista de persoas que se poden usar para a mostraxe. Esta lista chámase marco de mostras e as persoas nel chámase a poboación de cadros . Idealmente, a poboación obxecto de aprendizaxe ea poboación de cadros sería exactamente o mesmo, pero na práctica isto adoita ser o caso. Por exemplo, no caso de Literary Digest , a cadea de poboación era de 10 millóns de persoas cuxos nomes proviñan predominantemente de directorios telefónicos e rexistros de rexistro de automóbiles. As diferenzas entre a poboación obxecto de aprendizaxe ea poboación de cadros son chamados de erro de cobertura . O erro de cobertura non garante problemas por si só. Non obstante, pode provocar un sesgo de cobertura se as persoas que se atopan na poboación do cadro son sistemáticamente diferentes das persoas da poboación obxecto de aprendizaxe que non están na poboación de cadros. Este é, de feito, exactamente o que pasou na investigación de Literary Digest . As persoas na súa cadea de poboación tendían a ter máis probabilidades de apoiar a Alf Landon, en parte porque eran máis ricos (recordar que os teléfonos e os automóbiles eran relativamente novos e caros en 1936). Así, na encuesta de Literary Digest , o erro de cobertura provocou un sesgo de cobertura.
Despois de definir a poboación de cadros , o seguinte paso é que un investigador seleccione a poboación de mostra ; estas son as persoas que o investigador intentará entrevistar. Se a mostra ten características diferentes á poboación do cadro, a mostraxe pode introducir un erro de mostraxe . No caso do fiasco de Literary Digest , con todo, non houbo realmente ningunha mostraxe -a revista para contactar a todos na poboación de cadros- e, polo tanto, non houbo ningún erro de mostraxe. Moitos investigadores tenden a concentrarse no erro de mostraxe; este adoita ser o único tipo de erro capturado pola marxe de erro informado nas enquisas, pero o fiasco de Literary Digest recórdanos que necesitamos considerar todas as fontes de erro, aleatorias e sistemáticas.
Finalmente, despois de seleccionar unha poboación de mostra, un investigador intenta entrevistar a todos os seus membros. Aquelas persoas que son entrevistadas con éxito son chamadas enquisadas . Idealmente, a poboación de mostra e os entrevistados serían exactamente iguais, pero na práctica non existe resposta. É dicir, as persoas que se seleccionan na mostra ás veces non participan. Se as persoas que responden son diferentes ás que non responden, entón non pode haber un sesgo non respondido . O sesgo non respondeu foi o segundo problema principal coa investigación de Literary Digest . Só o 24% das persoas que recibiron unha balota responderon, e descubriuse que as persoas que apoiaron a Landon tiñan máis probabilidades de responder.
Máis aló de ser un exemplo para introducir as ideas de representación, a investigación de Literary Digest é unha parábola repetida, advertindo aos investigadores sobre os perigos da mostraxe inapropiada. Desafortunadamente, creo que a lección que moitas persoas aproveitan desta historia é a incorrecta. A moral máis común da historia é que os investigadores non poden aprender nada con mostras non probabilísticas (é dicir, mostras sen regras estritas baseadas en probabilidades para a selección de participantes). Pero, como vou mostrar máis tarde neste capítulo, iso non está ben. No seu canto, creo que hai realmente dúas morais para esta historia; morais que son tan verdadeiras hoxe como eran en 1936. Primeiro, unha gran cantidade de datos extraídos non garantirán unha boa estimación. En xeral, ter un gran número de entrevistados diminúe a varianza das estimacións, pero non reduce necesariamente o sesgo. Con moita información, os investigadores ás veces poden obter unha estimación precisa do mal; poden ser precisamente inexactas (McFarland and McFarland 2015) . A segunda lección principal do fiasco de Literary Digest é que os investigadores deben explicar como se recolleu a súa mostra ao realizar estimacións. Noutras palabras, debido a que o proceso de mostraxe na encuesta de Literary Digest foi sistematicamente distorsionado cara a algúns entrevistados, os investigadores necesitaron usar un proceso de estimación máis complexo que ponderou a algúns entrevistados máis que outros. Máis tarde neste capítulo, mostrarémosvos un procedemento de ponderación, postestratificación, que pode permitirche facer mellores estimacións a partir de mostras inactivas.