La representación se trata de hacer inferencias a partir de los encuestados a su población objetivo.
Con el fin de comprender el tipo de errores que pueden ocurrir al inferir de los encuestados a la población en general, consideremos la encuesta informal Literary Digest que trató de predecir el resultado de las elecciones presidenciales de Estados Unidos en 1936. Aunque sucedió hace más de 75 años, esta debacle aún tiene una lección importante para enseñar a los investigadores hoy en día.
Literary Digest era una popular revista de interés general y, a partir de 1920, comenzó a realizar encuestas espontáneas para predecir los resultados de las elecciones presidenciales. Para hacer estas predicciones, enviarían boletas a mucha gente y luego simplemente contabilizarían las boletas que se devolvieron; Literary Digest informó orgullosamente que las papeletas que recibieron no fueron "ponderadas, ajustadas ni interpretadas". Este procedimiento predijo correctamente a los ganadores de las elecciones en 1920, 1924, 1928 y 1932. En 1936, en medio de la Gran Depresión, literaria Digest envió boletas a 10 millones de personas, cuyos nombres provienen predominantemente de directorios telefónicos y registros de registro de automóviles. Así es como describieron su metodología:
"La máquina de funcionamiento suave de THE DIGEST se mueve con la precisión precisa de la experiencia de treinta años para reducir las conjeturas a hechos difíciles ... Esta semana, 500 plumas rayaron más de un cuarto de millón de direcciones al día. Todos los días, en una gran sala, muy arriba de la Cuarta avenida, en Nueva York, 400 trabajadores deslizan hábilmente un millón de piezas impresas, suficientes para pavimentar cuarenta manzanas de la ciudad, en los sobres [sic]. Cada hora, en la propia Subestación de Post Office de THE DIGEST, tres ruidosas máquinas de franqueo sellaban y sellaban las oblongas blancas; empleados postales habilidosos los voltearon en bultos sobresalientes; los camiones de la flota DIGEST los aceleraron para expresar los trenes de correo. . . La próxima semana, las primeras respuestas de estos diez millones comenzarán la marea entrante de las boletas marcadas, para ser verificadas tres veces, verificadas, clasificadas en cinco ocasiones y sumadas. Cuando la última cifra se haya sumado y verificado, si la experiencia pasada es un criterio, el país sabrá dentro de una fracción del 1 por ciento del voto popular real de cuarenta millones de [votantes] ". (22 de agosto de 1936)
La fetichización de tamaño de Literary Digest es instantáneamente reconocible para cualquier investigador de "big data" en la actualidad. De los 10 millones de boletas distribuidas, se devolvieron 2.4 millones asombrosos, aproximadamente 1,000 veces más grandes que las encuestas políticas modernas. De estos 2,4 millones de encuestados, el veredicto fue claro: Alf Landon iba a derrotar al titular Franklin Roosevelt. Pero, de hecho, Roosevelt derrotó a Landon en un deslizamiento de tierra. ¿Cómo podría Literary Digest salir mal con tanta información? Nuestra comprensión moderna del muestreo hace que los errores del Literary Digest sean claros y nos ayuda a evitar cometer errores similares en el futuro.
Pensar claramente sobre el muestreo requiere que consideremos cuatro grupos diferentes de personas (figura 3.2). El primer grupo es la población objetivo ; este es el grupo que el investigador define como la población de interés. En el caso de Literary Digest , la población objetivo eran los votantes en las elecciones presidenciales de 1936.
Después de decidir sobre una población objetivo, un investigador necesita desarrollar una lista de personas que puedan usarse para el muestreo. Esta lista se denomina marco de muestreo y las personas que se encuentran en ella reciben el nombre de población de fotogramas . Idealmente, la población objetivo y la población marco serían exactamente las mismas, pero en la práctica esto no suele ser el caso. Por ejemplo, en el caso de Literary Digest , la población de cuadros eran los 10 millones de personas cuyos nombres provenían predominantemente de directorios telefónicos y registros de registro de automóviles. Las diferencias entre la población objetivo y la población marco se denominan error de cobertura . El error de cobertura no garantiza por sí solo los problemas. Sin embargo, puede provocar un sesgo de cobertura si las personas en la población marco son sistemáticamente diferentes de las personas en la población objetivo que no están en la población marco. Esto es, de hecho, exactamente lo que sucedió en la encuesta Literary Digest . Las personas en su población de marcos tienden a ser más propensas a apoyar a Alf Landon, en parte porque son más ricas (recuérdese que tanto los teléfonos como los automóviles eran relativamente nuevos y costosos en 1936). Por lo tanto, en la encuesta Literary Digest , el error de cobertura generó un sesgo de cobertura.
Después de definir la población de marcos , el siguiente paso es que un investigador seleccione la población de muestra ; estas son las personas que el investigador intentará entrevistar. Si la muestra tiene características diferentes a la población de cuadros, entonces el muestreo puede introducir un error de muestreo . En el caso del fiasco del Resumen Literario , sin embargo, en realidad no hubo muestreo -la revista para contactar a todos los miembros de la población marco- y, por lo tanto, no hubo error de muestreo. Muchos investigadores tienden a centrarse en el error de muestreo, que suele ser el único tipo de error capturado por el margen de error informado en las encuestas, pero el fiasco del resumen literario nos recuerda que debemos considerar todas las fuentes de error, tanto al azar como sistemáticas.
Finalmente, después de seleccionar una población de muestra, un investigador intenta entrevistar a todos sus miembros. Las personas que son entrevistadas con éxito se llaman encuestadas . Idealmente, la población de la muestra y los encuestados serían exactamente iguales, pero en la práctica no hay respuesta. Es decir, las personas que se seleccionan en la muestra a veces no participan. Si las personas que responden son diferentes de las que no responden, entonces puede haber un sesgo de falta de respuesta . El sesgo de no respuesta fue el segundo problema principal con la encuesta Literary Digest . Solo el 24% de las personas que recibieron una boleta respondieron, y resultó que las personas que apoyaban a Landon tenían más probabilidades de responder.
Más allá de ser solo un ejemplo para presentar las ideas de representación, el sondeo de Literary Digest es una parábola muy repetida, que advierte a los investigadores sobre los peligros del muestreo fortuito. Desafortunadamente, creo que la lección que mucha gente saca de esta historia es la equivocada. La moraleja más común de la historia es que los investigadores no pueden aprender nada de muestras no probabilísticas (es decir, muestras sin reglas estrictas basadas en la probabilidad para seleccionar participantes). Pero, como mostraré más adelante en este capítulo, eso no está del todo bien. En cambio, creo que en realidad hay dos aspectos morales en esta historia; morales que son tan ciertas hoy como lo fueron en 1936. En primer lugar, una gran cantidad de datos recolectados al azar no garantizará una buena estimación. En general, tener un gran número de encuestados disminuye la varianza de las estimaciones, pero no necesariamente disminuye el sesgo. Con una gran cantidad de datos, los investigadores a veces pueden obtener una estimación precisa de lo incorrecto; pueden ser exactamente inexactos (McFarland and McFarland 2015) . La segunda lección principal del fiasco de Literary Digest es que los investigadores necesitan explicar cómo se recolectó su muestra al hacer las estimaciones. En otras palabras, debido a que el proceso de muestreo en la encuesta Literary Digest fue sistemáticamente sesgado hacia algunos encuestados, los investigadores necesitaron usar un proceso de estimación más complejo que ponderaba a algunos encuestados más que a otros. Más adelante en este capítulo, le mostraré un procedimiento de ponderación de ese tipo (post-estratificación) que puede permitirle realizar mejores estimaciones a partir de muestras al azar.