La representación se trata de hacer inferencias a partir de los encuestados a su población objetivo.
Con el fin de entender el tipo de errores que pueden ocurrir cuando inferir a partir de los encuestados a la población más grande, vamos a considerar el sondeo resumen literario que trató de predecir el resultado de la elección presidencial de Estados Unidos 1936. A pesar de que fue hace más de 75 años, esta debacle todavía tiene una importante lección para enseñar a los investigadores en la actualidad.
Resumen literario era una revista de interés general popular, ya partir de 1920 empezó a correr sondeos para predecir los resultados de las elecciones presidenciales. Para hacer estas predicciones podrían enviar papeletas para mucha gente, y luego simplemente contabilizar las papeletas que fueron devueltos; Literary Digest informó con orgullo que los votos que recibieron fueron ni "ponderado, ajustado, ni interpretada." Este procedimiento predijo correctamente el ganador de las elecciones de 1920, 1924, 1928 y 1932. en 1936, en medio de la Gran Depresión, Literary Digest envió las papeletas a 10 millones de personas, cuyos nombres predominantemente vino de guías telefónicas y los registros de inscripción de automóviles. He aquí cómo describen su metodología:
"Del Digesto de marcha suave máquina se mueve con la rápida precisión de treinta años de experiencia para reducir las conjeturas de los hechos concretos. . . .Esta Semana 500 plumas rayado a cabo más de un cuarto de millón de direcciones de un día. Cada día, en una gran sala muy por encima de la cuarta avenida motor ribboned, en Nueva York, 400 trabajadores hábilmente deslice un millón de piezas de material impreso, lo suficiente para pavimentar cuarenta bloques-ciudad en los sobres abordados [sic]. Cada hora, en la propia oficina de correos Subestación DEL COMPENDIO, máquinas de medición de franqueo tres castañeteo sellado y sellado los rectángulos blancos; los empleados de correos expertos les da la vuelta al abultamiento mailsacks; COMPENDIO camiones flota a toda velocidad que se expresen electrónico de los trenes. . . La próxima semana, las primeras respuestas de estos diez millones comenzarán la marea entrante de papeletas marcadas, para ser triple comprobado, verificado, cinco veces cruzada clasificada y totalizado. Cuando la última cifra se ha totted y comprobado, si la experiencia pasada es un criterio, el país sabrá dentro de una fracción de un 1 por ciento del voto popular real de cuarenta millones de electores []. "(22 de agosto, 1936)
fetichización del tamaño del Digesto es instantáneamente reconocible para cualquier investigador "grandes datos" en la actualidad. De los 10 millones de papeletas distribuidas, se devolvieron-que un sorprendente 2,4 millones de papeletas es más o menos 1.000 veces más grande que las encuestas políticas modernas. De estos 2,4 millones de encuestados que el veredicto era claro: Literary Digest predijo que el retador Alf Landon iba a derrotar el titular Franklin Roosevelt. Pero, de hecho, ocurrió exactamente lo contrario. Roosevelt derrotó Landon en un deslizamiento de tierra. ¿Cómo podría resumen literario ir mal con tantos datos? Nuestra comprensión moderna de muestreo hace que los errores de Literary Digest clara y nos ayuda a evitar cometer errores similares en el futuro.
Pensar con claridad acerca de muestreo nos obliga a considerar cuatro diferentes grupos de personas (Figura 3.1). El primer grupo de personas es la población objetivo; este es el grupo que la investigación se define como la población de interés. En el caso del resumen literario la población objetivo fue votantes en la elección presidencial de 1936. Después de decidir sobre una población objetivo, un investigador próxima necesita desarrollar una lista de personas que pueden ser utilizados para el muestreo. Esta lista se llama un marco de muestreo y la población en el marco de la muestra se llama la población marco. En el caso de la población resumen literario marco era los 10 millones de personas cuyos nombres llegaron predominantemente de guías telefónicas y los registros de inscripción de automóviles. Lo ideal sería que la población objetivo y la población trama sería exactamente lo mismo, pero en la práctica esto no suele ser el caso. Las diferencias entre la población destinataria y el marco se llama error de cobertura. El error de cobertura no es así, garantizar por sí solo los problemas. Sin embargo, si las personas de la población trama son sistemáticamente diferentes de la gente no en la población marco habrá sesgo de cobertura. El error de cobertura fue el primero de los grandes defectos con el sondeo resumen literario. Querían aprender sobre los votantes de que era su población objetivo, pero que construyen un marco de muestreo predominantemente de directorios telefónicos y los registros de automóviles, fuentes que sobre-representados los estadounidenses más ricos que eran más propensos a apoyar Alf Landon (recordemos que ambas tecnologías, que son comunes hoy en día, eran relativamente nuevo en el tiempo y que los EE.UU. estaba en medio de la Gran Depresión).
Después de definir la población marco, el siguiente paso es para un investigador para seleccionar la muestra de población; estas son las personas que el investigador va a tratar de entrevistar. Si la muestra tiene características diferentes a la población marco, a continuación, podemos introducir el error de muestreo. Este es el tipo de error cuantificado en el margen de error que suele acompañar a las estimaciones. En el caso del fiasco resumen literario, de hecho, hubo ninguna muestra; que intentaron establecer contacto con todos los miembros de la población marco. A pesar de que no hubo un error de muestreo, había, evidentemente, todavía error. Esto aclara que los márgenes de errores que normalmente se reportan con las estimaciones de las encuestas suelen ser engañosamente pequeña; que no incluyen todas las fuentes de error.
Por último, un investigador intenta entrevistar a todos los miembros de la población de la muestra. Aquellas personas que se entrevistaron con éxito se llaman los encuestados. Idealmente, la población de la muestra y los encuestados sería exactamente lo mismo, pero en la práctica no es la falta de respuesta. Es decir, las personas que han sido seleccionados en la muestra se niegan a participar. Si las personas que responden son diferentes de los que no responden, entonces no puede haber sesgo de no respuesta. Sesgo de no respuesta fue el segundo problema principal con el sondeo resumen literario. Sólo el 24% de las personas que recibieron una papeleta respondió, y resultó que las personas que apoyaron Landon eran más propensos a responder.
Más allá de ser un ejemplo para introducir las ideas de la representación, la encuesta resumen literario es una parábola muy repetida, advirtiendo a los investigadores acerca de los peligros de muestreo arbitrario. Por desgracia, creo que la lección que muchas personas obtienen de esta historia no es la correcta. La moral más común de la historia es que los investigadores no pueden aprender nada de muestras no probabilísticas (es decir, muestras sin normas estrictas basadas en la probabilidad de selección de los participantes). Pero, como lo mostraré más adelante en este capítulo, que no es del todo correcto. En lugar de ello, creo que en realidad hay dos moral de esta historia; la moral que son tan cierto hoy como lo fueron en 1936. En primer lugar, una gran cantidad de datos recogidos al azar, no garantizan una buena estimación. En segundo lugar, los investigadores tienen que dar cuenta de cómo se ha recogido sus datos cuando están haciendo estimaciones de ella. En otras palabras, debido a que el proceso de recolección de datos en la encuesta resumen literario fue sesgada hacia sistemáticamente algunos de los encuestados, los investigadores necesitan utilizar un proceso de estimación más compleja que los pesos algunas de las respuestas más que otros. Más adelante en este capítulo, te voy a mostrar un tal ponderación procedimiento de post-estratificación que puede permitirle tomar mejores estimaciones con muestras no probabilísticas.