Muchos de los temas de este capítulo también se han hecho eco en los recientes discursos presidenciales de la Asociación Estadounidense de Investigación de Opinión Pública (AAPOR), como los de Dillman (2002) , Newport (2011) , Santos (2014) y Link (2015)
Para obtener más información sobre las diferencias entre la investigación de encuestas y las entrevistas en profundidad, vea Small (2009) . En relación con las entrevistas en profundidad hay una familia de enfoques llamada etnografía. En la investigación etnográfica, los investigadores generalmente pasan mucho más tiempo con los participantes en su entorno natural. Para más información sobre las diferencias entre la etnografía y las entrevistas en profundidad, ver Jerolmack and Khan (2014) . Para más información sobre la etnografía digital, ver Pink et al. (2015) .
Mi descripción de la historia de la investigación de encuestas es demasiado breve para incluir muchos de los desarrollos emocionantes que han tenido lugar. Para obtener más antecedentes históricos, vea Smith (1976) , Converse (1987) e Igo (2008) . Para más sobre la idea de tres épocas de investigación de encuestas, ver Groves (2011) y Dillman, Smyth, and Christian (2008) (que divide las tres eras de forma ligeramente diferente).
Groves and Kahn (1979) ofrecen una ojeada dentro de la transición de la primera a la segunda era en la investigación de encuestas al hacer una comparación comparativa cara a cara entre una encuesta cara a cara y una encuesta telefónica. ( ??? ) mira hacia atrás en el desarrollo histórico de los métodos de muestreo de marcado aleatorio de dígitos.
Para más información sobre cómo la investigación de encuestas ha cambiado en el pasado en respuesta a los cambios en la sociedad, ver Tourangeau (2004) , ( ??? ) y Couper (2011) .
Las fortalezas y debilidades de preguntar y observar han sido debatidas por psicólogos (por ejemplo, Baumeister, Vohs, and Funder (2007) ) y sociólogos (por ejemplo, Jerolmack and Khan (2014) , Maynard (2014) , Cerulo (2014) , Vaisey (2014) , Jerolmack and Khan (2014) ]. La diferencia entre preguntar y observar también surge en la economía, donde los investigadores hablan de preferencias declaradas y reveladas. Por ejemplo, un investigador podría preguntar a los encuestados si prefieren comer helado o ir al gimnasio (preferencias establecidas), o podría observar con qué frecuencia la gente come helado e ir al gimnasio (preferencias reveladas). Hay un profundo escepticismo sobre ciertos tipos de datos de preferencias declaradas en economía, como se describe en Hausman (2012) .
Un tema principal de estos debates es que el comportamiento informado no siempre es exacto. Pero, como se describió en el capítulo 2, las fuentes de grandes volúmenes de datos pueden no ser precisas, pueden no recopilarse en una muestra de interés y pueden no ser accesibles para los investigadores. Por lo tanto, creo que, en algunas situaciones, el comportamiento informado puede ser útil. Además, un segundo tema principal de estos debates es que los informes sobre las emociones, el conocimiento, las expectativas y las opiniones no siempre son precisos. Pero, si los investigadores necesitan información sobre estos estados internos, ya sea para ayudar a explicar algún comportamiento o como lo que se debe explicar, entonces preguntar puede ser apropiado. Por supuesto, aprender acerca de los estados internos haciendo preguntas puede ser problemático porque a veces los encuestados no son conscientes de sus estados internos (Nisbett and Wilson 1977) .
El Capítulo 1 de Groves (2004) hace un excelente trabajo al conciliar la terminología ocasionalmente inconsistente utilizada por los investigadores de la encuesta para describir el marco total de error de la encuesta. Para un tratamiento de longitud de libro del marco de error de encuesta total, ver Groves et al. (2009) , y para una descripción histórica, ver Groves and Lyberg (2010) .
La idea de descomponer los errores en sesgo y varianza también aparece en el aprendizaje automático; ver, por ejemplo, la sección 7.3 de Hastie, Tibshirani, and Friedman (2009) . Esto a menudo lleva a los investigadores a hablar sobre una "disyuntiva de sesgo-varianza".
En términos de representación, una gran introducción a los temas de sesgo de falta de respuesta y falta de respuesta es el informe del Consejo Nacional de Investigación "Falta de respuesta en las encuestas de ciencias sociales: una agenda de investigación (2013) . Groves (2006) proporciona otra visión general útil. Además, se han publicado números especiales completos del Journal of Official Statistics , Public Opinion Quarterly y Annals of the American Academy of Political and Social Science sobre el tema de la falta de respuesta. Finalmente, en realidad hay muchas formas diferentes de calcular la tasa de respuesta; estos enfoques se describen en detalle en un informe de la Asociación Estadounidense de Investigadores de Opinión Pública (AAPOR) ( ??? ) .
Para más información sobre la encuesta Literary Digest de 1936, ver Bryson (1976) , Squire (1988) , Cahalan (1989) y Lusinchi (2012) . Para otra discusión de esta encuesta como una advertencia de parábola contra la recolección de datos fortuita, ver Gayo-Avello (2011) . En 1936, George Gallup utilizó una forma más sofisticada de muestreo y fue capaz de producir estimaciones más precisas con una muestra mucho más pequeña. El éxito de Gallup con respecto al Literary Digest fue un hito en el desarrollo de la investigación de encuestas, tal como se describe en el capítulo 3 de @convertse_survey_1987; el capítulo 4 de Ohmer (2006) ; y el capítulo 3 de @ igo_averaged_2008.
En términos de medición, un gran primer recurso para diseñar cuestionarios es Bradburn, Sudman, and Wansink (2004) . Para tratamientos más avanzados, ver Schuman and Presser (1996) , que se centra específicamente en preguntas de actitud, y Saris and Gallhofer (2014) , que es más general. Un enfoque ligeramente diferente a la medición se toma en psicometría, como se describe en ( ??? ) . Se puede obtener más información sobre las pruebas preliminares en Presser and Blair (1994) , Presser et al. (2004) y el capítulo 8 de Groves et al. (2009) . Para más información sobre los experimentos de encuestas, ver Mutz (2011) .
En términos de costo, el tratamiento clásico de un libro de la compensación entre los costos de la encuesta y los errores de la encuesta es Groves (2004) .
Dos tratamientos clásicos de un libro de probabilidad estándar de muestreo y estimación son Lohr (2009) (más introductorio) y Särndal, Swensson, and Wretman (2003) (más avanzado). Un tratamiento clásico de duración de libro de post-estratificación y métodos relacionados es Särndal and Lundström (2005) . En algunos entornos de la era digital, los investigadores saben bastante sobre los que no responden, lo que no solía ser cierto en el pasado. Las diferentes formas de ajuste sin respuesta son posibles cuando los investigadores tienen información sobre los que no responden, como lo describen Kalton and Flores-Cervantes (2003) y Smith (2011) .
El estudio de Xbox por W. Wang et al. (2015) utiliza una técnica llamada regresión multinivel y post-estratificación ("Sr. P.") que permite a los investigadores estimar los medios del grupo incluso cuando hay muchos, muchos grupos. Aunque existe cierto debate sobre la calidad de las estimaciones de esta técnica, parece un área prometedora para explorar. La técnica se usó por primera vez en Park, Gelman, and Bafumi (2004) , y ha habido uso y debate posterior (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Para más información sobre la conexión entre pesos individuales y pesos grupales, ver Gelman (2007) .
Para otros enfoques para ponderar encuestas web, ver Schonlau et al. (2009) , Bethlehem (2010) y Valliant and Dever (2011) . Los paneles en línea pueden usar tanto el muestreo probabilístico como el muestreo no probabilístico. Para más información sobre paneles en línea, ver Callegaro et al. (2014) .
A veces, los investigadores han encontrado que las muestras probabilísticas y no probabilísticas arrojan estimaciones de calidad similar (Ansolabehere and Schaffner 2014) , pero otras comparaciones han encontrado que las muestras no probabilísticas son peores (Malhotra and Krosnick 2007; Yeager et al. 2011) . Una posible razón para estas diferencias es que las muestras no probables han mejorado con el tiempo. Para una visión más pesimista de los métodos de muestreo no probables, véase el Grupo de trabajo de AAPOR sobre el muestreo no probabilístico (Baker et al. 2013) , y también recomiendo leer el comentario que sigue al informe resumido.
Conrad and Schober (2008) es un volumen editado titulado Envisioning the Survey Entrevista of the Future , y ofrece una variedad de puntos de vista sobre el futuro de hacer preguntas. Couper (2011) aborda temas similares, y Schober et al. (2015) ofrece un buen ejemplo de cómo los métodos de recopilación de datos que se adaptan a una nueva configuración pueden dar como resultado datos de mayor calidad. Schober and Conrad (2015) ofrecen un argumento más general sobre cómo continuar ajustando el proceso de investigación de encuestas para que coincida con los cambios en la sociedad.
Tourangeau and Yan (2007) revisan las cuestiones de sesgo de deseabilidad social en cuestiones delicadas, y Lind et al. (2013) ofrecen algunas posibles razones por las cuales las personas pueden divulgar información más confidencial en una entrevista administrada por computadora. Para más información sobre el papel de los entrevistadores humanos en el aumento de las tasas de participación en las encuestas, ver Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) y Schaeffer et al. (2013) . Para más información sobre las encuestas en modo mixto, vea Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) ofrecen un tratamiento de duración de un libro de evaluación ecológica momentánea y métodos relacionados.
Para obtener más consejos sobre cómo hacer que las encuestas sean una experiencia agradable y valiosa para los participantes, consulte el trabajo sobre el Método de diseño personalizado (Dillman, Smyth, and Christian 2014) . Para otro ejemplo interesante del uso de aplicaciones de Facebook para encuestas de ciencias sociales, ver Bail (2015) .
Judson (2007) describe el proceso de combinar encuestas y datos administrativos como "integración de información" y discute algunas ventajas de este enfoque, además de ofrecer algunos ejemplos.
En cuanto a la pregunta enriquecida, ha habido muchos intentos previos para validar la votación. Para una visión general de esa literatura, ver Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) , y Berent, Krosnick, and Lupia (2016) . Ver Berent, Krosnick, and Lupia (2016) para una visión más escéptica de los resultados presentados en Ansolabehere and Hersh (2012) .
Es importante señalar que aunque Ansolabehere y Hersh se sintieron alentados por la calidad de los datos de Catalist, otras evaluaciones de proveedores comerciales han sido menos entusiastas. Pasek et al. (2014) encontraron mala calidad cuando los datos de una encuesta se compararon con un archivo de consumidor de Marketing Systems Group (que a su vez fusionó datos de tres proveedores: Acxiom, Experian e InfoUSA). Es decir, el archivo de datos no coincidía con las respuestas de la encuesta que los investigadores esperaban corregir, el archivo del consumidor tenía datos faltantes para una gran cantidad de preguntas y el patrón de datos faltantes estaba correlacionado con el valor de la encuesta reportada (en otras palabras, la falta los datos fueron sistemáticos, no aleatorios).
Para más información sobre vinculación de registros entre encuestas y datos administrativos, ver Sakshaug and Kreuter (2012) y Schnell (2013) . Para más información sobre la vinculación de registros en general, ver Dunn (1946) y Fellegi and Sunter (1969) (histórico) y Larsen and Winkler (2014) (moderno). También se han desarrollado enfoques similares en informática con nombres como deduplicación de datos, identificación de instancia, coincidencia de nombres, detección de duplicados y detección de registros duplicados (Elmagarmid, Ipeirotis, and Verykios 2007) . También existen enfoques de preservación de la privacidad para registrar enlaces que no requieren la transmisión de información de identificación personal (Schnell 2013) . Los investigadores de Facebook desarrollaron un procedimiento para vincular de manera probabilística sus registros con el comportamiento electoral (Jones et al. 2013) ; este enlace se realizó para evaluar un experimento del que te hablaré en el capítulo 4 (Bond et al. 2012) . Para obtener más información sobre cómo obtener el consentimiento para la vinculación de registros, ver Sakshaug et al. (2012)
Otro ejemplo de vincular una encuesta social a gran escala con los registros administrativos del gobierno proviene de la Encuesta de Salud y Jubilación y la Administración de la Seguridad Social. Para obtener más información sobre ese estudio, incluida información sobre el procedimiento de consentimiento, ver Olson (1996, 1999) .
El proceso de combinar muchas fuentes de registros administrativos en un archivo de datos maestro, el proceso que Catalist emplea, es común en las oficinas de estadística de algunos gobiernos nacionales. Dos investigadores de Statistics Sweden han escrito un libro detallado sobre el tema (Wallgren and Wallgren 2007) . Para un ejemplo de este enfoque en un solo condado en los Estados Unidos (Condado de Olmstead, Minnesota, sede de la Clínica Mayo), ver Sauver et al. (2011) . Para obtener más información sobre los errores que pueden aparecer en los registros administrativos, consulte Groen (2012) .
Otra forma en que los investigadores pueden usar fuentes de big data en la investigación de encuestas es como un marco de muestreo para personas con características específicas. Desafortunadamente, este enfoque puede generar preguntas relacionadas con la privacidad (Beskow, Sandler, and Weinberger 2006) .
Con respecto a las preguntas amplificadas, este enfoque no es tan nuevo como podría parecer de cómo lo describí. Tiene conexiones profundas con tres grandes áreas en estadística: post-estratificación basada en modelos (Little 1993) , imputación (Rubin 2004) y estimación de áreas pequeñas (Rao and Molina 2015) . También está relacionado con el uso de variables sustitutivas en la investigación médica (Pepe 1992) .
Las estimaciones de costo y tiempo en Blumenstock, Cadamuro, and On (2015) refieren más al costo variable (el costo de una encuesta adicional) y no incluyen costos fijos como el costo de limpieza y procesamiento de los datos de llamadas. En general, las solicitudes amplificadas probablemente tendrán altos costos fijos y bajos costos variables similares a los de los experimentos digitales (véase el capítulo 4). Para más información sobre encuestas basadas en teléfonos móviles en países en desarrollo, ver Dabalen et al. (2016) .
Para obtener ideas sobre cómo hacer mejor las preguntas amplificadas, recomendaría aprender más sobre la imputación múltiple (Rubin 2004) . Además, si los investigadores que hacen preguntas amplificadas se preocupan por los recuentos agregados, en lugar de los rasgos individuales, entonces los enfoques de King and Lu (2008) y Hopkins and King (2010) pueden ser útiles. Finalmente, para obtener más información sobre los enfoques de aprendizaje automático en Blumenstock, Cadamuro, and On (2015) , ver James et al. (2013) (más introductorio) o Hastie, Tibshirani, and Friedman (2009) (más avanzado).
Un problema ético con respecto a la solicitud amplificada es que puede usarse para inferir rasgos sensibles que las personas podrían no revelar en una encuesta como se describe en Kosinski, Stillwell, and Graepel (2013) .