Plusieurs thèmes abordés dans ce chapitre ont également été repris dans les récentes allocutions présidentielles de l'Association américaine de recherche sur l'opinion publique (AAPOR), notamment celles de Dillman (2002) , Newport (2011) , Santos (2014) et Link (2015) .
Pour en savoir plus sur les différences entre la recherche par sondage et les entrevues approfondies, voir Small (2009) . En lien avec des entretiens approfondis, il existe une famille d'approches appelée ethnographie. Dans la recherche ethnographique, les chercheurs passent généralement beaucoup plus de temps avec les participants dans leur environnement naturel. Pour plus d'informations sur les différences entre l'ethnographie et les entretiens approfondis, voir Jerolmack and Khan (2014) . Pour plus d'informations sur l'ethnographie numérique, voir Pink et al. (2015) .
Ma description de l'histoire de la recherche par sondage est beaucoup trop brève pour inclure plusieurs des développements passionnants qui ont eu lieu. Pour plus de contexte historique, voir Smith (1976) , Converse (1987) et Igo (2008) . Pour en savoir plus sur l'idée des trois époques de la recherche par sondage, voir Groves (2011) et Dillman, Smyth, and Christian (2008) (qui décompose légèrement les trois époques).
Groves and Kahn (1979) offrent un aperçu de la transition de la première à la deuxième ère dans la recherche par sondage en faisant une comparaison détaillée entre une enquête en personne et une enquête téléphonique. ( ??? ) Retour sur le développement historique des méthodes d'échantillonnage par numérotation aléatoire.
Pour en savoir plus sur la façon dont la recherche a changé dans le passé en réponse aux changements dans la société, voir Tourangeau (2004) , ( ??? ) et Couper (2011) .
Les forces et les faiblesses de la demande et de l'observation ont été débattues par des psychologues (par exemple, Baumeister, Vohs, and Funder (2007) ) et des sociologues ( Jerolmack and Khan (2014) , Maynard (2014) , Cerulo (2014) , Vaisey (2014) , Jerolmack and Khan (2014) ] la différence entre demander et l' observation se pose aussi en économie, où les chercheurs parlent énoncés et préférences révélées Par exemple, un chercheur pourrait demander aux répondants s'ils préfèrent manger la crème glacée ou d' aller à la salle de gym.. (préférences déclarées), ou pourrait observer combien de fois les gens mangent de la crème glacée et vont à la gym (préférences révélées) Il y a un profond scepticisme sur certains types de données de préférences déclarées en économie comme décrit dans Hausman (2012) .
Un thème principal de ces débats est que le comportement rapporté n'est pas toujours précis. Mais, comme cela a été décrit au chapitre 2, les sources de données volumineuses peuvent ne pas être précises, ne pas être collectées sur un échantillon d'intérêt et ne pas être accessibles aux chercheurs. Ainsi, je pense que, dans certaines situations, le comportement rapporté peut être utile. En outre, un deuxième thème principal de ces débats est que les rapports sur les émotions, les connaissances, les attentes et les opinions ne sont pas toujours précis. Mais, si les chercheurs ont besoin d'informations sur ces états internes - soit pour expliquer un comportement ou pour expliquer quelque chose - alors demander peut être approprié. Bien sûr, l'apprentissage des états internes en posant des questions peut être problématique parce que parfois les répondants eux-mêmes ne sont pas conscients de leurs états internes (Nisbett and Wilson 1977) .
Le chapitre 1 de Groves (2004) fait un excellent travail en conciliant la terminologie parfois incohérente utilisée par les chercheurs de l'enquête pour décrire le cadre d'erreur total de l'enquête. Pour un traitement du livre complet du cadre d'erreur d'enquête totale, voir Groves et al. (2009) , et pour un aperçu historique, voir Groves and Lyberg (2010) .
L'idée de décomposer les erreurs en biais et en variance apparaît également dans l'apprentissage automatique; voir, par exemple, la section 7.3 de Hastie, Tibshirani, and Friedman (2009) . Cela amène souvent les chercheurs à parler d'un compromis «biais-variance».
En ce qui concerne la représentation, une excellente introduction aux problèmes de non-réponse et de biais de non-réponse est le rapport du Conseil national de recherches sur la non-réponse aux enquêtes en sciences sociales: un programme de recherche (2013) . Un autre aperçu utile est fourni par Groves (2006) . En outre, des numéros spéciaux entiers de la Revue des statistiques officielles , de l'Opinion publique trimestrielle et des Annales de l'Académie américaine des sciences politiques et sociales ont été publiés sur le sujet de la non-réponse. Enfin, il existe plusieurs façons différentes de calculer le taux de réponse; ces approches sont décrites en détail dans un rapport de l'Association américaine des chercheurs en opinion publique (AAPOR) ( ??? ) .
Pour plus d'informations sur le sondage de 1936 Literary Digest , voir Bryson (1976) , Squire (1988) , Cahalan (1989) et Lusinchi (2012) . Pour une autre discussion de ce sondage en tant qu'alarme de parabole contre la collecte de données hasardeuse, voir Gayo-Avello (2011) . En 1936, George Gallup a utilisé une forme plus sophistiquée d'échantillonnage et a pu produire des estimations plus précises avec un échantillon beaucoup plus petit. Le succès de Gallup sur le Literary Digest a été une étape importante dans le développement de la recherche par sondage, comme il est décrit au chapitre 3 de @ converse_survey_1987; le chapitre 4 d' Ohmer (2006) ; et le chapitre 3 de @ igo_averaged_2008.
En termes de mesure, une grande première ressource pour concevoir des questionnaires est Bradburn, Sudman, and Wansink (2004) . Pour des traitements plus avancés, voir Schuman and Presser (1996) , qui se concentre spécifiquement sur les questions d'attitude, et Saris and Gallhofer (2014) , qui est plus général. Une approche légèrement différente de la mesure est prise en psychométrie, comme décrit dans ( ??? ) . On peut en savoir plus sur le prétesting dans Presser and Blair (1994) , Presser et al. (2004) , et le chapitre 8 de Groves et al. (2009) . Pour plus d'informations sur les expériences d'enquête, voir Mutz (2011) .
En termes de coûts, Groves (2004) traite habituellement le compromis entre les coûts d'enquête et les erreurs d'enquête.
Lohr (2009) (plus d'introduction) et Särndal, Swensson, and Wretman (2003) (plus avancés) Särndal, Swensson, and Wretman (2003) deux longueurs classiques de l'échantillonnage probabiliste standard. Särndal and Lundström (2005) traitement classique de la poststratification et des méthodes connexes. Dans certains milieux d'âge numérique, les chercheurs en savent un peu plus sur les non-répondants, ce qui n'était pas souvent le cas par le passé. Différentes formes d'ajustement de la non-réponse sont possibles lorsque les chercheurs ont des informations sur les non-répondants, comme décrit par Kalton and Flores-Cervantes (2003) et Smith (2011) .
L'étude Xbox par W. Wang et al. (2015) utilise une technique appelée régression multiniveau et post-stratification («MP») qui permet aux chercheurs d'estimer les moyennes de groupes même lorsqu'il y a beaucoup, beaucoup de groupes. Bien qu'il y ait un débat sur la qualité des estimations de cette technique, cela semble être un domaine prometteur à explorer. La technique a été utilisée pour la première fois dans Park, Gelman, and Bafumi (2004) , et il y a eu utilisation et débat subséquents (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Pour plus d'informations sur le lien entre les poids individuels et les poids de groupe, voir Gelman (2007) .
Pour d'autres approches de pondération des enquêtes en ligne, voir Schonlau et al. (2009) , Bethlehem (2010) et Valliant and Dever (2011) . Les panneaux en ligne peuvent utiliser un échantillonnage probabiliste ou un échantillonnage non probabiliste. Pour plus d'informations sur les panels en ligne, voir Callegaro et al. (2014) .
Parfois, les chercheurs ont trouvé que les échantillons probabilistes et les échantillons non probabilistes donnent des estimations de qualité similaire (Ansolabehere and Schaffner 2014) , mais d'autres comparaisons ont montré que les échantillons non probabilistes sont plus mauvais (Malhotra and Krosnick 2007; Yeager et al. 2011) . Une raison possible de ces différences est que les échantillons non probabilistes se sont améliorés au fil du temps. Pour une vue plus pessimiste des méthodes d'échantillonnage non probabiliste, voir le groupe de travail AAPOR sur l'échantillonnage non probabiliste (Baker et al. 2013) , et je recommande également de lire le commentaire qui suit le rapport sommaire.
Conrad and Schober (2008) est un volume édité intitulé Envisager l'enquête d'entrevue de l'avenir , et il offre une variété de points de vue sur l'avenir de poser des questions. Couper (2011) aborde des thèmes similaires, et Schober et al. (2015) offrent un bel exemple de la façon dont les méthodes de collecte de données adaptées à un nouveau paramètre peuvent aboutir à des données de meilleure qualité. Schober and Conrad (2015) proposent un argument plus général sur la poursuite de l'ajustement du processus de recherche par sondage pour l'adapter aux changements de la société.
Tourangeau and Yan (2007) examinent les questions de biais de désirabilité sociale dans les questions sensibles, et Lind et al. (2013) offrent quelques raisons possibles pour lesquelles les gens pourraient divulguer des informations plus sensibles dans une interview administrée par ordinateur. Pour plus d'informations sur le rôle des intervieweurs humains dans l'augmentation des taux de participation aux enquêtes, voir Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) , et Schaeffer et al. (2013) . Pour plus d'informations sur les enquêtes en mode mixte, voir Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) proposent un traitement du livre de l'évaluation momentanée écologique et des méthodes connexes.
Pour plus de conseils sur la façon de rendre les sondages agréables et utiles pour les participants, voir les travaux sur la méthode de conception sur mesure (Dillman, Smyth, and Christian 2014) . Pour un autre exemple intéressant d'utilisation des applications Facebook pour les enquêtes en sciences sociales, voir Bail (2015) .
Judson (2007) décrit le processus de combinaison des enquêtes et des données administratives en tant qu '«intégration de l'information» et discute des avantages de cette approche, en plus d'offrir quelques exemples.
En ce qui concerne les demandes enrichies, il y a eu de nombreuses tentatives précédentes pour valider le vote. Pour un aperçu de cette littérature, voir Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) et Berent, Krosnick, and Lupia (2016) . Voir Berent, Krosnick, and Lupia (2016) pour une vision plus sceptique des résultats présentés dans Ansolabehere and Hersh (2012) .
Il est important de noter que même si Ansolabehere et Hersh ont été encouragés par la qualité des données de Catalist, d'autres évaluations de vendeurs commerciaux ont été moins enthousiastes. Pasek et al. (2014) trouvé une mauvaise qualité lorsque les données d'une enquête ont été comparées à un fichier consommateur de Marketing Systems Group (qui a lui-même fusionné les données de trois fournisseurs: Acxiom, Experian et InfoUSA). Autrement dit, le fichier de données ne correspondait pas aux réponses du sondage que les chercheurs s'attendaient à trouver correctes, le fichier du consommateur manquait de données pour un grand nombre de questions et le profil de données manquantes était corrélé avec la valeur du sondage (en d'autres termes, les données étaient systématiques et non aléatoires).
Pour plus d'informations sur les liens entre les enquêtes et les données administratives, voir Sakshaug and Kreuter (2012) et Schnell (2013) . Pour en savoir plus sur le couplage d'enregistrements en général, voir Dunn (1946) et Fellegi and Sunter (1969) (historique) et Larsen and Winkler (2014) (moderne). Des approches similaires ont également été développées en informatique sous des noms tels que la déduplication des données, l'identification des instances, l'appariement des noms, la détection des doublons et la détection des doublons (Elmagarmid, Ipeirotis, and Verykios 2007) . Il existe également des approches préservant la confidentialité du couplage d'enregistrements qui ne nécessitent pas la transmission d'informations d'identification personnelle (Schnell 2013) . Les chercheurs de Facebook ont mis au point une procédure pour lier de façon probabiliste leurs dossiers au comportement de vote (Jones et al. 2013) ; ce lien a été fait pour évaluer une expérience dont je vais vous parler dans le chapitre 4 (Bond et al. 2012) . Pour plus d'informations sur l'obtention du consentement pour le couplage d'enregistrements, voir Sakshaug et al. (2012) .
Un autre exemple de lien entre une enquête sociale à grande échelle et les dossiers administratifs gouvernementaux provient de l'Enquête sur la santé et la retraite et de l'Administration de la sécurité sociale. Pour plus d'informations sur cette étude, y compris des informations sur la procédure de consentement, voir Olson (1996, 1999) .
Le processus consistant à combiner de nombreuses sources de documents administratifs dans un fichier de données maître - le processus que Catalist emploie - est courant dans les bureaux de statistique de certains gouvernements nationaux. Deux chercheurs de Statistics Sweden ont rédigé un livre détaillé sur le sujet (Wallgren and Wallgren 2007) . Pour un exemple de cette approche dans un seul comté des États-Unis (Olmstead County, Minnesota, qui abrite la Mayo Clinic), voir Sauver et al. (2011) . Pour plus d'informations sur les erreurs pouvant apparaître dans les enregistrements administratifs, voir Groen (2012) .
Une autre façon pour les chercheurs d'utiliser les sources de données volumineuses dans la recherche par sondage est de constituer un cadre d'échantillonnage pour les personnes ayant des caractéristiques spécifiques. Malheureusement, cette approche peut soulever des questions liées à la vie privée (Beskow, Sandler, and Weinberger 2006) .
En ce qui concerne la demande amplifiée, cette approche n'est pas aussi nouvelle qu'elle pourrait sembler d'après ce que j'ai décrit. Il présente des liens profonds avec trois grandes régions statistiques: la post-stratification fondée sur un modèle (Little 1993) , l'imputation (Rubin 2004) et l'estimation sur petits domaines (Rao and Molina 2015) . Il est également lié à l'utilisation de variables de substitution dans la recherche médicale (Pepe 1992) .
Les estimations des coûts et du temps de Blumenstock, Cadamuro, and On (2015) réfèrent davantage au coût variable - le coût d'une enquête supplémentaire - et n'incluent pas les coûts fixes tels que le coût du nettoyage et du traitement des données d'appel. En général, les demandes amplifiées auront probablement des coûts fixes élevés et des coûts variables faibles similaires à ceux des expériences numériques (voir chapitre 4). Pour plus d'informations sur les enquêtes basées sur les téléphones mobiles dans les pays en développement, voir Dabalen et al. (2016) .
Pour des idées sur la façon de mieux faire des demandes amplifiées, je recommanderais d'en apprendre davantage sur l'imputation multiple (Rubin 2004) . De plus, si les chercheurs qui amplifient demandent des précisions sur les dénombrements agrégés plutôt que sur les caractères individuels, les approches de King and Lu (2008) et de Hopkins and King (2010) pourraient être utiles. Enfin, pour en savoir plus sur les approches d'apprentissage automatique dans Blumenstock, Cadamuro, and On (2015) , voir James et al. (2013) (plus d'introduction) ou Hastie, Tibshirani, and Friedman (2009) (plus avancé).
Un problème éthique concernant la demande amplifiée est qu'il peut être utilisé pour déduire des traits sensibles que les gens pourraient ne pas choisir de révéler dans une enquête comme décrit dans Kosinski, Stillwell, and Graepel (2013) .