Cette section est conçue pour être utilisée comme référence, plutôt que d'être lu comme un récit.
Plusieurs des thèmes de ce chapitre ont également été repris dans les discours présidentiels récents à l'American Association of Opinion Research Public (AAPOR), tels que Dillman (2002) , Newport (2011) , Santos (2014) et Link (2015) .
Pour plus d' arrière - plan historique sur le développement de la recherche de l' enquête, voir Smith (1976) et Converse (1987) . Pour en savoir plus sur l'idée de trois époques de la recherche par sondage, voir Groves (2011) et Dillman, Smyth, and Christian (2008) (qui brise les trois époques légèrement différente).
Un pic à l' intérieur du passage de la première à la deuxième ère dans la recherche par sondage est Groves and Kahn (1979) , qui fait une comparaison détaillée en tête-à-tête entre un face-à-face et sondage téléphonique. Brick and Tucker (2007) revient sur l'évolution historique des chiffres aléatoires méthodes numérotation d'échantillonnage.
Pour en savoir plus comment l' enquête de recherche a changé dans le passé en réponse aux changements dans la société, voir Tourangeau (2004) , Mitofsky (1989) , et Couper (2011) .
Apprendre états internes en posant des questions peut être problématique parce que parfois les répondants eux-mêmes ne sont pas conscients de leurs états internes. Par exemple, Nisbett and Wilson (1977) ont un document merveilleux au titre évocateur: "Dire plus que nous pouvons savoir:. Les rapports verbaux sur les processus mentaux» Dans le document , les auteurs concluent: « les sujets sont parfois (a) pas au courant de la existence d'un stimulus qui a influencé surtout une réponse, (b) pas au courant de l'existence de la réponse, et (c) ignorent que le stimulus a affecté la réponse. "
Pour les arguments que les chercheurs devraient préférer le comportement observé le comportement ou les attitudes rapportées, voir Baumeister, Vohs, and Funder (2007) (psychologie) et Jerolmack and Khan (2014) et les réponses (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sociologie). La différence entre demander et en observant aussi se pose en économie, où les chercheurs parlent de préférences déclarées et révélées. Par exemple, un chercheur pourrait demander aux répondants s'ils préfèrent manger de la crème glacée ou d'aller à la salle de gym (préférences déclarées) ou la recherche pourrait observer comment les gens mangent souvent de la crème glacée et aller à la salle de gym (préférences révélées). Il est profond scepticisme de certains types de données de préférences déclarées en économie (Hausman 2012) .
Un thème principal de ces débats est que le comportement signalé est pas toujours exacte. Mais, le comportement enregistré automatiquement peut ne pas être exacte, ne peut être recueillie sur un échantillon d'intérêt, et peut ne pas être accessibles aux chercheurs. Ainsi, dans certaines situations, je pense que le comportement signalé peut être utile. En outre, un deuxième thème principal de ces débats est que les rapports sur les émotions, les connaissances, les attentes et les opinions ne sont pas toujours exactes. Mais, si des informations sur ces états internes sont nécessaires par des chercheurs soit pour aider à expliquer certains comportements ou comme la chose à expliquer, puis demandent peut être appropriée.
Pour les traitements de longueur de livre sur erreur d'enquête totale, voir Groves et al. (2009) ou Weisberg (2005) . Pour une histoire du développement de l' erreur d'enquête totale, voir Groves and Lyberg (2010) .
En termes de représentation, une excellente introduction aux problèmes de non-réponse et le biais de non-réponse est le rapport du Conseil national de recherches sur la non - réponse en sciences sociales Enquêtes: Un programme de recherche (2013) . Un autre aperçu utile est fourni par (Groves 2006) . En outre, entiers numéros spéciaux du Journal of Official Statistics, Public Opinion Quarterly, et les Annales de l'Académie américaine des sciences politiques et sociales ont été publiés sur le thème de la non-réponse. Enfin, il y a effectivement de nombreuses façons de calculer le taux de réponse; ces approches sont décrites en détail dans un rapport de l'Association américaine de l' opinion publique Les chercheurs (AAPOR) (Public Opinion Researchers} 2015) .
Le 1936 Literary Digest sondage a été étudié en détail (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Il a également été utilisé comme une parabole pour mettre en garde contre la collecte de données aléatoire (Gayo-Avello 2011) . En 1936, George Gallup a utilisé une forme plus sophistiquée de l'échantillonnage, et a été en mesure de produire des estimations plus précises avec un échantillon beaucoup plus petit. Le succès de Gallup sur Literary Digest a été une étape du développement de la recherche par sondage (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
En termes de mesure, une grande première ressource pour les questionnaires conception est Bradburn, Sudman, and Wansink (2004) . Pour un traitement plus avancé axé spécifiquement sur les questions d'attitude, voir Schuman and Presser (1996) . Plus d' informations sur des questions pré-test est disponible en Presser and Blair (1994) , Presser et al. (2004) , et le chapitre 8 de Groves et al. (2009) .
Le traitement classique, livre-longueur du compromis entre les coûts de l' enquête et les erreurs de l' enquête est Groves (2004) .
Classique traitement livre-longueur d'échantillonnage probabiliste standard et l' estimation sont Lohr (2009) (plus d' introduction) et Särndal, Swensson, and Wretman (2003) (plus avancé). Un traitement classique de longueur du livre des méthodes post-stratification et connexes est Särndal and Lundström (2005) . Dans certains paramètres d'âge numériques, les chercheurs savent un peu sur les non-répondants, qui n'a pas été souvent le cas dans le passé. Différentes formes d'ajustement de non-réponse sont possibles lorsque les chercheurs ont des informations sur les non-répondants (Kalton and Flores-Cervantes 2003; Smith 2011) .
L'étude Xbox de Wang et al. (2015) utilise une technique appelée régression à plusieurs niveaux et de post-stratification (MRP, parfois appelé «Monsieur P») qui permet aux chercheurs d'estimer signifie cellule même quand il y a beaucoup, beaucoup de cellules. Bien qu'il y ait un débat sur la qualité des estimations de cette technique, il semble comme un domaine prometteur à explorer. La technique a été utilisée la première fois dans le Park, Gelman, and Bafumi (2004) , et il a été utilisé et le débat ultérieur (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Pour en savoir plus sur la connexion entre les poids individuels et les poids à base de cellules voir Gelman (2007) .
Pour d' autres approches pour les enquêtes en ligne de pondération, voir Schonlau et al. (2009) , Valliant and Dever (2011) , et Bethlehem (2010) .
Appariement de l' échantillon a été proposé par Rivers (2007) . Bethlehem (2015) fait valoir que la performance de l' échantillon correspondant sera en fait semblable à d' autres méthodes d'échantillonnage (par exemple, échantillonnage stratifié) et d' autres approches d'ajustement (par exemple, post-stratification). Pour en savoir plus sur les panneaux en ligne, voir Callegaro et al. (2014) .
Parfois , les chercheurs ont constaté que des échantillons de probabilité et d' échantillons non probabilistes donnent des estimations de qualité similaire (Ansolabehere and Schaffner 2014) , mais d' autres comparaisons ont montré que les échantillons non probabilistes font pire (Malhotra and Krosnick 2007; Yeager et al. 2011) . Une raison possible de ces différences est que les échantillons non probabilistes sont améliorées au fil du temps. Pour une vision plus pessimiste des méthodes d'échantillonnage non probabilistes voir le Groupe de travail AAPOR sur l' échantillonnage non probabiliste (Baker et al. 2013) , et je recommande aussi de lire le commentaire qui suit le rapport de synthèse.
Pour une méta-analyse sur l'effet de pondération pour réduire le biais dans les échantillons non probabilistes, voir le tableau 2.4 dans Tourangeau, Conrad, and Couper (2013) , ce qui conduit les auteurs à conclure "ajustements semblent être des corrections utiles , mais faillibles. . ».
Conrad and Schober (2008) fournit un ouvrage intitulé Envisioning l'Enquête Interview de l'avenir, et il aborde de nombreux thèmes dans cette section. Couper (2011) traite des thèmes similaires, et Schober et al. (2015) offre un bel exemple de la façon dont les méthodes de collecte de données qui sont adaptées à un nouveau réglage peut entraîner des données de meilleure qualité.
Pour un autre exemple intéressant d'utiliser les applications Facebook pour les enquêtes en sciences sociales, voir Bail (2015) .
Pour plus des conseils pour faire des enquêtes une expérience agréable et précieuse pour les participants, voir les travaux sur la méthode de conception sur mesure (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) offre un traitement de longueur de livre de l' évaluation momentanée écologique et méthodes connexes.
Judson (2007) décrit le processus de combinaison des enquêtes et des données administratives comme « l' intégration de l' information," discute des avantages de cette approche, et offre quelques exemples.
Une autre façon que les chercheurs peuvent utiliser des traces numériques et des données administratives est une base de sondage pour les personnes ayant des caractéristiques spécifiques. Cependant, l' accès à ces dossiers à utiliser une base de sondage peut également créer des questions liées à la vie privée (Beskow, Sandler, and Weinberger 2006) .
En ce qui concerne demandé amplifié, cette approche ne soit pas aussi nouvelle que cela puisse paraître de la façon dont je l'ai décrit. Cette approche a des liens profonds à trois grandes zones de post-stratification à base de statistiques-modèle (Little 1993) , (Rubin 2004) (Rao and Molina 2015) (Little 1993) , l' imputation (Rubin 2004) , (Rubin 2004) , et l' estimation régionale (Rao and Molina 2015) . Il est également lié à l'utilisation de variables de substitution dans la recherche médicale (Pepe 1992) , (Pepe 1992) .
En plus des questions éthiques liées à l' accès aux données de trace numérique, demandant amplifié pourrait également être utilisée pour déduire les traits sensibles que les gens pourraient ne pas choisir de révéler dans une enquête (Kosinski, Stillwell, and Graepel 2013) .
Les estimations de coûts et de temps en Blumenstock, Cadamuro, and On (2015) se réfèrent plus à la variable coût du coût d'un coût enquête et supplémentaires ne comprennent pas fixes tels que le coût pour nettoyer et traiter les données d'appel. En général, demandant amplifié aura probablement des coûts fixes élevés et de faibles coûts variables similaires aux expériences numériques (voir chapitre 4). Plus de détails sur les données utilisées dans Blumenstock, Cadamuro, and On (2015) du papier sont en Blumenstock and Eagle (2010) et Blumenstock and Eagle (2012) . Approches de imputuation multiple (Rubin 2004) pourraient aider à capturer l' incertitude dans les estimations de demander amplifié. Si les chercheurs faisant , amplifiés demandant ne se soucient que des chiffres agrégés, plutôt que des traits de niveau individuel, les approches dans King and Lu (2008) et Hopkins and King (2010) peuvent être utiles. Pour en savoir plus sur les méthodes d'apprentissage de la machine à Blumenstock, Cadamuro, and On (2015) , voir James et al. (2013) (plus d' introduction) ou Hastie, Tibshirani, and Friedman (2009) (plus avancé). Un autre manuel d'apprentissage machine populaire est Murphy (2012) .
En ce qui concerne demandé enrichi, les résultats dans Ansolabehere et Hersh (2012) charnière sur deux étapes clés: 1) la capacité de Catalist de combiner plusieurs sources de données disparates pour produire un maître datafile précis et 2) la capacité de Catalist de relier les données d'enquête son datafile maître. Par conséquent, Ansolabehere et Hersh vérifier chacune de ces étapes avec soin.
Pour créer le maître datafile, Catalist combine et harmonise les informations provenant de nombreuses sources différentes, y compris: de multiples dossiers de vote instantanés de chaque état, les données de changement national du registre d'adresses du bureau de poste, et des données provenant d'autres fournisseurs commerciaux non spécifiés. Les détails sanglants sur la façon dont tout cela le nettoyage et la fusion se produit sont au-delà de la portée de ce livre, mais ce processus, peu importe les précautions, se propagent des erreurs dans les sources de données d'origine et introduira des erreurs. Bien que Catalist était prêt à discuter de son traitement de données et de fournir certaines de ses données brutes, il était tout simplement impossible pour les chercheurs d'examiner l'ensemble du pipeline de données Catalist. Au contraire, les chercheurs ont été dans une situation où le fichier de données Catalist avait une inconnue, et peut-être inconnaissable, quantité d'erreur. Ceci est une grave préoccupation car un critique pourrait spéculer que les grandes différences entre les rapports d'enquête sur le CCES et le comportement dans le fichier de données de base Catalist ont été causées par des erreurs dans le fichier de données de base, et non par de fausses déclarations par les répondants.
Ansolabehere et Hersh ont deux approches différentes pour répondre à la préoccupation de la qualité des données. Tout d'abord, en plus de comparer le vote autodéclarée au vote dans le fichier maître Catalist, les chercheurs ont également comparé partie auto-déclarée, la race, le statut de l'inscription des électeurs (par exemple, enregistré ou non enregistré) et la méthode de vote (par exemple, en personne, absent bulletin de vote, etc.) à ces valeurs trouvées dans les bases de données Catalist. Pour ces quatre variables démographiques, les chercheurs ont trouvé des niveaux beaucoup plus élevés d'accord entre le rapport d'enquête et les données dans le fichier maître Catalist que pour le vote. Ainsi, le fichier de données maître Catalist semble avoir une information de qualité pour des caractères autres que le vote, ce qui suggère qu'il n'y a pas de mauvaise qualité générale. Deuxièmement, en partie en utilisant les données de Catalist, Ansolabehere et Hersh ont développé trois mesures différentes de la qualité des dossiers comté de vote, et ils ont constaté que le taux estimé de sur-déclaration du vote était essentiellement lié à aucun de ces mesures de la qualité des données, une constatation qui suggèrent que les taux élevés de sur-déclaration ne sont pas entraînées par les comtés avec exceptionnellement faible qualité des données.
Compte tenu de la création de ce fichier de vote maître, la deuxième source d'erreurs potentielles relie les enregistrements de l'enquête à elle. Par exemple, si ce lien est mal fait , il pourrait conduire à une surestimation de la différence entre le comportement de vote déclarées et validées (Neter, Maynes, and Ramanathan 1965) . Si chaque personne avait une écurie, identifiant unique qui a été dans les deux sources de données, puis liaison serait trivial. Dans les autres pays américains et la plupart, cependant, il n'y a pas d'identificateur universel. En outre, même s'il y en avait un identifiant les gens seraient probablement réticents à fournir à sonder les chercheurs! Ainsi, Catalist avait à faire le lien en utilisant des identifiants imparfaites, dans ce cas quatre éléments d'information sur chaque répondant: nom, sexe, année de naissance et l'adresse de la maison. Par exemple, Catalist devait décider si le Homie J Simpson dans le CCES était la même personne que le Homer Jay Simpson dans leur fichier de données de base. Dans la pratique, l'appariement est un processus difficile et salissant, et, pour empirer les choses pour les chercheurs, Catalist considéré comme sa technique d'adaptation à être propriétaire.
Afin de valider les algorithmes d'appariement, ils se sont appuyés sur deux défis. Tout d'abord, Catalist participé à un concours de correspondance qui a été exécuté par un, tiers indépendant: la MITRE Corporation. MITRE a fourni tous les participants deux fichiers de données bruitées à mettre en correspondance, et les différentes équipes en compétition pour revenir à MITRE la meilleure correspondance. Parce que MITRE se connaissait la bonne correspondance, ils ont pu marquer les équipes. Sur les 40 entreprises qui ont participé, Catalist est venu à la deuxième place. Ce type d'évaluation indépendante, un tiers de la technologie exclusive est assez rare et extrêmement précieux; cela devrait nous donner confiance que les procédures correspondantes de CATALIST sont essentiellement à l'état-of-the-art. Mais l'état-of-the-art assez bon? En plus de ce concours de correspondance, Ansolabehere et Hersh ont créé leur propre défi d'adaptation pour Catalist. D'un projet antérieur, Ansolabehere et Hersh avaient recueilli les dossiers des électeurs de la Floride. Ils ont fourni certains de ces dossiers avec certains de leurs champs expurgés à Catalist puis comparé les rapports de CATALIST de ces champs à leurs valeurs réelles. Heureusement, les rapports de Catalist étaient proches des valeurs retenues, indiquant que Catalist pourrait correspondre à des enregistrements des électeurs partielles sur leur dossier de données de base. Ces deux défis, l'un par un tiers et un par Ansolabehere et Hersh, nous donnent plus de confiance dans les algorithmes d'appariement Catalist, même si nous ne pouvons pas examiner leur mise en œuvre exacte nous.
Il y a eu de nombreuses tentatives précédentes pour valider le vote. Pour un aperçu de cette littérature, voir Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , et Hanmer, Banks, and White (2014) .
Il est important de noter que, bien que dans ce cas, les chercheurs ont été encouragés par la qualité des données de Catalist, d'autres évaluations de fournisseurs commerciaux ont été moins enthousiastes. Les chercheurs ont constaté de mauvaise qualité lorsque les données d'une enquête à un consommateur fichier de marketing Systems Group (qui lui - même fusionné les données de trois fournisseurs: Acxiom, Experian et infoUSA) (Pasek et al. 2014) . Autrement dit, le fichier de données ne correspond réponses au sondage que les chercheurs devraient être corrects, le fichier de données avait données manquantes pour un grand nombre de questions, et le modèle de données manquantes a été corrélée à la valeur de l'enquête rapportée (autrement dit les données manquantes était systématique , non aléatoire).
Pour en savoir plus sur le couplage d' enregistrements entre les enquêtes et les données administratives, voir Sakshaug and Kreuter (2012) et Schnell (2013) . Pour en savoir plus sur le couplage d'enregistrements en général, voir Dunn (1946) et Fellegi and Sunter (1969) (historique) et Larsen and Winkler (2014) (moderne). Des approches similaires ont également été développées en informatique sous les noms tels que la déduplication des données, l' identification de l' instance, le nom correspondant, la détection des doublons, et la détection de doublons d'enregistrement (Elmagarmid, Ipeirotis, and Verykios 2007) . Il y a aussi la vie privée en préservant les approches pour enregistrer liaison qui ne nécessitent pas la transmission d'informations d' identification personnelle (Schnell 2013) . Des chercheurs de Facebook ont développé une procédure pour relier probabilisticsly leurs dossiers au comportement de vote (Jones et al. 2013) ; ce lien a été fait pour évaluer une expérience que je vais vous parler dans le chapitre 4 (Bond et al. 2012) .
Un autre exemple de relier une enquête sociale à grande échelle pour les dossiers administratifs du gouvernement provient de la santé et les retraites et la Social Security Administration. Pour en savoir plus sur cette étude, y compris des informations sur la procédure de consentement, voir Olson (1996) et Olson (1999) .
Le processus de combiner plusieurs sources de documents administratifs dans un maître-datafile le processus qui Catalist employés est commun dans les bureaux de statistique de certains gouvernements nationaux. Deux chercheurs de Statistics Sweden ont écrit un livre détaillé sur le sujet (Wallgren and Wallgren 2007) . Pour un exemple de cette approche dans un seul comté aux États-Unis (County Olmstead, Minnesota, la maison de la Clinique Mayo), voir Sauver et al. (2011) . Pour en savoir plus sur les erreurs qui peuvent apparaître dans les dossiers administratifs, voir Groen (2012) .