Viele der Themen in diesem Kapitel wurden auch in kürzlichen Präsidentschaftsansprachen der American Association of Opinion Opinion Research (AAPOR) wiederholt, so zum Beispiel von Dillman (2002) , Newport (2011) , Santos (2014) und Link (2015) .
Zu den Unterschieden zwischen Umfrageforschung und Tiefeninterviews siehe Small (2009) . Im Zusammenhang mit Tiefeninterviews ist eine Familie von Ansätzen namens Ethnographie. In der ethnographischen Forschung verbringen Forscher im Allgemeinen viel mehr Zeit mit Teilnehmern in ihrer natürlichen Umgebung. Näheres zu den Unterschieden zwischen Ethnographie und Tiefeninterviews finden Sie in Jerolmack and Khan (2014) . Mehr zur digitalen Ethnographie finden Sie in Pink et al. (2015) .
Meine Beschreibung der Geschichte der Umfrageforschung ist viel zu kurz, um viele der aufregenden Entwicklungen einzubeziehen. Für mehr historischen Hintergrund siehe Smith (1976) , Converse (1987) und Igo (2008) . Mehr zur Idee von drei Epochen der Umfrageforschung finden Sie in Groves (2011) und Dillman, Smyth, and Christian (2008) (die die drei Epochen leicht unterschiedlich aufteilt).
Groves and Kahn (1979) bieten einen Einblick in den Übergang von der ersten zur zweiten Ära der Umfrageforschung, indem sie einen detaillierten direkten Vergleich zwischen einer Face-to-Face- und einer Telefonumfrage durchführen. ( ??? ) Rückblick auf die historische Entwicklung von Random-Digit-Dialing-Methoden.
Um mehr darüber zu erfahren, wie sich die Umfrageforschung in der Vergangenheit als Reaktion auf Veränderungen in der Gesellschaft verändert hat, siehe Tourangeau (2004) , ( ??? ) und Couper (2011) .
Die Stärken und Schwächen des Fragens und Beobachtens wurden von Psychologen (zB Baumeister, Vohs, and Funder (2007) ) und Soziologen (zB Jerolmack and Khan (2014) , Maynard (2014) , Cerulo (2014) , Vaisey (2014) ; Jerolmack and Khan (2014) ] Jerolmack and Khan (2014) Unterschied zwischen Fragen und Beobachten entsteht auch in der Ökonomie, wo Forscher über festgelegte und offenbarte Präferenzen sprechen.Zum Beispiel könnte ein Forscher die Befragten fragen, ob sie Eis essen oder ins Fitnessstudio gehen möchten (Vorgegebene Präferenzen), oder könnte beobachten, wie oft Menschen Eis essen und ins Fitnessstudio gehen (offengelegte Präferenzen) .Es gibt eine tiefe Skepsis gegenüber bestimmten Arten von angegebenen Präferenzdaten in der Ökonomie, wie in Hausman (2012) .
Ein Hauptthema dieser Debatten ist, dass das gemeldete Verhalten nicht immer korrekt ist. Wie in Kapitel 2 beschrieben, können große Datenquellen jedoch nicht genau sein, sie werden möglicherweise nicht in einer Stichprobe von Interesse gesammelt und sind für Forscher möglicherweise nicht zugänglich. Daher denke ich, dass in einigen Situationen gemeldetes Verhalten nützlich sein kann. Ein zweites Hauptthema dieser Debatten ist, dass Berichte über Emotionen, Wissen, Erwartungen und Meinungen nicht immer genau sind. Wenn jedoch Informationen über diese internen Zustände von den Forschern benötigt werden - entweder um ein bestimmtes Verhalten zu erklären oder um das zu erklären, was zu erklären ist -, dann kann das Fragen angemessen sein. Natürlich kann das Lernen von inneren Zuständen durch das Stellen von Fragen problematisch sein, weil manchmal die Befragten sich selbst ihrer inneren Zustände nicht bewusst sind (Nisbett and Wilson 1977) .
Kapitel 1 von Groves (2004) leistet hervorragende Arbeit bei der Vereinbarkeit der gelegentlich widersprüchlichen Terminologie, die von den Umfrageforschern zur Beschreibung des gesamten Erhebungsfehlersystems verwendet wird. Für eine buchlängenbezogene Behandlung des gesamten Erhebungsfehlerrahmens siehe Groves et al. (2009) , und für einen historischen Überblick, siehe Groves and Lyberg (2010) .
Die Idee, Fehler in Bias und Varianz zu zerlegen, kommt auch beim maschinellen Lernen vor; siehe zum Beispiel Abschnitt 7.3 von Hastie, Tibshirani, and Friedman (2009) . Dies führt häufig dazu, dass die Forscher über einen "Bias-Varianz" -Vergleich sprechen.
In Bezug auf die Repräsentation bietet der Bericht des Nationalen Forschungsrats "Nonresponse in Social Science Surveys: Eine Forschungsagenda" (2013) eine großartige Einführung in die Problematik des Nonresponse- und Non-Response-Bias. Ein weiterer nützlicher Überblick bietet Groves (2006) . Außerdem wurden ganze Sonderausgaben des Journal of Official Statistics , Public Opinion Quarterly und der Annals der American Academy of Political and Social Science zum Thema Non-Response veröffentlicht. Schließlich gibt es tatsächlich viele verschiedene Möglichkeiten, die Antwortquote zu berechnen; Diese Ansätze werden ausführlich in einem Bericht der American Association of Public Opinion Researchers (AAPOR) ( ??? ) .
Für weitere Cahalan (1989) über die Literary Digest- Umfrage von 1936 siehe Bryson (1976) , Squire (1988) , Cahalan (1989) und Lusinchi (2012) . Für eine weitere Diskussion dieser Umfrage als eine Parabel-Warnung gegen zufällige Datensammlung siehe Gayo-Avello (2011) . Im Jahr 1936 verwendete George Gallup eine ausgeklügeltere Form der Probenahme und war in der Lage, genauere Schätzungen mit einer viel kleineren Probe zu erstellen. Der Erfolg von Gallup gegenüber dem Literary Digest war ein Meilenstein in der Entwicklung der Umfrageforschung, wie in Kapitel 3 von @ converse_survey_1987 beschrieben; Kapitel 4 von Ohmer (2006) ; und Kapitel 3 von @ igo_averaged_2008.
Bradburn, Sudman, and Wansink (2004) Messung Bradburn, Sudman, and Wansink (2004) sind Bradburn, Sudman, and Wansink (2004) eine hervorragende Bradburn, Sudman, and Wansink (2004) . Für weitergehende Behandlungen siehe Schuman and Presser (1996) , die sich speziell mit Einstellungsfragen Saris and Gallhofer (2014) , und Saris and Gallhofer (2014) , die allgemeiner sind. Ein etwas anderer Ansatz zur Messung wird in der Psychometrie vorgenommen, wie in ( ??? ) . Mehr zum Vortest gibt es in Presser and Blair (1994) , Presser et al. (2004) und Kapitel 8 von Groves et al. (2009) . Mehr über Umfrageexperimente finden Sie in Mutz (2011) .
Was die Kosten anbelangt, ist Groves (2004) die klassische, buchlängenbasierte Behandlung des Kompromisses zwischen Umfragungskosten und Umsetzungsfehlern.
Zwei klassische Buchlängenbehandlungen von Standardwahrscheinlichkeitsproben und -schätzungen sind Lohr (2009) (mehr einleitend) und Särndal, Swensson, and Wretman (2003) (weiter fortgeschritten). Eine klassische Särndal and Lundström (2005) Behandlung von Post-Stratifizierung und verwandten Methoden ist Särndal and Lundström (2005) . In manchen Digital-Age-Einstellungen wissen die Forscher ziemlich viel über Nichtbeantworter, was in der Vergangenheit oft nicht der Fall war. Verschiedene Formen der Nonresponse-Anpassung sind möglich, wenn Forscher Informationen über Nichtbeantworter haben, wie von Kalton and Flores-Cervantes (2003) und Smith (2011) .
Die Xbox-Studie von W. Wang et al. (2015) verwendet eine Technik namens Multilevel-Regression und Post-Stratifizierung ("Mr. P."), die es Forschern erlaubt, Gruppenmittel zu schätzen, selbst wenn es viele, viele Gruppen gibt. Obwohl es eine Debatte über die Qualität der Schätzungen dieser Technik gibt, scheint es ein vielversprechender Bereich zu sein. Die Technik wurde zuerst in Park, Gelman, and Bafumi (2004) , und es wurde später verwendet und diskutiert (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Weitere Informationen zur Verbindung zwischen einzelnen Gewichtungen und Gruppengewichten finden Sie in Gelman (2007) .
Für andere Ansätze zur Gewichtung von Web-Befragungen siehe Schonlau et al. (2009) , Bethlehem (2010) und Valliant and Dever (2011) . Online-Panels können Stichproben mit oder ohne Wahrscheinlichkeit verwenden. Weitere Informationen zu Online-Panels finden Sie unter Callegaro et al. (2014) .
Manchmal haben Forscher herausgefunden, dass Wahrscheinlichkeits- und Nicht-Wahrscheinlichkeits-Stichproben ähnliche (Ansolabehere and Schaffner 2014) liefern (Ansolabehere and Schaffner 2014) , aber andere Vergleiche haben ergeben, dass sich Nicht-Wahrscheinlichkeits-Stichproben verschlechtern (Malhotra and Krosnick 2007; Yeager et al. 2011) . Ein möglicher Grund für diese Unterschiede ist, dass sich Nichtwahrscheinlichkeitsstichproben im Laufe der Zeit verbessert haben. Für eine pessimistischere Sichtweise der Nicht-Wahrscheinlichkeits-Stichprobenverfahren siehe die AAPOR-Taskforce zum Nicht-Wahrscheinlichkeits-Sampling (Baker et al. 2013) , und ich empfehle auch, den Kommentar zu lesen, der dem zusammenfassenden Bericht folgt.
Conrad and Schober (2008) ist ein Sammelband mit dem Titel " Das Interview der Zukunftsvisionen erahnen" und bietet eine Vielzahl von Standpunkten zur Zukunft des Fragens. Couper (2011) behandelt ähnliche Themen, und Schober et al. (2015) bieten ein schönes Beispiel dafür, wie Datenerfassungsmethoden, die auf eine neue Einstellung zugeschnitten sind, zu qualitativ hochwertigeren Daten führen können. Schober and Conrad (2015) bieten eine allgemeinere Argumentation darüber, den Prozess der Umfrageforschung weiter an Veränderungen in der Gesellschaft anzupassen.
Tourangeau and Yan (2007) befassen sich mit Fragen der Neigung zur sozialen Erwünschtheit in sensiblen Fragen, und Lind et al. (2013) bieten einige mögliche Gründe an, warum Personen sensitivere Informationen in einem computergesteuerten Interview offenlegen könnten. Mehr über die Rolle menschlicher Interviewer bei der Erhöhung der Teilnahmequoten in Umfragen, siehe Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) und Schaeffer et al. (2013) . Weitere Informationen zu Mixed-Mode-Umfragen finden Sie in Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) bieten eine bücherlange Behandlung der ökologischen Momentanbewertung und verwandter Methoden an.
Weitere Hinweise, wie Sie Umfragen zu einer angenehmen und wertvollen Erfahrung für die Teilnehmer machen können, finden Sie in der Arbeit zur Methode des maßgeschneiderten Designs (Dillman, Smyth, and Christian 2014) . Ein weiteres interessantes Beispiel für die Verwendung von Facebook-Apps für sozialwissenschaftliche Umfragen finden Sie unter Bail (2015) .
Judson (2007) beschreibt den Prozess der Kombination von Umfragen und administrativen Daten als "Informationsintegration" und diskutiert einige Vorteile dieses Ansatzes sowie einige Beispiele.
Was das angereicherte Fragen anbelangt, gab es viele frühere Versuche, die Abstimmung zu validieren. Für einen Überblick über diese Literatur siehe Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) sowie Berent, Krosnick, and Lupia (2016) . Für eine skeptischere Betrachtung der in Ansolabehere and Hersh (2012) präsentierten Ergebnisse siehe Berent, Krosnick, and Lupia (2016) Ansolabehere and Hersh (2012) .
Es ist wichtig zu beachten, dass, obwohl Ansolabehere und Hersh durch die Qualität der Daten von Catalist ermutigt wurden, andere Bewertungen von kommerziellen Anbietern weniger enthusiastisch waren. Pasek et al. (2014) fanden eine schlechte Qualität, wenn Daten aus einer Umfrage mit einer Verbraucherdatei der Marketing Systems Group verglichen wurden (die selbst Daten von drei Anbietern zusammenführte: Acxiom, Experian und InfoUSA). Das heißt, die Datendatei stimmte nicht mit Umfrageantworten überein, von denen die Forscher erwarteten, dass sie korrekt waren, die Consumer-Datei fehlte für eine große Anzahl von Fragen und das fehlende Datenmuster korrelierte mit dem gemeldeten Umfragewert (mit anderen Worten, der fehlende Daten waren systematisch, nicht zufällig).
Näheres zur Verbindung zwischen Umfragen und administrativen Daten finden Sie bei Sakshaug and Kreuter (2012) und Schnell (2013) . Für mehr auf Aufzeichnung Verbindung im Allgemeinen siehe Dunn (1946) und Fellegi and Sunter (1969) (historisch) und Larsen and Winkler (2014) (modern). Ähnliche Ansätze wurden auch in der Informatik unter Namen wie Datendeduplizierung, (Elmagarmid, Ipeirotis, and Verykios 2007) Duplikaterkennung und Dublettenerkennung entwickelt (Elmagarmid, Ipeirotis, and Verykios 2007) . Es gibt auch datenschutzkonservierende Ansätze zur Erfassung von Verknüpfungen, die keine Übermittlung personenbezogener Daten erfordern (Schnell 2013) . Facebook-Forscher haben ein Verfahren entwickelt, um ihre Datensätze probabilistisch mit dem Wahlverhalten zu verknüpfen (Jones et al. 2013) ; Diese Verknüpfung wurde gemacht, um ein Experiment zu evaluieren, über das ich in Kapitel 4 berichten werde (Bond et al. 2012) . Weitere Informationen zum Einholen der Zustimmung zur Datensatzverknüpfung finden Sie bei Sakshaug et al. (2012) .
Ein weiteres Beispiel für die Verknüpfung einer großangelegten Sozialerhebung mit Verwaltungsakten der Regierung stammt aus der Gesundheits- und Rentenerhebung und der Sozialversicherungsverwaltung. Für weitere Informationen zu dieser Studie, einschließlich Informationen zum Einwilligungsverfahren, siehe Olson (1996, 1999) .
Der Prozess der Kombination vieler Quellen von Verwaltungsakten zu einer Stammdatendatei - der Prozess, den Catalist verwendet - ist in den statistischen Ämtern einiger nationaler Regierungen üblich. Zwei Forscher von Statistics Sweden haben ein detailliertes Buch zum Thema geschrieben (Wallgren and Wallgren 2007) . Ein Beispiel für diesen Ansatz in einer einzigen Grafschaft in den Vereinigten Staaten (Olmstead County, Minnesota; Heimat der Mayo Clinic), siehe Sauver et al. (2011) . Weitere Informationen zu Fehlern, die in Verwaltungsdatensätzen auftreten können, finden Sie unter Groen (2012) .
Ein anderer Weg, auf dem Forscher große Datenquellen in der Umfrageforschung nutzen können, ist ein Stichprobenrahmen für Menschen mit spezifischen Merkmalen. Leider kann dieser Ansatz Fragen im Zusammenhang mit dem Datenschutz aufwerfen (Beskow, Sandler, and Weinberger 2006) .
In Bezug auf das verstärkte Nachfragen ist dieser Ansatz nicht so neu, wie es aus meiner Beschreibung hervorgehen könnte. In der Statistik gibt es enge Verbindungen zu drei großen Bereichen: modellbasierte Post-Stratifizierung (Little 1993) , Imputation (Rubin 2004) und Small Area-Schätzung (Rao and Molina 2015) . Es bezieht sich auch auf die Verwendung von Ersatzvariablen in der medizinischen Forschung (Pepe 1992) .
Die Kosten- und Zeitschätzungen in Blumenstock, Cadamuro, and On (2015) beziehen sich mehr auf variable Kosten - die Kosten für eine zusätzliche Umfrage - und beinhalten keine Fixkosten wie die Kosten für die Reinigung und Verarbeitung der Anrufdaten. Im Allgemeinen wird das verstärkte Bitten wahrscheinlich hohe Fixkosten und geringe variable Kosten haben, ähnlich wie bei digitalen Experimenten (siehe Kapitel 4). Weitere Dabalen et al. (2016) Handy-basierten Umfragen in Entwicklungsländern finden Sie in Dabalen et al. (2016) .
Für Ideen, wie man verstärkte Nachfragen besser macht, empfehle ich, mehr über Mehrfachimputation zu lernen (Rubin 2004) . Auch, wenn Forscher verstärkt Fragen nach Aggregat-Zählungen und nicht nach Merkmalen auf individueller Ebene stellen, dann könnten die Ansätze in King and Lu (2008) und Hopkins and King (2010) nützlich sein. Zu den maschinellen Lernansätzen in Blumenstock, Cadamuro, and On (2015) siehe James et al. (2013) (mehr Einführung) oder Hastie, Tibshirani, and Friedman (2009) (fortgeschrittener).
Ein ethisches Problem in Bezug auf verstärktes Fragen ist, dass es verwendet werden kann, um sensible Merkmale abzuleiten, die Menschen möglicherweise nicht in einer Umfrage offenbaren, wie in Kosinski, Stillwell, and Graepel (2013) .