Dieser Abschnitt soll als Referenz verwendet werden, anstatt als eine Erzählung gelesen werden.
Viele der Themen in diesem Kapitel sind in den letzten Präsidenten Adressen bei der American Association of Public Opinion Research (AAPOR), wie Echo worden Dillman (2002) , Newport (2011) , Santos (2014) , und - Link (2015) .
Weitere historischen Hintergrund über die Entwicklung der Umfrageforschung, siehe Smith (1976) und Converse (1987) . Weitere Informationen über die Idee von drei Epochen der Umfrageforschung, siehe Groves (2011) und Dillman, Smyth, and Christian (2008) (die bis bricht die drei Epochen etwas anders).
Ein Höhepunkt in der Übergang von der ersten in die zweite Ära in der Umfrageforschung ist Groves and Kahn (1979) , das macht eine detaillierte Kopf-an-Kopf - Vergleich zwischen einer face-to-face und Telefonumfrage. Brick and Tucker (2007) befasst sich mit der historischen Entwicklung der Random digit Dialing Probenahmeverfahren zurück.
Weitere , wie die Umfrageforschung in der Vergangenheit als Reaktion auf Veränderungen in der Gesellschaft geändert hat, sehen Tourangeau (2004) , Mitofsky (1989) und Couper (2011) .
Lernen über interne Zustände durch Fragen kann problematisch sein, weil manchmal die Befragten sind sich ihrer inneren Zustände nicht bekannt. Zum Beispiel Nisbett and Wilson (1977) haben ein wunderbares Papier mit dem suggestiven Titel: "mehr zu sagen , als wir wissen können. Verbale Berichte über mentale Prozesse" In dem Papier die Autoren folgern: "Themen sind manchmal (a) keine Kenntnis von der Existenz eines Stimulus, der wichtiger ist, eine Antwort beeinflusst, (b) keine Kenntnis von der Existenz der Reaktion und (c) nicht bewusst, dass der Stimulus die Reaktion beeinflusst hat. "
Für Argumente , die Forscher sollten beobachteten Verhalten berichtet Verhalten oder Einstellungen bevorzugen, sehen Baumeister, Vohs, and Funder (2007) (Psychologie) und Jerolmack and Khan (2014) und Antworten (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (Soziologie). Der Unterschied zwischen fragen und Beobachtung stellt sich auch in der Wirtschaft, in dem Forscher über angegeben und offenbarte Vorlieben zu sprechen. Zum Beispiel könnte ein Forscher Befragten fragen, ob sie Eis oder ins Fitness-Studio (angegeben Präferenzen) oder die Forschung könnte beobachten lieber auswärts essen, wie oft die Menschen essen Eis und gehen in die Turnhalle (Offenbarte Präferenzen). Es gibt tiefe Skepsis bestimmter Arten von geäußerten Präferenzen Daten in der Wirtschaft (Hausman 2012) .
Ein Hauptthema aus diesen Debatten ist, dass gemeldete Verhalten nicht immer korrekt ist. Aber, automatisch aufgezeichnet Verhalten kann nicht korrekt sein, kann nicht auf einer Stichprobe von Interesse gesammelt werden und kann nicht für Forscher zugänglich sein. So kann in manchen Situationen, denke ich, dass gemeldete Verhalten nützlich sein kann. Ferner ist ein zweites Hauptthema aus diesen Debatten, dass die Berichte über Emotionen, Wissen, Erwartungen und Meinungen sind nicht immer korrekt. Aber, wenn Informationen über diese internen Zustände durch benötigt werden Forscher, entweder zu helfen, ein bestimmtes Verhalten zu erklären oder wie das Ding erläutert-dann werden kann angebracht sein, zu fragen.
Für Buch Länge Behandlungen auf das Gesamt Umfrage Fehler finden Groves et al. (2009) oder Weisberg (2005) . Für eine Geschichte der Entwicklung der gesamten Umfrage Fehler finden Groves and Lyberg (2010) .
In Bezug auf die Darstellung, eine großartige Einführung in die Fragen der Non-Response und Non-Response - Bias ist die National Research Council Bericht über Nonresponse in Sozialwissenschaften Surveys: A Research Agenda (2013) . Eine weitere nützliche Übersicht wird bereitgestellt durch (Groves 2006) . Auch ganze Sonderausgaben des Journal der amtlichen Statistik, öffentliche Meinung Quarterly, und den Annalen der amerikanischen Akademie der Politik- und Sozialwissenschaften wurden zum Thema Non-Response veröffentlicht. Schließlich gibt es tatsächlich viele verschiedene Möglichkeiten, die Reaktionsrate zu berechnen; Diese Ansätze werden ausführlich in einem Bericht von der American Association of Public Opinion Forscher (AAPOR) beschrieben (Public Opinion Researchers} 2015) .
Die 1936 Literary Digest - Umfrage wurde im Detail untersucht worden (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Es hat sich auch als Parabel zu warnen vor planlos Datensammlung verwendet (Gayo-Avello 2011) . Im Jahr 1936 verwendet George Gallup eine komplexere Form der Probenahme und konnte genauere Schätzungen mit einem viel kleineren Probe zu erzeugen. Gallup Erfolg über den Literary Digest war ein Meilenstein der Entwicklung der Umfrageforschung (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
In Bezug auf die Messung, eine große erste Ressource für die Gestaltung von Fragebögen ist Bradburn, Sudman, and Wansink (2004) . Für eine weitergehende Behandlung speziell auf Einstellungsfragen fokussiert, sehen Schuman and Presser (1996) . Mehr zu Vortest Fragen ist in Presser and Blair (1994) , Presser et al. (2004) und in Kapitel 8 von Groves et al. (2009) .
Das klassische, Buchlänge Behandlung des Kompromisses zwischen Vermessungskosten und Erhebungsfehler ist Groves (2004) .
Klassische Buchlänge Behandlung von Standard - Wahrscheinlichkeitsstichproben und Schätzung sind Lohr (2009) (mehr Einführungs-) und Särndal, Swensson, and Wretman (2003) (Fortgeschrittene). Ein klassisches Buchlänge Behandlung von post-Schichtung und verwandte Verfahren ist Särndal and Lundström (2005) . In einigen digitalen Zeitalter Einstellungen, wissen die Forscher eine ganze Menge über die nicht geantwortet, was nicht oft der Fall in der Vergangenheit war. Verschiedene Formen von Non-Response - Einstellung sind möglich , wenn Forscher haben Informationen über nicht-Befragten (Kalton and Flores-Cervantes 2003; Smith 2011) .
Die Xbox Studie von Wang et al. (2015) verwendet eine Technik namens Multi - Level - Regression und post-Schichtung (MRP, manchmal "Herr P" genannt) , die Forscher Zelle abschätzen zu können bedeutet , auch wenn es viele, viele Zellen. Zwar gibt es einige Diskussionen über die Qualität der Schätzungen von dieser Technik ist, so scheint es wie ein viel versprechendes Gebiet zu erkunden. Die Technik wurde erstmals verwendet Park, Gelman, and Bafumi (2004) , und es hat die spätere Verwendung und Debatte (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Weitere Informationen über die Verbindung zwischen den einzelnen Gewichten und zellbasierte Gewichte siehe Gelman (2007) .
Für andere Ansätze zur Gewichtung Web - Befragungen finden Schonlau et al. (2009) , Valliant and Dever (2011) , und Bethlehem (2010) .
Beispielanpassung durch vorgeschlagen wurde Rivers (2007) . Bethlehem (2015) argumentiert , dass die Leistung der Probenanpassung tatsächlich auf andere Probenahme Ansätze ähnlich sein (zB geschichtete Stichprobe) und andere Anpassungsansätze (zB post-Schichtung). Weitere auf Online - Panels, Callegaro et al. (2014) .
Manchmal haben Forscher fanden heraus , dass Wahrscheinlichkeitsstichproben und nicht-Wahrscheinlichkeitsstichproben Schätzungen von ähnlicher Qualität ergeben (Ansolabehere and Schaffner 2014) , aber auch andere Vergleiche haben herausgefunden , dass nicht-Wahrscheinlichkeit Proben schlechter abschneiden (Malhotra and Krosnick 2007; Yeager et al. 2011) . Ein möglicher Grund für diese Unterschiede ist, dass nicht-Wahrscheinlichkeits Proben im Laufe der Zeit verbessert. Für eine pessimistische Sicht der Nicht-Zufallsstichprobenverfahren finden Sie in der die AAPOR Task Force für Nicht-Wahrscheinlichkeit Sampling (Baker et al. 2013) , und ich empfehle auch den Kommentar zu lesen, die den zusammenfassenden Bericht folgt.
Für eine Meta-Analyse über die Wirkung von Gewichtungs Bias in nicht-Wahrscheinlichkeit Proben zu reduzieren, siehe Tabelle 2.4 in Tourangeau, Conrad, and Couper (2013) , die die Autoren führt zu dem Schluss , "Anpassungen scheinen nützlich , aber fehlbar Korrekturen zu sein. . . "
Conrad and Schober (2008) stellt ein Sammelband der Umfrage Interview der Zukunft betitelt Envisioning ab , so wie viele der Themen in diesem Abschnitt. Couper (2011) befasst sich ähnliche Themen und Schober et al. (2015) bietet ein schönes Beispiel dafür , wie Datenerfassungsmethoden , die auf eine neue Einstellung zugeschnitten sind in einer höheren Datenqualität führen kann.
Für ein weiteres interessantes Beispiel für die Verwendung Facebook - Apps für die sozialwissenschaftliche Erhebungen finden Bail (2015) .
Weitere Hinweise zum Umfragen einen angenehmen und wertvolle Erfahrung für die Teilnehmer zu machen, finden Sie Arbeiten an der bedarfsgerechten Gestaltung Methode (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) bietet eine Buchlänge Behandlung von ökologischen momentane Bewertung und verwandte Methoden.
Judson (2007) , den Prozess der Kombination von Erhebungen und Verwaltungsdaten , wie "Informationsintegration" , beschreibt einige Vorteile dieses Ansatzes, und bietet einige Beispiele.
Eine weitere Möglichkeit, die Forscher digitale Spuren und Verwaltungsdaten verwenden können, ist ein Stichprobenrahmen für Menschen mit spezifischen Eigenschaften. Allerdings können diese Aufzeichnungen ein Stichprobenrahmen verwendet werden , auch auf Schutz der Privatsphäre im Zusammenhang mit Fragen erstellen (Beskow, Sandler, and Weinberger 2006) .
verstärkt fragen angeht, ist dieser Ansatz nicht so neu, wie es scheinen mag aus, wie ich habe es beschrieben. Dieser Ansatz hat tiefe Verbindungen zu drei große Bereiche in der Statistik-Modell-basierten Post Schichtung (Little 1993) , Anrechnungs (Rubin 2004) , und von kleinräumigen Schätz (Rao and Molina 2015) . Es wird auch die Verwendung von Surrogat - Variablen in der medizinischen Forschung im Zusammenhang mit (Pepe 1992) .
Zusätzlich zu den ethischen Fragen in Bezug auf die digitalen Trace - Daten zugreifen, verstärkt fragen auch sensible Züge verwendet werden könnten , zu folgern , dass die Menschen nicht in einer Umfrage zu entnehmen könnte wählen (Kosinski, Stillwell, and Graepel 2013) .
Die Kosten- und Zeitschätzungen in Blumenstock, Cadamuro, and On (2015) beziehen sich mehr auf variable Kosten die Kosten für eine zusätzliche Umfrage-und beinhalten keine Fixkosten wie die Kosten zu reinigen und die Gesprächsdaten verarbeiten. In der Regel wird verstärkt wahrscheinlich fragen haben hohe Fixkosten und niedrige variable Kosten ähnlich wie digitale Experimente (siehe Kapitel 4). Weitere Details zu den verwendeten Daten in Blumenstock, Cadamuro, and On (2015) Papier sind in Blumenstock and Eagle (2010) und Blumenstock and Eagle (2012) . Ansätze von mehreren imputuation (Rubin 2004) könnte Capture Unsicherheit der Schätzungen von verstärkten fragen helfen. Wenn Forscher verstärkt Tun fragen nach Aggregat zählt nur kümmern, anstatt individueller Ebene Züge, dann sind die Ansätze in der King and Lu (2008) und Hopkins and King (2010) nützlich sein. Weitere Informationen über den Maschinenlernansätze in Blumenstock, Cadamuro, and On (2015) , siehe James et al. (2013) (mehr Einführungs-) oder Hastie, Tibshirani, and Friedman (2009) (Fortgeschrittene). Ein weiteres beliebtes maschinelles Lernen Lehrbuch ist Murphy (2012) .
Angereichert fragen In Bezug auf die Ergebnisse in Ansolabehere und Hersh (2012) Scharnier auf zwei Schlüsselschritte: 1) die Fähigkeit von Catalist viele unterschiedliche Datenquellen zu kombinieren , um eine genaue Master Daten - Datei und 2) die Fähigkeit von Catalist zu produzieren , die Umfragedaten zu verknüpfen seine Master Daten-Datei. Überprüfen Sie deshalb Ansolabehere und Hersh sorgfältig jeden dieser Schritte.
Um den Master Daten-Datei zu erstellen, kombiniert Catalist und harmoniert Informationen aus vielen verschiedenen Quellen, einschließlich: mehrere Abstimmungsprotokolle Schnappschüsse aus jedem Staat, Daten von der nationalen Änderung der Post-Adressen Registry und Daten von anderen nicht näher bezeichnet kommerziellen Anbietern. Die blutigen Details darüber, wie all diese Reinigung und das Verschmelzen geschieht sind über den Rahmen dieses Buches, aber dieser Prozess, egal wie vorsichtig, werden Fehler in den ursprünglichen Datenquellen verbreiten und zu Fehlern führen wird. Obwohl Catalist bereit war, seine Datenverarbeitung zu diskutieren und einige seiner Rohdaten liefern, war es einfach unmöglich für die Forscher die gesamte Catalist Datenpipeline zu überprüfen. Vielmehr waren die Forscher in einer Situation, wo die Catalist Datendatei hatte einige unbekannte, vielleicht unerkennbar, Menge Fehler. Das ist ein ernstes Problem, weil ein Kritiker, dass die großen Unterschiede zwischen den Umfrage Berichte über die CCES und das Verhalten in der Stammdaten-Datei Catalist spekulieren könnte durch Fehler in der Stammdaten-Datei verursacht wurden, nicht von den Befragten Fehlmeldungen.
Ansolabehere und Hersh nahm zwei verschiedene Ansätze, um die Datenqualität betreffen Adressierung. Erstens, zusätzlich zu den Vergleich selbst berichteten Abstimmung im Catalist Master-Datei zu stimmen, die Forscher auch im Vergleich selbst berichteten Partei, der Rasse, der Wählerregistrierung Status (zB eingetragene oder nicht eingetragene) und Abstimmungsverfahren (zB in Person, abwesenden Stimmzettel, etc.) auf die in den Catalist Datenbanken gefundenen Werte. Für diese vier demographischen Variablen, fanden die Forscher viel höhere Niveaus der Übereinstimmung zwischen den Untersuchungsbericht und Daten in der Catalist Master-Datei als zur Abstimmung. Somit scheint die Catalist Stammdaten-Datei für Merkmale, qualitativ hochwertige Informationen zu haben, die nicht stimm was darauf hindeutet, dass es nicht von schlechten Gesamtqualität ist. Zweitens teilweise von Catalist unter Verwendung von Daten, Ansolabehere und Hersh entwickelt drei verschiedene Maßnahmen der Qualität der Grafschaft Abstimmungsunterlagen, und sie fanden, dass die geschätzte Rate von über-Berichterstattung über die Abstimmung zu jeder dieser Datenqualitätsmaßnahmen im Wesentlichen in keinem Zusammenhang war, ein Befund, deuten darauf hin, dass die hohen Raten von über-Berichterstattung nicht durch Landkreise mit ungewöhnlich niedrigen Datenqualität angetrieben werden.
Angesichts der Schaffung dieser Master Abstimmung Datei, die zweite Quelle möglicher Fehler Verknüpfung der Aufzeichnungen zu. Zum Beispiel, wenn diese Verknüpfung falsch gemacht wird , könnte es zu einer Überschätzung der Differenz zwischen und validiert Abstimmungsverhalten führen (Neter, Maynes, and Ramanathan 1965) . Wenn jeder Mensch eine stabile, eindeutige Kennung hatte, die in beiden Datenquellen war, dann würde Verknüpfung trivial sein. In den USA und den meisten anderen Ländern gibt es jedoch keine allgemein gültige Kennung. Ferner kann, selbst wenn es eine Kennung Menschen wahrscheinlich zu bieten zögern, würde eine solche waren Forscher zu überblicken! So hatte Catalist die Verknüpfung mit unvollkommenen Identifikatoren, in diesem Fall vier Informationen über jeden Befragten zu tun: Name, Geschlecht, Geburtsjahr, und die Heimat-Adresse. Zum Beispiel hatte Catalist zu entscheiden, ob die Homie J Simpson in den CCES die gleiche Person wie der Homer Jay Simpson war in ihren Stammdaten-Datei. In der Praxis Anpassung eine schwierige und turbulenter Prozess ist, und, um für die Forscher die Sache noch schlimmer, als Catalist seine Anpassungstechnik proprietäre sein.
Um die Matching-Algorithmen zu validieren, verließen sie sich auf zwei Herausforderungen. Zuerst nahm Catalist in einem passenden Wettbewerb, der von einem unabhängigen Drittanbieter ausgeführt wurde: der MITRE Corporation. MITRE, sofern alle Teilnehmer zwei verrauschten Daten-Dateien angepasst werden, und verschiedene Teams traten an MITRE die am besten passende zurückzukehren. Da MITRE selbst die richtige Anpassung kannten, waren sie in der Lage, die Teams zu punkten. Von den 40 Unternehmen, die im Wettbewerb, kam Catalist an zweiter Stelle. Diese Art von unabhängigen Drittanbietern Bewertung der proprietären Technologie ist ziemlich selten und unglaublich wertvoll; es sollte uns das Vertrauen geben, dass Catalist die Abgleichverfahren im Wesentlichen an der State-of-the-art sind. Aber ist der state-of-the-art gut genug? Zusätzlich zu diesem passenden Wettbewerb, Ansolabehere und Hersh geschaffen, um ihre eigene passende Herausforderung für Catalist. Aus einem früheren Projekt, Ansolabehere und Hersh hatte Wähler Datensätze aus Florida gesammelt. Sie lieferten einige dieser Aufzeichnungen mit einigen ihrer Felder Catalist redigiert und dann Catalist Berichte dieser Felder den tatsächlichen Werten verglichen. Glücklicherweise Berichte des Catalist waren in der Nähe der einbehaltene Werte, was darauf hinweist, dass Catalist Teil Wähler Aufzeichnungen auf ihre Stammdaten-Datei übereinstimmen könnten. Diese beiden Herausforderungen, ein von einem Drittanbieter und ein von Ansolabehere und Hersh, geben uns mehr Vertrauen in die Catalist Matching-Algorithmen, auch wenn wir nicht ihre genaue Umsetzung selbst überprüfen können.
Es wurden viele frühere Versuche gewesen Abstimmung zu validieren. Einen Überblick über diese Literatur finden Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , und Hanmer, Banks, and White (2014) .
Es ist wichtig zu beachten, dass, obwohl in diesem Fall die Forscher von der Qualität der Daten aus Catalist, andere Auswertungen von kommerziellen Anbietern waren weniger begeistert gefördert wurden. Forscher haben schlechte Qualität , wenn Daten aus einer Umfrage zu einem Verbraucher-Datei von Marketing Systems Group (die sich von drei Anbietern zusammengeführt Daten: Acxiom, Experian und InfoUSA) gefunden (Pasek et al. 2014) . . Das heißt, hat die Datendatei nicht Antworten auf die Umfrage übereinstimmen, die Forscher richtig zu erwarten sein, die Daten-Datei Daten für eine Vielzahl von Fragen hatte fehlt, und der fehlenden Datenmuster wurde Umfrage Wert korreliert berichtet (mit anderen Worten die fehlenden Daten war die systematische nicht zufällig).
Weitere Informationen über die Aufzeichnung Verknüpfung zwischen Erhebungen und Verwaltungsdaten finden Sie Sakshaug and Kreuter (2012) und Schnell (2013) . Weitere Informationen über Record Linkage im Allgemeinen finden Sie Dunn (1946) und Fellegi and Sunter (1969) (historical) und Larsen and Winkler (2014) (modern). Ähnliche Ansätze wurden auch in der Informatik unter den Namen wie Datendeduplizierung, zB Identifikation, Name - Matching, die Duplikaterkennung und doppelten Datensatz Erkennung entwickelt worden (Elmagarmid, Ipeirotis, and Verykios 2007) . Es gibt auch die Privatsphäre Ansätze zu bewahren Verknüpfung aufzuzeichnen , die erfordern nicht die Übermittlung von personenbezogenen Daten (Schnell 2013) . Forscher bei Facebook ein Verfahren entwickelt , um probabilisticsly ihre Aufzeichnungen verlinkt auf das Wahlverhalten (Jones et al. 2013) . ; Diese Verknüpfung wurde getan , ein Experiment zu bewerten , dass ich Sie in Kapitel erzählen werde 4 (Bond et al. 2012) .
Ein weiteres Beispiel für die Verknüpfung eines groß angelegten Sozialerhebung der Regierung Verwaltungsakten kommt von der Health and Retirement Inspektion und der Social Security Administration. Weitere Informationen zu dieser Studie, einschließlich der Informationen über das Genehmigungsverfahren finden Olson (1996) und Olson (1999) .
Der Prozess von vielen Quellen von Verwaltungsdaten in einem Master-Daten-Datei-Prozess kombiniert die Catalist Mitarbeiter-ist üblich, in den statistischen Ämtern von einigen nationalen Regierungen. Zwei Forscher von Statistics Sweden geschrieben haben ein detailliertes Buch zum Thema (Wallgren and Wallgren 2007) . Ein Beispiel für diesen Ansatz in einem einzigen Landkreis in den Vereinigten Staaten von Amerika (Olmsted County, Minnesota, der Heimat der Mayo Clinic), siehe Sauver et al. (2011) . Weitere Informationen über die Fehler , die in Verwaltungsakten erscheinen können, finden Sie Groen (2012) .