Das digitale Zeitalter macht die Wahrscheinlichkeitsstichprobe in der Praxis schwieriger und schafft neue Möglichkeiten für die Stichprobenerhebung.
In der Geschichte der Stichprobenerhebung gab es zwei konkurrierende Ansätze: Wahrscheinlichkeits-Stichprobenverfahren und Nicht-Wahrscheinlichkeits-Stichprobenverfahren. Obwohl beide Ansätze in den frühen Tagen der Stichprobenziehung verwendet wurden, hat sich die Stichprobenauswahl durch Wahrscheinlichkeitsrechnung durchgesetzt, und viele Sozialforscher werden darin geschult, Nichtwahrscheinlichkeitsstichproben mit großer Skepsis zu betrachten. Wie ich weiter unten beschreiben werde, bedeuten Veränderungen durch das digitale Zeitalter jedoch, dass es für die Forscher an der Zeit ist, die Nichtwahrscheinlichkeitsstichprobe zu überdenken. Insbesondere ist es in der Praxis schwierig, Stichproben zu erfassen, und Stichproben ohne Wahrscheinlichkeit wurden schneller, billiger und besser. Schnellere und billigere Umfragen sind nicht nur Selbstzweck: Sie ermöglichen neue Möglichkeiten wie häufigere Umfragen und größere Stichproben. Beispielsweise kann die Cooperative Congressional Election Study (CCES) durch den Einsatz von Nichtwahrscheinlichkeitsmethoden etwa 10 Mal mehr Teilnehmer haben als frühere Studien mit Wahrscheinlichkeitsstichproben. Diese viel größere Stichprobe ermöglicht politischen Forschern, Unterschiede in Einstellungen und Verhalten in Untergruppen und sozialen Kontexten zu untersuchen. Darüber hinaus kam es zu dieser zusätzlichen Größenordnung ohne Qualitätseinbußen bei den Schätzungen (Ansolabehere and Rivers 2013) .
Derzeit ist der dominante Ansatz für Sozialforschung Probenahme ist Wahrscheinlichkeitsstichproben. Bei der Wahrscheinlichkeitsstichprobe haben alle Mitglieder der Zielpopulation eine bekannte, von Null verschiedene Wahrscheinlichkeit, dass Proben genommen werden, und alle Personen, die abgetastet werden, antworten auf die Umfrage. Wenn diese Bedingungen erfüllt sind, bieten elegante mathematische Ergebnisse nachweisbare Garantien über die Fähigkeit eines Forschers, die Stichprobe zu verwenden, um Rückschlüsse auf die Zielpopulation zu ziehen.
In der realen Welt werden die Bedingungen, die diesen mathematischen Ergebnissen zugrunde liegen, jedoch selten erfüllt. Zum Beispiel gibt es oft Überdeckungsfehler und Nonresponse. Aufgrund dieser Probleme müssen Forscher häufig eine Vielzahl von statistischen Anpassungen vornehmen, um aus ihrer Stichprobe auf ihre Zielpopulation schließen zu können. Daher ist es wichtig, zwischen Wahrscheinlichkeitsproben in der Theorie , die starke theoretische Garantien haben, und Wahrscheinlichkeitsproben in der Praxis zu unterscheiden , die keine solchen Garantien bieten und von einer Vielzahl statistischer Anpassungen abhängig sind.
Mit der Zeit haben sich die Unterschiede zwischen der Stichprobenwahrscheinlichkeit in der Theorie und der Stichprobenwahrscheinlichkeit in der Praxis erhöht. So haben die Non-Responses-Raten sogar in hochwertigen, teuren Umfragen stetig zugenommen (Abbildung 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Nonresponse-Raten sind in kommerziellen Telefonumfragen viel höher - manchmal sogar bis zu 90% (Kohut et al. 2012) . Diese Zunahme von Nichtantworten bedroht die Qualität von Schätzungen, da die Schätzungen zunehmend von den statistischen Modellen abhängen, die Forscher verwenden, um das Nichtantworten anzupassen. Darüber hinaus sind diese Qualitätseinbußen trotz der immer kostspieligeren Anstrengungen der Umfrageforscher zur Aufrechterhaltung hoher Ansprechraten aufgetreten. Einige Menschen befürchten, dass diese Doppeltrends von sinkender Qualität und steigenden Kosten die Grundlage für die Umfrageforschung gefährden (National Research Council 2013) .
Zur gleichen Zeit, in der die Wahrscheinlichkeits-Stichprobenverfahren immer schwieriger wurden, gab es auch aufregende Entwicklungen bei Nicht-Wahrscheinlichkeits-Stichprobenverfahren . Es gibt eine Vielzahl von Arten von Nichtwahrscheinlichkeits-Stichprobenmethoden, aber die eine Gemeinsamkeit ist, dass sie nicht leicht in den mathematischen Rahmen der Wahrscheinlichkeitsabtastung passen (Baker et al. 2013) . Mit anderen Worten, bei Nicht-Wahrscheinlichkeits-Stichprobenverfahren hat nicht jeder eine bekannte und von Null verschiedene Eintrittswahrscheinlichkeit. Non-Probability Sampling-Methoden haben einen schrecklichen Ruf bei den Sozialforschern und sie sind mit einigen der dramatischsten Misserfolge der Umfrage-Forscher, wie das literarische Digest Fiasko (oben diskutiert) und "Dewey besiegt Truman" die falsche Vorhersage über die USA verbunden Präsidentschaftswahlen von 1948 (Abbildung 3.6).
Eine Form der Nicht-Wahrscheinlichkeits-Stichprobe, die für das digitale Zeitalter besonders geeignet ist, ist die Verwendung von Online-Panels . Forscher, die Online-Panels verwenden, sind von einigen Panel-Anbietern - in der Regel Unternehmen, Regierungen oder Universitäten - abhängig, um eine große, heterogene Gruppe von Personen aufzubauen, die bereit sind, als Befragte für Umfragen zu fungieren. Diese Panel-Teilnehmer werden oft mit einer Vielzahl von Ad-hoc-Methoden wie Online-Bannerwerbung rekrutiert. Dann kann ein Forscher dem Panel-Anbieter den Zugang zu einer Stichprobe von Befragten mit gewünschten Eigenschaften zahlen (z. B. national repräsentativ für Erwachsene). Diese Online-Panels sind keine Wahrscheinlichkeitsmethoden, da nicht jeder eine bekannte Nicht-Null-Eintrittswahrscheinlichkeit hat. Obwohl nicht-wahrscheinliche Online-Panels bereits von Sozialforschern (z. B. dem CCES) verwendet werden, gibt es immer noch eine Debatte über die Qualität der Schätzungen, die von ihnen ausgehen (Callegaro et al. 2014) .
Trotz dieser Debatten denke ich, dass es zwei Gründe gibt, warum es für Sozialforscher richtig ist, die Nichtwahrscheinlichkeitsstichprobe zu überdenken. Erstens gab es im digitalen Zeitalter viele Entwicklungen bei der Sammlung und Analyse von Nichtwahrscheinlichkeitsproben. Diese neueren Methoden sind anders als die Methoden, die in der Vergangenheit Probleme verursacht haben, und ich denke, dass es sinnvoll ist, sie als "Nicht-Wahrscheinlichkeits-Stichprobe 2.0" zu betrachten. Der zweite Grund, warum Forscher Nicht-Wahrscheinlichkeits-Stichproben überdenken sollten, ist die Wahrscheinlichkeits-Stichprobe Praxis wird zunehmend schwieriger. Wenn es - wie in realen Umfragen - hohe Raten von Nicht-Antworten gibt, sind die tatsächlichen Einschlusswahrscheinlichkeiten für die Befragten nicht bekannt, und daher sind Wahrscheinlichkeits- und Nicht-Wahrscheinlichkeits-Stichproben nicht so unterschiedlich, wie viele Forscher glauben.
Wie ich bereits sagte, werden Nicht-Wahrscheinlichkeits-Stichproben von vielen Sozialforschern mit großer Skepsis betrachtet, teilweise aufgrund ihrer Rolle in einigen der peinlichsten Misserfolge in den Anfängen der Umfrageforschung. Ein deutliches Beispiel dafür, wie weit wir mit Nicht-Wahrscheinlichkeits-Samples gekommen sind, sind die Untersuchungen von Wei Wang, David Rothschild, Sharad Goel und Andrew Gelman (2015) , die das Ergebnis der US-Wahl 2012 mit einer Nicht-Wahrscheinlichkeitsprobe von Amerikanische Xbox-Nutzer - eine eindeutig nicht zufällige Auswahl von Amerikanern. Die Forscher rekrutierten Teilnehmer aus dem Xbox-Gaming-System, und wie Sie vielleicht erwarten, die Probe männlich und schief Junge: 18- bis 29-Jährige machen 19% der Wähler, aber 65% der Xbox Probe und Männer machen 47% der Wähler aus, aber 93% der Xbox-Stichprobe (Abbildung 3.7). Aufgrund dieser starken demografischen Verzerrungen waren die rohen Xbox-Daten ein schlechter Indikator für Wahlerträge. Es prognostiziert einen starken Sieg für Mitt Romney über Barack Obama. Auch dies ist ein weiteres Beispiel für die Gefahren von rohen, unangepassten Nichtwahrscheinlichkeitsproben und erinnert an das literarische Digest- Fiasko.
Wang und seine Kollegen waren sich dieser Probleme jedoch bewusst und versuchten, bei der Erstellung von Schätzungen den nicht zufälligen Stichprobenprozess anzupassen. Insbesondere verwendeten sie die Post-Stratifizierung , eine Technik, die auch häufig verwendet wird, um Wahrscheinlichkeits-Abtastwerte anzupassen, die Erfassungsfehler und Nicht-Antwort aufweisen.
Der Grundgedanke der Post-Stratifizierung besteht darin, zusätzliche Informationen über die Zielpopulation zu verwenden, um die Schätzung zu verbessern, die von einer Stichprobe stammt. Bei der Verwendung der Post-Stratifizierung zur Schätzung ihrer Nicht-Wahrscheinlichkeits-Stichprobe zerhackten Wang und Kollege die Bevölkerung in verschiedene Gruppen, schätzten die Unterstützung für Obama in jeder Gruppe und nahmen dann einen gewichteten Durchschnitt der Gruppenschätzungen, um eine Gesamtschätzung zu erstellen. Zum Beispiel hätten sie die Bevölkerung in zwei Gruppen aufteilen können (Männer und Frauen), schätzten die Unterstützung von Obama unter Männern und Frauen und schätzten dann die allgemeine Unterstützung für Obama durch einen gewichteten Durchschnitt, um der Tatsache Rechnung zu tragen, dass Frauen machen 53% der Wähler und Männer 47%. Grob gesagt hilft die Nachschichtung, eine unausgeglichene Stichprobe zu korrigieren, indem Hilfsinformationen über die Gruppengrößen hinzugefügt werden.
Der Schlüssel zur Nachschichtung liegt darin, die richtigen Gruppen zu bilden. Wenn Sie die Population in homogene Gruppen aufteilen können, so dass die Antwortpropensitäten für alle in jeder Gruppe gleich sind, wird die Post-Stratifizierung unvoreingenommene Schätzungen liefern. Mit anderen Worten, die geschlechtsspezifische Post-Stratifizierung führt zu unvoreingenommenen Schätzungen, wenn alle Männer die Antwort-Neigung haben und alle Frauen die gleiche Antwort-Neigung haben. Diese Annahme nennt man die Annahme der homogenen Antwort-Propensitäten innerhalb der Gruppen , und ich beschreibe sie in den mathematischen Anmerkungen am Ende dieses Kapitels etwas genauer.
Natürlich scheint es unwahrscheinlich, dass die Antwortpropensitäten für alle Männer und alle Frauen gleich sein werden. Die Annahme homogener Antwort-Neigungen innerhalb von Gruppen wird jedoch plausibler, wenn die Anzahl der Gruppen zunimmt. Grob gesagt, wird es einfacher, die Population in homogene Gruppen zu zerlegen, wenn Sie mehr Gruppen erstellen. Zum Beispiel mag es unplausibel erscheinen, dass alle Frauen die gleiche Antwortbereitschaft haben, aber es könnte plausibler erscheinen, dass es die gleiche Antwortbereitschaft für alle Frauen gibt, die 18-29 Jahre alt sind, die ihr Studium abgeschlossen haben und in Kalifornien leben . Wenn die Anzahl der Gruppen, die bei der Nachschichtung verwendet werden, größer wird, werden die Annahmen, die zur Unterstützung der Methode benötigt werden, vernünftiger. Angesichts dieser Tatsache möchten Forscher oft eine große Anzahl von Gruppen für die Nachschichtung erstellen. Wenn die Anzahl der Gruppen jedoch steigt, stoßen die Forscher auf ein anderes Problem: Datensparsamkeit. Wenn es in jeder Gruppe nur eine kleine Anzahl von Personen gibt, werden die Schätzungen unsicherer sein, und im Extremfall, wo es eine Gruppe gibt, die keine Befragten hat, bricht die Nach-Stratifizierung vollständig zusammen.
Es gibt zwei Wege aus dieser inhärenten Spannung zwischen der Plausibilität der Hypothese der homogenen Reaktion und der Neigung innerhalb der Gruppen und der Forderung nach angemessenen Stichprobengrößen in jeder Gruppe. Erstens können die Forscher eine größere, vielfältigere Stichprobe sammeln, die in jeder Gruppe für eine angemessene Stichprobengröße sorgt. Zweitens können sie ein komplizierteres statistisches Modell verwenden, um Schätzungen innerhalb von Gruppen vorzunehmen. Und tatsächlich, manchmal tun Forscher beides, wie Wang und Kollegen bei ihrer Untersuchung der Wahl mit Teilnehmern von Xbox taten.
Weil sie eine nicht-Wahrscheinlichkeits-Stichprobenmethode mit computergesteuerten Interviews verwendeten (ich werde mehr über computergesteuerte Interviews in Abschnitt 3.5 sprechen), hatten Wang und Kollegen eine sehr kostengünstige Datensammlung, die es ihnen ermöglichte, Informationen von 345.858 eindeutigen Teilnehmern zu sammeln , eine große Zahl nach den Standards der Wahlumfrage. Diese enorme Stichprobengröße ermöglichte es ihnen, eine große Anzahl von Post-Stratifikationsgruppen zu bilden. Während nach der Stratifizierung typischerweise die Bevölkerung in Hunderte von Gruppen aufgeteilt wird, teilen Wang und Kollegen die Bevölkerung in 176.256 Gruppen ein, definiert nach Geschlecht (2 Kategorien), Rasse (4 Kategorien), Alter (4 Kategorien), Bildung (4 Kategorien), Staat (51 Kategorien), Party ID (3 Kategorien), Ideologie (3 Kategorien) und 2008 (3 Kategorien). Mit anderen Worten, ihre enorme Stichprobengröße, die durch eine kostengünstige Datenerfassung ermöglicht wurde, ermöglichte es ihnen, eine plausiblere Annahme für ihren Schätzungsprozess zu treffen.
Aber selbst mit 345.858 einzigartigen Teilnehmern gab es immer noch viele, viele Gruppen, für die Wang und Kollegen fast keine Befragten hatten. Daher verwendeten sie eine Technik namens Multilevel-Regression , um die Unterstützung in jeder Gruppe zu schätzen. Im Wesentlichen, um die Unterstützung für Obama innerhalb einer bestimmten Gruppe zu schätzen, bündelte die Multilevel-Regression Informationen von vielen nahe verwandten Gruppen. Stellen Sie sich zum Beispiel vor, die Unterstützung für Obama bei weiblichen Hispanics zwischen 18 und 29 Jahren einzuschätzen, die Hochschulabsolventen sind, die sich als Demokraten registrieren lassen, sich selbst als moderat identifizieren und 2008 für Obama gestimmt haben , sehr spezifische Gruppe, und es ist möglich, dass niemand in der Probe mit diesen Eigenschaften ist. Um Schätzungen über diese Gruppe zu erstellen, verwendet die Multilevel-Regression daher ein statistisches Modell, um Schätzungen von Personen in sehr ähnlichen Gruppen zusammenzufassen.
Wang und seine Kollegen verwendeten daher einen Ansatz, bei dem Multilevel-Regression und Post-Stratifizierung kombiniert wurden. Daher nannten sie ihre Strategie Multilevel-Regression mit Post-Stratifizierung oder, besser gesagt, "Mr. P. "Als Wang und seine Kollegen Herrn P. verwendeten, um Schätzungen aus der XBox-Nichtwahrscheinlichkeitsstichprobe zu machen, ergaben sie Schätzungen, die der allgemeinen Unterstützung sehr ähnlich waren, die Obama bei den Wahlen 2012 erhielt (Abbildung 3.8). Tatsächlich waren ihre Schätzungen genauer als eine Summe traditioneller Meinungsumfragen. In diesem Fall scheinen statistische Anpassungen - insbesondere Herr P. - die Fehler in Nicht-Wahrscheinlichkeitsdaten gut zu korrigieren. Verzerrungen, die deutlich zu sehen waren, wenn man die Schätzungen der nicht angepassten Xbox-Daten betrachtete.
Aus der Studie von Wang und Kollegen ergeben sich zwei wesentliche Erkenntnisse. Erstens können unangepasste Nicht-Wahrscheinlichkeits-Stichproben zu schlechten Schätzungen führen; Das ist eine Lehre, die viele Forscher schon einmal gehört haben. Die zweite Lektion ist jedoch, dass Nicht-Wahrscheinlichkeits-Stichproben, wenn sie richtig analysiert werden, tatsächlich gute Schätzungen erzeugen können; Nicht-Wahrscheinlichkeits-Stichproben müssen nicht automatisch zu etwas wie dem Literatur-Digest- Fiasko führen.
Wenn Sie versuchen, sich zwischen der Verwendung eines Ansatzes mit Wahrscheinlichkeitsproben und eines Ansatzes ohne Wahrscheinlichkeitsrechnung zu entscheiden, stehen Sie vor einer schwierigen Entscheidung. Manchmal wollen Forscher eine schnelle und starre Regel (z. B. verwenden Sie immer Stichprobenverfahren), aber es wird immer schwieriger, eine solche Regel anzubieten. Forscher stehen vor einer schwierigen Wahl zwischen Wahrscheinlichkeits-Stichprobenmethoden in der Praxis - die immer teurer werden und weit entfernt von den theoretischen Ergebnissen, die ihre Verwendung rechtfertigen - und Nicht-Wahrscheinlichkeits-Stichprobenmethoden, die zwar billiger und schneller, aber weniger bekannt und vielfältiger sind. Eine Sache ist jedoch klar: Wenn Sie gezwungen sind, mit Nicht-Wahrscheinlichkeits-Stichproben oder nicht-repräsentativen Big-Data-Quellen zu arbeiten (denken Sie an Kapitel 2 zurück), gibt es einen starken Grund zu der Annahme, dass Schätzungen mit Hilfe von Post-Stratifikation und verwandte Techniken werden besser sein als unbereinigte, rohe Schätzungen.