Die Darstellung erfolgt über Konsequenzen aus Ihrer Befragten auf Ihre Zielgruppe zu machen.
Um die Art von Fehlern zu verstehen, die passieren können, wenn wir von den Befragten auf die größere Bevölkerung schließen, betrachten wir die Literary Digest- Umfrage, die den Ausgang der US-Präsidentschaftswahl von 1936 vorhersagen sollte. Obwohl es vor mehr als 75 Jahren passiert ist, hat dieses Debakel immer noch eine wichtige Lektion, um Forscher heute zu unterrichten.
Literary Digest war eine populäre Zeitschrift für Allgemeininteressen, und ab 1920 begannen sie mit der Durchführung von Meinungsumfragen, um die Ergebnisse der Präsidentschaftswahlen vorherzusagen. Um diese Vorhersagen zu treffen, würden sie Stimmzettel an viele Leute senden und dann einfach die zurückgesandten Stimmzettel zusammentragen; Literarischer Digest berichtete stolz, dass die Stimmzettel, die sie erhielten, weder "gewichtet, angepasst noch interpretiert" wurden. Dieses Verfahren sagte die Gewinner der Wahlen in den Jahren 1920, 1924, 1928 und 1932 richtig voraus. 1936, mitten in der Weltwirtschaftskrise, Literarisch Digest schickte 10 Millionen Menschen, deren Namen überwiegend aus Telefonbüchern und Kfz-Registern stammten, zu Wahlzetteln. So haben sie ihre Methodik beschrieben:
"Die reibungslose Maschine von THE DIGEST bewegt sich mit der schnellen Präzision von dreißig Jahren Erfahrung, um das Rätselraten auf harte Fakten zu reduzieren ... In dieser Woche haben 500 Stifte mehr als eine viertel Million Adressen pro Tag gekratzt. Jeden Tag, in einem großen Raum hoch über der motorisierten Fourth Avenue in New York, schleppen 400 Arbeiter geschickt eine Million Drucksachen - genug, um vierzig Häuserblöcke zu pflastern - in die adressierten Umschläge [sic]. Jede Stunde, in THE DIGESTs eigener Poststation, versiegelten drei klappernde Frankiermaschinen die weißen Oblongs; fähige Postangestellte verwandelten sie in prall gefüllte Postsendungen; Flotte DIGEST-Lastwagen beförderten sie, Postzüge auszudrücken. . . Nächste Woche werden die ersten Antworten von diesen zehn Millionen die Flut von markierten Stimmzetteln beginnen, dreifach überprüft, verifiziert, fünffach überkreuzt und summiert werden. Wenn die letzte Zahl totgeschwiegen und überprüft wurde, wird das Land, wenn die Erfahrung der Vergangenheit ein Kriterium ist, innerhalb von einem Bruchteil von 1 Prozent die tatsächliche Wahl von 40 Millionen [Wähler] erkennen. "(22. August 1936)
Literary Digests Fetischisierung der Größe ist für jeden "Big Data" -Forscher heute sofort erkennbar. Von den 10 Millionen verteilten Stimmzetteln wurden erstaunliche 2,4 Millionen zurückgegeben - das ist ungefähr 1000 Mal größer als bei modernen politischen Umfragen. Von diesen 2,4 Millionen Befragten war das Urteil klar: Alf Landon würde den Amtsinhaber Franklin Roosevelt besiegen. Aber tatsächlich besiegte Roosevelt Landon in einem Erdrutsch. Wie konnte Literary Digest mit so vielen Daten schief gehen? Unser modernes Verständnis der Probenahme macht die Fehler von Literary Digest deutlich und hilft uns, ähnliche Fehler in Zukunft zu vermeiden.
Wenn wir klar über Stichproben sprechen, müssen wir vier verschiedene Personengruppen berücksichtigen (Abbildung 3.2). Die erste Gruppe ist die Zielpopulation ; Dies ist die Gruppe, die der Forscher als Population von Interesse definiert. Im Falle von Literary Digest war die Zielgruppe bei den Präsidentschaftswahlen von 1936 die Wähler.
Nach der Entscheidung über eine Zielpopulation muss ein Forscher eine Liste von Personen erstellen, die für die Stichprobenziehung verwendet werden können. Diese Liste wird Stichprobenrahmen genannt und die Personen darauf werden als Rahmenpopulation bezeichnet . Idealerweise wären die Zielpopulation und die Rahmenpopulation genau gleich, aber in der Praxis ist dies oft nicht der Fall. Im Falle von Literary Digest beispielsweise waren die 10 Millionen Menschen, deren Namen überwiegend aus Telefonbüchern und Kfz-Registern stammten, die Rahmenpopulation. Unterschiede zwischen der Zielpopulation und der Rahmenpopulation werden als Abdeckungsfehler bezeichnet . Abdeckungsfehler allein garantieren keine Probleme. Es kann jedoch zu einer Verzerrung der Abdeckung führen, wenn sich Personen in der Rahmenpopulation systematisch von Personen in der Zielpopulation unterscheiden, die sich nicht in der Rahmenpopulation befinden. Genau das ist in der Literary Digest- Umfrage geschehen. Die Leute in ihrer Rahmenpopulation neigten eher dazu, Alf Landon zu unterstützen, zum Teil, weil sie wohlhabender waren (man erinnere sich, dass Telefone und Autos 1936 relativ neu und teuer waren). In der Literary Digest- Umfrage führte der Coverage-Fehler also zu einer Verzerrung der Abdeckung.
Nach dem Definieren der Rahmenpopulation besteht der nächste Schritt darin, dass ein Forscher die Stichprobenpopulation auswählt; Das sind die Leute, die der Forscher versuchen wird zu interviewen. Wenn die Stichprobe andere Eigenschaften als die Rahmenpopulation aufweist, kann die Stichprobenentnahme einen Stichprobenfehler verursachen . Im Fall des literarischen Digest- Fiaskos gab es jedoch tatsächlich keine Stichproben - das Magazin, mit dem alle in der Rahmenpopulation Kontakt aufnehmen konnten - und daher gab es keinen Stichprobenfehler. Viele Forscher neigen dazu, sich auf Stichprobenfehler zu konzentrieren - dies ist normalerweise die einzige Art von Fehlern, die durch die in Umfragen gemeldete Fehlerquote erfasst werden -, aber das Literatur-Digest- Fiasko erinnert uns daran, dass wir alle Fehlerquellen, sowohl zufällige als auch systematische, berücksichtigen müssen.
Schließlich versucht ein Forscher nach der Auswahl einer Stichprobenpopulation alle seine Mitglieder zu befragen. Diejenigen Personen, die erfolgreich befragt wurden, werden als Befragte bezeichnet . Im Idealfall wären die Stichprobenpopulation und die Befragten genau gleich, aber in der Praxis gibt es keine Antwort. Das heißt, Personen, die in der Stichprobe ausgewählt werden, nehmen manchmal nicht teil. Wenn die Personen, die antworten, sich von denen unterscheiden, die nicht antworten, dann kann es eine Nonresponse-Verzerrung geben . Nonresponse-Bias war das zweite Hauptproblem bei der Literary Digest- Umfrage. Nur 24% der Personen, die eine Abstimmung erhalten haben, antworteten, und es stellte sich heraus, dass Personen, die Landon unterstützten, mit größerer Wahrscheinlichkeit reagierten.
Die Literary Digest- Umfrage ist nicht nur ein Beispiel für die Einführung von Repräsentationsideen, sondern auch eine oft wiederholte Parabel, die Forscher vor den Gefahren willkürlicher Probenahmen warnt. Leider denke ich, dass die Lektion, die viele Menschen aus dieser Geschichte ziehen, die falsche ist. Die gängigste Moral der Geschichte ist, dass Forscher nichts aus Nichtwahrscheinlichkeitsproben lernen können (dh Stichproben ohne strenge Wahrscheinlichkeitsregeln für die Auswahl von Teilnehmern). Aber, wie ich später in diesem Kapitel zeigen werde, ist das nicht ganz richtig. Stattdessen denke ich, dass es wirklich zwei Moralvorstellungen zu dieser Geschichte gibt; Moral, die heute genauso wahr ist wie 1936. Erstens, eine große Anzahl von willkürlich gesammelten Daten wird keine gute Schätzung garantieren. Im Allgemeinen verringert eine große Anzahl von Befragten die Varianz der Schätzungen, verringert jedoch nicht unbedingt die Verzerrung. Mit vielen Daten können Forscher manchmal eine genaue Schätzung der falschen Sache erhalten; Sie können sehr ungenau sein (McFarland and McFarland 2015) . Die zweite wichtige Lektion aus dem Literatur-Digest- Fiasko lautet, dass Forscher bei der Erstellung von Schätzungen berücksichtigen müssen, wie ihre Stichprobe erfasst wurde. Mit anderen Worten, weil der Stichprobenprozess in der Literary Digest- Umfrage gegenüber einigen Befragten systematisch verzerrt war, mussten die Forscher einen komplexeren Schätzprozess verwenden, der einige Befragte stärker als andere bewertete. Später in diesem Kapitel zeige ich Ihnen eine solche Gewichtungsprozedur - Post-Stratifizierung - die es Ihnen ermöglichen wird, bessere Schätzungen aus zufälligen Stichproben zu machen.