Die Gewichte können durch die Sampling - Prozess Verzerrungen absichtlich verursacht rückgängig machen.
Die Wahrscheinlichkeit Proben sind diejenigen , in denen alle Menschen haben einen bekannten, von Null Wahrscheinlichkeit Inklusion, und die einfachste Wahrscheinlichkeitsstichproben Design ist einfach Stichprobe , wo jede Person die gleiche Wahrscheinlichkeit der Aufnahme hat. Wenn die Befragten über eine einfache Zufallsstichproben mit perfekter Ausführung ausgewählt werden (zB keine Deckungsfehler und keine Non-Response), dann ist Schätzung einfach, weil die Probe-auf eine Miniaturversion der Bevölkerung durchschnittlich sein.
Einfache Zufallsauswahl wird in der Praxis selten verwendet, aber. Vielmehr wählen Forscher absichtlich Menschen mit ungleichen Wahrscheinlichkeiten der Inklusion, um Kosten zu reduzieren und die Genauigkeit zu erhöhen. Wenn Forscher absichtlich Menschen mit unterschiedlichen Wahrscheinlichkeiten der Aufnahme auswählen, werden dann Anpassungen erforderlich, um die Verzerrungen, die durch die Sampling-Prozess verursacht rückgängig zu machen. Mit anderen Worten, wie wir aus einer Probe verallgemeinern hängt davon ab, wie die Stichprobe ausgewählt wurde.
Zum Beispiel wird die Current Population Survey (CPS) von der US-Regierung benutzt, um die Arbeitslosenquote zu schätzen. Jeden Monat über 100.000 Menschen befragt werden, entweder face-to-face oder über das Telefon, und die Ergebnisse werden verwendet, um die geschätzte Arbeitslosenquote zu erzeugen. Weil die Regierung die Arbeitslosenquote in jedem Staat zu schätzen möchte, kann es nicht eine einfache Stichprobe von Erwachsenen zu tun, weil das zu wenige Befragte in Staaten mit kleinen Populationen (zB Rhode Island) ergeben würde und zu viele von Staaten mit großen Populationen (zB , Kalifornien). Stattdessen forderte die CPS - Proben Menschen in verschiedenen Staaten mit unterschiedlichen Geschwindigkeiten, ein Prozess , geschichtete Stichprobe mit ungleichen Auswahlwahrscheinlichkeit. Zum Beispiel wollte, wenn die CPS 2000 Befragten pro Zustand, dann Erwachsene in Rhode Island würde etwa 30-mal höhere Wahrscheinlichkeit der Aufnahme als Erwachsene in Kalifornien (Rhode Island: 2.000 Befragte pro 800.000 Erwachsene vs Kalifornien: 2.000 Befragte pro 30 Millionen Erwachsene) haben. Wie wir später sehen werden, geschieht diese Art der Probenahme mit ungleicher Wahrscheinlichkeit mit Online-Datenquellen zu, aber im Gegensatz zu den CPS wird die Sampling-Mechanismus in der Regel nicht oder vom Forscher gesteuert bekannt.
Aufgrund seiner Sampling-Design ist das CPS nicht direkt Vertreter der Vereinigten Staaten; es enthält zu viele Leute von Rhode Island und zu wenig aus Kalifornien. Deshalb wäre es unklug, die Arbeitslosenquote in dem Land mit der Arbeitslosenquote in der Probe zu bestimmen. Anstelle der Probe bedeuten, ist es besser, einen gewichteten Mittelwert zu nehmen, wobei die Gewichte die Ursache dafür sein, dass die Menschen von Rhode Island waren eher als Menschen aus Kalifornien aufgenommen werden. Zum Beispiel kann jede Person aus Kalifornien wäre upweighted- sie mehr in der Schätzung-und jede Person von Rhode Island würde downweighted-sie zählen würde würde weniger in der Schätzung zählen. Im Wesentlichen sind Sie mehr Stimme zu den Menschen gegeben, die Sie weniger wahrscheinlich sind, um zu erfahren.
Dieses Spielzeug Beispiel zeigt eine wichtige, aber häufig falsch verstanden Punkt: eine Probe nicht eine Miniaturversion der Bevölkerung, um gute Schätzungen zu produzieren sein muss. Wenn genug über bekannt ist, wie die Daten gesammelt wurden, können diese Informationen verwendet werden, wenn Schätzungen aus der Probe zu machen. Der Ansatz, den ich habe gerade beschrieben-und dass ich mathematisch im technischen beschreiben Anhang-fällt eindeutig in der klassischen Wahrscheinlichkeitsstichproben Rahmen. Jetzt werde ich zeigen, wie die gleiche Idee kann auf nicht-Wahrscheinlichkeitsstichproben angewendet werden.