Les poids peuvent annuler les distorsions causés intentionnellement par le processus d'échantillonnage.
Échantillons de probabilité sont ceux où toutes les personnes ont un connu, non nulle probabilité d'inclusion, et la plus simple plan d'échantillonnage probabiliste est simple échantillonnage aléatoire où chaque personne a une probabilité égale d'inclusion. Lorsque les répondants sont sélectionnés par échantillonnage aléatoire simple avec une exécution parfaite (par exemple, aucune erreur de couverture et aucune non-réponse), puis l'estimation est simple parce que l'échantillon sera-moyenne-être une version miniature de la population.
L'échantillonnage aléatoire simple est rarement utilisé dans la pratique, cependant. Au contraire, les chercheurs choisissent volontairement les personnes ayant des probabilités inégales d'inclusion afin de réduire les coûts et augmenter la précision. Lorsque les chercheurs choisissent volontairement les personnes ayant différentes probabilités d'inclusion, puis des ajustements sont nécessaires pour annuler les distorsions causées par le processus d'échantillonnage. En d'autres termes, comment nous généralisons à partir d'un échantillon dépend de la façon dont l'échantillon a été sélectionné.
Par exemple, le Current Population Survey (CPS) est utilisé par le gouvernement américain pour estimer le taux de chômage. Chaque mois, environ 100.000 personnes sont interrogées, soit en face-à-face ou par téléphone, et les résultats sont utilisés pour produire le taux de chômage estimé. Parce que le gouvernement souhaite estimer le taux de chômage dans chaque état, il ne peut pas faire un échantillon aléatoire simple des adultes parce que ce serait donner trop peu de répondants dans les pays à faible population (par exemple, Rhode Island) et un trop grand nombre d'États à forte population (par exemple, , Californie). Au lieu de cela, les CPS échantillons de personnes dans différents états à des taux différents, un processus appelé échantillonnage stratifié avec probabilités inégales de sélection. Par exemple, si la SCP voulait 2000 répondants par État, puis les adultes dans le Rhode Island auraient environ 30 fois plus élevé probabilité d'inclusion que les adultes en Californie (Rhode Island: 2000 répondants par 800.000 adultes vs Californie: 2000 répondants par 30.000.000 adultes). Comme nous le verrons plus tard, ce genre d'échantillonnage avec probabilités inégales qui se passe avec les sources en ligne de données aussi, mais contrairement à la CPS, le mécanisme d'échantillonnage est généralement pas connue ou contrôlée par le chercheur.
Compte tenu de son plan d'échantillonnage, la SCP est pas directement représentant des États-Unis; il comprend aussi beaucoup de gens de Rhode Island et trop peu de la Californie. Par conséquent, il serait imprudent d'estimer le taux de chômage dans le pays avec le taux de chômage dans l'échantillon. Au lieu de la moyenne d'échantillon, il est préférable de prendre une moyenne pondérée, où les poids représentent le fait que les gens de Rhode Island étaient plus susceptibles d'être inclus que les gens de la Californie. Par exemple, chaque personne de la Californie serait upweighted- ils compteraient plus dans l'estimation et chaque personne de Rhode Island seraient-ils pondérées à la baisse comptent moins dans l'estimation. En substance, vous avez reçu plus de voix aux gens que vous êtes moins susceptibles d'apprendre.
Cet exemple de jouet illustre un point important, mais souvent mal compris: un échantillon n'a pas besoin d'être une version miniature de la population afin de produire de bonnes estimations. Si un nombre suffisant est connu sur la façon dont les données ont été collectées, ces informations peuvent être utilisées pour produire des estimations de l'échantillon. L'approche que je viens de décrire, et que je décris mathématiquement dans la technique annexe-tombe carrément dans le cadre d'échantillonnage probabiliste classique. Maintenant, je vais vous montrer comment cette même idée peut être appliquée à des échantillons non probabilistes.