Échantillons de probabilité et d' échantillons non probabilistes sont pas si différents dans la pratique; dans les deux cas, il est tout au sujet des poids.
L'échantillonnage est fondamentale pour étudier la recherche. Les chercheurs presque jamais poser leurs questions à tout le monde dans leur population cible. À cet égard, les études ne sont pas uniques. La plupart des recherches, d'une manière ou d'une autre, implique un échantillonnage. Parfois, cet échantillonnage est fait explicitement par le chercheur; d'autres fois il arrive implicitement. Par exemple, un chercheur qui exécute une expérience de laboratoire sur les étudiants de premier cycle dans son université a également pris un échantillon. Ainsi, l'échantillonnage est un problème qui se pose dans ce livre. En fait, l'une des préoccupations les plus courantes que j'entends sur les sources numériques d'âge des données est "ils ne sont pas représentatifs." Comme nous le verrons dans cet article, cette préoccupation est à la fois moins grave et plus subtil que de nombreux sceptiques se rendent compte. En fait, je dirais que tout le concept de «représentativité» est pas utile pour la réflexion sur des échantillons probabilistes et non probabilistes. Au lieu de cela, la clé est de penser à la façon dont les données ont été collectées et comment les biais dans la collecte de données peut être annulée lorsque des estimations.
Actuellement, l'approche théorique dominante de la représentation est un échantillonnage probabiliste. Lorsque les données sont recueillies à l'aide d'une méthode d'échantillonnage de probabilité qui a été parfaitement exécuté, les chercheurs sont en mesure de pondérer leurs données en fonction de la façon dont elles ont été recueillies pour faire des estimations non biaisées sur la population cible. Cependant, l'échantillonnage de probabilité parfaite fondamentalement ne se produit jamais dans le monde réel. Il y a généralement deux principaux problèmes 1) les différences entre la population cible et la population cadre et 2) de non-réponse (ce sont exactement les problèmes qui détruisirent le sondage Literary Digest). Ainsi, plutôt que de penser de l'échantillonnage probabiliste comme un modèle réaliste de ce qui se passe réellement dans le monde, il est préférable de penser à un échantillonnage probabiliste comme utiles, modèle abstrait, un peu comme la façon dont les physiciens pensent une boule sans frottement rouler sur une longueur infinie rampe.
L'alternative à l' échantillonnage probabiliste est échantillonnage non probabiliste. La principale différence entre la probabilité et l'échantillonnage non probabiliste est que, avec la probabilité d'échantillonnage tout le monde dans la population a une probabilité connue d'inclusion. Il y a, en fait, de nombreuses variétés de non-échantillonnage probabiliste, et ces méthodes de collecte de données sont de plus en plus courante dans l'ère numérique. Mais, l'échantillonnage non probabiliste a une terrible réputation parmi les spécialistes des sciences sociales et des statisticiens. En fait, l' échantillonnage non probabiliste est associée à certains des échecs les plus dramatiques de chercheurs de l' enquête, comme le fiasco Literary Digest (discuté plus tôt) et la prédiction erronée sur les élections présidentielles américaines de 1948 ( "Dewey Défaites Truman») (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Cependant, le moment est venu de reconsidérer l'échantillonnage non probabiliste pour deux raisons. D'abord, comme des échantillons de probabilité sont devenus de plus en plus difficile à faire dans la pratique, la ligne entre les échantillons de probabilité et d'échantillons non probabilistes est floue. Quand il y a des taux élevés de non-réponse (comme il existe dans de vraies enquêtes maintenant), la probabilité réelle d'inclusions pour les répondants ne sont pas connus, et donc, des échantillons de probabilité et d'échantillons non probabilistes ne sont pas aussi différents que de nombreux chercheurs croient. En fait, comme nous le verrons ci - dessous, les deux approches reposent essentiellement sur la même méthode d'estimation: la post-stratification. Deuxièmement, il y a eu de nombreux développements dans la collecte et l'analyse d'échantillons non probabilistes. Ces méthodes sont assez différentes des méthodes qui ont causé des problèmes dans le passé que je pense qu'il est logique de penser à eux comme «échantillonnage non probabiliste 2.0." Nous ne devrions pas avoir une aversion irrationnelle à des méthodes en raison d'erreurs qui se sont produites non probabilistes il y a longtemps.
Ensuite, afin de rendre cet argument plus concret, je vais examiner l'échantillonnage de probabilité standard et pondération (section 3.4.1). L'idée principale est que la façon dont vous avez recueilli vos données devrait avoir un impact comment vous faites des estimations. En particulier, si tout le monde n'a pas la même probabilité d'inclusion, alors tout le monde ne devrait pas avoir le même poids. En d'autres termes, si votre échantillonnage est pas démocratique, alors vos estimations ne devraient pas être démocratique. Après avoir examiné la pondération, je vais vous décrire deux approches pour l'échantillonnage non probabiliste: celui qui met l'accent sur la pondération pour traiter le problème des données recueillies au hasard (section 3.4.2), et qui tente de placer plus de contrôle sur la façon dont les données sont recueillies (section 3.4.3). Les arguments dans le texte principal seront expliqués ci-dessous avec des mots et des images; les lecteurs qui souhaitent un traitement plus mathématique devrait également voir l'annexe technique.