La représentation est de faire des inférences de vos répondants à votre population cible.
Afin de comprendre le genre d'erreurs qui peuvent se produire lorsque inférer des répondants à la population en général, considérons le scrutin de paille Literary Digest qui a essayé de prédire l'issue de 1936 l' élection présidentielle américaine. Bien qu'il était il y a plus de 75 ans, cette débâcle a encore une leçon importante pour enseigner les chercheurs d'aujourd'hui.
Literary Digest était un magazine populaire d'intérêt général, et à partir de 1920 , ils a commencé à courir sondages paille pour prédire les résultats des élections présidentielles. Pour faire ces prédictions qu'ils allaient envoyer des bulletins de vote à beaucoup de gens, et puis tout simplement correspondre les bulletins de vote qui ont été retournés; Literary Digest fièrement rapporté que les bulletins de vote reçus ont été ni «pondéré ajusté, ni interprété." Cette procédure correctement prédit le gagnant des élections en 1920, 1924, 1928 et 1932. en 1936, au milieu de la Grande dépression, Literary Digest a envoyé des bulletins de vote à 10 millions de personnes, dont les noms provenaient principalement des annuaires téléphoniques et les registres d'immatriculation de l' automobile. Voici comment ils décrivent leur méthodologie:
"Machine se déplace lisse de course à pied DIGEST avec la précision rapide de l'expérience de trente ans pour réduire la conjecture aux faits. . . .Cette Semaine 500 stylos rayés de plus d'un quart de million d'adresses par jour. Chaque jour, dans une grande salle au-dessus du moteur-ribboned Fourth Avenue, à New York, 400 travailleurs glisser habilement un million de pièces d'imprimés, assez pour ouvrir quarante blocs-dans la ville les enveloppes adressées [sic]. Chaque heure, dans son propre bureau de poste Substation DU DIGEST, trois bavardes machines d'affranchissement de mesure scellé et tamponné les oblongs blancs; les employés des postes qualifiés les basculés dans renflement mailsacks; camions flotte DIGEST accéléré leur courrier express-trains. . . La semaine prochaine, les premières réponses de ces dix millions vont commencer la marée montante de bulletins de vote marqués, pour être triple-vérifié, vérifié, cinq fois recoupées et totalisé. Lorsque le dernier chiffre a été totted et vérifié, si l'expérience passée est un critère, le pays connaîtra à une fraction de 1 pour cent de la réelle vote populaire de quarante millions [électeurs]. "(22 Août, 1936)
La fétichisation du Digest de taille est immédiatement reconnaissable à tout chercheur "big data" aujourd'hui. Sur les 10 millions de bulletins de vote distribués, un étonnant 2,4 millions de bulletins de vote ont été retournés qui est plus ou moins 1000 fois plus grande que les sondages politiques modernes. De ces 2,4 millions de répondants le verdict était clair: Literary Digest prédit que le challenger Alf Landon allait vaincre le titulaire Franklin Roosevelt. Mais, en fait, exactement le contraire qui est arrivé. Roosevelt a battu Landon dans un glissement de terrain. Comment Literary Digest pourrait aller mal avec tant de données? Notre compréhension moderne de l' échantillonnage fait des erreurs de Literary Digest claire et nous aide à éviter de faire des erreurs similaires à l'avenir.
Penser clairement sur l'échantillonnage nous oblige à tenir compte de quatre différents groupes de personnes (figure 3.1). Le premier groupe de personnes est la population cible; ceci est le groupe que la recherche définit comme la population d'intérêt. Dans le cas du Literary Digest la population cible était électeurs dans l'élection présidentielle 1936. Après avoir statué sur une population cible, un chercheur à côté a besoin de développer une liste de personnes qui peuvent être utilisés pour l'échantillonnage. Cette liste est appelée une base de sondage et la population sur la base de sondage est appelé la population cadre. Dans le cas du Literary Digest la population cadre était les 10 millions de personnes dont les noms sont venus principalement des annuaires téléphoniques et les registres d'immatriculation de l' automobile. Idéalement, la population cible et la population cadre serait exactement la même chose, mais en pratique, ce qui est souvent pas le cas. Les différences entre la population cible et la population de cadre sont appelés erreur de couverture. Erreur de couverture n'a pas, par lui-même garantit des problèmes. Mais, si les gens de la population de cadre sont systématiquement différents des personnes pas dans la population cadre , il y aura le biais de couverture. L' erreur de couverture a été la première des grandes lacunes du sondage Literary Digest. Ils voulaient en apprendre davantage sur les électeurs-qui était leur population cible, mais ils ont construit une base de sondage principalement à partir des annuaires téléphoniques et les registres de l'automobile, des sources qui surreprésentés plus riches Américains qui étaient plus susceptibles de soutenir Alf Landon (rappelons que ces deux technologies, qui sont communs aujourd'hui, étaient relativement nouveau à l'époque et que les Etats-Unis étaient au milieu de la Grande dépression).
Après avoir défini la population cadre, la prochaine étape est un chercheur de choisir la population de l' échantillon; ce sont les gens que le chercheur va tenter d'interviewer. Si l'échantillon a des caractéristiques différentes de la population cadre, alors nous pouvons introduire une erreur d'échantillonnage. Ce genre d'erreur quantifiés dans la marge d'erreur qui accompagne habituellement les estimations. Dans le cas du fiasco Literary Digest, il y avait effectivement pas d' échantillon; ils ont tenté de communiquer avec tout le monde dans la population cadre. Même si il n'y avait pas d'erreur d'échantillonnage, il y avait évidemment encore erreur. Cela clarifie que les marges d'erreurs qui sont généralement rapportés avec les estimations des enquêtes sont généralement trompeusement petite; ils ne comprennent pas toutes les sources d'erreur.
Enfin, un chercheur tente d'interviewer tout le monde dans la population de l'échantillon. Ces gens qui sont interrogés avec succès sont appelés répondants. Idéalement, la population de l'échantillon et les répondants seraient exactement les mêmes, mais dans la pratique, il est non-réponse. Autrement dit, les gens qui sont sélectionnés dans l'échantillon refusent de participer. Si les personnes qui répondent sont différents de ceux qui ne répondent pas, alors il peut y avoir un biais de non-réponse. Le biais de non-réponse était le deuxième principal problème avec le sondage Literary Digest. Seulement 24% des personnes qui ont reçu un bulletin de vote a répondu, et il est apparu que les personnes qui ont soutenu Landon étaient plus susceptibles de répondre.
Au - delà d' être simplement un exemple pour introduire les idées de représentation, le sondage Literary Digest est une parabole souvent répétée, mettant en garde les chercheurs sur les dangers de l' échantillonnage aléatoire. Malheureusement, je pense que la leçon que beaucoup de gens tirent de cette histoire est la mauvaise. La morale la plus courante de l'histoire est que les chercheurs ne peuvent pas apprendre quoi que ce soit à partir d'échantillons non probabilistes (c.-à-échantillons sans règles sur la base de probabilités strictes de sélection des participants). Mais, comme je vous montrerai plus loin dans ce chapitre, ce n'est pas tout à fait raison. Au lieu de cela, je pense qu'il ya vraiment deux morales à cette histoire; la morale qui sont aussi vraies aujourd'hui qu'elles l'étaient en 1936. Tout d'abord, une grande quantité de données recueillies au hasard ne garantiront pas une bonne estimation. Deuxièmement, les chercheurs doivent tenir compte de la façon dont leurs données ont été collectées quand ils font des estimations de lui. En d' autres termes, parce que le processus de collecte de données dans le sondage Literary Digest a été systématiquement biaisée vers certains répondants, les chercheurs ont besoin d'utiliser un processus d'estimation plus complexe que les poids des répondants plus que d' autres. Plus tard dans ce chapitre, je vais vous montrer une telle pondération procédure post-stratification qui peuvent vous permettre de faire de meilleures estimations avec des échantillons non probabilistes.