La représentation est de faire des inférences de vos répondants à votre population cible.
Afin de comprendre le genre d'erreurs qui peuvent survenir lorsque l'on infère de répondants à la population plus large, considérons le sondage paille Littéraire Digest qui a tenté de prédire le résultat de l'élection présidentielle américaine de 1936. Bien que cela soit arrivé il y a plus de 75 ans, cette débâcle a encore une leçon importante à enseigner aux chercheurs aujourd'hui.
Literary Digest était un magazine d'intérêt général populaire, et à partir de 1920, ils ont commencé à organiser des sondages pour prédire les résultats des élections présidentielles. Pour faire ces prédictions, ils enverraient des bulletins de vote à beaucoup de gens, puis ils recoupaient simplement les bulletins qui leur étaient retournés. Literary Digest fièrement rapporté que les bulletins de vote reçus ne sont ni « pondéré ajusté, ni interprété. » Cette procédure a correctement prédit les vainqueurs des élections en 1920, 1924, 1928 et 1932. En 1936, au milieu de la Grande Dépression, littéraire Digest a envoyé des bulletins de vote à 10 millions de personnes, dont les noms provenaient principalement d'annuaires téléphoniques et d'enregistrements d'automobiles. Voici comment ils ont décrit leur méthodologie:
"La machine de course en douceur du DIGEST se déplace avec la précision rapide de trente ans d'expérience pour réduire les conjectures à des faits concrets ... Cette semaine, 500 stylos ont rayé plus d'un quart de million d'adresses par jour. Chaque jour, dans une grande salle située au-dessus de la Fourth Avenue, à New York, 400 ouvriers glissaient adroitement un million d'imprimés - assez pour paver quarante pâtés de maisons - dans les enveloppes adressées [sic]. Toutes les heures, dans le bureau de poste de THE DIGEST, trois machines à affranchir timbrées sciaient et obliquaient les oblongs blancs; des employés des postes qualifiés les ont jetés dans des sacs de courrier gonflés; Les camions de la flotte DIGEST les ont accélérés pour l'express. . . La semaine prochaine, les premières réponses de ces dix millions de personnes commenceront la marée montante des bulletins marqués, qui seront triés, vérifiés, cinq fois recoupés et totalisés. Quand le dernier chiffre a été battu et vérifié, si l'expérience passée est un critère, le pays connaîtra à une fraction de 1% le vote populaire actuel de quarante millions [d'électeurs]. "(22 août 1936)
La fétichisation de la taille de Literary Digest est immédiatement reconnaissable à tout chercheur «big data» aujourd'hui. Sur les 10 millions de bulletins de vote distribués, 2,4 millions ont été rendus, soit environ 1 000 fois plus que les sondages politiques modernes. De ces 2,4 millions de répondants, le verdict était clair: Alf Landon allait vaincre le titulaire Franklin Roosevelt. Mais, en fait, Roosevelt a vaincu Landon dans un glissement de terrain. Comment Literary Digest peut-il se tromper avec autant de données? Notre compréhension moderne de l'échantillonnage rend les erreurs de Literary Digest claires et nous aide à éviter de faire des erreurs similaires à l'avenir.
Penser clairement à l'échantillonnage nécessite de considérer quatre groupes différents de personnes (figure 3.2). Le premier groupe est la population cible . C'est le groupe que le chercheur définit comme la population d'intérêt. Dans le cas de Literary Digest , la population cible était les électeurs lors de l'élection présidentielle de 1936.
Après avoir décidé d'une population cible, un chercheur doit développer une liste de personnes pouvant être utilisées pour l'échantillonnage. Cette liste est appelée un cadre d'échantillonnage et les gens sur elle s'appellent la population de trame . Idéalement, la population cible et la population-cadre seraient exactement les mêmes, mais dans la pratique, ce n'est souvent pas le cas. Par exemple, dans le cas de Literary Digest , la population carcérale était composée de 10 millions de personnes dont les noms provenaient principalement des annuaires téléphoniques et des registres d'immatriculation des automobiles. Les différences entre la population cible et la population de base sont appelées erreur de couverture . Une erreur de couverture ne garantit pas en soi des problèmes. Cependant, cela peut conduire à un biais de couverture si les personnes dans la population-cadre sont systématiquement différentes des personnes de la population cible qui ne font pas partie de la population-cadre. C'est, en fait, exactement ce qui s'est passé dans le sondage Literary Digest . Les gens dans leur tranche de population tendaient à être plus enclins à soutenir Alf Landon, en partie parce qu'ils étaient plus riches (rappelons que les téléphones et les automobiles étaient relativement nouveaux et chers en 1936). Ainsi, dans le sondage du Literary Digest , l'erreur de couverture a conduit à un biais de couverture.
Après avoir défini la population de base , l'étape suivante consiste pour un chercheur à sélectionner la population de l' échantillon ; ce sont les personnes que le chercheur tentera d'interviewer. Si l'échantillon a des caractéristiques différentes de la population de la base de sondage, l'échantillonnage peut introduire une erreur d'échantillonnage . Cependant, dans le cas du fiasco Literary Digest , il n'y avait pas d'échantillonnage - le magazine pour contacter tout le monde dans la population du cadre - et il n'y avait donc pas d'erreur d'échantillonnage. De nombreux chercheurs ont tendance à se concentrer sur l'erreur d'échantillonnage - c'est généralement le seul type d'erreur captée par la marge d'erreur signalée dans les enquêtes - mais le fiasco Literary Digest nous rappelle qu'il faut prendre en compte toutes les sources d'erreurs aléatoires et systématiques.
Enfin, après avoir sélectionné un échantillon de population, un chercheur tente d'interviewer tous ses membres. Les personnes interrogées avec succès sont appelées répondants . Idéalement, la population de l'échantillon et les répondants seraient exactement les mêmes, mais dans la pratique, il y a non-réponse. Autrement dit, les personnes sélectionnées dans l'échantillon ne participent parfois pas. Si les personnes qui répondent sont différentes de celles qui ne répondent pas, il peut y avoir un biais de non-réponse . Le biais de non-réponse était le deuxième problème principal du sondage du Literary Digest . Seulement 24% des personnes ayant reçu un vote ont répondu, et il s'est avéré que les personnes qui soutenaient Landon étaient plus susceptibles de répondre.
Au-delà d'être un exemple pour présenter les idées de la représentation, le sondage du Literary Digest est une parabole souvent répétée, mettant en garde les chercheurs sur les dangers de l'échantillonnage hasardeux. Malheureusement, je pense que la leçon que beaucoup de gens tirent de cette histoire est la mauvaise. La morale la plus commune de l'histoire est que les chercheurs ne peuvent rien apprendre à partir d'échantillons non probabilistes (c'est-à-dire des échantillons sans règles strictes basées sur les probabilités pour la sélection des participants). Mais, comme je le montrerai plus loin dans ce chapitre, ce n'est pas tout à fait correct. Au lieu de cela, je pense qu'il y a vraiment deux morales à cette histoire; les mœurs sont aussi vraies aujourd'hui qu'elles l'étaient en 1936. D'abord, une grande quantité de données collectées au hasard ne garantira pas une bonne estimation. En général, le fait d'avoir un grand nombre de répondants diminue la variance des estimations, mais cela ne diminue pas nécessairement le biais. Avec beaucoup de données, les chercheurs peuvent parfois obtenir une estimation précise de la mauvaise chose; ils peuvent être précisément inexacts (McFarland and McFarland 2015) . La deuxième grande leçon tirée du fiasco du Literary Digest est que les chercheurs doivent rendre compte de la façon dont leur échantillon a été recueilli lors des estimations. En d'autres termes, étant donné que le processus d'échantillonnage du sondage du Literary Digest était systématiquement orienté vers certains répondants, les chercheurs devaient utiliser un processus d'estimation plus complexe qui pondérait certains répondants plus que d'autres. Plus loin dans ce chapitre, je vais vous montrer une telle procédure de pondération - post-stratification - qui peut vous permettre de faire de meilleures estimations à partir d'échantillons aléatoires.