Les données non représentatives sont mauvaises pour les généralisations hors échantillon, mais peuvent être très utiles pour les comparaisons intra-échantillon.
Certains spécialistes des sciences sociales ont l'habitude de travailler avec des données provenant d'un échantillon aléatoire probabiliste provenant d'une population bien définie, comme tous les adultes d'un pays donné. Ce type de données est appelé données représentatives parce que l'échantillon «représente» la plus grande population. De nombreux chercheurs attribuent des données représentatives, et pour certains, les données représentatives sont synonymes de science rigoureuse alors que les données non représentatives sont synonymes de négligence. À l'extrême, certains sceptiques semblent croire que rien ne peut être appris à partir de données non représentatives. Si cela est vrai, cela semblerait limiter sévèrement ce que l'on peut apprendre des sources de données volumineuses car beaucoup d'entre elles ne sont pas représentatives. Heureusement, ces sceptiques n'ont que partiellement raison. Certains objectifs de recherche pour lesquels des données non représentatives ne conviennent manifestement pas, mais il y en a d'autres pour lesquels ils pourraient être très utiles.
Pour comprendre cette distinction, considérons un classique scientifique: l'étude de John Snow sur l'épidémie de choléra de 1853-54 à Londres. À l'époque, de nombreux médecins croyaient que le choléra était causé par un «mauvais air», mais Snow croyait qu'il s'agissait d'une maladie infectieuse, peut-être propagée par l'eau potable contenue dans les égouts. Pour tester cette idée, Snow a profité de ce que nous pourrions maintenant appeler une expérience naturelle. Il a comparé les taux de choléra des ménages desservis par deux compagnies d'eau différentes: Lambeth et Southwark & Vauxhall. Ces compagnies desservaient des ménages similaires, mais elles différaient d'une manière importante: en 1849 - quelques années avant le début de l'épidémie - Lambeth avait déménagé son point d'entrée en amont du principal déversement d'eaux usées à Londres, tandis que Southwark et Vauxhall évacuation des eaux usées. Lorsque Snow a comparé les taux de mortalité due au choléra dans les ménages desservis par les deux entreprises, il a constaté que les clients de Southwark & Vauxhall - l'entreprise qui fournissait aux clients des eaux contaminées - étaient 10 fois plus susceptibles de mourir du choléra. Ce résultat fournit de solides preuves scientifiques pour l'argument de Snow sur la cause du choléra, même s'il ne repose pas sur un échantillon représentatif de personnes vivant à Londres.
Les données de ces deux sociétés ne seraient cependant pas idéales pour répondre à une question différente: quelle était la prévalence du choléra à Londres pendant l'épidémie? Pour cette deuxième question, qui est également importante, il serait préférable d'avoir un échantillon représentatif de personnes de Londres.
Comme l'illustre le travail de Snow, il existe des questions scientifiques pour lesquelles des données non représentatives peuvent être très efficaces et d'autres pour lesquelles elles ne sont pas bien adaptées. Une façon grossière de distinguer ces deux types de questions est que certaines questions portent sur les comparaisons intra-échantillon et certaines concernent des généralisations hors échantillon. Cette distinction peut être davantage illustrée par une autre étude classique en épidémiologie: l'étude des médecins britanniques, qui a joué un rôle important en démontrant que le tabagisme cause le cancer. Dans cette étude, Richard Doll et A. Bradford Hill ont suivi environ 25 000 hommes médecins pendant plusieurs années et ont comparé leurs taux de mortalité en fonction de la quantité qu'ils avaient fumé au début de l'étude. Doll et Hill (1954) trouvé une forte relation exposition-réponse: plus les gens fumaient, plus ils risquaient de mourir du cancer du poumon. Bien sûr, il serait imprudent d'estimer la prévalence du cancer du poumon parmi tous les Britanniques sur la base de ce groupe d'hommes médecins, mais la comparaison intra-échantillon montre encore que le tabagisme provoque le cancer du poumon.
Maintenant que j'ai illustré la différence entre les comparaisons intra-échantillon et les généralisations hors échantillon, deux mises en garde s'imposent. Premièrement, on se demande naturellement dans quelle mesure une relation qui se trouve dans un échantillon de médecins britanniques masculins se retrouvera dans un échantillon de femmes, de médecins britanniques ou de travailleurs britanniques d'usine ou de travailleuses allemandes ou de nombreux autres groupes. Ces questions sont intéressantes et importantes, mais elles diffèrent des questions sur la mesure dans laquelle nous pouvons généraliser d'un échantillon à une population. Notez, par exemple, que vous soupçonnez probablement que la relation entre le tabagisme et le cancer qui a été trouvée chez les hommes médecins britanniques sera probablement similaire dans ces autres groupes. Votre capacité à faire cette extrapolation ne vient pas du fait que les médecins britanniques masculins sont un échantillon aléatoire probabiliste de n'importe quelle population; il provient plutôt d'une compréhension du mécanisme qui lie le tabagisme et le cancer. Ainsi, la généralisation d'un échantillon à la population à partir de laquelle est tiré est en grande partie un problème statistique, mais les questions sur la transportabilité des modèles trouvés dans un groupe à un autre groupe sont largement non (Pearl and Bareinboim 2014; Pearl 2015)
À ce stade, un sceptique pourrait souligner que la plupart des modèles sociaux sont probablement moins transportables entre les groupes que la relation entre le tabagisme et le cancer. Et je suis d'accord. La mesure dans laquelle nous devrions nous attendre à ce que les modèles soient transportables est finalement une question scientifique qui doit être décidée en fonction de la théorie et de la preuve. Il ne devrait pas automatiquement être supposé que les modèles seront transportables, mais il ne devrait pas non plus être supposé qu'ils ne seront pas transportables. Ces questions quelque peu abstraites sur la transportabilité vous seront familières si vous avez suivi les débats sur la façon dont les chercheurs peuvent apprendre sur le comportement humain en étudiant les étudiants de premier cycle (Sears 1986, [@henrich_most_2010] ) . Malgré ces débats, il serait déraisonnable de dire que les chercheurs ne peuvent rien apprendre en étudiant les étudiants de premier cycle.
La deuxième mise en garde est que la plupart des chercheurs ayant des données non représentatives ne sont pas aussi prudents que Snow ou Doll and Hill. Donc, pour illustrer ce qui peut mal tourner lorsque les chercheurs essaient de faire une généralisation hors échantillon à partir de données non représentatives, je voudrais vous parler d'une étude de l'élection parlementaire allemande de 2009 par Andranik Tumasjan et ses collègues (2010) . En analysant plus de 100 000 tweets, ils ont constaté que la proportion de tweets mentionnant un parti politique correspondait à la proportion de votes que ce parti avait reçue lors des élections législatives (figure 2.3). En d'autres termes, il est apparu que les données Twitter, qui étaient essentiellement gratuites, pouvaient remplacer les sondages d'opinion publique traditionnels, qui sont coûteux en raison de l'importance qu'ils accordent aux données représentatives.
Compte tenu de ce que vous connaissez probablement déjà sur Twitter, vous devriez immédiatement être sceptique quant à ce résultat. Les Allemands sur Twitter en 2009 n'étaient pas un échantillon aléatoire probabiliste des électeurs allemands, et les partisans de certains partis pourraient tweeter sur la politique beaucoup plus souvent que les partisans des autres partis. Ainsi, il semble surprenant que tous les préjugés possibles que vous pourriez imaginer seraient en quelque sorte annulés afin que ces données reflètent directement les électeurs allemands. En fait, les résultats de Tumasjan et al. (2010) s'est avéré être trop beau pour être vrai. Un document de suivi d'Andreas Jungherr, Pascal Jürgens et Harald Schoen (2012) souligné que l'analyse originale avait exclu le parti politique qui avait reçu le plus de mentions sur Twitter: le Parti Pirate, un petit parti qui lutte contre la réglementation gouvernementale d'Internet. Lorsque le Parti Pirate a été inclus dans l'analyse, les mentions Twitter deviennent un prédicteur terrible des résultats des élections (figure 2.3). Comme l'illustre cet exemple, l'utilisation de sources de données volumineuses non représentatives pour effectuer des généralisations hors échantillon peut s'avérer très fausse. De plus, vous devriez remarquer que le fait qu'il y ait eu 100 000 tweets était fondamentalement non pertinent: beaucoup de données non représentatives sont toujours non représentatives, un thème sur lequel je reviendrai au chapitre 3 lorsque je discuterai de sondages.
En conclusion, de nombreuses sources de données importantes ne sont pas des échantillons représentatifs d'une population bien définie. Pour les questions qui nécessitent de généraliser les résultats de l'échantillon à la population à partir de laquelle il a été tiré, c'est un problème sérieux. Mais pour des questions sur les comparaisons intra-échantillon, les données non représentatives peuvent être puissantes, à condition que les chercheurs soient clairs sur les caractéristiques de leur échantillon et soutiennent les affirmations sur la transportabilité avec des preuves théoriques ou empiriques. En fait, j'espère que les sources de données volumineuses permettront aux chercheurs d'effectuer davantage de comparaisons intra-échantillon dans de nombreux groupes non représentatifs, et je suppose que les estimations de plusieurs groupes feront davantage avancer la recherche sociale qu'une simple estimation aléatoire aléatoire. échantillon.