Nous pouvons approximer des expériences que nous n'avons pas ou ne pouvons pas faire. Deux approches qui tirent parti des sources de données volumineuses sont les expériences naturelles et l'appariement.
Certaines questions scientifiques et politiques importantes sont causales. Par exemple, quel est l'effet d'un programme de formation professionnelle sur les salaires? Un chercheur qui tente de répondre à cette question pourrait comparer les gains des personnes qui se sont inscrites à la formation à celles qui ne l'ont pas fait. Mais quelle est la différence de salaire entre ces groupes à cause de la formation et à cause des différences préexistantes entre les personnes qui s'inscrivent et celles qui ne le font pas? C'est une question difficile, et celle-ci ne disparaît pas automatiquement avec plus de données. En d'autres termes, la préoccupation au sujet des différences préexistantes possibles se pose quel que soit le nombre de travailleurs dans vos données.
Dans de nombreuses situations, la façon la plus efficace d'estimer l'effet causal de certains traitements, comme la formation professionnelle, consiste à effectuer une expérience contrôlée randomisée dans le cadre de laquelle un chercheur distribue le traitement à certaines personnes et non à d'autres. Je consacrerai tout le chapitre 4 aux expériences, donc je vais me concentrer sur deux stratégies qui peuvent être utilisées avec des données non expérimentales. La première stratégie dépend de la recherche de quelque chose qui se passe dans le monde qui assigne de façon aléatoire (ou presque) le traitement à certaines personnes et pas à d'autres. La deuxième stratégie consiste à ajuster statistiquement les données non expérimentales afin de tenter de tenir compte des différences préexistantes entre ceux qui ont reçu le traitement et ceux qui ne l'ont pas reçu.
Un sceptique peut prétendre que ces deux stratégies doivent être évitées car elles nécessitent des hypothèses fortes, des hypothèses difficiles à évaluer et qui, dans la pratique, sont souvent violées. Bien que je comprenne bien cette affirmation, je pense que cela va un peu trop loin. Il est certainement vrai qu'il est difficile de faire des estimations causales fiables à partir de données non expérimentales, mais je ne pense pas que cela signifie que nous ne devrions jamais essayer. En particulier, les approches non expérimentales peuvent être utiles si la contrainte logistique vous empêche de mener une expérience ou si des contraintes éthiques signifient que vous ne voulez pas faire une expérience. En outre, des approches non expérimentales peuvent être utiles si vous souhaitez tirer parti des données qui existent déjà afin de concevoir une expérience contrôlée randomisée.
Avant de poursuivre, il est également intéressant de noter que faire des estimations causales est l'un des sujets les plus complexes de la recherche sociale, et que cela peut mener à un débat intense et émotionnel. Dans ce qui suit, je fournirai une description optimiste de chaque approche afin de construire l'intuition à ce sujet, puis je vais décrire quelques-uns des défis qui se posent lors de l'utilisation de cette approche. De plus amples détails sur chaque approche sont disponibles dans les matériaux à la fin de ce chapitre. Si vous prévoyez utiliser l'une ou l'autre de ces approches dans votre propre recherche, je vous recommande fortement de lire l'un des nombreux excellents ouvrages sur l'inférence causale (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Une approche pour faire des estimations causales à partir de données non expérimentales consiste à rechercher un événement qui a assigné de façon aléatoire un traitement à certaines personnes et non à d'autres. Ces situations sont appelées expériences naturelles . L'un des exemples les plus clairs d'une expérience naturelle vient de la recherche de Joshua Angrist (1990) mesurant l'effet des services militaires sur les gains. Pendant la guerre au Vietnam, les États-Unis ont augmenté la taille de leurs forces armées grâce à un projet. Afin de décider quels citoyens seraient appelés en service, le gouvernement américain a tenu une loterie. Chaque date de naissance était écrite sur un morceau de papier et, comme le montre la figure 2.7, ces morceaux de papier étaient sélectionnés un à la fois afin de déterminer l'ordre dans lequel les jeunes hommes seraient appelés à servir (les jeunes femmes n'étaient pas sujettes au projet). Sur la base des résultats, les hommes nés le 14 septembre ont été appelés en premier, les hommes nés le 24 avril ont été appelés seconds, et ainsi de suite. En fin de compte, dans cette loterie, des hommes nés 195 jours différents ont été rédigés, alors que les hommes nés 171 jours ne l'étaient pas.
Bien que cela ne soit pas immédiatement apparent, une loterie préliminaire a une similitude critique avec une expérience contrôlée randomisée: dans les deux cas, les participants sont assignés au hasard pour recevoir un traitement. Afin d'étudier l'effet de ce traitement randomisé, Angrist a profité d'un système de données volumineuses toujours en service: l'US Social Security Administration, qui recueille des informations sur la quasi-totalité des revenus d'emploi des Américains. En combinant les informations sur les personnes sélectionnées au tirage au sort avec les données sur les gains recueillies dans les dossiers administratifs gouvernementaux, Angrist a conclu que les gains des anciens combattants étaient d'environ 15% inférieurs à ceux des non-vétérans comparables.
Comme le montre cet exemple, les forces sociales, politiques ou naturelles assignent parfois des traitements d'une manière qui peut être exploitée par les chercheurs, et parfois les effets de ces traitements sont captés dans des sources de données volumineuses. Cette stratégie de recherche peut être résumée comme suit: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Pour illustrer cette stratégie à l'ère numérique, considérons une étude d'Alexandre Mas et Enrico Moretti (2009) qui a tenté d'estimer l'effet du travail avec des collègues productifs sur la productivité d'un travailleur. Avant de voir les résultats, il convient de souligner qu'il existe des attentes conflictuelles que vous pourriez avoir. D'une part, vous pourriez vous attendre à ce que travailler avec des collègues productifs amène un travailleur à augmenter sa productivité à cause de la pression des pairs. Ou, d'un autre côté, vous pourriez vous attendre à ce que le fait d'avoir des pairs qui travaillent dur puisse conduire une travailleuse à se relâcher parce que le travail sera effectué par ses pairs de toute façon. La façon la plus claire d'étudier les effets des pairs sur la productivité serait une expérience contrôlée randomisée où les travailleurs sont assignés au hasard à des quarts de travail avec des travailleurs de niveaux de productivité différents, puis la productivité résultante est mesurée pour tout le monde. Les chercheurs, cependant, ne contrôlent pas le calendrier des travailleurs dans les affaires réelles, et Mas et Moretti ont dû compter sur une expérience naturelle impliquant des caissiers dans un supermarché.
Dans ce supermarché particulier, à cause de la manière dont l'horaire était établi et de la façon dont les quarts de travail se chevauchaient, chaque caissier avait des collègues différents à différents moments de la journée. De plus, dans ce supermarché particulier, l'affectation des caissiers n'était pas liée à la productivité de leurs pairs ni à l'achalandage du magasin. En d'autres termes, même si l'établissement des horaires des caissiers n'était pas déterminé par une loterie, c'était comme si les travailleurs étaient parfois assignés au hasard à travailler avec des pairs à productivité élevée (ou faible). Heureusement, ce supermarché disposait également d'un système de caisse numérique permettant de suivre les articles que chaque caissier numérisait en permanence. À partir de ces données du journal de caisse, Mas et Moretti ont pu créer une mesure précise, individuelle et constante de la productivité: le nombre d'articles analysés par seconde. En combinant ces deux éléments - la variation naturelle de la productivité des pairs et la mesure de la productivité constante - Mas et Moretti ont estimé que si une caissière recevait des collègues 10% plus productifs que la moyenne, sa productivité augmenterait de 1,5% . En outre, ils ont utilisé la taille et la richesse de leurs données pour explorer deux questions importantes: l' hétérogénéité de cet effet (Pour quels types de travailleurs l'effet est-il plus grand?) Et les mécanismes à l'origine de cet effet. une plus grande productivité?). Nous reviendrons sur ces deux questions importantes - l'hétérogénéité des effets et des mécanismes de traitement - au chapitre 4 lorsque nous discuterons plus en détail des expériences.
Généralisant à partir de ces deux études, le tableau 2.3 résume d'autres études qui ont cette même structure: en utilisant une source de données toujours sur pour mesurer l'effet de certaines variations aléatoires. En pratique, les chercheurs utilisent deux stratégies différentes pour trouver des expériences naturelles, qui peuvent toutes deux être fructueuses. Certains chercheurs commencent par une source de données permanente et recherchent des événements aléatoires dans le monde; d'autres commencent un événement aléatoire dans le monde et recherchent des sources de données qui capturent son impact.
Objectif de fond | Source d'expérience naturelle | Source de données toujours active | Référence |
---|---|---|---|
Effets des pairs sur la productivité | Processus de planification | Données de caisse | Mas and Moretti (2009) |
La formation de l'amitié | Ouragans | Phan and Airoldi (2015) | |
Propagation des émotions | Pluie | Lorenzo Coviello et al. (2014) | |
Transferts économiques de pair à pair | Tremblement de terre | Données d'argent mobile | Blumenstock, Fafchamps, and Eagle (2011) |
Comportement de consommation personnelle | Fermeture du gouvernement américain en 2013 | Données financières personnelles | Baker and Yannelis (2015) |
Impact économique des systèmes de recommandation | Divers | Parcourir les données sur Amazon | Sharma, Hofman, and Watts (2015) |
Effet du stress sur les bébés à naître | 2006 Israël-Hezbollah guerre | Dossiers de naissance | Torche and Shwed (2015) |
Comportement de lecture sur Wikipedia | Les révélations de Snowden | Journaux de Wikipedia | Penney (2016) |
Effets des pairs sur l'exercice | Météo | Traqueurs de fitness | Aral and Nicolaides (2017) |
Dans la discussion à ce jour sur les expériences naturelles, j'ai laissé de côté un point important: aller de ce que la nature a fourni à ce que vous voulez peut parfois être assez délicat. Revenons à l'exemple du projet Vietnam. Dans ce cas, Angrist était intéressé à estimer l'effet du service militaire sur les gains. Malheureusement, le service militaire n'a pas été assigné au hasard; plutôt il était en train d'être rédigé qui a été assigné au hasard. Cependant, tous ceux qui ont été rédigés n'ont pas servi (il y avait une variété d'exemptions), et tous ceux qui ont servi n'ont pas été rédigés (les gens pouvaient se porter volontaires pour servir). Parce que la rédaction a été assignée au hasard, un chercheur peut estimer l'effet d'être rédigé pour tous les hommes dans le projet. Mais Angrist ne voulait pas savoir l'effet d'être rédigé; il voulait connaître l'effet de servir dans l'armée. Pour faire cette estimation, cependant, des hypothèses supplémentaires et des complications sont nécessaires. Tout d'abord, les chercheurs doivent supposer que la seule façon d'avoir un impact sur les gains est le service militaire, une hypothèse appelée la restriction d'exclusion . Cette hypothèse pourrait être erronée si, par exemple, les hommes qui ont été enrôlés restent plus longtemps à l'école afin d'éviter de servir ou si les employeurs sont moins susceptibles d'embaucher des hommes qui ont été recrutés. En général, la restriction d'exclusion est une hypothèse critique, et il est généralement difficile à vérifier. Même si la restriction d'exclusion est correcte, il est toujours impossible d'estimer l'effet du service sur tous les hommes. Au lieu de cela, il s'avère que les chercheurs ne peuvent qu'estimer l'effet sur un sous-ensemble spécifique d'hommes appelés compères (hommes qui serviraient quand ils seraient rédigés, mais qui ne serviraient pas s'ils n'étaient pas rédigés) (Angrist, Imbens, and Rubin 1996) . Complices, cependant, n'étaient pas la population d'origine d'intérêt. Notez que ces problèmes se posent même dans le cas relativement propre du tirage au sort. Un autre ensemble de complications survient lorsque le traitement n'est pas attribué par une loterie physique. Par exemple, dans l'étude de Mas et Moretti sur les caissiers, des questions supplémentaires se posent quant à l'hypothèse selon laquelle l'affectation des pairs est essentiellement aléatoire. Si cette hypothèse était fortement violée, elle pourrait biaiser leurs estimations. En conclusion, les expériences naturelles peuvent être une puissante stratégie pour faire des estimations causales à partir de données non expérimentales, et les sources de données volumineuses augmentent notre capacité à tirer parti des expériences naturelles lorsqu'elles se produisent. Cependant, il faudra probablement beaucoup de soin - et parfois de fortes suppositions - pour aller de ce que la nature a fourni à l'estimation que vous voulez.
La deuxième stratégie dont je voudrais vous parler pour établir des estimations causales à partir de données non expérimentales dépend de l'ajustement statistique des données non expérimentales pour tenter de tenir compte des différences préexistantes entre ceux qui ont reçu le traitement et ceux qui ne l'ont pas reçu. Il y a beaucoup de telles approches d'ajustement, mais je vais me concentrer sur une approche appelée appariement . Dans l'appariement, le chercheur examine des données non expérimentales pour créer des paires de personnes semblables, sauf que l'une a reçu le traitement et l'autre non. Dans le processus d'appariement, les chercheurs sont également en train d' élaguer ; c'est-à-dire, abandonner les cas où il n'y a pas de correspondance évidente. Ainsi, cette méthode s'appellerait plus précisément matching-and-pruning, mais je m'en tiendrai au terme traditionnel: matching.
Un exemple de la puissance des stratégies d'appariement avec des sources massives de données non expérimentales vient des recherches sur le comportement des consommateurs menées par Liran Einav et ses collègues (2015) . Ils s'intéressaient aux ventes aux enchères sur eBay et, en décrivant leur travail, je me concentrerai sur l'effet du prix de départ des enchères sur les résultats des enchères, tels que le prix de vente ou la probabilité d'une vente.
La façon la plus naïve d'estimer l'effet du prix de départ sur le prix de vente consisterait simplement à calculer le prix final pour les enchères ayant des prix de départ différents. Cette approche serait bien si vous vouliez prédire le prix de vente étant donné le prix de départ. Mais si votre question porte sur l'effet du prix de départ, cette approche ne fonctionnera pas parce qu'elle ne repose pas sur des comparaisons justes; les enchères avec des prix de départ plus bas peuvent être très différentes de celles avec des prix de départ plus élevés (par exemple, elles peuvent concerner différents types de biens ou inclure différents types de vendeurs).
Si vous êtes déjà conscient des problèmes qui peuvent survenir lorsque vous effectuez des estimations causales à partir de données non expérimentales, vous pouvez ignorer l'approche naïve et envisager de mener une expérience sur le terrain où vous vendriez un objet spécifique, par exemple un club de golf l'ensemble des paramètres d'enchères - par exemple, la livraison gratuite et la vente aux enchères ouverte pour deux semaines - mais avec des prix de départ assignés au hasard. En comparant les résultats du marché qui en résultent, cette expérience sur le terrain offrirait une mesure très claire de l'effet du prix de départ sur le prix de vente. Mais cette mesure ne s'appliquerait qu'à un produit particulier et à un ensemble de paramètres d'enchères. Les résultats peuvent être différents, par exemple, pour différents types de produits. Sans une théorie solide, il est difficile d'extrapoler de cette expérience unique à la gamme complète des expériences possibles qui auraient pu être effectuées. De plus, les expériences sur le terrain sont suffisamment coûteuses pour qu'il soit impossible d'exécuter toutes les variations que vous pourriez vouloir essayer.
Contrairement aux approches naïves et expérimentales, Einav et ses collègues ont adopté une troisième approche: l'appariement. L'astuce principale dans leur stratégie est de découvrir des choses similaires aux expériences de terrain qui ont déjà eu lieu sur eBay. Par exemple, la figure 2.8 montre certaines des 31 annonces pour exactement le même club de golf - un Taylormade Burner 09 Driver - étant vendu par exactement le même vendeur- "budgetgolfer." Cependant, ces 31 annonces ont des caractéristiques légèrement différentes, telles que différents départ le prix, les dates de fin et les frais d'expédition. En d'autres termes, c'est comme si "budgetgolfer" faisait des expériences pour les chercheurs.
Ces listes de Taylormade Burner 09 Driver étant vendues par "budgetgolfer" sont un exemple d'un ensemble d'annonces correspondant, où le même article est vendu exactement par le même vendeur, mais chaque fois avec des caractéristiques légèrement différentes. Dans les journaux massifs d'eBay, il y a littéralement des centaines de milliers d'ensembles assortis impliquant des millions d'annonces. Ainsi, plutôt que de comparer le prix final pour toutes les ventes aux enchères avec un prix de départ donné, Einav et ses collègues ont comparé les prix dans les ensembles assortis. Afin de combiner les résultats des comparaisons au sein de ces centaines de milliers d'ensembles assortis, Einav et ses collègues ont ré-exprimé le prix de départ et le prix final en termes de valeur de référence de chaque article (par exemple, son prix de vente moyen). Par exemple, si le chauffeur Taylormade Burner 09 avait une valeur de référence de 100 $ (selon ses ventes), alors un prix de départ de 10 $ serait exprimé en 0,1 et un prix final de 120 $ en 1,2.
Rappelons qu'Einav et ses collègues étaient intéressés par l'effet du prix de départ sur les résultats des enchères. Premièrement, ils ont utilisé la régression linéaire pour estimer que des prix de départ plus élevés réduisent la probabilité d'une vente, et que des prix de départ plus élevés augmentent le prix de vente final (sous réserve qu'une vente ait lieu). En elles-mêmes, ces estimations - qui décrivent une relation linéaire et sont moyennées sur tous les produits - ne sont pas très intéressantes. Ensuite, Einav et ses collègues ont utilisé la taille massive de leurs données pour créer une variété d'estimations plus subtiles. Par exemple, en estimant l'effet séparément pour différents prix de départ, ils ont constaté que la relation entre le prix de départ et le prix de vente est non linéaire (figure 2.9). En particulier, pour des prix de départ compris entre 0,05 et 0,85, le prix de départ a très peu d'impact sur le prix de vente, constatation qui a été complètement ignorée par leur première analyse. De plus, plutôt que de faire la moyenne de tous les articles, Einav et ses collègues ont estimé l'impact du prix de départ pour 23 catégories différentes d'articles (p. Ex. Fournitures pour animaux de compagnie, appareils électroniques et articles de sport) (figure 2.10). Ces estimations montrent que pour des éléments plus distinctifs - tels que les souvenirs - le prix de départ a un effet moindre sur la probabilité d'une vente et un effet plus important sur le prix de vente final. De plus, pour un plus grand nombre d'articles marchandisés, tels que les DVD, le prix de départ n'a pratiquement aucun impact sur le prix final. En d'autres termes, une moyenne qui combine les résultats de 23 catégories différentes d'éléments dissimule des différences importantes entre ces éléments.
Même si vous n'êtes pas particulièrement intéressé par les enchères sur eBay, vous devez admirer la façon dont la figure 2.9 et la figure 2.10 offrent une meilleure compréhension d'eBay que de simples estimations qui décrivent une relation linéaire et combinent plusieurs catégories d'articles. En outre, bien qu'il soit scientifiquement possible de générer ces estimations plus subtiles avec des expériences sur le terrain, le coût rendrait ces expériences essentiellement impossibles.
Comme dans le cas des expériences naturelles, l'appariement peut mener à de mauvaises estimations de plusieurs façons. Je pense que la plus grande préoccupation à l'égard des estimations correspondantes est qu'elles peuvent être biaisées par des éléments qui n'ont pas été utilisés dans l'appariement. Par exemple, dans leurs principaux résultats, Einav et ses collègues ont effectué une correspondance exacte sur quatre caractéristiques: le numéro d'identification du vendeur, la catégorie de l'article, le titre de l'article et le sous-titre. Si les éléments étaient différents d'une manière qui n'était pas utilisée pour l'appariement, cela pourrait créer une comparaison injuste. Par exemple, si "budgetgolfer" a baissé les prix du chauffeur Taylormade Burner 09 en hiver (quand les clubs de golf sont moins populaires), il peut sembler que des prix de départ plus bas conduisent à des prix finaux plus bas, alors qu'en fait variation saisonnière de la demande. Une approche pour répondre à cette préoccupation consiste à essayer différents types d'appariement. Par exemple, Einav et ses collègues ont répété leur analyse tout en modifiant la fenêtre temporelle utilisée pour l'appariement (les ensembles appariés comprenaient des articles en vente dans l'année, dans un mois et simultanément). Heureusement, ils ont trouvé des résultats similaires pour toutes les fenêtres de temps. Une autre préoccupation avec l'appariement provient de l'interprétation. Les estimations de l'appariement ne s'appliquent qu'aux données appariées; ils ne s'appliquent pas aux cas qui n'ont pas pu être appariés. Par exemple, en limitant leurs recherches à des articles ayant plusieurs listes, Einav et ses collègues se concentrent sur les vendeurs professionnels et semi-professionnels. Ainsi, en interprétant ces comparaisons, nous devons nous rappeler qu'elles ne s'appliquent qu'à ce sous-ensemble d'eBay.
L'appariement est une stratégie puissante pour trouver des comparaisons justes dans les données non expérimentales. Pour de nombreux spécialistes des sciences sociales, l'appariement est le deuxième meilleur résultat pour les expériences, mais c'est une croyance qui peut être révisée légèrement. L'appariement de données massives pourrait être meilleur qu'un petit nombre d'expériences sur le terrain lorsque (1) l'hétérogénéité des effets est importante et (2) les variables importantes nécessaires à l'appariement ont été mesurées. Le tableau 2.4 fournit d'autres exemples de la façon dont l'appariement peut être utilisé avec des sources de données volumineuses.
Objectif de fond | Grande source de données | Référence |
---|---|---|
Effet des tirs sur la violence policière | Arrêter et enregistrer des enregistrements | Legewie (2016) |
Effet du 11 septembre 2001 sur les familles et les voisins | Dossiers de vote et dossiers de dons | Hersh (2013) |
Contagion sociale | Communication et données d'adoption de produits | Aral, Muchnik, and Sundararajan (2009) |
En conclusion, l'estimation des effets causaux à partir de données non expérimentales est difficile, mais des approches telles que des expériences naturelles et des ajustements statistiques (par exemple, l'appariement) peuvent être utilisées. Dans certaines situations, ces approches peuvent mal tourner, mais lorsqu'elles sont déployées avec soin, ces approches peuvent être un complément utile à l'approche expérimentale que je décris au chapitre 4. De plus, ces deux approches semblent particulièrement susceptibles de bénéficier de la croissance de sur, les grands systèmes de données.