Les expériences naturelles tirer profit des événements aléatoires dans le monde. événement aléatoire + toujours sur le système de données = expérience naturelle
La clé d'expériences contrôlées randomisées permettant une comparaison équitable est la randomisation. Cependant, de temps en temps quelque chose se passe dans le monde qui affecte essentiellement les personnes au hasard ou presque au hasard à des traitements différents. L' un des exemples les plus clairs de la stratégie consistant à utiliser des expériences naturelles provient de la recherche de Angrist (1990) qui mesure l'effet des services militaires sur le bénéfice.
Pendant la guerre du Vietnam, les Etats-Unis a augmenté la taille de ses forces armées à travers un projet. Afin de décider quels citoyens seraient remis en service, le gouvernement américain a tenu une loterie. Chaque date de naissance était représenté sur un morceau de papier, et ces documents ont été placés dans un grand bocal en verre. Comme le montre la figure 2.5, ces bouts de papier ont été tirées de la jarre un à la fois pour déterminer l'ordre que les jeunes hommes seraient appelés à servir (les jeunes femmes ne sont pas soumis au projet). D'après les résultats, les hommes nés le 14 Septembre ont été appelés d'abord, les hommes nés le 24 Avril ont été appelés deuxième, et ainsi de suite. En fin de compte, à cette loterie, les hommes nés sur 195 jours différents ont été appelés au service tandis que les hommes nés sur 171 jours ne sont pas appelés.
Bien que cela puisse ne pas être immédiatement apparent, un projet de loterie a une similitude essentielle à une expérience contrôlée randomisée: dans les deux cas les participants sont répartis au hasard pour recevoir un traitement. Dans le cas du projet de loterie, si nous sommes intéressés à en apprendre sur les effets du projet-admissibilité et service militaire ultérieurs gains sur le marché du travail, nous pouvons comparer les résultats pour les personnes dont la date de naissance étaient en dessous du seuil de loterie (par exemple, le 14 Septembre, Avril 24, etc.) avec les résultats pour les personnes dont les anniversaires étaient après la coupure (par exemple, le 20 Février, le 2 Décembre, etc.).
Étant donné que ce traitement en cours de rédaction a été attribué au hasard, on peut alors mesurer l'effet de ce traitement pour un résultat qui a été mesuré. Par exemple, Angrist (1990) a combiné les informations sur qui a été sélectionné au hasard dans le projet de données sur les gains qui ont été recueillies par l'Administration de la sécurité sociale pour conclure que les gains des anciens combattants blancs étaient environ 15% de moins que les gains des non-vétérans comparables . D'autres chercheurs ont utilisé un truc similaire aussi bien. Par exemple, Conley and Heerwig (2011) ont combiné les informations sur qui a été sélectionné au hasard dans le projet avec les données des ménages tirées de l'Enquête de recensement 2000 et 2005 American Community et a constaté que si longtemps après le projet, il y avait peu d' effet à long terme de le service militaire sur la variété des résultats tels que le mode d'occupation (possession et de la location) et la stabilité résidentielle (la probabilité d'avoir évolué dans cinq années précédentes).
Comme le montre cet exemple, parfois les forces sociales, politiques ou naturelles créent des expériences ou des quasi-expériences qui peuvent être exploitées par les chercheurs. Souvent, les expériences naturelles sont la meilleure façon d'estimer les relations et de cause à effet dans les endroits où il est contraire à l'éthique ou pratique pour exécuter des expériences contrôlées randomisées. Ils sont une stratégie importante pour la découverte des comparaisons justes dans les données non expérimentales. Cette stratégie de recherche peut être résumée par cette équation:
\ [\ text {aléatoire (ou comme si aléatoire) event} + \ texte {toujours sur flux de données} = \ text {expérience naturelle} \ qquad (2.1) \]
Cependant, l'analyse des expériences naturelles peut être assez délicat. Par exemple, dans le cas du projet de Vietnam, pas tout le monde qui était le projet admissible a fini par servir (il y avait une variété d'exemptions). Et, dans le même temps, certaines personnes qui ne sont pas admissibles rédigent se sont portés volontaires pour le service. Il était comme dans un essai clinique d'un nouveau médicament, certaines personnes dans le groupe de traitement ne prennent pas leurs médicaments et certaines des personnes dans le groupe de contrôle en quelque sorte reçu le médicament. Ce problème, appelé non-respect des deux côtés, ainsi que de nombreux autres problèmes sont décrits plus en détail dans quelques-unes des lectures recommandées à la fin de ce chapitre.
La stratégie de tirer parti de l'état naturel assignation aléatoire précède l'ère du numérique, mais la prévalence des grandes données rend cette stratégie beaucoup plus facile à utiliser. Une fois que vous réalisez un traitement a été attribué au hasard, les sources de données grandes peuvent fournir les données sur les résultats que vous avez besoin afin de comparer les résultats pour les personnes dans les conditions de traitement et de contrôle. Par exemple, dans son étude sur les effets du projet et le service militaire, Angrist fait usage de bénéfices records de l'Administration de la sécurité sociale; sans ces données de résultats, son étude aurait pas été possible. Dans ce cas, l'administration de la sécurité sociale est la source de données big toujours sur. Au fur et a recueilli plus automatiquement les sources de données existent, nous aurons plus de données sur les résultats qui permet de mesurer les effets des changements créés par la variation exogène.
Pour illustrer cette stratégie à l'ère numérique, nous allons examiner de Mas et Moretti (2009) la recherche élégante sur l'effet des pairs sur la productivité. Bien que sur la surface, il peut être différent de l'étude de Angrist sur les effets du projet de Vietnam, dans la structure ils ont tous deux suivent le modèle dans l'équation. 2.1.
Mas et Moretti mesuré combien les pairs influent sur la productivité des travailleurs. D'une part, ayant un pair travaillant dur pourrait amener les travailleurs à accroître leur productivité en raison de la pression des pairs. Ou, d'autre part, un pair travaillant dur pourrait entraîner d'autres travailleurs à relâcher encore plus. La façon la plus claire pour étudier les effets de pairs sur la productivité serait une expérience contrôlée randomisée où les travailleurs sont affectés au hasard à des changements avec les travailleurs de différents niveaux de productivité et de la productivité résultant alors est mesurée pour tout le monde. Les chercheurs, cependant, ne contrôle pas l'horaire des travailleurs dans une entreprise réelle, et ainsi de Mas et Moretti a dû compter sur une expérience naturelle qui a eu lieu dans un supermarché.
Tout comme eq. 2.1, leur étude avait deux parties. Tout d'abord, ils ont utilisé les journaux du système caisse du supermarché d'avoir une précision, individuelle, et toujours sur mesure de la productivité: le nombre d'éléments analysés par seconde. Et, d'autre part, à cause de la façon dont la programmation a été faite à ce supermarché, ils ont près de composition aléatoire de pairs. En d'autres termes, même si le calendrier des caissiers est pas déterminé par un tirage au sort, il était essentiellement aléatoire. Dans la pratique, la confiance que nous avons dans des expériences naturelles charnières fréquemment sur la plausibilité de ce «comme si» la revendication aléatoire. Profitant de cette variation aléatoire, Mas et Moretti trouvé que travailler avec des pairs de productivité plus élevés augmente la productivité. En outre, Mas et Moretti utilisé la taille et la richesse de leur ensemble de données pour aller au - delà de l'estimation de et de cause à effet d'explorer deux questions les plus importantes et subtiles: l' hétérogénéité de cet effet (pour quels types de travailleurs est le plus grand effet) et le mécanisme derrière l'effet (pourquoi le fait d'avoir des pairs de haute productivité conduisent à une productivité plus élevée). Nous reviendrons sur ces deux importantes questions-hétérogénéité des effets et des mécanismes-chapitre 5 traitement lorsque nous discutons des expériences plus en détail.
Généralisation des études sur l'effet du projet de Vietnam sur les revenus et l'étude de l'effet des pairs sur la productivité, le tableau 2.3 résume d'autres études qui ont cette même structure exacte: en utilisant une source inépuisable de données pour mesurer l'impact d'un événement . Comme le tableau 2.3 montre clairement, les expériences naturelles sont partout si vous savez comment les chercher.
orientation de fond | Source d'expérience naturelle | Toujours sur la source de données | Citation |
---|---|---|---|
effets sur la productivité Peer | processus de planification | les données de votre commande | Mas and Moretti (2009) |
formation d'amitié | ouragans | Phan and Airoldi (2015) | |
Propagation des émotions | pluie | Coviello et al. (2014) | |
Peer to peer transferts économiques | tremblement de terre | données d'argent mobile | Blumenstock, Fafchamps, and Eagle (2011) |
comportement de consommation personnelle | 2013 l'arrêt du gouvernement américain | des données de finances personnelles | Baker and Yannelis (2015) |
Impact économique des systèmes de recommandation | divers | les données de navigation sur Amazon | Sharma, Hofman, and Watts (2015) |
Effet du stress sur les bébés à naître | 2006 guerre entre Israël et le Hezbollah | Les actes de naissance | Torche and Shwed (2015) |
Lire le comportement sur Wikipedia | révélations Snowden | journaux Wikipédia | Penney (2016) |
Dans la pratique, les chercheurs utilisent deux stratégies différentes pour trouver des expériences naturelles, qui peuvent tous deux être fructueuse. Certains chercheurs commencent par la source toujours sur des données et de chercher des événements aléatoires dans le monde; d'autres commencent à des événements aléatoires dans le monde et de chercher des sources de données qui capturent leur impact. Enfin, notez que la force des expériences naturelles ne vient pas de la sophistication de l'analyse statistique, mais à partir de la prise en charge à la découverte d'une comparaison équitable créée par un heureux hasard de l'histoire.