Je pense que la meilleure façon de comprendre les expériences est le cadre des résultats potentiels (dont j'ai parlé dans les notes mathématiques du chapitre 2). Le cadre des résultats potentiels est étroitement lié aux idées tirées de l'échantillonnage fondé sur le plan que j'ai décrit au chapitre 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Cette annexe a été écrite de manière à souligner cette connexion. Cette insistance est un peu non traditionnelle, mais je pense que le lien entre l'échantillonnage et les expériences est utile: cela signifie que si vous savez quelque chose sur l'échantillonnage, alors vous savez quelque chose sur les expériences et vice versa. Comme je le montrerai dans ces notes, le cadre des résultats potentiels révèle la force des expériences contrôlées randomisées pour estimer les effets causaux, et il montre les limites de ce qui peut être fait avec des expériences même parfaitement exécutées.
Dans cette annexe, je décrirai le cadre des résultats potentiels, en reproduisant une partie du matériel des notes mathématiques du chapitre 2 afin de rendre ces notes plus autonomes. Ensuite, je décrirai des résultats utiles sur la précision des estimations des effets moyens du traitement, y compris une discussion sur les estimateurs d'allocation optimale et de différence dans les différences. Cette annexe s'inspire fortement de Gerber and Green (2012) .
Cadre de résultats potentiels
Afin d'illustrer le cadre des résultats potentiels, revenons à l'expérience de Restivo et van de Rijt pour estimer l'effet de la réception d'une barnstar sur les futures contributions à Wikipedia. Le cadre de résultats potentiels comprend trois éléments principaux: les unités , les traitements et les résultats potentiels . Dans le cas de Restivo et van de Rijt, les unités étaient des éditeurs méritants - ceux qui figuraient dans le top 1% des contributeurs - qui n'avaient pas encore reçu de barnstar. Nous pouvons indexer ces éditeurs par \(i = 1 \ldots N\) . Les traitements dans leur expérience étaient "barnstar" ou "no barnstar", et j'écrirai \(W_i = 1\) si la personne \(i\) est dans la condition de traitement et \(W_i = 0\) sinon. Le troisième élément du cadre de résultats potentiels est le plus important: les résultats potentiels . Ceux-ci sont un peu plus difficiles conceptuellement parce qu'ils impliquent des résultats «potentiels» - des choses qui pourraient arriver. Pour chaque éditeur de Wikipedia, on peut imaginer le nombre d'éditions qu'elle ferait dans la condition de traitement ( \(Y_i(1)\) ) et le nombre qu'elle ferait dans la condition de contrôle ( \(Y_i(0)\) ).
Notez que ce choix d'unités, de traitements et de résultats définit ce qui peut être appris de cette expérience. Par exemple, sans aucune hypothèse supplémentaire, Restivo et van de Rijt ne peuvent rien dire sur les effets de barnstars sur tous les éditeurs de Wikipédia ou sur des résultats tels que la qualité d'édition. En général, le choix des unités, des traitements et des résultats doit être basé sur les objectifs de l'étude.
Compte tenu de ces résultats potentiels - qui sont résumés dans le tableau 4.5 - on peut définir l'effet causal du traitement pour la personne \(i\) comme
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Pour moi, cette équation est la manière la plus claire de définir un effet causal, et, bien qu'extrêmement simple, ce cadre s'avère généralisable de plusieurs façons importantes et intéressantes (Imbens and Rubin 2015) .
La personne | Modifications en condition de traitement | Modifications dans les conditions de contrôle | Effet du traitement |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
signifier | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Si nous définissons la causalité de cette manière, cependant, nous rencontrons un problème. Dans presque tous les cas, nous n'observons pas les deux résultats potentiels. C'est-à-dire qu'un éditeur spécifique de Wikipédia a reçu une barnstar ou non. Par conséquent, nous observons l'un des résultats potentiels - \(Y_i(1)\) ou \(Y_i(0)\) - mais pas les deux. L'incapacité d'observer les deux résultats potentiels est un problème si important que Holland (1986) appelé le problème fondamental de l'inférence causale .
Heureusement, lorsque nous faisons de la recherche, nous n'avons pas seulement une personne, nous avons beaucoup de gens, ce qui offre un moyen de contourner le problème fondamental de l'inférence causale. Plutôt que d'essayer d'estimer l'effet du traitement au niveau individuel, nous pouvons estimer l'effet moyen du traitement:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Ceci est encore exprimé en termes de \(\tau_i\) qui ne sont pas observables, mais avec une certaine algèbre (Eq 2.8 de Gerber and Green (2012) ), nous obtenons
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
L'équation 4.3 montre que si l'on peut estimer le résultat moyen de la population sous traitement ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) et le résultat moyen de la population sous contrôle ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), nous pouvons alors estimer l'effet moyen du traitement, même sans estimer l'effet du traitement pour une personne en particulier.
Maintenant que j'ai défini notre estimation - la chose que nous essayons d'estimer - je vais me tourner vers la façon dont nous pouvons l'estimer avec des données. J'aime penser à ce défi de l'estimation comme un problème d'échantillonnage (repensez aux notes mathématiques du chapitre 3). Imaginez que nous choisissons au hasard certaines personnes à observer dans la condition de traitement et que nous choisissons au hasard certaines personnes à observer dans la condition de contrôle, alors nous pouvons estimer le résultat moyen dans chaque condition:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
où \(N_t\) et \(N_c\) sont les nombres de personnes dans les conditions de traitement et de contrôle. L'équation 4.4 est un estimateur de différence de moyennes. En raison du plan d'échantillonnage, nous savons que le premier terme est un estimateur sans biais pour le résultat moyen sous traitement et le deuxième terme est un estimateur sans biais sous contrôle.
Une autre façon de penser à ce que permet la randomisation est qu'elle assure que la comparaison entre les groupes de traitement et de contrôle est juste parce que la randomisation garantit que les deux groupes se ressembleront. Cette ressemblance vaut pour les choses que nous avons mesurées (disons le nombre de modifications dans les 30 jours précédant l'expérience) et les choses que nous n'avons pas mesurées (disons le genre). Cette capacité à assurer l'équilibre sur les facteurs observés et non observés est critique. Pour voir le pouvoir de l'équilibre automatique sur des facteurs non observés, imaginons que la recherche future trouve que les hommes sont plus sensibles aux récompenses que les femmes. Cela invaliderait-il les résultats de l'expérience de Restivo et van de Rijt? En randomisant, ils s'assuraient que tous les éléments non observables seraient équilibrés, dans l'attente. Cette protection contre l'inconnu est très puissante, et c'est un moyen important que les expériences soient différentes des techniques non expérimentales décrites au chapitre 2.
En plus de définir l'effet du traitement pour une population entière, il est possible de définir un effet de traitement pour un sous-ensemble de personnes. Ceci est généralement appelé un effet de traitement moyen conditionnel (CATE). Par exemple, dans l'étude de Restivo et van de Rijt, supposons que \(X_i\) si l'éditeur était au-dessus ou en dessous du nombre médian de modifications au cours des 90 jours précédant l'expérience. On pourrait calculer l'effet du traitement séparément pour ces éditeurs légers et lourds.
Le cadre de résultats potentiels est un moyen puissant de penser à l'inférence causale et aux expériences. Cependant, il y a deux autres complexités que vous devriez garder à l'esprit. Ces deux complexités sont souvent regroupées sous le terme hypothèse de valeur de traitement unitaire stable (SUTVA). La première partie de SUTVA est l'hypothèse que la seule chose qui compte pour personne \(i\) le résultat de » est de savoir si cette personne était dans le traitement ou l' état contrôle. En d'autres termes, il est supposé que la personne \(i\) n'est pas affectée par le traitement donné à d'autres personnes. Ceci est parfois appelé "pas d'interférence" ou "pas de débordement", et peut être écrit comme:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
où \(\mathbf{W_{-i}}\) est un vecteur de statut de traitement pour tout le monde excepté la personne \(i\) . L'une des façons d'y porter atteinte est de savoir si le traitement d'une personne déborde sur une autre personne, positivement ou négativement. En revenant à l'expérience de Restivo et van de Rijt, imaginons deux amis \(i\) et \(j\) et cette personne \(i\) reçoit un barnstar et \(j\) non. Si \(i\) recevant le barnstar provoque \(j\) d'éditer plus (par sens de la compétition) ou d'éditer moins (par désespoir), alors SUTVA a été violé. Il peut également être violé si l'impact du traitement dépend du nombre total d'autres personnes recevant le traitement. Par exemple, si Restivo et van de Rijt avaient donné 1 000 ou 10 000 barnstars au lieu de 100, cela aurait pu avoir un impact sur l'effet de la réception d'une barnstar.
Le deuxième problème est la supposition que le seul traitement pertinent est celui que le chercheur livre; cette hypothèse est parfois appelée aucun traitement caché ou excludibilité . Par exemple, dans Restivo et van de Rijt, il aurait pu être le cas qu'en donnant une barnstar, les chercheurs ont fait apparaître les éditeurs sur une page d'éditeurs populaires et que c'était sur la page des éditeurs populaires - plutôt que de recevoir une cela a causé le changement dans le comportement d'édition. Si cela est vrai, alors l'effet de la barnstar ne se distingue pas de l'effet d'être sur la page des éditeurs populaires. Bien sûr, il n'est pas clair si, d'un point de vue scientifique, cela devrait être considéré comme attrayant ou peu attrayant. Autrement dit, vous pourriez imaginer un chercheur disant que l'effet de recevoir une barnstar comprend tous les traitements ultérieurs que le barnstar déclenche. Ou vous pourriez imaginer une situation où une recherche voudrait isoler l'effet des barnstars de toutes ces autres choses. Une façon d'y penser est de se demander s'il y a quelque chose qui mène à ce que Gerber and Green (2012) ) appellent une «rupture de symétrie»? En d'autres termes, y a-t-il autre chose que le traitement qui fait que les personnes traitées et contrôlées sont traitées différemment? Les préoccupations au sujet de la rupture de symétrie sont ce qui conduit les patients du groupe témoin dans les essais médicaux à prendre une pilule placebo. De cette façon, les chercheurs peuvent être sûrs que la seule différence entre les deux conditions est la médecine réelle et non l'expérience de la prise de la pilule.
Pour en savoir plus sur SUTVA, voir la section 2.7 de Gerber and Green (2012) , la section 2.5 de Morgan and Winship (2014) et la section 1.6 d' Imbens and Rubin (2015) .
Précision
Dans la section précédente, j'ai décrit comment estimer l'effet moyen du traitement. Dans cette section, je vais donner quelques idées sur la variabilité de ces estimations.
Si vous songez à estimer l'effet du traitement moyen en estimant la différence entre deux moyennes d'échantillon, alors il est possible de montrer que l'erreur type de l'effet du traitement moyen est:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
où \(m\) personnes assignées au traitement et \(Nm\) à contrôler (voir Gerber and Green (2012) , équation 3.4). Ainsi, en pensant au nombre de personnes à assigner au traitement et au nombre à affecter au contrôle, vous pouvez voir que si \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , alors vous voulez \(m \approx N / 2\) , tant que les coûts de traitement et de contrôle sont les mêmes. L'équation 4.6 explique pourquoi la conception de l'expérience de Bond et ses collègues (2012) sur les effets de l'information sociale sur le vote (figure 4.18) était inefficace statistiquement. Rappelons qu'il a eu 98% des participants dans la condition de traitement. Cela signifiait que le comportement moyen dans la condition de contrôle n'était pas estimé aussi précisément qu'il aurait pu l'être, ce qui signifiait que la différence estimée entre les conditions de traitement et de contrôle n'était pas estimée aussi précisément qu'elle pourrait l'être. Pour en savoir plus sur l'allocation optimale des participants aux conditions, y compris lorsque les coûts diffèrent selon les conditions, voir List, Sadoff, and Wagner (2011) .
Enfin, dans le texte principal, j'ai décrit comment un estimateur de différence des différences, qui est typiquement utilisé dans un plan mixte, peut conduire à une variance plus faible qu'un estimateur de différence de moyennes, qui est typiquement utilisé dans un conception. Si \(X_i\) est la valeur du résultat avant le traitement, alors la quantité que nous essayons d'estimer avec l'approche différence-dans-les différences est:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
L'erreur-type de cette quantité est (voir Gerber and Green (2012) , équation 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Une comparaison de l'éq. 4,6 et eq. 4.8 révèle que l'approche de différence dans les différences aura une erreur-type plus petite quand (voir Gerber and Green (2012) , équation 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Grosso modo, quand \(X_i\) est très prédictif de \(Y_i(1)\) et \(Y_i(0)\) , alors vous pouvez obtenir des estimations plus précises à partir d'une différence de différences que d'une différence de-signifie un. Une façon d'y penser dans le contexte de l'expérience de Restivo et van de Rijt est qu'il y a beaucoup de variation naturelle dans le nombre de personnes éditées, ce qui rend difficile la comparaison des conditions de traitement et de contrôle: il est difficile de détecter un parent. petit effet dans les données de résultats bruyants. Mais si vous faites une différence entre cette variabilité naturelle, il y a beaucoup moins de variabilité, ce qui facilite la détection d'un petit effet.
Voir Frison and Pocock (1992) pour une comparaison précise des approches basées sur les différences de moyennes, les différences de différences et les ANCOVA dans le contexte plus général où il y a plusieurs mesures avant et après traitement. En particulier, ils recommandent fortement ANCOVA, que je n'ai pas couvert ici. De plus, voir McKenzie (2012) pour une discussion sur l'importance des mesures de résultats post-traitement multiples.