Creo que la mejor manera de entender los experimentos es el marco de resultados potenciales (que discutí en las notas matemáticas en el capítulo 2). El marco de resultados potenciales tiene una estrecha relación con las ideas del muestreo basado en el diseño que describí en el capítulo 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Este apéndice ha sido escrito de tal manera que enfatiza esa conexión. Este énfasis es un poco no tradicional, pero creo que la conexión entre el muestreo y los experimentos es útil: significa que si sabes algo sobre el muestreo, entonces sabes algo sobre experimentos y viceversa. Como mostraré en estas notas, el marco de resultados potenciales revela la fuerza de los experimentos controlados aleatorios para estimar los efectos causales, y muestra las limitaciones de lo que se puede hacer incluso con experimentos perfectamente ejecutados.
En este apéndice, describiré el marco de resultados potenciales, duplicando parte del material de las notas matemáticas del capítulo 2 para hacer que estas notas sean más autónomas. Luego describiré algunos resultados útiles sobre la precisión de las estimaciones de los efectos promedio del tratamiento, incluida una discusión sobre la asignación óptima y los estimadores de diferencia en diferencias. Este apéndice se basa en gran medida en Gerber and Green (2012) .
Marco de resultados potenciales
Para ilustrar el posible marco de resultados, volvamos al experimento de Restivo y van de Rijt para estimar el efecto de recibir un granero en futuras contribuciones a Wikipedia. El marco de resultados potenciales tiene tres elementos principales: unidades , tratamientos y posibles resultados . En el caso de Restivo y van de Rijt, las unidades merecían ser editores, aquellos en el 1% de los contribuidores, que aún no habían recibido una granada. Podemos indexar estos editores por \(i = 1 \ldots N\) . Los tratamientos en su experimento fueron "barnstar" o "no barnstar", y escribiré \(W_i = 1\) si person \(i\) está en la condición de tratamiento y \(W_i = 0\) contrario. El tercer elemento del marco de resultados potenciales es el más importante: los posibles resultados . Estos son un poco más conceptualmente difíciles porque implican resultados "potenciales", cosas que podrían suceder. Para cada editor de Wikipedia, uno puede imaginar el número de ediciones que haría en la condición de tratamiento ( \(Y_i(1)\) ) y el número que ella haría en la condición de control ( \(Y_i(0)\) )
Tenga en cuenta que esta elección de unidades, tratamientos y resultados define lo que se puede aprender de este experimento. Por ejemplo, sin ninguna suposición adicional, Restivo y van de Rijt no pueden decir nada sobre los efectos de los barnstars en todos los editores de Wikipedia o en los resultados, como la calidad de edición. En general, la elección de unidades, tratamientos y resultados debe basarse en los objetivos del estudio.
Dados estos posibles resultados, que se resumen en la tabla 4.5, se puede definir el efecto causal del tratamiento para la persona \(i\) como
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Para mí, esta ecuación es la forma más clara de definir un efecto causal y, aunque es extremadamente simple, este marco resulta generalizable de muchas maneras importantes e interesantes (Imbens and Rubin 2015) .
Persona | Ediciones en condiciones de tratamiento | Ediciones en condiciones de control | Efecto del tratamiento |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
norte | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
media | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Si definimos la causalidad de esta manera, sin embargo, nos encontramos con un problema. En casi todos los casos, no observamos ambos resultados potenciales. Es decir, un editor de Wikipedia específico recibió una granada o no. Por lo tanto, observamos uno de los posibles resultados: \(Y_i(1)\) o \(Y_i(0)\) - pero no ambos. La incapacidad de observar ambos resultados potenciales es un problema tan importante que Holland (1986) llamó el Problema Fundamental de la Inferencia Causal .
Afortunadamente, cuando estamos investigando, no solo tenemos una persona, tenemos muchas personas, y esto ofrece una forma de eludir el problema fundamental de la inferencia causal. En lugar de intentar estimar el efecto del tratamiento a nivel individual, podemos estimar el efecto promedio del tratamiento:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Esto todavía se expresa en términos de \(\tau_i\) que no se pueden observar, pero con algo de álgebra (Ecuación 2.8 de Gerber and Green (2012) ) obtenemos
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
La ecuación 4.3 muestra que si podemos estimar el resultado promedio de la población bajo tratamiento ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) y el resultado promedio de la población bajo control ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), entonces podemos estimar el efecto promedio del tratamiento, incluso sin estimar el efecto del tratamiento para una persona en particular.
Ahora que he definido nuestras estimaciones y lo que estamos tratando de estimar, me referiré a cómo podemos estimarlo con datos. Me gusta pensar en este desafío de estimación como un problema de muestreo (piense en las notas matemáticas del capítulo 3). Imagínese que escogemos al azar a algunas personas para que observen en la condición de tratamiento y escogemos al azar a algunas personas para que observen en la condición de control, luego podemos estimar el resultado promedio en cada condición:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
donde \(N_t\) y \(N_c\) son el número de personas en las condiciones de tratamiento y control. La ecuación 4.4 es un estimador de diferencia de medias. Debido al diseño del muestreo, sabemos que el primer término es un estimador insesgado para el resultado promedio bajo tratamiento y el segundo término es un estimador insesgado bajo control.
Otra forma de pensar sobre lo que permite la aleatorización es que garantiza que la comparación entre los grupos de tratamiento y control sea justa porque la aleatorización asegura que los dos grupos se parecerán entre sí. Este parecido se cumple para las cosas que hemos medido (digamos el número de ediciones en los 30 días previos al experimento) y las cosas que no hemos medido (digamos el género). Esta capacidad para garantizar el equilibrio tanto en factores observados como no observados es crítica. Para ver el poder del equilibrio automático en factores no observados, imaginemos que las investigaciones futuras descubran que los hombres son más receptivos a los premios que las mujeres. ¿Eso invalidaría los resultados del experimento de Restivo y van de Rijt? No. Al aleatorizar, se aseguraron de que todos los no observables estarían balanceados, en expectativa. Esta protección contra lo desconocido es muy poderosa, y es una forma importante de que los experimentos sean diferentes de las técnicas no experimentales descritas en el capítulo 2.
Además de definir el efecto del tratamiento para toda una población, es posible definir un efecto de tratamiento para un subconjunto de personas. Esto se llama típicamente un efecto de tratamiento promedio condicional (CATE). Por ejemplo, en el estudio de Restivo y van de Rijt, imaginemos que \(X_i\) es si el editor estuvo por encima o por debajo del número medio de ediciones durante los 90 días anteriores al experimento. Se podría calcular el efecto del tratamiento por separado para estos editores ligeros y pesados.
El marco de resultados potenciales es una forma poderosa de pensar acerca de la inferencia causal y los experimentos. Sin embargo, hay dos complejidades adicionales que debes tener en cuenta. Estas dos complejidades a menudo se agrupan bajo el término Asunción de valor de tratamiento de unidad estable (SUTVA). La primera parte de SUTVA es la suposición de que lo único que importa para el resultado de la persona \(i\) es si esa persona estaba en condiciones de tratamiento o control. En otras palabras, se supone que la persona \(i\) no se ve afectada por el tratamiento dado a otras personas. Esto a veces se denomina "sin interferencia" o "sin efectos indirectos", y se puede escribir como:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
donde \(\mathbf{W_{-i}}\) es un vector de estados de tratamiento para todos, excepto para la persona \(i\) . Una forma de violar esto es si el tratamiento de una persona se derrama sobre otra persona, ya sea positiva o negativamente. Volviendo al experimento de Restivo y van de Rijt, imagina dos amigos \(i\) y \(j\) y esa persona \(i\) recibe un granero y \(j\) no. Si \(i\) recibir el barnstar causa \(j\) editar más (por un sentido de competencia) o editar menos (por un sentimiento de desesperación), entonces SUTVA ha sido violado. También se puede violar si el impacto del tratamiento depende del número total de otras personas que reciben el tratamiento. Por ejemplo, si Restivo y van de Rijt hubieran entregado 1,000 o 10,000 caballos de carreras en lugar de 100, esto podría haber afectado el efecto de recibir una granero.
El segundo problema agrupado en SUTVA es la suposición de que el único tratamiento relevante es el que entrega el investigador; esta suposición a veces se denomina tratamientos ocultos o excludibilidad . Por ejemplo, en Restivo y van de Rijt, podría haber sido el caso que al otorgarles una estrella de laboratorio los investigadores causaron que los editores aparecieran en una popular página de editores y que estuviera en la popular página de editores, en lugar de recibir un granero. eso causó el cambio en el comportamiento de edición. Si esto es cierto, entonces el efecto de la estrella del establo no se puede distinguir del efecto de estar en la página de editores populares. Por supuesto, no está claro si, desde una perspectiva científica, esto debería considerarse atractivo o poco atractivo. Es decir, podría imaginarse a un investigador que dice que el efecto de recibir una granada incluye todos los tratamientos posteriores que desencadena la granada. O podría imaginarse una situación en la que una investigación quisiera aislar el efecto de las estrellas de todas estas otras cosas. Una forma de pensar sobre esto es preguntar si hay algo que conduzca a lo que Gerber and Green (2012) (p.41) llaman un "colapso en la simetría". En otras palabras, ¿hay algo más que el tratamiento que causa que las personas en las condiciones de tratamiento y control sean tratadas de manera diferente? Las preocupaciones sobre la ruptura de la simetría son lo que llevó a los pacientes del grupo de control en los ensayos médicos a tomar una píldora de placebo. De esta forma, los investigadores pueden estar seguros de que la única diferencia entre las dos afecciones es la medicina real y no la experiencia de tomar la píldora.
Para obtener más información sobre SUTVA, consulte la sección 2.7 de Gerber and Green (2012) , la sección 2.5 de Morgan and Winship (2014) y la sección 1.6 de Imbens and Rubin (2015) .
Precisión
En la sección anterior, describí cómo estimar el efecto promedio del tratamiento. En esta sección, proporcionaré algunas ideas sobre la variabilidad de esas estimaciones.
Si piensa en estimar el efecto promedio del tratamiento como estimar la diferencia entre dos medias de muestra, entonces es posible mostrar que el error estándar del efecto promedio del tratamiento es:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
donde \(m\) personas asignadas al tratamiento y \(Nm\) a controlar (ver Gerber and Green (2012) , ecuación 3.4). Por lo tanto, al pensar en cuántas personas asignarse al tratamiento y cuántas asignar al control, puede ver que si \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , entonces quiere \(m \approx N / 2\) , siempre que los costos de tratamiento y control sean los mismos. La ecuación 4.6 aclara por qué el diseño del experimento de Bond y sus colegas (2012) sobre los efectos de la información social sobre la votación (figura 4.18) fue ineficiente estadísticamente. Recuerde que tenía el 98% de los participantes en la condición de tratamiento. Esto significaba que el comportamiento promedio en la condición de control no se estimó con la precisión que podría haber sido, lo que a su vez significó que la diferencia estimada entre las condiciones de tratamiento y control no se estimó con la precisión que podría ser. Para obtener más información sobre la asignación óptima de los participantes a las condiciones, incluso cuando los costos difieren entre las condiciones, vea List, Sadoff, and Wagner (2011) .
Finalmente, en el texto principal, describí cómo un estimador de diferencia en diferencias, que se usa típicamente en un diseño mixto, puede conducir a una menor varianza que un estimador de diferencia en los medios, que se usa típicamente en un intervalo entre sujetos. diseño. Si \(X_i\) es el valor del resultado antes del tratamiento, entonces la cantidad que estamos tratando de estimar con el enfoque de diferencia en diferencias es:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
El error estándar de esa cantidad es (ver Gerber and Green (2012) , ecuación 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Una comparación de eq. 4.6 y eq. 4.8 revela que el enfoque de diferencia en diferencias tendrá un error estándar menor cuando (véase Gerber and Green (2012) , ecuación 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Aproximadamente, cuando \(X_i\) es muy predictivo de \(Y_i(1)\) y \(Y_i(0)\) , entonces puede obtener estimaciones más precisas a partir de un enfoque de diferencia de diferencias que de una diferencia. de-significa uno. Una forma de pensar sobre esto en el contexto del experimento de Restivo y van de Rijt es que hay mucha variación natural en la cantidad que las personas editan, por lo que dificulta la comparación de las condiciones de tratamiento y control: es difícil detectar un pariente pequeño efecto en datos de resultado ruidosos. Pero si diferencia esta variabilidad natural, entonces hay mucha menos variabilidad, y eso hace que sea más fácil detectar un efecto pequeño.
Ver Frison and Pocock (1992) para una comparación precisa de la diferencia de medios, la diferencia de diferencias y los enfoques basados en ANCOVA en el entorno más general donde hay múltiples mediciones de pretratamiento y postratamiento. En particular, recomiendan fuertemente ANCOVA, que no he tratado aquí. Además, ver McKenzie (2012) para una discusión sobre la importancia de múltiples medidas de resultado postratamiento.