En este apéndice, resumiré algunas ideas sobre hacer inferencia causal a partir de datos no experimentales en una forma ligeramente más matemática. Hay dos enfoques principales: el marco gráfico causal, la mayoría asociados con Judea Pearl y colegas, y el marco de resultados potenciales, la mayoría asociados con Donald Rubin y sus colegas. Presentaré el marco de resultados potenciales porque está más estrechamente relacionado con las ideas en las notas matemáticas al final del capítulo 3 y 4. Para más información sobre el marco de gráficos causales, recomiendo Pearl, Glymour, and Jewell (2016) (introducción ) y Pearl (2009) (avanzado). Para un tratamiento de inferencia causal de un libro que combina el marco de resultados potenciales y el marco gráfico causal, recomiendo Morgan and Winship (2014) .
El objetivo de este apéndice es ayudarlo a sentirse cómodo con la notación y el estilo de la tradición de los posibles resultados para que pueda realizar la transición a algunos de los materiales más técnicos escritos sobre este tema. Primero, describiré el marco de resultados potenciales. Luego, lo usaré para analizar más a fondo experimentos naturales como el de Angrist (1990) sobre el efecto del servicio militar en las ganancias. Este apéndice se basa en gran medida en Imbens and Rubin (2015) .
Marco de resultados potenciales
El marco de resultados potenciales tiene tres elementos principales: unidades , tratamientos y posibles resultados . Para ilustrar estos elementos, consideremos una versión estilizada de la pregunta abordada en Angrist (1990) : ¿Cuál es el efecto del servicio militar en las ganancias? En este caso, podemos definir las unidades para ser elegibles para el borrador de 1970 en los Estados Unidos, y podemos indexar estas personas por \(i = 1, \ldots, N\) . Los tratamientos en este caso pueden ser "servir en el ejército" o "no servir en el ejército". Llamaré a estas condiciones de tratamiento y control, y escribiré \(W_i = 1\) si person \(i\) está en la condición de tratamiento y \(W_i = 0\) si person \(i\) está en la condición de control. Finalmente, los resultados potenciales son un poco más conceptualmente difíciles porque implican resultados "potenciales"; cosas que podrían haber pasado Para cada persona elegible para el borrador de 1970, podemos imaginar la cantidad que habrían ganado en 1978 si sirvieron en el ejército, que llamaré \(Y_i(1)\) , y la cantidad que habrían ganado en 1978 si no sirvieron en el ejército, que llamaré \(Y_i(0)\) . En el marco de resultados potenciales, \(Y_i(1)\) y \(Y_i(0)\) se consideran cantidades fijas, mientras que \(W_i\) es una variable aleatoria.
La elección de unidades, tratamientos y resultados es crítica porque define lo que se puede aprender y lo que no se puede aprender del estudio. La elección de unidades -personas elegibles para el borrador de 1970- no incluye a las mujeres, por lo que sin suposiciones adicionales, este estudio no nos dirá nada sobre el efecto del servicio militar en las mujeres. Las decisiones sobre cómo definir tratamientos y resultados también son importantes. Por ejemplo, ¿debería el tratamiento de interés centrarse en servir en el ejército o experimentar el combate? ¿El resultado de interés debería ser ganancias o satisfacción en el trabajo? En última instancia, la elección de unidades, tratamientos y resultados debe estar guiada por los objetivos científicos y de política del estudio.
Dadas las elecciones de unidades, tratamientos y posibles resultados, el efecto causal del tratamiento sobre la persona \(i\) , \(\tau_i\) es
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
En otras palabras, comparamos la cantidad de persona \(i\) se habría ganado después de servir con la cantidad de persona \(i\) que habría ganado sin servir. Para mí, eq. 2.1 es la forma más clara de definir un efecto causal, y aunque es extremadamente simple, este marco resulta generalizable de muchas maneras importantes e interesantes (Imbens and Rubin 2015) .
Cuando uso el marco de resultados potenciales, a menudo me resulta útil escribir una tabla que muestre los posibles resultados y los efectos del tratamiento para todas las unidades (tabla 2.5). Si no puede imaginarse una tabla como esta para su estudio, es posible que deba ser más preciso en las definiciones de sus unidades, tratamientos y posibles resultados.
Persona | Ganancias en condición de tratamiento | Ganancias en condiciones de control | Efecto del tratamiento |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
Media | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Sin embargo, al definir el efecto causal de esta manera, nos encontramos con un problema. En casi todos los casos, no observamos ambos resultados potenciales. Es decir, una persona específica sirvió o no sirvió. Por lo tanto, observamos uno de los posibles resultados: \(Y_i(1)\) o \(Y_i(0)\) - pero no ambos. La incapacidad de observar ambos resultados potenciales es un problema tan importante que Holland (1986) llamó el Problema Fundamental de la Inferencia Causal .
Afortunadamente, cuando estamos investigando, no solo tenemos una persona; más bien, tenemos muchas personas, y esto ofrece una forma de eludir el problema fundamental de la inferencia causal. En lugar de intentar estimar el efecto del tratamiento a nivel individual, podemos estimar el efecto promedio del tratamiento para todas las unidades:
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
Esta ecuación todavía se expresa en términos de \(\tau_i\) , que son inobservables, pero con algo de álgebra (ecuación 2.8 de Gerber and Green (2012) ), obtenemos
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
Esto muestra que si podemos estimar el resultado promedio de la población bajo tratamiento ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) y el resultado promedio de la población bajo control ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), entonces podemos estimar el efecto promedio del tratamiento, incluso sin estimar el efecto del tratamiento para una persona en particular.
Ahora que he definido nuestras estimaciones y lo que estamos tratando de estimar, me referiré a cómo podemos estimarlo con datos. Y aquí nos encontramos directamente con el problema de que solo observamos uno de los posibles resultados para cada persona; vemos \(Y_i(0)\) o \(Y_i(1)\) (tabla 2.6). Podríamos estimar el efecto promedio del tratamiento al comparar las ganancias de las personas que sirvieron a las ganancias de las personas que no sirvieron:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
donde \(N_t\) y \(N_c\) son el número de personas en las condiciones de tratamiento y control. Este enfoque funcionará bien si la asignación al tratamiento es independiente de los resultados potenciales, una condición a veces llamada ignorancia . Desafortunadamente, en ausencia de un experimento, la ignorancia a menudo no se cumple, lo que significa que el estimador en la ecuación. 2.4 no es probable que produzca una buena estimación. Una forma de pensarlo es que, en ausencia de asignación aleatoria de tratamiento, eq. 2.4 no está comparando con like; está comparando las ganancias de diferentes tipos de personas. O expresado ligeramente diferente, sin asignación aleatoria del tratamiento, la asignación al tratamiento probablemente esté relacionada con los resultados potenciales.
En el capítulo 4, describiré cómo los experimentos controlados aleatorios pueden ayudar a los investigadores a realizar estimaciones causales, y aquí describiré cómo los investigadores pueden aprovechar los experimentos naturales, como la lotería de draft.
Persona | Ganancias en condición de tratamiento | Ganancias en condiciones de control | Efecto del tratamiento |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
Media | ? | ? | ? |
Experimentos naturales
Un enfoque para realizar estimaciones causales sin ejecutar un experimento es buscar algo que suceda en el mundo que le haya asignado aleatoriamente un tratamiento. Este enfoque se llama experimentos naturales . En muchas situaciones, desafortunadamente, la naturaleza no entrega al azar el tratamiento que desea a la población de interés. Pero a veces, la naturaleza entrega al azar un tratamiento relacionado. En particular, consideraré el caso donde hay algún tratamiento secundario que alienta a las personas a recibir el tratamiento primario . Por ejemplo, el borrador podría considerarse un tratamiento secundario asignado al azar que alentó a algunas personas a tomar el tratamiento primario, que estaba sirviendo en el ejército. Este diseño a veces se llama un diseño de estímulo . Y el método de análisis que describiré para manejar esta situación a veces se llama variables instrumentales . En esta configuración, con algunas suposiciones, los investigadores pueden usar el estímulo para aprender sobre el efecto del tratamiento primario para un subconjunto particular de unidades.
Para manejar los dos tratamientos diferentes, el estímulo y el tratamiento primario, necesitamos una nueva notación. Supongamos que algunas personas son reclutadas al azar ( \(Z_i = 1\) ) o no redactadas ( \(Z_i = 0\) ); en esta situación, \(Z_i\) veces se llama un instrumento .
Entre los que fueron reclutados, algunos sirvieron ( \(Z_i = 1, W_i = 1\) ) y otros no ( \(Z_i = 1, W_i = 0\) ). Del mismo modo, entre los que no fueron reclutados, algunos sirvieron ( \(Z_i = 0, W_i = 1\) ) y otros no ( \(Z_i = 0, W_i = 0\) ). Los resultados potenciales para cada persona ahora se pueden ampliar para mostrar su estado tanto para el estímulo como para el tratamiento. Por ejemplo, let \(Y(1, W_i(1))\) son las ganancias de persona \(i\) si fue redactado, donde \(W_i(1)\) es su estado de servicio si está redactado. Además, podemos dividir la población en cuatro grupos: cumplidores, nunca tomadores, desafiantes y siempre tomadores (tabla 2.7).
Tipo | Servicio si está redactado | Servicio si no está redactado |
---|---|---|
Compliers | Sí, \(W_i(Z_i=1) = 1\) | No, \(W_i(Z_i=0) = 0\) |
Nunca tomadores | No, \(W_i(Z_i=1) = 0\) | No, \(W_i(Z_i=0) = 0\) |
Defiers | No, \(W_i(Z_i=1) = 0\) | Sí, \(W_i(Z_i=0) = 1\) |
Siempre tomadores | Sí, \(W_i(Z_i=1) = 1\) | Sí, \(W_i(Z_i=0) = 1\) |
Antes de discutir el cálculo del efecto del tratamiento (es decir, el servicio militar), primero podemos definir dos efectos del estímulo (es decir, el reclutamiento). Primero, podemos definir el efecto del estímulo en el tratamiento primario. En segundo lugar, podemos definir el efecto del estímulo en el resultado. Resultará que estos dos efectos se pueden combinar para proporcionar una estimación del efecto del tratamiento en un grupo específico de personas.
Primero, el efecto del estímulo en el tratamiento se puede definir para la persona \(i\) como
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
Además, esta cantidad se puede definir en toda la población como
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
Finalmente, podemos estimar \(\text{ITT} _{W}\) usando datos:
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
donde \(\bar{W}^{\text{obs}}_1\) es la tasa de tratamiento observada para aquellos que fueron alentados y \(\bar{W}^{\text{obs}}_0\) es la tasa de tratamiento observada para aquellos que no fueron alentados. \(\text{ITT}_W\) también se denomina velocidad de aceptación .
A continuación, el efecto del estímulo sobre el resultado se puede definir para la persona \(i\) como:
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
Además, esta cantidad se puede definir en toda la población como
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
Finalmente, podemos estimar \(\text{ITT}_{Y}\) usando datos:
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
donde \(\bar{Y}^{\text{obs}}_1\) es el resultado observado (p. ej., ganancias) para los que fueron alentados (p. ej., redactado) y \(\bar{W}^{\text{obs}}_0\) es el resultado observado para aquellos que no fueron alentados.
Finalmente, dirigimos nuestra atención al efecto del interés: el efecto del tratamiento primario (p. Ej., Servicio militar) sobre el resultado (p. Ej., Ganancias). Desafortunadamente, resulta que uno no puede, en general, estimar este efecto en todas las unidades. Sin embargo, con algunas suposiciones, los investigadores pueden estimar el efecto del tratamiento en los cumplidores (es decir, las personas que prestarán servicios si son reclutadas y las personas que no prestarán servicios si no están redactadas, tabla 2.7). Llamaré a esta estimación y el efecto causal promedio de compilador (CACE) (que a veces también se denomina efecto de tratamiento promedio local , TARDÍO):
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
donde \(G_i\) dona el grupo de persona \(i\) (ver tabla 2.7) y \(N_{\text{co}}\) es el número de cumplidores. En otras palabras, eq. 2.11 compara las ganancias de los cumplidores que están redactados \(Y_i(1, W_i(1))\) y no redactados \(Y_i(0, W_i(0))\) . La estimación en eq. 2.11 parece difícil de estimar a partir de los datos observados porque no es posible identificar los cumplidores utilizando solo datos observados (para saber si alguien es compilador necesitaría observar si sirvió cuando se redactó y si sirvió cuando no se redactó).
Resulta, algo sorprendente, que si hay cumplidores, siempre que se realicen tres suposiciones adicionales, es posible estimar el CACE a partir de los datos observados. Primero, uno debe suponer que la asignación al tratamiento es aleatoria. En el caso del sorteo, esto es razonable. Sin embargo, en algunos entornos donde los experimentos naturales no se basan en la aleatorización física, esta suposición puede ser más problemática. Segundo, uno tiene que suponer que no hay desafiadores (esta suposición también se denomina a veces suposición de monotonicidad). En el contexto del borrador, parece razonable suponer que hay muy pocas personas que no servirán si están redactadas y que servirán si no están redactadas. En tercer lugar, y finalmente, viene la suposición más importante que se llama restricción de exclusión . Bajo la restricción de exclusión, uno tiene que suponer que todo el efecto de la asignación al tratamiento pasa a través del tratamiento en sí. En otras palabras, uno tiene que suponer que no hay un efecto directo de estímulo en los resultados. En el caso del sorteo, por ejemplo, uno debe suponer que el estado del draft no tiene ningún efecto sobre las ganancias que no sea a través del servicio militar (figura 2.11). La restricción de exclusión podría ser violada si, por ejemplo, las personas que fueron reclutadas pasaran más tiempo en la escuela para evitar el servicio o si los empleadores fueran menos propensos a contratar personas que fueron reclutadas.
Si se cumplen estas tres condiciones (asignación aleatoria al tratamiento, no hay desafiadores y la restricción de exclusión), entonces
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
para que podamos estimar CACE:
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
Una forma de pensar sobre CACE es que es la diferencia en los resultados entre los que fueron alentados y los que no fueron estimulados, inflados por la tasa de aceptación.
Hay dos advertencias importantes a tener en cuenta. En primer lugar, la restricción de exclusión es una suposición fuerte, y debe justificarse caso por caso, lo que con frecuencia requiere experiencia en el área temática. La restricción de exclusión no se puede justificar con la aleatorización del estímulo. En segundo lugar, un desafío práctico común con el análisis de variables instrumentales se produce cuando el estímulo tiene poco efecto sobre la aceptación del tratamiento (cuando \(\text{ITT}_W\) es pequeño). Esto se llama un instrumento débil y conduce a una variedad de problemas (Imbens and Rosenbaum 2005; Murray 2006) . Una forma de pensar sobre el problema con instrumentos débiles es que \(\widehat{\text{CACE}}\) puede ser sensible a pequeños sesgos en \(\widehat{\text{ITT}_Y}\) -potencialmente debido a violaciones de la restricción de exclusión, porque estos sesgos se magnifican por una pequeña \(\widehat{\text{ITT}_W}\) (ver ecuación 2.13). A grandes rasgos, si el tratamiento que asigna la naturaleza no tiene un gran impacto en el tratamiento que le interesa, entonces le será difícil conocer el tratamiento que le interesa.
Consulte el capítulo 23 y 24 de Imbens and Rubin (2015) para obtener una versión más formal de esta discusión. El enfoque econométrico tradicional de las variables instrumentales se expresa típicamente en términos de estimación de ecuaciones, no de resultados potenciales. Para una introducción desde esta otra perspectiva, ver Angrist and Pischke (2009) , y para una comparación entre los dos enfoques, ver la sección 24.6 de Imbens and Rubin (2015) . En el capítulo 6 de Gerber and Green (2012) presenta una presentación alternativa, un poco menos formal, del enfoque de variables instrumentales. Para más información sobre la restricción de exclusión, ver D. Jones (2015) . Aronow and Carnegie (2013) describen un conjunto adicional de suposiciones que pueden utilizarse para estimar ATE en lugar de CACE. Para más información sobre cómo los experimentos naturales pueden ser muy difíciles de interpretar, ver Sekhon and Titiunik (2012) . Para una introducción más general a los experimentos naturales, que va más allá del enfoque de variables instrumentales para incluir también diseños como la discontinuidad de regresión, ver Dunning (2012) .