이 부록에서는 비 실험 데이터로부터 인과 관계 추론을 약간 더 수학적 형태로 만드는 것에 대한 몇 가지 아이디어를 요약 할 것이다. 두 가지 주요 접근법이 있습니다 : Judea Pearl 및 동료와 가장 관련이있는 인과 관계 그래프 프레임 워크, 잠재적 인 결과 프레임 워크, Donald Rubin 및 동료와 가장 관련이 있습니다. 나는 3 장과 4 장의 끝에서 수학적 주석의 아이디어와 더 밀접하게 연결되어 있기 때문에 잠재적 결과 프레임 워크를 소개 할 것이다. 인과 그래프 프레임 워크에 대한 자세한 내용은 Pearl, Glymour, and Jewell (2016) (입문 )와 Pearl (2009) (고급). 잠재적 결과 프레임 워크와 인과 그래프 프레임 워크를 결합한 인과 관계 추론의 장편 처리를 위해 Morgan and Winship (2014) 합니다.
이 부록의 목표는 잠재적 결과 전통의 표기법 및 스타일에 익숙해 지도록 지원하여이 주제에 대해 기술 된 더 많은 기술 자료로 전환 할 수있게하는 것입니다. 먼저 잠재적 결과 프레임 워크에 대해 설명하겠습니다. 그런 다음, 그것을 Angrist (1990) 에 의한 것과 같은 자연적 실험을 수입에 대한 군 복무의 영향에 대해 더 논의하기 위해 사용할 것입니다. 이 부록은 Imbens and Rubin (2015) 에 많이 중점을 Imbens and Rubin (2015) .
잠재적 결과 프레임 워크
잠재적 결과 프레임 워크에는 세 가지 주요 요소가 있습니다. 단위 , 치료 및 잠재적 결과 . 이러한 요소를 설명하기 위해 Angrist (1990) 에서 제기 된 질문의 양식화 된 버전을 고려해 보겠습니다. 군 복무가 소득에 미치는 영향은 무엇입니까? 이 경우, 미국에서 1970 년 초안에 대한 자격이있는 사람들을 단위 로 정의 할 수 \(i = 1, \ldots, N\) 사람들을 \(i = 1, \ldots, N\) 색인화 할 수 있습니다. 이 경우의 치료법 은 "군대에서의 복무"또는 "군대에서 복무하지 않는 것"이 될 수 있습니다. 이러한 치료 및 통제 조건 \(W_i = 1\) 사람 \(i\) 이 치료 조건에 있고 사람이 \(i\) 통제 상태에 있으면 \(W_i = 0\) 이다. 마지막으로 잠재적 결과 는 잠재적 인 결과 를 포함하기 때문에 개념적으로 조금 더 어려워집니다. 일어날 수있는 일들. 1970 년 초안을받을 자격이있는 사람 한 명당, 군대에서 복무했다면 1978 년에 얻었을 금액을 상상할 수 있는데, 나는 이것을 \(Y_i(1)\) 라고 부를 것이고 그들이 벌었을 금액 1978 년 군대에서 일하지 않으면 \(Y_i(0)\) 입니다. 잠재적 결과 프레임 워크에서 \(Y_i(1)\) 및 \(Y_i(0)\) 는 고정 된 수량으로 간주되는 반면 \(W_i\) 는 임의의 변수입니다.
단위, 치료 및 결과의 선택은 연구에서 배울 수있는 것과 배울 수없는 것을 정의하기 때문에 중요합니다. 단위의 선택 - 1970 년 초안 수혜자 -는 여성을 포함하지 않으므로 추가적인 가정없이이 연구는 여성에게 군 복무가 미치는 영향에 관해 우리에게 아무 것도 말해주지 않을 것입니다. 치료와 결과를 정의하는 방법에 관한 결정도 중요합니다. 예를 들어, 관심 치료가 군 복무 또는 전투 경험에 초점을 맞추어야합니까? 이익의 결과가 소득이나 직업 만족이어야합니까? 궁극적으로, 단위, 치료 및 결과의 선택은 연구의 과학 및 정책 목표에 의해 주도되어야합니다.
단위, 치료법 및 잠재적 인 결과의 선택이 주어지면, 사람 \(i\) , \(\tau_i\) 에 대한 치료의 인과 관계 효과는 다음과 \(\tau_i\)
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
즉, 우리는 얼마나 많은 사람이 비교 \(i\) 많은 사람의 방법으로 재직 한 후 획득 한 것 \(i\) 제공하지 않고 얻은 것이다. 나에게, eq. 2.1은 인과 관계 효과를 정의하는 가장 명확한 방법이며, 매우 간단하지만,이 프레임 워크는 많은 중요하고 흥미로운 방식으로 일반화 될 수있다 (Imbens and Rubin 2015) .
잠재적 결과 틀을 사용할 때, 나는 잠재적 인 결과와 모든 단위에 대한 치료 효과를 보여주는 표를 작성하는 것이 도움이된다는 것을 자주 발견한다 (표 2.5). 연구를 위해 이와 같은 표를 상상할 수 없다면 단위, 치료법 및 잠재적 인 결과의 정의에서보다 정확하게 정의해야 할 수도 있습니다.
사람 | 치료 조건에서의 수입 | 통제 상태에있는 가득액 | 치료 효과 |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
평균 | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
그러나 이러한 방식으로 인과 관계 효과를 정의 할 때 문제가 발생합니다. 거의 모든 경우에 우리는 두 가지 결과를 모두 관찰하지 못합니다. 즉, 특정 사람이 봉사했거나 봉사하지 않았습니다. 그러므로, 우리는 잠재적 인 결과 중 하나, 즉 \(Y_i(1)\) 또는 \(Y_i(0)\) 을 관찰하지만 둘 모두를 관찰하지는 않습니다. 두 가지 결과를 모두 관찰 할 수 없다는 것은 Holland (1986) 가 인과 관계 추론 의 근본 문제 라고 부르는 중요한 문제이다.
다행히도, 우리가 연구를 할 때, 우리는 단지 한 사람 만 가지는 것이 아닙니다. 오히려 우리에게는 많은 사람들이 있습니다. 이것은 인과 관계 추론의 근본적인 문제를 해결할 수있는 방법을 제공합니다. 개인 수준의 치료 효과를 추정하기보다는 모든 단위에 대한 평균 치료 효과 를 추정 할 수 있습니다.
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
이 방정식은 관찰 할 수없는 \(\tau_i\) 관점에서 여전히 표현되지만 일부 대수 ( Gerber and Green (2012) 의 eq 2.8)와 함께 얻을 수 있습니다.
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
이것은 우리가 처리중인 인구를 평균 결과를 추정 할 수 있다면 (도시 \(N^{-1} \sum_{i=1}^N Y_i(1)\) 제어하에 인구 평균 결과 () \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), 특정 사람의 치료 효과를 추정하지 않고도 평균 치료 효과를 추정 할 수 있습니다.
이제 추정치를 정의 했으므로 데이터로 실제로 추정 할 수있는 방법을 살펴 보겠습니다. 그리고 여기에서 우리는 각 사람에 대한 잠재적 결과 중 하나만을 관찰한다는 문제에 직접 뛰어갑니다. \(Y_i(0)\) 또는 \(Y_i(1)\) (표 2.6) 중 하나를 볼 수 있습니다. 우리는 봉사 한 사람들의 수입을 봉사하지 않은 사람들의 수입과 비교하여 평균 치료 효과를 추정 할 수 있습니다.
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
여기서 \(N_t\) 와 \(N_c\) 는 치료 및 통제 조건에있는 사람들의 수입니다. 이 접근법은 치료 할당이 잠재적 결과와 무관 한 경우에 효과적이며 때로는 무시할 수 있는 상태라고도합니다. 불행하게도, 실험이 없다면, 무시할 수있는 성질이 종종 만족되지 않는다. 2.4는 좋은 추정치를 산출하지 못할 것이다. 그것에 대해 생각하는 한 가지 방법은 치료의 무작위 배정이 없을 때 eq. 2.4는 비슷하게 비교하지 않는다; 그것은 다른 종류의 사람들의 수입을 비교하고 있습니다. 또는 치료의 무작위 배정없이 약간 다르게 표현하면 치료 배당이 잠재적 인 결과와 관련이있을 수 있습니다.
4 장에서는 무작위 통제 실험이 연구자가 인과 관계 추정을하는 데 도움이되는 방법을 설명하고 여기에서 연구원이 초첨 추첨과 같은 자연적 실험을 활용하는 방법을 설명합니다.
사람 | 치료 조건에서의 수입 | 통제 상태에있는 가득액 | 치료 효과 |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
평균 | ? | ? | ? |
자연 실험
실험을하지 않고 인과 관계 추정을하는 한 가지 방법은 무작위로 치료법을 할당 한 세계에서 일어나는 일을 찾아 보는 것입니다. 이 접근 방식을 자연 실험 이라고합니다. 불행히도 많은 상황에서 자연은 관심있는 인구에게 원하는 치료를 무작위로 제공하지 않습니다. 그러나 때로는 자연이 무작위로 관련 치료를 제공합니다. 특히, 사람들에게 1 차 치료 를 받도록 권장하는 2 차 치료 가있는 경우를 생각해 보겠습니다. 예를 들어, 초안은 무작위로 할당 된 2 차 치료로 간주되어 일부 사람들이 군대에서 일차적 인 치료를 받도록 격려했습니다. 이 디자인은 때로는 격려 설계 라고합니다. 그리고이 상황을 처리하기 위해 설명 할 분석 방법을 도구 변수 라고도 합니다 . 이 설정에서 일부 가정과 함께 연구원은 특정 단위 하위 집합에 대한 1 차 치료 효과에 대해 배우기 위해 격려를 사용할 수 있습니다.
격려와 1 차 치료라는 두 가지 다른 치료법을 다루기 위해서는 새로운 표기법이 필요합니다. 어떤 사람들이 무작위로 드래프트 ( \(Z_i = 1\) ) 또는 드래프트되지 않았다고 ( \(Z_i = 0\) ); 이 상황에서, \(Z_i\) 는 때때로 악기 라고 불린다.
초안 \(Z_i = 1, W_i = 1\) 중 일부는 ( \(Z_i = 1, W_i = 1\) ) 일부는 ( \(Z_i = 1, W_i = 0\) )하지 않았습니다. 마찬가지로, 초안 작성되지 않은 사람들 중 일부는 ( \(Z_i = 0, W_i = 1\) ) 제공하지 않았고 ( \(Z_i = 0, W_i = 0\) )하지 않았습니다. 각 사람의 잠재적 결과를 확대하여 격려와 치료에 대한 자신의 지위를 보여줄 수 있습니다. 예를 들어, \(Y(1, W_i(1))\) 은 그가 초안을 작성한 경우 사람 \(i\) 의 수입으로, \(W_i(1)\) 은 초안 작성시 그의 서비스 상태입니다. 또한, 우리는 인구를 4 가지 그룹으로 나눌 수 있습니다 : 필사자, 절대로 받아 들일 수없는 사람, 디펜더, 항상 추구하는 사람 (표 2.7).
유형 | 서비스가 초안 인 경우 | 초안 제출되지 않은 경우의 서비스 |
---|---|---|
컴플라이언스 | 예, \(W_i(Z_i=1) = 1\) | 아니오, \(W_i(Z_i=0) = 0\) |
절대로 | 아니오, \(W_i(Z_i=1) = 0\) | 아니오, \(W_i(Z_i=0) = 0\) |
Defiers | 아니오, \(W_i(Z_i=1) = 0\) | 예, \(W_i(Z_i=0) = 1\) |
항상 응시자 | 예, \(W_i(Z_i=1) = 1\) | 예, \(W_i(Z_i=0) = 1\) |
치료 (예 : 군 복무)의 효과를 평가하기 전에 먼저 격려의 두 가지 효과를 정의 할 수 있습니다 (즉, 초안 작성). 첫째, 우리는 1 차 치료에 대한 격려의 효과를 정의 할 수 있습니다. 둘째, 우리는 결과에 대한 격려의 효과를 정의 할 수 있습니다. 이 두 가지 효과를 결합하여 특정 집단의 사람들에 대한 치료 효과를 추정 할 수 있습니다.
첫째, 치료에 대한 격려의 효과는 사람 \(i\) 과 같이 정의 될 수있다.
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
또한이 양은 전체 인구에 대해 다음과 같이 정의 할 수 있습니다.
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
마지막으로 데이터를 사용하여 \(\text{ITT} _{W}\) 를 추정 할 수 있습니다.
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
여기서 \(\bar{W}^{\text{obs}}_1\) 는 권장 된 사람들에 대한 치료의 관측 율이며 \(\bar{W}^{\text{obs}}_0\) 장려되지 않은 사람들을위한 치료의 관찰 된 비율. \(\text{ITT}_W\) 는 섭취량 이라고도합니다.
다음으로, 격려가 결과에 미치는 영향은 사람 \(i\) 대해 다음과 같이 정의 될 수 있습니다.
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
또한이 양은 전체 인구에 대해 다음과 같이 정의 할 수 있습니다.
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
마지막으로 데이터를 사용하여 \(\text{ITT}_{Y}\) 를 계산할 수 있습니다.
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
여기서 \(\bar{Y}^{\text{obs}}_1\) 는 격려 된 (예 : 드래프트 된) 사람들과 \(\bar{W}^{\text{obs}}_0\) 은 권장되지 않은 사람들에게 관찰 된 결과입니다.
마지막으로, 우리는 관심의 효과에주의를 돌린다 : 결과 (예 : 수입)에 대한 1 차 치료 (예 : 군 복무)의 효과. 불행히도, 일반적으로 모든 유닛에서이 효과를 추정 할 수는 없습니다. 그러나 일부 가정과 함께, 연구자는 치료자 (즉, 초안을 작성할 경우 봉사하는 사람들과 초안을 작성하지 않으면 봉사하지 않는 사람들, 표 2.7)에 대한 치료 효과를 추정 할 수 있습니다. 이 추정치와 컴 플리 어 평균 인과 관계 (CACE) ( 지역 평균 치료 효과 , 후기라고도 부름)라고 부를 것입니다.
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
\(G_i\) \(i\) 는 사람의 집단을 기증하고 \(i\) (표 2.7), \(G_i\) \(N_{\text{co}}\) 은 \(N_{\text{co}}\) 의 수를 나타낸다. 즉, eq. 2.11은 드래프트 된 \(Y_i(1, W_i(1))\) 드래프트 된 \(Y_i(0, W_i(0))\) 드래프트 된 \(Y_i(1, W_i(1))\) 의 수입을 비교한다. Eq. 2.11은 관측 된 데이터만을 사용하여 피 억 신자를 식별 할 수 없기 때문에 관찰 된 데이터로부터 추정하기가 어렵 기 때문에 (누군가가 작성자인지 여부를 알기 위해 그가 드래프트 될 때 서비스했는지 여부와 드래프트하지 않을 때 서비스했는지 여부를 관찰해야 함).
약간의 놀랍게도, 어떤 컴 플리 언스가있는 경우 3 가지 추가 가정을 제공하면 관찰 된 데이터에서 CACE를 추정 할 수 있습니다. 첫째, 치료에 대한 할당이 무작위라고 가정해야합니다. 초안 추첨의 경우 이것은 합리적입니다. 그러나 자연 실험이 물리적 임의 화에 의존하지 않는 일부 환경에서는이 가정이 더 문제가 될 수 있습니다. 두 번째로, 그들은 자신들이 아무 디퍼가 아니라고 가정해야한다 (이 가정은 때로는 단조 로움 가정이라고도한다). 초안의 맥락에서, 초안 작성시 제출하지 않을 경우 초안을 제출하지 않을 경우 서비스를 제공 할 사람이 거의 없다고 가정하는 것이 합리적입니다. 셋째, 마지막으로, 배제 제한 이라고하는 가장 중요한 가정이 나온다. 배제 제한 하에서, 치료 과제의 모든 효과가 치료 자체를 거친 것으로 가정해야합니다. 즉, 결과에 대한 격려의 직접적인 효과가 없다고 가정해야합니다. 예를 들어, 초안 추첨의 경우, 초안 상태가 병역을 통하지 않고 수입에 영향을 미치지 않는다고 가정 할 필요가있다 (그림 2.11). 예를 들어, 초안을 작성한 사람들이 서비스를 피하기 위해 더 많은 시간을 학교에서 보냈거나 고용주가 초안을 작성한 사람을 고용 할 가능성이 적 으면 배제 제한을 위반할 수 있습니다.
이 3 가지 조건 (치료에 대한 무작위 배정, 디 디어 없음, 배제 제한)이 충족되면
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
그래서 우리는 CACE를 추정 할 수 있습니다 :
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
CACE에 관해 생각해 볼 수있는 한 가지 방법은 권장 된 사람들과 권장되지 않은 사람들 사이의 결과의 차이, 이해 율에 의해 팽창 된 것입니다.
명심해야 할 중요한 두 가지주의 사항이 있습니다. 첫째, 배제 제한은 강력한 가정이며, 경우에 따라 주제 영역 전문 지식을 필요로하는 경우 정당화 될 필요가 있습니다. 배제 제한은 격려의 무작위 화로 정당화 될 수 없다. 둘째, 도구 변수 분석에 대한 공통적 인 실용적인 도전은 치료가 ( \(\text{ITT}_W\) 가 작을 때) 치료 효과에 거의 영향을 미치지 않는 경우에 발생합니다. 이것은 약한 도구 라고 불리며, 다양한 문제를 야기합니다 (Imbens and Rosenbaum 2005; Murray 2006) . 약한 도구로 문제를 생각할 수있는 한 가지 방법은 \(\widehat{\text{CACE}}\) 가 \(\widehat{\text{ITT}_Y}\) 작은 편향에 민감 할 수 있다는 것입니다. 이러한 편향이 작은 \(\widehat{\text{ITT}_W}\) 의해 확대되기 때문에 제외 제한의 위반 \(\widehat{\text{ITT}_W}\) 2.13 참조). 대충, 자연에서 배려 한 치료가 당신이 관심있는 치료에 큰 영향을 미치지 않는다면, 당신은 치료에 대해 배우는 데 어려움을 겪게 될 것입니다.
이 토론의 공식 버전에 대해서는 Imbens and Rubin (2015) 의 23 장과 24 장을 참조하십시오. 수단 변수에 대한 전통적인 계량 경제 학적 접근법은 일반적으로 잠재적 인 결과가 아닌 방정식을 추정하는 관점에서 표현됩니다. 이 다른 관점의 소개는 Angrist and Pischke (2009) 참조하고, 두 가지 접근법의 비교는 Imbens and Rubin (2015) 24.6 절을 참조하십시오. 수단 변수 접근법의 다소 덜 공식적인 대안은 Gerber and Green (2012) 6 장에서 제공됩니다. 제외 제한에 대한 자세한 내용은 D. Jones (2015) 참조하십시오. Aronow and Carnegie (2013) 는 CACE보다는 ATE를 추정하는 데 사용할 수있는 추가 가정을 설명합니다. 자연스러운 실험이 어떻게 해석하기 까다로운 지에 대한 자세한 내용은 Sekhon and Titiunik (2012) 참조하십시오. 자연스러운 실험에 대한 더 일반적인 소개 - 도구 적 변수 접근법을 넘어서서 회귀 불연속성과 같은 디자인도 포함됩니다 Dunning (2012) 참조 Dunning (2012) .