실험을 이해하는 가장 좋은 방법은 잠재 성과 프레임 워크 (2 장의 수학적 노트에서 논의 했음)입니다. 잠재적 결과 프레임 워크는 제 3 장 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) 장)에서 설명한 디자인 기반 샘플링의 아이디어와 밀접한 관계가 있습니다. 이 부록은 그러한 연결을 강조하는 방식으로 작성되었습니다. 이 강조는 다소 비 전통적이지만 샘플링과 실험 간의 관계가 도움이된다고 생각합니다. 즉, 샘플링에 대해 알고 있으면 실험에 대해 알고 있고 그 반대의 경우도 있음을 의미합니다. 이 글에서 보여 주겠지만 잠재적 결과 프레임 워크는 인과 관계 영향을 예측하기위한 무작위 통제 실험의 강도를 보여 주며 완벽하게 실행 된 실험으로도 수행 할 수있는 한계를 보여줍니다.
이 부록에서는 잠재적 인 결과 프레임 워크를 설명하고 2 장의 수학 노트에서 자료의 일부를 복제하여 이러한 노트를 더욱 자급하게 만듭니다. 그런 다음 최적 할당 및 차이 차 산정에 대한 논의를 포함하여 평균 치료 효과 추정의 정확도에 대한 유용한 결과를 설명합니다. 이 부록은 Gerber and Green (2012) 에 많이 사용됩니다.
잠재적 결과 프레임 워크
잠재적 결과 프레임 워크를 설명하기 위해, Restivo와 van de Rijt의 실험으로 돌아가서 Wikipedia에 대한 향후 기여에 대해 barnstar를받는 효과를 추정 해 보겠습니다. 잠재적 결과 프레임 워크에는 세 가지 주요 요소가 있습니다. 단위 , 치료 및 잠재적 결과 . Restivo 및 밴 드 Rijt의 경우, 단위는 편집자 - 그 기여자 - 아직 반 스타를받지 못했습니다의 상위 1 %에를받을만한되었다. 이 편집기는 \(i = 1 \ldots N\) 색인을 생성 할 수 있습니다. 그들의 실험에서 치료법 은 "barnstar"또는 " \(W_i = 1\) 없음"이었고 사람이 \(i\) 치료 조건에 있고 \(W_i = 0\) 경우 \(W_i = 0\) . 잠재적 성과 프레임 워크의 세 번째 요소가 가장 중요합니다. 잠재적 결과 . 이들은 "잠재적"결과 - 일이 발생할 수 있기 때문에 조금 더 개념적으로 어렵습니다. 각 위키 피 디아 편집자는 치료 조건 ( \(Y_i(1)\) )과 그녀가 조절 조건 ( \(Y_i(0)\) 에서 취할 수있는 편집 횟수를 상상할 수 있습니다. ).
이 단위, 처리 및 결과의 선택은이 실험에서 배울 수있는 것을 정의합니다. 예를 들어, 추가 가정없이, Restivo와 van de Rijt는 모든 위키피디아 편집자 또는 편집 품질과 같은 결과에 대한 반스터의 영향에 대해 아무 것도 말할 수 없습니다. 일반적으로 단위, 치료 및 결과의 선택은 연구의 목표에 근거해야합니다.
표 4.5에 요약되어있는 이러한 잠재적 결과를 감안할 때 사람 \(i\) 에 대한 치료의 인과 관계 효과를 다음과 같이 정의 할 수 있습니다.
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
나에게이 방정식은 인과 관계 효과를 정의하는 가장 명확한 방법이며 매우 간단하지만 많은 중요하고 흥미로운 방법으로 일반화 할 수있다 (Imbens and Rubin 2015) .
사람 | 치료 조건의 편집 | 제어 조건에서 편집 | 치료 효과 |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
엔 | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
평균 | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
그러나 이러한 방식으로 인과 관계를 정의하면 문제가 발생합니다. 거의 모든 경우에 우리는 두 가지 결과를 모두 관찰하지 못합니다. 즉, 특정 Wikipedia 편집자가 barnstar를 받았는지 여부입니다. 그러므로, 우리는 잠재적 인 결과 중 하나, 즉 \(Y_i(1)\) 또는 \(Y_i(0)\) 을 관찰하지만 둘 모두를 관찰하지는 않습니다. 두 가지 결과를 모두 관찰 할 수 없다는 것은 Holland (1986) 가 인과 관계 추론 의 근본 문제 라고 부르는 중요한 문제이다.
다행히도 우리가 연구를하고있을 때, 우리는 단지 한사람이 아니라 많은 사람들이 있습니다. 이것은 인과 관계 추론의 근본적인 문제를 해결할 수있는 방법을 제공합니다. 개별 수준 치료 효과를 추정하기보다는 평균 치료 효과를 추정 할 수 있습니다.
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
이것은 관측 할 수없는 \(\tau_i\) 관점에서 여전히 표현되지만, 일부 대수학 ( Gerber and Green (2012) 의 Eq 2.8)을 통해 얻을 수 있습니다.
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
수학 식 4.3 보여준다 우리 (처리중인 인구를 평균 결과를 추정 할 수 있다면 \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) 및 관리 하의 인구 평균 결과 ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), 우리는 심지어 임의의 특정 사용자에 대한 치료 효과를 추정하지 않고, 평균 치료 효과를 추정 할 수있다.
이제 추정치를 정의 했으므로 데이터로 실제로 추정 할 수있는 방법을 살펴 보겠습니다. 나는이 견적 도전을 표본 추출 문제로 생각하고 싶다. (3 장의 수학적 주석을 다시 생각해 보라.) 우리가 치료 조건에서 관찰하기 위해 무작위로 일부 사람들을 선택한다고 가정하고 통제 조건에서 관찰 할 사람들을 무작위로 선택하면 각 조건에서 평균 결과를 추정 할 수 있습니다.
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
여기서 \(N_t\) 와 \(N_c\) 는 치료 및 통제 조건에있는 사람들의 수입니다. 방정식 4.4는 평균의 차이 추정치이다. 샘플링 설계로 인해 첫 번째 항은 치료중인 평균 결과에 대한 비 편향 추정량이며 두 번째 항은 통제하에있는 비 편향 추정량입니다.
무작위 화가 가능하게하는 또 다른 방법은 무작위 화가 두 그룹이 서로를 닮을 수 있기 때문에 치료 그룹과 대조 그룹 간의 비교가 공정하다는 것을 보장하는 것입니다. 이러한 유사성은 우리가 측정 한 것 (실험 30 일 전의 편집 횟수)과 측정하지 않은 것 (성별)에 적용됩니다. 모두 관찰 및 관찰되지 요인에 균형을 보장하는이 능력은 중요하다. 관찰되지 않은 요인들에 대한 자동 균형 조정의 힘을보기 위해, 미래의 연구 결과 남성이 여성보다 상에 더 반응한다는 것을 알게된다고 가정 해 봅시다. Restivo와 van de Rijt의 실험 결과가 무효화 될까요? 아닙니다. 무작위로, 모든 관찰 할 수없는 것들이 기대에 따라 균형을 이루도록했습니다. 알려지지 않은 것에 대한 이러한 보호는 매우 강력합니다. 실험은 2 장에서 설명한 비 실험적 기법과는 다른 중요한 방법입니다.
전체 인구에 대한 치료 효과를 정의하는 것 외에도, 사람들의 하위 집합에 대해 치료 효과를 정의 할 수 있습니다. 이것은 일반적으로 조건부 평균 치료 효과 (CATE)라고합니다. 예를 들어, Restivo와 van de Rijt가 수행 한 연구에서 \(X_i\) 는 실험 전 90 일 동안 편집자가 편집 수의 중앙값보다 높거나 낮은 지 여부를 상상해 봅시다. 가볍고 무거운 편집자를 위해 치료 효과를 따로 계산할 수 있습니다.
잠재적 결과 프레임 워크는 인과 관계 추론 및 실험에 대해 생각할 수있는 강력한 방법입니다. 그러나 두 가지 추가 복잡성에 유의해야합니다. 이 두 가지 복잡성은 종종 SUTVA ( Stable Unit Treatment Value Assumption) 라는 용어로 함께 묶여 있습니다. SUTVA의 첫 번째 부분은 person \(i\) 의 결과에 중요한 것은 그 사람이 치료 또는 통제 상태에 있는지의 여부입니다. 즉, 그 사람의 가정 \(i\) 다른 사람에게 주어진 치료에 의해 영향을받지됩니다. 이것은 때때로 "간섭 없음"또는 "파급 효과 없음"이라고하며 다음과 같이 작성할 수 있습니다.
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
여기서 \(\mathbf{W_{-i}}\) 는 사람 \(i\) 제외한 모든 사람의 치료 상태를 나타내는 벡터입니다. 이것을 위반할 수있는 한 가지 방법은 한 사람의 치료가 다른 사람에게 긍정적이거나 부정적으로 넘쳐나는 경우입니다. Restivo와 van de Rijt의 실험으로 돌아가서 두 친구 \(i\) 와 \(j\) 상상해 보라. 그 사람은 \(i\) 받고 \(j\) 는 그렇지 않다. barnstar를받는 \(i\) 이 \(j\) 이 (경쟁의 의미에서) 더 많은 것을 편집하거나 less (절망감에서 벗어남)을 편집하면 SUTVA가 위반되었습니다. 치료의 영향이 치료를받는 다른 사람들의 총 수에 의존하는 경우에도 위반할 수 있습니다. 예를 들어, Restivo와 van de Rijt이 100 개가 아닌 1,000 개 또는 10,000 개의 헛간을 냈다면, 이는 헛소리를받는 효과에 영향을 미쳤을 수 있습니다.
SUTVA에 집중되는 두 번째 문제는 유일한 관련 치료가 연구원이 제공하는 가정이라는 가정입니다. 이 가정은 숨겨진 치료법 이나 배제 가능성이라고도 합니다. 예를 들어, Restivo와 van de Rijt에서, barnstar를 제공하면 연구자가 편집자를 인기있는 편집자 페이지에 게시하고 인기있는 편집자 페이지에 게시 할 수있게 된 것일 수 있습니다. 편집 동작이 변경되었습니다. 이것이 사실이라면, barnstar의 효과는 인기있는 편집자 페이지에있는 효과와 구별 할 수 없습니다. 물론, 과학적 관점에서 볼 때 이것이 매력적인지 또는 매력적이지 않은지는 분명하지 않다. 즉, 연구자가 상상의 여신상을받는 효과가 그 여신상이 유발하는 모든 후속 치료를 포함한다고 말하는 것을 상상할 수 있습니다. 또는 연구가 barnstars의 효과를 다른 모든 것들과 분리하려는 상황을 상상할 수도 있습니다. 그것에 대해 생각하는 한 가지 방법은 Gerber and Green (2012) (41 페이지)이 "대칭의 고장"이라고 부르는 것이 있는지 묻는 것입니다. 다른 말로하면 치료 및 통제 조건에있는 사람들을 다르게 대우하는 다른 치료법이 있습니까? 대칭 파열에 대한 우려는 의학 실험에서 통제 그룹의 환자가 위약 알약을 복용하도록 유도 한 것입니다. 그렇게하면 연구자는 두 가지 조건의 유일한 차이점은 실제 약과 알약 섭취의 경험이 아니라는 것을 확신 할 수 있습니다.
SUTVA에 대한 자세한 내용은 Gerber and Green (2012) 2.7 절, Morgan and Winship (2014) 2.5 절, Imbens and Rubin (2015) 1.6 절을 참조하십시오.
정도
이전 섹션에서는 평균 치료 효과를 추정하는 방법을 설명했습니다. 이 섹션에서는 이러한 추정치의 변동성에 대한 몇 가지 아이디어를 제공하겠습니다.
두 가지 표본 평균의 차이를 추정 할 때 평균 치료 효과를 추정하는 것에 대해 생각한다면 평균 치료 효과의 표준 오차가 다음과 같음을 보여줄 수 있습니다.
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
치료에 배정받은 사람은 \(m\) 통제하려면 \(Nm\) ( Gerber and Green (2012) , 식 3.4 참조). 따라서 치료에 할당 할 사람의 수와 통제 할 대상 수를 생각할 때 \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , 치료와 통제의 비용이 같으면 \(m \approx N / 2\) 을 원할 것입니다. 식 4.6은 사회 정보가 투표에 미치는 영향에 대한 Bond와 동료 (2012) 실험 설계가 통계적으로 비효율적 인 이유를 분명히한다. 치료 조건에 참여자의 98 %가 있다는 것을 상기하십시오. 이는 제어 조건의 평균 거동이 정확하게 예측되지 않았 음을 의미하며, 이는 결과적으로 처리 및 제어 조건 간의 추정 된 차이가 정확하게 예측되지 않았 음을 의미합니다. 상황에 따라 비용이 다른 경우를 포함하여 조건에 참가자를 최적으로 할당하는 방법에 대한 자세한 내용은 List, Sadoff, and Wagner (2011) 참조하십시오.
마지막으로 본문에서 필자는 혼합 된 디자인에서 일반적으로 사용되는 차이 차 산포량 추정 방법이 일반적으로 피험자간에 사용되는 평균 차이 계산보다 더 작은 분산을 초래할 수 있다고 설명했습니다 디자인. \(X_i\) 가 치료 전 결과의 값인 경우, 차액 차이 접근법으로 추정하려는 수량은 다음과 같습니다.
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
그 양의 표준 오차는 ( Gerber and Green (2012) , eq.4.4 참조)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
eq. 4.6 및 eq. 4.8은 difference-in-difference 접근법이 더 작은 표준 오차를 가질 것이라는 것을 보여준다 ( Gerber and Green (2012) , 4.6을 참조)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
대략적으로 \(X_i\) 가 \(Y_i(1)\) 와 \(Y_i(0)\) 매우 예측할 때 차이 차이 접근법에서보다 정확한 추정을 얻을 수 있습니다. 하나를 의미합니다. Restivo와 van de Rijt의 실험의 맥락에서 이것을 생각하는 한 가지 방법은 사람이 편집하는 양에 자연적으로 많은 변화가 있기 때문에 치료와 통제 조건을 비교하는 것이 어렵다는 것입니다. 시끄러운 결과 데이터에서 작은 효과. 그러나 자연적으로 발생하는 변동성을 차별화하면 변동성이 훨씬 적어지며 작은 효과를 쉽게 감지 할 수 있습니다.
전처리 및 후 처리가 여러 개인 경우보다 일반적인 설정에서 평균 차, 차 차이 및 ANCOVA 기반 접근법을 정확하게 비교하려면 Frison and Pocock (1992) 을 참조하십시오. 특히 그들은 여기서 다루지 않은 ANCOVA를 강력히 권장합니다. 더 나아가 McKenzie (2012) 는 다중 치료 후 결과 측정의 중요성에 대해 논의하고있다.