数学ノート

私は、実験を理解する最善の方法は、 潜在的成果の枠組み(第2章の数学の註で論じた)です。潜在的成果の枠組みは、第3章(Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6)第6章)で説明した設計に基づくサンプリングのアイデアと密接な関係がある。この付録は、その接続を強調するような方法で書かれています。この強調は少し伝統的ではありませんが、サンプリングと実験の関係は有用であると考えています。つまり、サンプリングについて何か知っていれば、実験についてのことを知っています。これらの注記で示しているように、潜在的成果フレームワークは、因果関係を推定する無作為化制御実験の強さを明らかにし、完璧に実行された実験でもできることの限界を示します。

この付録では、潜在的な結果の枠組みを説明し、第2章の数学的な注釈から材料の一部を複製して、これらの注釈をより自己完結させる。次に、最適配分と差異の見積もりについての議論を含む、平均的な治療効果の見積もりの​​精度に関する有用な結果について説明します。この付録は、 Gerber and Green (2012)大きくGerber and Green (2012)ます。

潜在的成果のフレームワーク

潜在的成果の枠組みを説明するために、Restivoとvan de Rijtの実験に戻って、ウィキペディアへの将来の寄付にバーンスターを受け取る効果を見積もりましょう。潜在的アウトカムの枠組みには、3つの主な要素があります: 単位治療法潜在的アウトカム 。 Restivoとvan de Rijtの場合、 ユニットは編集者に値するものでした。編集者は貢献者の上位1%のメンバーで、まだ納屋を受け取っていない人でした。これらのエディタは\(i = 1 \ldots N\)索引付けできます。彼らの実験での治療は 「ノーバーンスター」「バーンスター」かだったと私は書きます\(W_i = 1\)人の場合\(i\)処理条件であると\(W_i = 0\)そう。潜在的アウトカムの枠組みの3つ目の要素が最も重要です潜在的アウトカムです。これらは、潜在的な結果(起こり得る事柄)が含まれているため、概念的に少し難しいです。 Wikipediaの各エディタでは、治療条件( \(Y_i(1)\)での編集回数と制御条件での数値( \(Y_i(0)\)を想像することができます。 )。

この単位、治療法、および結果のこの選択は、この実験から学ぶことができることを定義することに注意してください。たとえば、追加の前提がなくても、Restivoとvan de Rijtは、すべてのWikipedia編集者や編集品質などの結果にバーンスターの影響について何も言えません。一般に、単位、治療法、および結果の選択は、研究の目標に基づいていなければならない。

表4.5に要約されているこれらの潜在的な結果が与えられれば、人\(i\)に対する治療の因果的効果を

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

私にとっては、この方程式は因果関係を定義する最も明確な方法であり、非常に単純ではあるが、多くの重要かつ興味深い方法(Imbens and Rubin 2015)一般化できることが(Imbens and Rubin 2015)

表4.5:潜在的成果の表
治療条件の編集 制御条件の編集 治療効果
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
平均 \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

しかし、このように因果関係を定義すると、問題が発生します。ほとんどの場合、両方の可能性のある結果を観察することはできません。すなわち、特定のウィキペディアの編集者が納屋を受け取ったか否かを示しています。したがって、 \(Y_i(1)\)または\(Y_i(0)\)の可能性のある結果のいずれかを観察します。両方の潜在的成果を観察することができないことは、 Holland (1986) が「因果推論の根源的問題」と呼ぶ大きな問題である。

幸いにも、私たちが研究をしているときには、ただひとりの人しかいないだけでなく、多くの人がいます。これは、因果関係の根本的な問題を回避する方法を提供します。個々のレベルの治療効果を推定しようとするのではなく、平均治療効果を推定することができます。

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

これは観測できない\(\tau_i\)で表現されていますが、 Gerber and Green (2012) 2つの代数(Eq 2.8)

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

式我々は治療下母集団平均結果(推定できる場合、その4.3示す\(N^{-1} \sum_{i=1}^N Y_i(1)\)および制御下集団平均結果( \(N^{-1} \sum_{i=1}^N Y_i(1)\)我々はさらに、任意の特定の個人のための治療効果を推定することなく、平均的な治療効果を推定することができます。

私が推定しようとしている推定値を定義したので、実際にデータで推定する方法を見てみましょう。私はサンプリングの問題としてこの推定課題を考えることが好きです(第3章の数学のメモに戻って考えてください)。私たちが治療条件で観察する人をランダムに選んで、制御条件で観察する人をランダムに選ぶと、各条件での平均結果を見積もることができます。

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

ここで、 \(N_c\) \(N_t\)\(N_c\)は治療と管理の条件の人の数です。式4.4は平均の差の推定値です。サンプリング設計のために、第1項は治療中の平均転帰の不偏推定量であり、第2項は制御下の不偏推定量であることがわかる。

無作為化が可能なことを考えるもう一つの方法は、無作為化が2つのグループが互いに似ていることを確実にするので、治療グループと対照グループの比較が公正であることを保証することです。この類似点は、測定したもの(実験前の30日の編集回数)と測定していないもの(性別など)に適用されます。 観察された要因と観察 され ない要因の両方でバランスをとるこの能力は重要です。観察されていない要因に対する自動バランシングの力を見るために、将来の研究では男性が女性よりも賞に敏感であることがわかるとしましょう。 Restivoとvan de Rijtの実験の結果を無効にするか?いいえ。無作為化することで、観察できないものはすべて期待通りにバランスがとれることが保証されました。未知のものに対するこの保護は非常に強力であり、実験は第2章で説明された非実験的手法とは異なる重要な方法です。

集団全体の治療効果を定義することに加えて、人々のサブセットの治療効果を定義することも可能です。これは、通常、 条件付き平均治療効果 (CATE)と呼ばれます。たとえば、Restivoとvan de Rijtの研究では、 \(X_i\)は、エディタが実験前の90日間に編集の中央値を上回ったか下回ったかを想像してみましょう。これらの軽いエディターと重いエディターで別々に治療効果を計算することができます。

潜在的成果の枠組みは、因果推論と実験について考える強力な方法です。しかし、あなたが念頭に置くべき2つの追加の複雑さがあります。これらの2つの複雑さは、しばしば安定した単位治療価値仮定 (SUTVA)という用語のもとでまとめられている。 SUTVAの最初の部分は、人\(i\)の結果にとって重要なのは、その人が治療状態であるか制御状態にあるかだけであるという仮定です。換言すれば、人のことを想定している\(i\)他の人に与えられた処理によって影響を受けません。これは「干渉なし」または「スピルオーバーなし」と呼ばれることもあり、以下のように書くことができます。

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

ここで、 \(\mathbf{W_{-i}}\)は人\(i\)以外のすべての人の治療状況のベクトルです。これが侵害される1つの方法は、ある人からの治療が、正または負のいずれかで他の人に流出する場合です。 Restivoとvan de Rijtの実験に戻って、2人の友人\(i\)\(j\)を想像し、その人は\(i\) barnstarを受け取り、 \(j\)は受けません。 \(i\)がバーンスターを受け取った場合、 \(j\)が(競争意識から)より多く編集したり、少ない編集(絶望感から)した場合、SUTVAは違反されています。治療の影響が治療を受けている他の人の総数に依存する場合は、違反することもあります。例えば、Restivoとvan de Rijtが100の代わりに1,000または10,000のバーンスタールを出していた場合、これは納屋の受け取りの影響を受けた可能性があります。

2番目の問題はSUTVAに集中しているのは、唯一の関連する治療は研究者が提供する治療であるという前提です。この仮定は、時に隠された治療法または排除性とも呼ばれない 。例えば、Restivoとvan de Rijtの場合、バーンスター(barnstar)を与えることで、編集者は編集者の人気ページに掲載され、人気のある編集者のページに掲載されるようになりました。編集動作の変更を引き起こしました。これが当てはまる場合、人気の高い編集者ページに掲載されていることとは区別されません。もちろん、科学的見地から、これが魅力的か魅力的でないかは明らかではありません。つまり、研究者は、納屋の受け取りによる影響には、納屋が誘発するその後のすべての処理が含まれているということを想像することができます。あるいは、研究がバーンスタールの効果を他のすべてのものから切り離したいという状況を想像することもできます。それについて考える方法の1つは、 Gerber and Green (2012) (41ページ)が「対称性の崩壊」と呼ぶものがあるかどうかを尋ねることです。言い換えれば、治療と管理の条件にある人々を別々に扱うようにする治療以外に何かがありますか?対称性の破壊に関する懸念は、治験の対照群の患者がプラセボ錠剤を服用する原因となっている。そうすれば、研究者は2つの条件の唯一の違いは実際の薬であり、錠剤を服用した経験ではないことを確信することができます。

SUTVAの詳細については、 Gerber and Green (2012)セクション2.7、 Morgan and Winship (2014)セクション2.5、 Imbens and Rubin (2015)セクション1.6 Imbens and Rubin (2015)

精度

前のセクションでは、平均治療効果を推定する方法を説明しました。このセクションでは、これらの見積もりの​​変動性に関するいくつかのアイデアを提供します。

2つの標本平均の差を見積もる平均治療効果を見積もることを考えると、平均治療効果の標準誤差は次のようになることが示されます。

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

治療に割り当てられた人は\(m\) 、制御するには\(Nm\)Gerber and Green (2012) 、式3.4参照)。したがって、治療に割り当てられる人の数と制御する人の数を考えると、 \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) 、治療とコントロールのコストが同じであれば、 \(m \approx N / 2\)が必要です。式4.6は、社会的情報が投票に与える影響に関するボンドと同僚の(2012)実験の設計が統計的に非効率的であった理由を明確にしている。治療条件に参加者の98%がいたことを思い出してください。これは、対照条件における平均挙動が正確に推定できなかったことを意味し、これは治療条件と対照条件との間の推定差異を正確に推定できなかったことを意味する。条件ごとにコストが異なるなど、条件への参加者の最適な割り当てについては、 List, Sadoff, and Wagner (2011)参照してください。

最後に、本稿では、典型的には混合設計で使用される差異差推定が、被験者間で一般的に使用される差異推定手段よりも分散が小さくなることを説明しました設計。 \(X_i\)が治療前の結果の値であれば、差異差アプローチで推定しようとしている量は次のようになります。

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

その量の標準誤差は( Gerber and Green (2012) 、式4.4参照)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

eq。 4.6およびeq。 4.8では、差異差アプローチがより小さい標準誤差を有することが明らかにされている( Gerber and Green (2012) 、式4.6参照)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

大まかに、 \(X_i\)\(Y_i(1)\)\(Y_i(0)\)非常に予測している場合、差の差のアプローチからより正確な推定を得ることができます。意味の一つです。 Restivoとvan de Rijtの実験の文脈でこれについて考える方法の1つは、人が編集する量に自然な変化がたくさんあるため、治療と制御の条件を比較することが難しくなります。相対的なものを検出するのは難しい騒々しい結果データの小さな効果。しかし、この自然発生のばらつきを差し引くと、ばらつきははるかに少なくなり、小さな効果を簡単に検出することができます。

前処理と後処理の複数の測定があるより一般的な設定では、平均差、差異差、およびANCOVAベースのアプローチの正確な比較については、 Frison and Pocock (1992)を参照してください。特に、彼らはANCOVAを強く推奨していますが、ここでは取り上げていません。さらに、複数の治療後アウトカム指標の重要性については、 McKenzie (2012)を参照してください。