数学笔记

我认为理解实验的最佳方式是潜在的结果框架(我在第2章的数学注释中讨论过)。潜在的成果框架与我在第3章(Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6)描述的基于设计的抽样的想法密切相关。本附录的编写方式是为了强调这种联系。这种强调有点不传统,但我认为抽样和实验之间的联系是有帮助的:这意味着如果你对抽样有所了解,那么你就会对实验有所了解,反之亦然。正如我将在这些说明中所示,潜在的结果框架揭示了用于估计因果效应的随机对照实验的强度,并且它显示了即使完美执行的实验可以做什么的局限性。

在本附录中,我将描述潜在的结果框架,重复第2章中数学注释中的一些材料,以使这些注释更加独立。然后,我将描述关于平均治疗效果估计精度的一些有用结果,包括讨论最佳分配和差异差异估计。本附录主要依据Gerber and Green (2012)

潜在的成果框架

为了说明潜在的结果框架,让我们回到Restivo和van de Rijt的实验来估计接收barnstar对维基百科未来贡献的影响。潜在的结果框架有三个主要因素: 单位治疗潜在结果 。在Restivo和van de Rijt的案例中,这些单位值得编辑 - 那些排名前1%的贡献者 - 他们还没有收到过barnstar。我们可以通过\(i = 1 \ldots N\)索引这些编辑器。在他们的实验中的治疗是“barnstar”或“没有barnstar”,如果人\(i\)处于治疗状态并且\(W_i = 0\) ,我将写\(W_i = 1\) 。潜在成果框架的第三个要素是最重要的: 潜在成果 。这些在概念上有点困难,因为它们涉及“潜在的”结果 - 可能发生的事情。对于每个维基百科编辑器,可以想象她将在治疗条件下进行的编辑次数( \(Y_i(1)\) )以及她在控制条件下所做的编号( \(Y_i(0)\) )。

请注意,这种单位,治疗和结果的选择定义了从该实验中可以学到的东西。例如,在没有任何其他假设的情况下,Restivo和van de Rijt无法对所有维基百科编辑的barnstars效果或编辑质量等结果发表任何看法。一般而言,单位,治疗和结果的选择必须基于研究的目标。

鉴于这些潜在的结果 - 表4.5中总结了 - 人们可以定义治疗对人\(i\)的因果效应

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

对我来说,这个等式是定义因果效应的最明确的方法,虽然非常简单,但这个框架在很多重要和有趣的方面都可以推广(Imbens and Rubin 2015)

表4.5:潜在结果表
编辑治疗条件 在控制条件下编辑 治疗效果
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
ñ \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
意思 \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

但是,如果我们以这种方式定义因果关系,我们就会遇到问题。几乎在所有情况下,我们都没有观察到两种可能的结果。也就是说,一个特定的维基百科编辑或者收到了一个barnstar。因此,我们观察到一个潜在的结果 - \(Y_i(1)\)\(Y_i(0)\) - 但不是两者。无法观察到这两种潜在的结果是Holland (1986)称之为因果推理基本问题的一个主要问题。

幸运的是,当我们进行研究时,我们不只有一个人,我们有很多人,这提供了解决因果推理的基本问题的方法。我们可以估算平均治疗效果,而不是试图估计个体水平的治疗效果:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

这仍然用\(\tau_i\) ,这是不可观察的,但有一些代数( Gerber and Green (2012)等式2.8 Gerber and Green (2012) )我们得到

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

公式4.3显示,如果我们可以估计处理下的人口平均结果( \(N^{-1} \sum_{i=1}^N Y_i(1)\) )和人口平均结果得到控制( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ),然后我们可以估计平均治疗效果,即使没有估计任何特定人的治疗效果。

现在我已经定义了我们的估计 - 我们试图估计的事情 - 我将转向我们如何用数据实际估计它。我喜欢将这种估计挑战视为抽样问题(回想第3章中的数学注释)。想象一下,我们随机挑选一些人在治疗条件下观察,我们随机挑选一些人在控制条件下观察,然后我们可以估计每种情况下的平均结果:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

其中\(N_t\)\(N_c\)是治疗和控制条件下的人数。公式4.4是均值差估计。由于抽样设计,我们知道第一项是针对平均治疗结果的无偏估计,第二项是无偏估计可控制。

考虑随机化能够实现的另一种方法是确保治疗组和对照组之间的比较是公平的,因为随机化确保了两组之间的相似性。这种相似性适用于我们测量的事物(比如实验前30天的编辑次数)以及我们未测量的事物(比如说性别)。这种确保观察到的未观察到的因素平衡的能力是至关重要的。为了看到自动平衡对未观察到的因素的影响,让我们假设未来的研究发现男性对奖励的反应比女性更高。这会使Restivo和van de Rijt的实验结果无效吗?不是。通过随机化,他们确保所有不可观察的东西在期望中得到平衡。这种对未知的保护是非常强大的,并且它是实验与第2章中描述的非实验技术不同的重要方式。

除了定义整个人群的治疗效果之外,还可以为一部分人定义治疗效果。这通常称为条件平均治疗效果 (CATE)。例如,在Restivo和van de Rijt的研究中,让我们想象\(X_i\)是编辑在实验前90天内是否高于或低于编辑中位数。人们可以分别为这些轻型和重型编辑计算治疗效果。

潜在的结果框架是思考因果推理和实验的有力方式。但是,您应该记住两个额外的复杂性。这两种复杂性通常在术语“ 稳定单位处理值假设” (SUTVA)下汇总在一起。 SUTVA的第一部分是假设对于人\(i\)的结果唯一重要的是该人是否处于治疗或控制状态。换句话说,假设人\(i\)不受给予他人的待遇的影响。这有时被称为“无干扰”或“无溢出”,可以写成:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

其中\(\mathbf{W_{-i}}\)是除人\(i\)以外的所有人的治疗状态向量。可以违反这一点的一种方式是,如果来自一个人的治疗溢出到另一个人身上,无论是积极的还是消极的。回到Restivo和van de Rijt的实验,想象两个朋友\(i\)\(j\)和那个人\(i\)收到一个barnstar而\(j\)没有。如果\(i\)接收到barnstar导致\(j\)编辑更多(出于竞争意识)或编辑更少(出于绝望感),则SUTVA被违反。如果治疗的影响取决于接受治疗的其他人的总数,也可能违反。例如,如果Restivo和van de Rijt已经发出1000或10,000个barnstars而不是100个,这可能会影响接收barnstar的效果。

第二个问题归结为SUTVA,假设唯一相关的处理是研究人员提供的处理;这种假设有时被称为没有隐藏的治疗排他性 。例如,在Restivo和van de Rijt,可能是这样的情况:通过给出一个barnstar,研究人员让编辑器出现在一个受欢迎的编辑页面上,而且它正在流行的编辑页面上 - 而不是收到一个barnstar-这导致了编辑行为的变化。如果这是真的,那么barnstar的效果与在流行的编辑器页面上的效果无法区分。当然,从科学的角度来看,目前尚不清楚这应该被认为是有吸引力的还是没有吸引力的。也就是说,你可以想象一位研究人员说接收barnstar的效果包括barnstar触发的所有后续治疗。或者你可以想象一种研究想要将barnstars的影响与其他所有东西隔离开来的情况。考虑它的一种方法是询问是否有任何导致Gerber and Green (2012) (第41页)称之为“对称性崩溃”的东西?换句话说,除了治疗之外还有什么可以使治疗和控制条件的人得到不同的治疗吗?关于对称性破坏的担忧是导致对照组患者在医学试验中服用安慰剂药丸的原因。这样,研究人员可以确定这两种情况之间的唯一区别是实际药物而不是服用避孕药的经验。

有关SUTVA的更多信息,请参阅Gerber and Green (2012)第2.7节, Morgan and Winship (2014)第2.5节Morgan and Winship (2014) ,以及Imbens and Rubin (2015)第1.6节Imbens and Rubin (2015)

精确

在上一节中,我已经描述了如何估计平均治疗效果。在本节中,我将提供一些关于这些估计的可变性的想法。

如果您考虑将平均治疗效果估计为估计两个样本均值之间的差异,则可以显示平均治疗效果的标准误差为:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

其中\(m\)人员分配到治疗和\(Nm\)控制(见Gerber and Green (2012) ,方程3.4)。因此,当考虑分配给治疗的人数和分配给控制的人数时,你可以看到如果\(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) ,那么你想要\(m \approx N / 2\) ,只要治疗和控制的成本是相同的。公式4.6阐明了邦德及其同事(2012)关于社会信息对投票影响的实验(图4.18)的设计在统计上效率低下的原因。回想一下,它有98%的参与者处于治疗状态。这意味着控制条件下的平均行为没有像它本来那样准确地估计,这反过来意味着治疗和控制条件之间的估计差异没有尽可能准确地估计。有关参与者对条件的最佳分配的更多信息,包括条件之间的成本不同,请参阅List, Sadoff, and Wagner (2011)

最后,在正文中,我描述了通常在混合设计中使用的差异差异估计器如何导致比差异估计器更小的方差,差异估计器通常用于主体间设计。如果\(X_i\)是治疗前结果的值,那么我们试图用差异差异法估计的数量是:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

该数量的标准误差是(参见Gerber and Green (2012) ,方程4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

方程式的比较4.6和eq。 4.8显示差异差异方法在标准误差较小时(参见Gerber and Green (2012) ,方程4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

粗略地说,当\(X_i\)非常预测\(Y_i(1)\)\(Y_i(0)\) ,你可以从差异方法得到更精确的估计而不是差异 - - 一个。在Restivo和van de Rijt的实验中考虑这一点的一种方法是,人们编辑的数量存在很多自然变化,因此这使得比较治疗和控制条件变得困难:很难检测到亲属嘈杂的结果数据影响很小。但是如果你区分出这种自然发生的变异性,那么可变性就会大大减少,这样就可以更容易地发现一个小的影响。

参见Frison and Pocock (1992)对于在治疗前和治疗后有多种测量的更一般的环境中,对手段差异,差异差异和基于ANCOVA的方法进行精确比较。特别是,他们强烈推荐ANCOVA,我在这里没有介绍过。此外,请参阅McKenzie (2012) ,讨论多种治疗后结果指标的重要性。