2.4.3逼近实验

我们可以接近我们没有或不能做的实验。特别受益于大数据源的两种方法是自然实验和匹配。

一些重要的科学和政策问题是因果关系。例如,职业培训计划对工资的影响是什么?试图回答这个问题的研究人员可能会将报名参加培训的人的收入与未参加培训的人的收入进行比较。但是,这些群体之间的工资差异有多大是因为培训和多少是因为注册的人与不注册的人之间存在差异?这是一个棘手的问题,它不会自动消失更多的数据。换句话说,无论您的数据中有多少工人,都会出现对可能存在的预先存在的差异的担忧。

在许多情况下,估计某些治疗(例如职业培训)的因果效应的最有效方法是进行随机对照实验,其中研究人员将治疗随机地递送给某些人而不是其他人。我将把第4章全部用于实验,所以在这里我将重点介绍两种可用于非实验数据的策略。第一种策略取决于寻找世界上发生的事情,随机(或几乎随机)将治疗分配给某些人,而不是其他人。第二种策略取决于统计调整非实验数据,以试图解释那些接受和未接受治疗的患者之间存在的差异。

怀疑论者可能会声称应该避免这两种策略,因为它们需要强有力的假设,难以评估的假设以及在实践中经常被违反的假设。虽然我对这一主张表示同情,但我认为这有点太过分了。毫无疑问,很难从非实验数据中可靠地进行因果估计,但我认为这并不意味着我们不应该尝试。特别是,如果后勤约束阻止您进行实验或者道德约束意味着您不想进行实验,那么非实验性方法可能会有所帮助。此外,如果您想利用已有的数据来设计随机对照实验,非实验方法可能会有所帮助。

在继续之前,还值得注意的是,进行因果估计是社会研究中最复杂的主题之一,并且可能导致激烈的情感辩论。在下文中,我将提供对每种方法的乐观描述,以便建立对它的直觉,然后我将描述使用该方法时出现的一些挑战。有关每种方法的更多详细信息,请参见本章末尾的资料。如果您计划在自己的研究中使用这些方法中的任何一种,我强烈建议您阅读许多关于因果推理的优秀书籍之一(Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014)

从非实验数据中进行因果估计的一种方法是寻找向某些人而不是其他人随机分配治疗的事件。这些情况称为自然实验 。自然实验最明显的例子之一来自Joshua Angrist (1990)的研究,该研究测量了军事服务对收入的影响。在越南战争期间,美国通过选秀增加了其武装部队的规模。为了决定哪些公民将被服务,美国政府举行了抽奖活动。每个出生日期都写在一张纸上,如图2.7所示,这些纸张一次一个地被选中,以确定年轻男性的服务顺序(年轻女性不是主题)到草案)。根据结果​​,9月14日出生的男性被称为第一名,4月24日出生的男性被称为第二名,依此类推。最终,在这个抽签中,在195天出生的男性被起草,而在171天出生的男性则没有。

图2.7:国会议员Alexander Pirnie(R-NY)于1969年12月1日为选择性服务草案绘制第一个胶囊.Joshua Angrist(1990)将草案抽签与社会保障管理局的收入数据相结合,以估计服兵役的效果关于收益。这是使用自然实验的研究的一个例子。资料来源:美国选择性服务系统(1969年)/维基共享资源。

图2.7:国会议员Alexander Pirnie(R-NY)于1969年12月1日为选择性服务草案绘制第一个胶囊.Joshua Angrist (1990)将草案抽签与社会保障管理局的收入数据相结合,以估计服兵役的效果关于收益。这是使用自然实验的研究的一个例子。资料来源:美国选择性服务系统(1969年)/ 维基共享资源

尽管可能不会立即显现,但草案抽签与随机对照实验具有重要的相似性:在这两种情况下,参与者被随机分配接受治疗。为了研究这种随机治疗的效果,安格里斯特利用了一个永远在线的大数据系统:美国社会保障管理局,它收集几乎所有美国人就业收入的信息。通过将关于抽签中随机选择的人的信息与政府行政记录中收集的收入数据相结合,安格里斯特得出结论,退伍军人的收入比同类非退伍军人的收入低约15%。

正如这个例子所示,有时社会,政治或自然力量以一种可以被研究人员利用的方式分配治疗,有时这些治疗的效果会被永远在线的大数据源捕获。该研究策略可归纳如下: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

为了说明数字时代的这一战略,让我们考虑一下Alexandre Mas和Enrico Moretti (2009)一项研究,该研究试图估计与富有成效的同事合作对工人生产力的影响。在看到结果之前,值得指出的是,您可能会有相互矛盾的期望。一方面,您可能期望与富有成效的同事一起工作会导致工人因同伴压力而提高生产力。或者,另一方面,你可能会认为,勤劳的同龄人可能会导致工人懈怠,因为工作将由她的同伴完成。研究同伴对生产力影响的最明确方法是随机对照实验,将工人随机分配到不同生产力水平的工人轮班,然后测量每个人的生产率。然而,研究人员并不控制任何实际业务中的工人时间表,因此Mas和Moretti不得不依赖于涉及超市收银员的自然实验。

在这个特定的超市中,由于调度的方式以及班次重叠的方式,每个收银员在一天中的不同时间都有不同的同事。此外,在这个特定的超市中,收银员的分配与同龄人的生产力或商店的繁忙程度无关。换句话说,即使收银员的时间安排不是通过抽奖来确定的,也就好像工人有时被随机分配到与高(或低)生产力同行一起工作。幸运的是,这家超市还有一个数字时代的结账系统,可以跟踪每个收银员一直在扫描的物品。通过此结帐日志数据,Mas和Moretti能够创建精确,个性化且始终在线的生产率衡量标准:每秒扫描的项目数。结合这两件事 - 同伴生产力的自然发生变化和生产力的持续衡量标准 - Mas和Moretti估计,如果收银员被分配的同事生产率比平均水平高10%,那么她的生产率将提高1.5% 。此外,他们利用数据的大小和丰富程度来探讨两个重要问题:这种影响的异质性 (对哪类工人影响更大?)以及影响背后的机制 (为什么高效率的同行会导致更高的生产力?)。当我们更详细地讨论实验时,我们将在第4章回到这两个重要问题 - 治疗效果和机制的异质性。

从这两项研究中推广,表2.3总结了具有相同结构的其他研究:使用永远在线的数据源来测量某些随机变化的影响。在实践中,研究人员使用两种不同的策略来寻找自然实验,这两种策略都可以取得丰硕成果。一些研究人员从一个永远在线的数据源开始,并寻找世界上的随机事件;其他人在世界上开始一个随机事件,并寻找能够捕捉其影响的数据源。

表2.3:使用大数据源的自然实验示例
实质性的重点 自然实验的来源 永远在线的数据源 参考
同行对生产力的影响 调度过程 结帐数据 Mas and Moretti (2009)
友谊的形成 飓风 Facebook的 Phan and Airoldi (2015)
情绪的传播 Facebook的 Lorenzo Coviello et al. (2014)
点对点经济转移 地震 移动货币数据 Blumenstock, Fafchamps, and Eagle (2011)
个人消费行为 2013年美国政府关闭 个人理财数据 Baker and Yannelis (2015)
推荐系统的经济影响 各个 在亚马逊浏览数据 Sharma, Hofman, and Watts (2015)
压力对未出生婴儿的影响 2006年以色列 - 真主党的战争 出生记录 Torche and Shwed (2015)
在维基百科上阅读行为 斯诺登的启示 维基百科日志 Penney (2016)
同伴对运动的影响 天气 健身追踪器 Aral and Nicolaides (2017)

在迄今为止关于自然实验的讨论中,我遗漏了一个重要的观点:从大自然提供的东西到你想要的东西有时候会非常棘手。让我们回到越南草案的例子。在这种情况下,安格里斯特有兴趣估计兵役对收入的影响。不幸的是,兵役并非随机分配;而是正在起草的是随机分配的。然而,并非所有被起草的人都服务过(有各种各样的豁免),而且并非所有服务的人都被起草(人们可以自愿服务)。由于被起草是随机分配的,研究人员可以估计草案中所有男性的起草效果。但安格里斯特不想知道起草的效果;他想知道在军队服役的效果。然而,为了进行这种估计,需要额外的假设和复杂性。首先,研究人员需要假设起草影响收益的唯一方式是通过军事服务,这种假设称为排除限制 。例如,如果被起草的男性为了避免在职或者雇主不太可能雇用被起草的男性,那么这种假设可能是错误的。一般而言,排除限制是一个关键假设,通常很难验证。即使排除限制是正确的,仍然无法估计服务对所有男性的影响。相反,事实证明,研究人员只能估计对特定人群的影响,这些人称为编纂者(在起草时服务但在未起草时不起作用的人) (Angrist, Imbens, and Rubin 1996) 。然而,编制者并不是最初感兴趣的人群。请注意,即使在抽签的相对清洁的情况下也会出现这些问题。当物理抽选没有指定治疗时,会出现另一组并发症。例如,在Mas和Moretti对收银员的研究中,出现了关于同伴分配基本上是随机的假设的其他问题。如果强烈违反这一假设,可能会使他们的估计偏差。总之,自然实验可以成为从非实验数据中进行因果估计的有力策略,而大数据源可以提高我们在自然实验发生时利用自然实验的能力。然而,它可能需要非常小心 - 有时候是强有力的假设 - 从大自然提供给你想要的估计。

我想告诉你的第二个策略是从非实验数据中做出因果估计取决于统计调整非实验数据,试图解释那些接受治疗和未接受治疗的患者之间存在的差异。有很多这样的调整方法,但我会专注于一个称为匹配的方法 。在匹配中,研究人员查看非实验数据以创建相似的人,除了一个人已经接受治疗而一个人没有接受治疗。在匹配过程中,研究人员实际上也在修剪 ;也就是说,丢弃没有明显匹配的情况。因此,这种方法更准确地称为匹配和修剪,但我会坚持使用传统术语:匹配。

Liran Einav及其同事(2015)对消费者行为的研究得出了与大规模非实验数据源匹配策略的力量的一个例子。他们对在eBay上进行的拍卖感兴趣,并且在描述他们的工作时,我将关注拍卖起始价格对拍卖结果的影响,例如销售价格或销售概率。

估算起始价格对销售价格影响的最天真的方法是简单地计算具有不同起始价格的拍卖的最终价格。如果您想根据起始价格预测销售价格,这种方法会很好。但如果你的问题涉及起始价格的影响,那么这种方法将不起作用,因为它不是基于公平的比较;起始价格较低的拍卖可能与起始价格较高的拍卖完全不同(例如,它们可能针对不同类型的商品或包括不同类型的卖家)。

如果您已经意识到从非实验数据进行因果估计时可能出现的问题,您可以跳过天真的方法并考虑进行现场实验,在那里您可以出售特定项目 - 比如高尔夫俱乐部 - 具有固定的一套拍卖参数 - 比方说,免费送货和拍卖开放两周 - 但随机分配起始价格。通过比较由此产生的市场结果,该现场实验将非常清楚地衡量起始价格对销售价格的影响。但是这种测量仅适用于一种特定产品和一组拍卖参数。结果可能不同,例如,对于不同类型的产品。如果没有强有力的理论,很难从这个单一的实验推断出可能已经进行过的各种可能的实验。此外,现场实验足够昂贵,因此运行您可能想要尝试的每个变体是不可行的。

与天真和实验方法相比,Einav及其同事采用了第三种方法:匹配。他们策略的主要技巧是发现类似于已在eBay上发生的现场实验的事情。例如,图2.8显示了完全相同的高尔夫俱乐部的31个列表中的一些 - 由完全相同的卖家 - “budgetgolfer”出售的Taylormade Burner 09 Driver。然而,这31个列表具有略微不同的特征,例如不同的起始价格,结束日期和运费。换句话说,就像“预算工作”正在为研究人员进行实验。

这些由“budgetgolfer”出售的Taylormade Burner 09 Driver的列表是匹配的一组列表中的一个示例,其中完全相同的物品由完全相同的卖家出售,但每次具有略微不同的特征。在eBay的大量日志中,实际上有成千上万的匹配集涉及数百万个列表。因此,Einav及其同事在匹配的集合中进行了比较,而不是将所有拍卖的最终价格与给定的起始价格进行比较。为了结合这些成千上万套匹配的比较结果,Einav及其同事根据每个项目的参考价值(例如,其平均销售价格)重新表达起始价格和最终价格。例如,如果Taylormade Burner 09 Driver的参考价值为100美元(基于其销售额),则10美元的起始价格将表示为0.1,最终价格为120美元表示为1.2。

图2.8:匹配集的示例。这是完全相同的高尔夫俱乐部(Taylormade Burner 09 Driver)由完全相同的人(budgetgolfer)出售,但这些销售中的一些是在不同条件下(例如,不同的起始价格)进行的。经Einav等人许可转载。 (2015年),图1b。

图2.8:匹配集的示例。这是完全相同的高尔夫俱乐部(Taylormade Burner 09 Driver)由完全相同的人(“budgetgolfer”)出售,但这些销售中的一些是在不同条件下(例如,不同的起始价格)进行的。经Einav et al. (2015)许可Einav et al. (2015) ,图1b。

回想一下,Einav及其同事对起始价格对拍卖结果的影响感兴趣。首先,他们使用线性回归估计较高的起始价格降低了销售的可能性,并且较高的起始价格增加了最终销售价格(以销售发生为条件)。这些估计 - 它们描述了一种线性关系并且在所有产品上的平均值 - 本身并不是那么有趣。然后,Einav及其同事利用他们庞大的数据来创建各种更微妙的估计。例如,通过分别估算各种不同起始价格的影响,他们发现起始价格和销售价格之间的关系是非线性的(图2.9)。特别是,对于0.05到0.85之间的起始价格,起始价格对销售价格的影响非常小,这一发现完全被他们的第一次分析所忽略。此外,Einav及其同事估计了23种不同类别物品(如宠物用品,电子产品和体育纪念品)的起价影响,而不是对所有物品进行平均(图2.10)。这些估计表明,对于更具特色的项目 - 例如纪念品 - 起始价格对销售概率的影响较小,对最终销售价格的影响较大。此外,对于更多商品化的商品 - 例如DVD - 起始价格对最终价格几乎没有影响。换句话说,结合来自23个不同类别项目的结果的平均值隐藏了这些项目之间的重要差异。

图2.9:拍卖起始价格与销售概率(a)和销售价格(b)之间的关系。起始价格与销售概率之间存在大致线性关系,但起始价格与销售价格之间存在非线性关系;对于0.05到0.85之间的起始价格,起始价格对销售价格的影响很小。在这两种情况下,关系基本上与项目值无关。改编自Einav等人。 (2015年),图4a和4b。

图2.9:拍卖起始价格与销售概率(a)和销售价格(b)之间的关系。起始价格与销售概率之间存在大致线性关系,但起始价格与销售价格之间存在非线性关系;对于0.05到0.85之间的起始价格,起始价格对销售价格的影响很小。在这两种情况下,关系基本上与项目值无关。改编自Einav et al. (2015) ,图4a和4b。

图2.10:每类物品的估计数;实心点是汇集在一起​​的所有类别的估计值(Einav等人,2015)。这些估计表明,对于更具特色的项目 - 例如纪念品 - 起始价格对销售概率(x轴)的影响较小,对最终销售价格(y轴)的影响较大。改编自Einav等人。 (2015年),图8。

图2.10:每类物品的估计数;实心点是汇集在一起​​的所有类别的估计值(Einav et al. 2015) 。这些估计表明,对于更具特色的项目 - 例如纪念品 - 起始价格对销售概率( \(x\) axis)的影响较小,对最终销售价格的影响较大( \(y\) -轴)。改编自Einav et al. (2015) ,图8。

即使你对eBay上的拍卖不是特别感兴趣,你也不得不佩服图2.9和图2.10提供对eBay更丰富理解的方式,而不是描述线性关系并结合许多不同类别项目的简单估计。此外,尽管通过现场实验在科学上可能产生这些更微妙的估计,但成本将使这些实验基本上不可能。

与自然实验一样,匹配可能会导致错误估计。我认为匹配估计的最大问题是它们可能会被匹配中未使用的东西所偏向。例如,在他们的主要结果中,Einav及其同事对四个特征进行了精确匹配:卖家ID号,项目类别,项目标题和副标题。如果项目在不用于匹配的方式上有所不同,那么这可能会造成不公平的比较。例如,如果“budgetgolfer”在冬季降低了Taylormade Burner 09 Driver的价格(当时高尔夫球杆不太受欢迎),那么起始价格较低会导致最终价格降低,而事实上这将是一件神器。需求的季节性变化。解决这个问题的一种方法是尝试许多不同类型的匹配。例如,Einav及其同事重复他们的分析,同时改变用于匹配的时间窗口(匹配的集合包括一年内,一个月内和同期销售的项目)。幸运的是,他们发现了所有时间窗口的类似结果。匹配的另一个问题来自解释。匹配估算仅适用于匹配数据;它们不适用于无法匹配的案例。例如,通过将他们的研究限制在具有多个列表的项目上,Einav及其同事专注于专业和半专业卖家。因此,在解释这些比较时,我们必须记住它们只适用于eBay的这个子集。

匹配是在非实验数据中找到公平比较的有力策略。对于许多社会科学家来说,匹配对于实验来说是第二好的,但这是一个可以稍微修改的信念。当(1)影响的异质性很重要和(2)测量匹配所需的重要变量时,大量数据中的匹配可能比少数现场实验更好。表2.4提供了如何将匹配与大数据源一起使用的一些其他示例。

表2.4:使用与大数据源匹配的研究示例
实质性的重点 大数据源 参考
枪击对警察暴力的影响 停止和frisk记录 Legewie (2016)
2001年9月11日对家庭和邻居的影响 投票记录和捐赠记录 Hersh (2013)
社会传染 沟通和产品采用数据 Aral, Muchnik, and Sundararajan (2009)

总之,估计非实验数据的因果效应是困难的,但可以使用诸如自然实验和统计调整(例如匹配)的方法。在某些情况下,这些方法可能会出现严重错误,但在仔细部署时,这些方法可以作为我在第4章中描述的实验方法的有用补充。此外,这两种方法似乎特别有可能从总是 - 在,大数据系统。