2.4.3.1自然实验

自然实验参加世界随机事件的优势。随机事件+永远在线的数据系统=自然实验

随机对照实验,让公平的比较,最关键的是随机化。然而,偶尔有事基本上随机或接近的人分配到随机不同处理世界。对使用自然实验的策略,最明显的例子来自于研究Angrist (1990)测量的军种对收入的影响。

在越南战争中,美国通过草案增加了军队的规模。为了决定哪些公民将被称为服役,美国政府召开了彩票。每一个生日派代表参加了一张纸,而这些论​​文被放置在一个大玻璃瓶。如图2-5所示,纸张这些单是在同一时间从罐子1得出确定的顺序年轻人将被称为服务(年轻妇女不受草案)。根据调查结果,出生于9月14日男子被先叫,出生于4月24日男子被称为第二,依此类推。最终,这张彩票,出生于195天不同的人被召集到服务,而出生171天的男子不叫。

图2.5:国会议员亚历山大Pirnie(R-NY)绘制兵役草案第一胶囊12月1日,1969年约书亚安格里斯特(1990),再结合出自于社会保障局财报数据的选秀抽签估计兵役的效果盈利。这是使用一个自然实验研究的一个例子。资料来源:维基共享资源

图2.5:国会议员亚历山大Pirnie(R-NY)绘制兵役草案第一胶囊12月1日,1969年约书亚安格里斯特(1990)再结合出自于社会保障局财报数据的选秀抽签估计兵役的效果盈利。这是使用一个自然实验研究的一个例子。资料来源: 维基共享资源

尽管它可能不会立即显现,一个选秀抽签有着至关重要的相似性的随机对照实验:在这两种情况下参与者随机分配接受治疗。在选秀抽签的情况下,如果我们有兴趣了解选秀资格,并在随后的劳动力市场收益兵役的影响,我们可以为人们的生日是彩票截止以下(比较结果如9月14日四月24,等)的成果为人们的生日都是截止后(例如,2月20日,12月2日,等)。

鉴于这种治疗正在起草已随机分配,我们就可以测量这种治疗对于已测得的任何结果的影响。例如, Angrist (1990)合并关于谁是随机的草案,这是由社会保障局收集的财报数据得出结论说白了退伍军人的收入均低于可比非退伍军人的收入减少约15%选择的信息。其他研究人员已经使用了类似的伎俩也。比如, Conley and Heerwig (2011)合并是谁在与2000年人口普查和2005年美国社区调查收集家庭数据的草案是随机选择的信息,发现该草案经过这么长的,有小的长期效应在不同的结果,如住房使用权(拥有与租赁)和居住稳定性(在过去五年已经移动的可能性)的兵役。

这个例子说明,有时社会,政治或自然力量创造实验或可被研究人员加以利用近实验。通常,自然实验是估算的设置原因和因果关系的最佳途径它不是道德或实际运行的随机对照实验。他们是在非实验数据发现比较公平的重要战略。这种研究策略可以由这个公式来概括:

\ [\ {文字随机的(或者,如果随机)事件} + \ {文字永远在线的数据流} = \ {文字自然实验} \ qquad(2.1)\]

然而,自然实验分析可以说是相当棘手。例如,在越南草案的情况下,不是每个人都谁是选秀资格的最终服务(有多种豁免)。而且,在同一时间,有些人谁没有选秀资格自愿服役。这是因为如果在一个新药的临床试验,有些人在治疗组没有采取他们的药和一些对照组的人莫名其妙地接受药物。这个问题,称为双面违规,以及许多其它问题中更详细地一些建议的读数在本章的结束说明。

采取自然发生的随机分配优势的战略先于数字化时代,但大数据的盛行使得这种策略更易于使用。一旦你意识到一些待遇已经被随机分配的,大数据源可以提供你以比较的结果人们在治疗和控制情况需要的结果数据。例如,在他的草案,并兵役的影响研究,安格里斯特利用从社会安全局的盈利记录;没有这一结果的数据,他的研究将是不可能。在这种情况下,社会安全局是永远在线的大数据源。随着越来越多的自动收集的数据源的存在,我们将有一个可以测量外源性变化产生的变化的影响的更多结果的数据。

为了说明在数字时代这种策略,让我们考虑马斯和莫雷蒂的(2009)上的对等对生产力的影响研究优雅。虽然表面上看起来可能安格里斯特的关于越南草案的影响的研究不同,在结构上它们都遵循EQ模式。 2.1。

马斯和莫雷蒂测量同行如何影响员工的工作效率。在一方面,拥有一个辛勤工作的同行可能会导致工人增加,因为来自同伴的压力他们的生产力。或者,在另一方面,一个辛勤工作的同行可能会导致其他工人更懈怠。研究对生产力同伴效应最明显的方法是随机对照试验,其中工人被随机分配到轮班不同生产力水平的工人,然后导致生产力为大家测量。但是,研究人员无法控制工人的时间表中的任何实际业务,所以马斯和莫雷蒂不得不依靠它发生在一家超市自然实验。

就像EQ。 2.1,他们的研究有两个部分。首先,他们用从超市结账系统日志具有精确,个体,和始终对生产率的措施:每秒扫描的项目的数目。第二,由于该调度在这家超市所做的那样,他们有近同行的随机成分。换句话说,即使收银员的调度不是由抽签决定,它基本上是随机的。在实践中,我们在自然实验的信心常常取决于此“作为假设”索赔随机的合理性。采取这种随机变化的优势,马斯和莫雷蒂发现,更高的生产力同行的工作提高了生产效率。进一步,马斯和莫雷蒂所使用的大小和其数据的丰富性超越的原因和效果的估计以探索两个比较重要和微妙的问题:这样的效果(为哪种工人是效果大) 的异质性机制后面的效果(为什么具有高生产率的同龄人带来更高的生产力)。我们将回归到治疗效果和机制,在第5章这两个重要的问题 - 异质性,当我们详细讨论实验。

从对盈利和对生产力同行的效果研究的越南草案的影响的研究推广,表2.3总结等研究具有此相同的结构:采用永远在线的数据源来衡量某些事件的影响。如表2.3清楚,自然实验是无处不在,如果你只是知道如何寻找他们。

表2.3:使用大数据源的自然实验的例子。所有这些研究遵循相同的基本配方:随机(或如果随机的)事件+永远在线数据系统。见Dunning (2012)更多的例子。
实质性重点 自然实验的来源 永远在线的数据源 引文
同行对生产力的影响 调度进程 结帐数据 Mas and Moretti (2009)
友谊形成 飓风 Facebook的 Phan and Airoldi (2015)
情绪蔓延 Facebook的 Coviello et al. (2014)
点对点传输经济 地震 移动支付数据 Blumenstock, Fafchamps, and Eagle (2011)
个人消费行为 2013美国政府关门 个人财务数据 Baker and Yannelis (2015)
推荐系统的经济影响 各个 亚马逊浏览数据 Sharma, Hofman, and Watts (2015)
压力对胎儿的影响 2006年以色列与黎巴嫩真主党的战争 出生记录 Torche and Shwed (2015)
维基百科上的阅读行为 斯诺登启示 维基百科日志 Penney (2016)

在实践中,研究人员利用两种不同的策略寻找自然实验,这两者都会有收获。一些研究人员开始与永远在线的数据源,并期待在世界随机事件;人与世界的随机事件开始,并查找数据源,捕捉他们的影响。最后,注意的自然实验的力量不是来自统计分析的复杂性,但是从护理发现历史的一次幸运的意外创造了一个公平的比较。