2.4.3逼近实验

我们可以近似实验,我们不能这样做。这尤其是从数字时代受益两种方法匹配和自然实验。

许多重要的科学和政策问题是因果关系。让我们考虑,例如,下面的问题:什么是工资工作培训项目的效果呢?回答这个问题的一个方法是用随机对照试验,其中工人被随机分配到接受培训或不接受培训。然后,研究人员可以通过简单地比较谁收到的训练到那些没有收到人们的工资估算为这些参与者训练的效果。

简单的比较是因为有事甚至被收集的数据之前出现这种情况有效:随机化。如果没有随机化,这个问题是非常棘手。一位研究人员可以比较谁自愿报名参加培训,那些谁没有登录达人的工资。这比较可能会表明谁接受培训的人挣得多,但其中有多少是因为训练和其中有多少是因为登录了培训人都是从那些不签了训练有什么不同?换句话说,它是公平地比较这两个群体的人的工资?

这是关于公平的比较担忧使得一些研究人员认为,它不可能做出因果估计没有运行实验。这种说法太过分了。虽然这是事实,实验提供了因果效应最有力的证据,有一些可以提供有价值的因果估计其他策略。相反,认为因果估计要么是容易的(在实验的情况下)或不可能(在的情况下被动地观测数据),这是更好地认为战略作出因果估计一个连续从最强到最弱(图说谎2.4)。在连续的最强结束时随机对照实验。但是,这些往往是很难在社会研究做的,因为许多治疗需要大量不切实际的来自政府或公司合作;很简单,有很多的实验,我们不能这样做。我将全心的所有第4章的优势和随机对照实验的弱点两者,我会认为,在某些情况下,有强烈的道德上的原因喜欢观察到的实验方法。

图2.4:对估计的影响因果关系的研究战略连续。

图2.4:对估计的影响因果关系的研究战略连续。

沿连续移动的,还有那里的研究人员还没有明确的情况下随机。也就是说,研究人员正在试图学习实验样的知识,而无需实际做实验;当然,这将是棘手的,但大数据大大提高了我们,使因果估计在这些情况下的能力。

有时有设置里随机性的世界正好创造这样一个实验研究人员。这些设计被称为天然的实验中 ,他们将在详细的节2.4.3.1考虑。大数据源,他们永远在线的性质和他们的两个特征尺寸大大增强了我们发生时,他们从自然实验学习的能力。

移动从随机对照实验中渐行渐远,有时甚至没有在本质上,我们可以用它来近似自然实验的事件。在这些设置中,我们可以仔细构造以试图近似一个实验内非实验数据进行比较。这些设计被称为匹配 ,以及他们将在详细的节2.4.3.2考虑。就像自然实验,匹配是一个设计,也是从大数据源中受益。特别是,大规模的尺寸都在病例数和每信息类型方面的情况下,极大地方便了匹配。自然实验和匹配之间的主要区别在于,在自然实验研究者知道通过治疗分配,并且认为这是随机的过程。

这激发了欲望做实验比较公平的概念还underlies两种替代方法:自然实验和匹配。这些方法将使您能够通过发现公平的比较坐在你已经拥有的数据从内部观察到被动数据​​估计因果效应。