4.3实验两个方面:实验场和模数

实验室实验提供了控制,现场实验提供了现实主义,以及数字现场试验规模化相结合的控制和真实感。

实验有许多不同的形状和大小。过去,研究人员发现,在实验室实验现场实验之间的连续组织中组织实验是有帮助的。然而,现在,研究人员还应该在模拟实验数字实验之间的第二个连续体中组织实验 。这个二维设计空间将帮助您了解不同方法的优点和缺点,并突出最大机会的领域(图4.1)。

图4.1:实验设计空间示意图。过去,实验在实验室范围内变化。现在,它们在模拟 - 数字方面也有所不同。这个二维设计空间通过我在本章中描述的四个实验来说明。在我看来,最大机会的领域是数字现场实验。

图4.1:实验设计空间示意图。过去,实验在实验室范围内变化。现在,它们在模拟 - 数字方面也有所不同。这个二维设计空间通过我在本章中描述的四个实验来说明。在我看来,最大机会的领域是数字现场实验。

可以组织实验的一个方面是实验室场维度。社会科学中的许多实验都是实验室实验 ,本科生在实验室中为课程学分执行奇怪的任务。这种类型的实验主导着心理学研究,因为它使研究人员能够创建高度可控的设置,以精确地隔离和测试关于社会行为的特定理论。然而,对于某些问题,从如此不寻常的人在如此不寻常的环境中执行这些不寻常的任务中得出关于人类行为的强有力的结论,感到有些奇怪。这些担忧导致了实地试验 。野外实验将随机对照实验的强大设计与更具代表性的参与者群体相结合,在更自然的环境中执行更常见的任务。

虽然有些人认为实验室和野外实验是竞争方法,但最好将它们视为互补的,具有不同的优点和缺点。例如, Correll, Benard, and Paik (2007)使用实验室实验和田间实验试图找到“母性惩罚”的来源。在美国,母亲的收入低于没有孩子的女性,即使是比较从事类似工作的具有类似技能的女性。这种模式有许多可能的解释,其中之一是雇主对母亲有偏见。 (有趣的是,对于父亲来说,情况恰恰相反:他们的收入往往比同等无子女的收入高。)为了评估对母亲的可能偏见,Correll和同事进行了两次实验:一次在实验室,另一次在实地。

首先,在实验室实验中,他们告诉参与者,他们是大学本科生,一家公司正在寻找一个人来寻找一个人来领导其新的东海岸营销部门。学生被告知该公司希望在招聘过程中提供帮助,并要求他们审查几个潜在候选人的简历,并对候选人进行多方面评价,例如他们的智慧,热情和工作承诺。此外,还询问学生是否建议雇用申请人以及他们建议的起薪。然而,学生们并不知道,简历的具体构造是相似的,除了一件事:其中一些表示母性(通过列出参与家长教师协会),而有些则没有。 Correll及其同事发现,学生不太可能建议雇用母亲,并且他们提供较低的起薪。此外,通过对评级和与招聘相关的决策进行统计分析,Correll及其同事发现,母亲的不利因素主要是因为她们在能力和承诺方面的评分较低。因此,该实验室实验允许Correll及其同事测量因果效应并为该效应提供可能的解释。

当然,根据几百名可能从未有过全职工作的本科生的决定,更不用说聘请某人,可能会对根据整个美国劳动力市场得出结论持怀疑态度。因此,Correll及其同事还进行了补充田间试验。他们用假封面信和简历回复了数百个广告宣传的职位空缺。与本科生所展示的材料相似,有些简历表示母性,有些则没有。 Correll及其同事发现,与同样合格的没有孩子的女性相比,母亲接受采访的可能性更小。换句话说,真正的雇主在自然环境中做出相应的决定,就像大学生一样。他们出于同样的原因做出了类似的决定吗?不幸的是,我们不知道。研究人员无法要求雇主对候选人进行评级或解释他们的决定。

这对实验揭示了一般的实验室和现场实验。实验室实验为研究人员提供了几乎完全控制参与者做出决策的环境。因此,例如,在实验室实验中,Correll及其同事能够确保在安静的环境中阅读所有简历;在现场实验中,有些简历甚至可能都没有被阅读过。此外,由于实验室环境中的参与者知道他们正在接受研究,因此研究人员通常能够收集更多数据,以帮助解释参与者做出决定的原因。例如,Correll及其同事要求实验室实验的参与者对不同维度的候选人进行评分。这种过程数据可以帮助研究人员了解参与者如何处理简历的差异机制。

另一方面,我刚刚描述为优点的这些完全相同的特征有时也被认为是缺点。喜欢现场实验的研究人员认为,实验室实验的参与者可能会采取非常不同的行为,因为他们知道他们正在接受研究。例如,在实验室实验中,参与者可能已经猜到了研究的目标并改变了他们的行为,以免出现偏见。此外,喜欢现场实验的研究人员可能会争辩说,简历中的微小差异只能在非常干净,无菌的实验室环境中脱颖而出,因此实验室实验将高估母亲对实际招聘决策的影响。最后,许多实地实验的支持者批评实验室实验依赖于WEIRD参与者:主要来自西方,受过教育,工业化,富裕和民主国家的学生(Henrich, Heine, and Norenzayan 2010a) 。 Correll及其同事(2007)的实验说明了实验室场连续体的两个极端。在这两个极端之间还存在各种混合设计,包括将非学生带入实验室或进入现场但仍然让参与者执行不寻常任务的方法。

除了过去存在的实验室场维度之外,数字时代意味着研究人员现在拥有第二个主要维度,实验可以随之变化:模拟 - 数字。正如纯实验室实验,纯田间实验和各种杂交实验一样,有纯模拟实验,纯数字实验和各种杂交。提供这个维度的正式定义是棘手的,但一个有用的工作定义是全数字实验是利用数字基础设施来招募参与者,随机化,提供治疗和衡量结果的实验​​。例如,Restivo和van de Rijt (2012)对barnstars和Wikipedia的研究是一个完全数字化的实验,因为它使用数字系统来完成所有这四个步骤。同样, 完全模拟实验不会将这四个步骤中的任何一个用于数字基础设施。心理学中的许多经典实验都是完全模拟实验。在这两个极端之间,有部分数字实验使用模拟和数字系统的组合。

当有人想到数字实验时,他们会立即想到在线实验。这是不幸的,因为运行数字实验的机会不仅仅是在线。研究人员可以通过在物理世界中使用数字设备来运行部分数字实验,以便提供治疗或衡量结果。例如,研究人员可以使用智能手机在建筑环境中提供治疗或传感器来衡量结果。事实上,正如我们将在本章后面看到的那样,研究人员已经使用家用功率计来测量涉及850万个家庭的能源消耗实验的结果(Allcott 2015) 。随着数字设备越来越多地融入人们的生活,传感器融入建筑环境,这些在物理世界中进行部分数字化实验的机会将大大增加。换句话说,数字实验不仅仅是在线实验。

数字系统为实验室 - 场地连续体中的各处实验创造了新的可能性。例如,在纯实验室实验中,研究人员可以使用数字系统更精细地衡量参与者的行为;这种改进测量的一个例子是眼睛跟踪设备,其提供精确和连续的凝视位置测量。数字时代也创造了在线运行实验室式实验的可能性。例如,研究人员迅速采用Amazon Mechanical Turk(MTurk)招募参与者进行在线实验(图4.2)。 MTurk将需要完成任务的“雇主”与希望完成这些任务的“工人”相匹配。然而,与传统的劳动力市场不同,所涉及的任务通常只需要几分钟即可完成,而且雇主和工人之间的整个互动都是在线的。因为MTurk模仿传统实验室实验的各个方面 - 付钱给人们完成他们不会免费做的任务 - 它自然适合某些类型的实验。从本质上讲,MTurk已经创建了用于管理参与者群体的基础设施 - 招募和支付人员 - 研究人员利用该基础设施来利用始终可用的参与者群体。

图4.2:使用Amazon Mechanical Turk(MTurk)的数据发布的论文。 MTurk和其他在线劳动力市场为研究人员提供了一种招募参与者进行实验的便捷方式。改编自Bohannon(2016)。

图4.2:使用Amazon Mechanical Turk(MTurk)的数据发布的论文。 MTurk和其他在线劳动力市场为研究人员提供了一种招募参与者进行实验的便捷方式。改编自Bohannon (2016)

数字系统为现场实验创造了更多可能性。特别是,它们使研究人员能够将与实验室实验相关的严格控制和过程数据与更多样化的参与者以及与实验室实验相关的更多自然环境相结合。此外,数字现场实验还提供了三个在模拟实验中难以实现的机会。

首先,大多数模拟实验室和现场实验都有数百名参与者,而数字现场实验可以有数百万参与者。这种规模变化是因为一些数字实验可以零可变成本生成数据。也就是说,一旦研究人员创建了实验性基础设施,增加参与者的数量通常不会增加成本。将参与者人数增加100倍或更多不仅仅是数量变化;这是一种质的变化,因为它使研究人员能够从实验中学习不同的东西(例如,治疗效果的异质性),并运行完全不同的实验设计(例如,大组实验)。这一点非常重要,当我提供有关创建数字实验的建议时,我将在本章末尾回到它。

其次,虽然大多数模拟实验室和现场实验将参与者视为难以区分的小部件,但数字现场实验通常使用有关参与者的研究设计和分析阶段的背景信息。这种背景信息称为预处理信息 ,通常可用于数字实验,因为它们是在永远在线的测量系统上运行的(见第2章)。例如,Facebook的研究人员在数字现场实验中有更多关于人的预处理信息,而不是大学研究人员在模拟现场实验中对人们的了解。这种预处理可以实现更有效的实验设计 - 例如阻断(Higgins, Sävje, and Sekhon 2016)和参与者的有针对性招募(Eckles, Kizilcec, and Bakshy 2016) - 以及更有见地的分析 - 例如估计治疗效果的异质性(Athey and Imbens 2016a)和协变量调整以提高精度(Bloniarz et al. 2016)

第三,尽管许多模拟实验室和现场实验在相对压缩的时间内提供治疗和测量结果,但是一些数字现场实验在更长的时间尺度内发生。例如,Restivo和van de Rijt的实验每天测量结果为90天,我将在本章后面(Ferraro, Miranda, and Price 2011)告诉你的其中一个实验跟踪三年内的结果,基本上没有成本。这三种机会大小,治疗前信息以及纵向治疗和结果数据 - 最常见的是在常规测量系统上运行实验时(有关永远在线测量系统的更多信息,请参见第2章)。

虽然数字现场实验提供了许多可能性,但它们在模拟实验室和模拟现场实验中也存在一些缺点。例如,实验不能用于研究过去,它们只能估计可以操纵的治疗效果。此外,尽管实验对于指导政策无疑是有用的,但由于环境依赖性,合规性问题和均衡效应等并发症,他们可以提供的确切指导有限(Banerjee and Duflo 2009; Deaton 2010) 。数字现场实验还放大了现场实验所产生的伦理问题 - 我将在本章后面和第6章中讨论这个问题。