更多评论

这部分被设计为用作基准,而不是被理解为叙述。

  • 简介(第4.1节)

关于社会研究因果关系的问题往往错综复杂。对于基于因果图一个基本的方法来因果关系,看Pearl (2009)以及基于潜在结果的基本方法,请参见Imbens and Rubin (2015)本章在技术附录)。对于这两种方法之间的比较,看看Morgan and Winship (2014) 。对于正式的方法来定义一个混杂因素,请参阅VanderWeele and Shpitser (2013)

在本章中,我创造了什么似乎像我们做的实验性和非实验数据的因果估计能力之间有亮线。在现实中,我认为区别是较模糊。例如,每个人都接受吸烟可以导致即使我们从来没有做过一项随机对照试验,迫使人们吸烟的癌症。有关从非实验数据做因果估计优秀的长篇分析看Rosenbaum (2002) Rosenbaum (2009)Shadish, Cook, and Campbell (2001) ,和Dunning (2012)

第1章和第2 Freedman, Pisani, and Purves (2007)提供了一个明确的引入实验,对照实验之间的差异,并随机对照实验。

Manzi (2012)提供了一个引人入胜,可读性引入随机对照试验的哲学和统计基础。它还提供了业务试验的权力有趣的真实世界的例子。

  • 什么是实验? (4.2节)

Casella (2008)Box, Hunter, and Hunter (2005)Athey and Imbens (2016b)实验设计和分析的统计方面提供很好的介绍。此外,也有许多不同的领域中使用的实验出色的处理:经济学(Bardsley et al. 2009) ,社会学(Willer and Walker 2007; Jackson and Cox 2013) ,心理学(Aronson et al. 1989)政治学(Morton and Williams 2010)和社会政策(Glennerster and Takavarasha 2013)

受试者招募(例如,采样)的重要性往往被低估的实验研究。但是,如果治疗的效果是在人口异质性,那么取样是至关重要的。 Longford (1999)明确提到这一点时,他主张为研究人员实验思维与随意抽样人口调查。

  • 实验两个方面:实验场和模数(4.3节)

我的实验室和田间试验之间提出的二分法有点简化。事实上,其他研究人员提出更详细的类型学,在分开的各种形式的现场实验特别是那些(Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) 。此外,还有其他两种类型的社会科学家进行的实验不完全满足需要的实验室和现场两分法:调查实验和社会实验调查实验 ,利用现有调查的基础实验和比较的替代版本响应同样的问题(有些调查实验,在第3章提交);更多关于调查实验看Mutz (2011)社会实验是实验中的治疗方法是只能由政府来实施一些社会政策。社会实验是密切相关的方案评价。欲了解更多有关的政策实验,见Orr (1998)Glennerster and Takavarasha (2013) ,和Heckman and Smith (1995)

许多论文都比较抽象实验室和田间试验(Falk and Heckman 2009; Cialdini 2009)和政治学的具体实验成果方面(Coppock and Green 2015) ,经济学(Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013)和心理学(Mitchell 2012) Jerit, Barabas, and Clifford (2013)提供了比较从实验室和田间试验结果一个很好的研究设计。

有关参与者改变他们的行为,因为他们知道他们正在密切观察有时也被称为需求效应 ,他们已经在心理学研究了担忧(Orne 1962)和经济学(Zizzo 2009)虽然大多与实验室的实验有关,这些相同的问题,可能会导致田间试验的问题也是如此。事实上, 需求效应有时也称为霍桑效应 ,即从田间试验得出的一个术语,特别是著名的照明实验,在1924年开始在西方电气公司的霍桑工厂(Adair 1984; Levitt and List 2011) 。既需求效应山楂效果密切相关的第2章中讨论了反应性测量的概念(也参见Webb et al. (1966)

田间试验的历史在经济学中被描述(Levitt and List 2009) ,政治学(Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012)心理学(Shadish 2002)和公共政策(Shadish and Cook 2009) 。其中,现场实验很快就成为突出的社会科学的一个领域是国际化发展。对于经济内的工作积极的评价看Banerjee and Duflo (2009)和一个重要的评估看Deaton (2010) 。对于政治学这项工作的综述见Humphreys and Weinstein (2009) 。最后,参与现场试验的伦理挑战进行了探讨在政治学(Humphreys 2015; Desposato 2016b)和发展经济学(Baele 2013)

在这一章,我建议预处理信息可以用来改进估计的治疗效果的精确度,但是有有关此方法的一些争论: Freedman (2008) Lin (2013)Berk et al. (2013) ;看到Bloniarz et al. (2016)了解更多信息。

  • 超越简单的实验(4.4节)

我选择把重点放在三个概念:有效性,治疗效果异质性和机制。这些概念在不同领域的不同的名称。例如,心理学家倾向于注重调解员主持人超越简单的实验移动(Baron and Kenny 1986) 。调解员的想法被我称之为机制捕获,和主持人的想法被我称之为外部效度(例如,将如果它是在不同的情况下运行实验的结果不同),而且治疗效果异质性(捕获例如,对于一些人比其他人)更大的影响。

的实验Schultz et al. (2007)展示了如何理论,社会可以用来设计有效的干预措施。有关理论在设计有效的干预措施的作用更普遍的说法,看到Walton (2014)

  • 有效性(第4.4.1节)

内部和外部效度的概念首次引入Campbell (1957) 。见Shadish, Cook, and Campbell (2001)进行更详细的历史和统计结论效度,内部效度进行了认真的阐述,结构效度和外部效度。

对于在实验中涉及到统计结论效度问题的概述见Gerber and Green (2012)对于社会科学的角度),并Imbens and Rubin (2015)对于统计的角度)。在网上现场实验特别是出现统计结论效度的一些问题包括,如与相关数据建立的置信区间计算有效的方法问题(Bakshy and Eckles 2013)

内部有效性也很难保证在复杂的现场实验。见,例如, Gerber and Green (2000)Imai (2005)Gerber and Green (2005)约一个复杂的现场实验有关投票的实施辩论。 Kohavi et al. (2012)Kohavi et al. (2013)提供了一个引入区间有效性在线现场实验的挑战。

内部效度的一个主要问题是随机的问题。潜在检测与随机化问题的一种方法是比较可观察到的性状的治疗组和对照组。这种比较被称为平衡检查 。见Hansen and Bowers (2008)的统计方法来平衡检查,看看Mutz and Pemantle (2015)关于平衡检查担忧。例如,使用一个平衡检查Allcott (2011)发现,有一些证据表明,随机未正确在三个实验中的一些OPower实验的实现(见表2;位点2,6和8)。对于其他方法,请参阅Imbens and Rubin (2015) ,第21章。

有关内部效度等主要问题是:1)片面不达标,其中治疗组中不是每个人实际接受的治疗,2)双面不达标,其中治疗组中不是每个人都得到治疗和一些人,对照组中接受治疗,3)的磨损,其中,结果不为一些与会者测定,和4)的干扰,其中,治疗从人溢出的处理条件,以人在控制条件。见Gerber and Green (2012)第5章,第6,第7和8的更多关于这些问题。

欲了解更多关于建构效,看到Westen and Rosenthal (2003) ,以及更多的大数据源的结构效度, Lazer (2015) ,这本书的第二章。

外部效度的一个方面就是干预测试设置。 Allcott (2015)提供选址偏见仔细理论和实证的治疗。这个问题也被讨论Deaton (2010) 。除了 ​​在许多网站被复制,家庭能源报告的干预也被单独由多个研究小组的研究(如Ayres, Raseman, and Shih (2013)

  • 治疗效果异质性(第4.4.2节)

对于在田间试验治疗效果异质性的一个很好的概述,请参见第12章Gerber and Green (2012)对于介绍给在医学临床试验治疗效果不均匀,见Kent and Hayward (2007)Longford (1999)Kravitz, Duan, and Braslow (2004) 。的治疗效果的异质性一般集中于基于预处理特性的差异。如果你有兴趣的基础上后处理结果的异质性,那么更复杂的技术途径,需要如主分层(Frangakis and Rubin 2002) ;见Page et al. (2015)进行审查。

许多研究者估计使用线性回归治疗效果的异质性,但新的方法依赖于机器学习,比如Green and Kern (2012)Imai and Ratkovic (2013)Taddy et al. (2016)Athey and Imbens (2016a)

有关于因多重比较问题,“钓鱼”。还有各种各样的统计方法,可以帮助有关多重比较地址的担忧影响异质性的研究结果持怀疑态度(Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016)一种方法有关“钓鱼”的担忧是预注册,这是成为心理越来越普遍(Nosek and Lakens 2014) ,政治学(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013)和经济学(Olken 2015)

在研究的Costa and Kahn (2013)只有约一半在实验的住户能够被链接到人口统计信息。感兴趣的细节和可能出现的问题这一分析的读者应该参考原来的纸。

  • 机制(第4.4.3节)

机制是非常重要的,但他们练得非常困难的学习。有关机制的研究密切相关的调解员在心理学研究中(也可以查看VanderWeele (2009)两个概念之间精确的比较)。统计方法来发现机制,如在开发的方法Baron and Kenny (1986)是相当普遍的。不幸的是,事实证明,这些程序依赖于某些严格的假设(Bullock, Green, and Ha 2010)当有多种机制受到影响,正如人们所预料在很多情况下(Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014)Imai et al. (2011)Imai and Yamamoto (2013)提供了一些改进统计方法。此外, VanderWeele (2015)提供了一些重要成果,包括全面的方法敏感性分析一本书长度的治疗。

一个单独的方法集中在试图操纵直接机制(例如,给水手维生素C)的实验。不幸的是,在许多社会科学的设置,往往有多种机制,这是很难设计出改变一个不改变其他治疗。一些方法来改变实验机制中描述Imai, Tingley, and Yamamoto (2013)Ludwig, Kling, and Mullainathan (2011)Pirlott and MacKinnon (2016)

最后,机制也有很长的历史,科学的理念为所描述Hedström and Ylikoski (2010)

  • 使用现有环境(第4.5.1.1)

欲了解更多关于使用函授学习和审计研究,以衡量歧视看到Pager (2007)

  • 建立自己的实验(第4.5.1.2节)

招募参与者,你建立实验最常用的方法是亚马逊的Mechanical Turk(MTurk)。由于传统的室内实验,支付人MTurk模仿方面来完成,他们不会为自由许多研究人员完成的任务已经使用零工(上MTurk工人)作为参与者人类受试者的实验结果更快,更便宜的数据采集,比传统的已经开始校内实验室实验(Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012)

与参与者MTurk招募实验的最大优势是后勤:他们让研究人员能够快速并根据需要征集参与者。而实验室的实验可能需要数周运行和田间试验可能需要几个月来设置,参与者来自MTurk招募实验可以在几天运行。例如, Berinsky, Huber, and Lenz (2012)能够招募受试者400的单日参加8分钟的实验。此外,这些与会者可被招募为几乎任何目的(包括调查和大规模协作,在第3章中讨论和5)。这便于招聘意味着,研究人员可以快速地连续运行的相关实验序列。

从MTurk招募参与者为自己的实验之前,有知道的四个重要的事情。首先,许多研究人员涉及零工实验非特异性的怀疑。因为这种怀疑是不特定的,这是很难用证据来反驳。然而,经过几年的使用零工的研究,我们现在可以得出结论,这种怀疑是不是特别必要的。已经有许多研究零工的人口统计数据进行比较,以其他人群和许多研究比较实验结果与零工从其他人群的结果。鉴于所有这些工作,我认为你去想它的最好办法是,零工都是合理的便利样本,很像学生,但稍微更加多样化(Berinsky, Huber, and Lenz 2012)因此,正如学生们一个合理的人口对一些但不是所有的实验研究,零工都是合理的人口为一些但不是所有的研究。如果你打算用零工的工作,然后是有意义的阅读许多比较研究,并了解他们的细微差别。

其次,研究人员已经开发出越来越多的土耳其人实验内部效度的最佳实践,你应该了解和遵循这些最佳实践(Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012)例如,鼓励使用零工研究人员使用安检员删除不留神参与者(Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016)但也请看DJ Hauser and Schwarz (2015b)DJ Hauser and Schwarz (2015a) )。如果不删除不留神参与者,那么治疗的任何影响,可以通过参加不留神引入的噪声冲了出去,并在实践不留神参与者的数量可能是巨大的。在胡贝尔和他的同事的实验(2012)参加者约30%失败的基本关注安检员。与普通零工另一个问题是,非天真参与者(Chandler et al. 2015)

第三,相对于某些其他形式的数字实验,MTurk实验不能规模; Stewart et al. (2015)估计,在任何给定的时间只有大约7000人在MTurk。

最后,你应该知道,MTurk是有自己的规则和规范社区(Mason and Suri 2012)以同样的方式,你会尝试找出哪里你要运行实验,一个国家的文化,你应该尝试找出更多关于文化和零工规范(Salehi et al. 2015)而且,你应该知道,零工会谈论你的实验,如果你做的东西不当或不道德(Gray et al. 2016)

MTurk是招募参与者您的实验非常方便的方式,无论是实验室似的,如Huber, Hill, and Lenz (2012)以上场状,如Mason and Watts (2009) Goldstein, McAfee, and Suri (2013)Goldstein et al. (2014) Horton and Zeckhauser (2016)Mao et al. (2016)

  • 构建自己的产品(第4.5.1.3)

如果您想尝试创建自己的产品,我建议你阅读由MovieLens组提出的建议Harper and Konstan (2015) 。从他们的经验的一个重要观点是,每个成功的项目还有很多,很多失败。例如,MovieLens集团推出的其他产品如为完全失败GopherAnswers (Harper and Konstan 2015) 。研究人员试图建立一个产品失败的另一个例子是爱德华·卡斯特罗诺瓦试图建立一个名为雅顿的网络游戏。尽管在资金$ 250,000,该项目是一个失败(Baker 2008) 。像GopherAnswers和雅顿项目可惜不是像MovieLens项目更为常见。最后,当我说我不知道​​,已经成功地建立产品的重复实验的其他研究人员在这里是我的标准:1)参加者使用,因为它提供了它们(例如,他们不支付的产品,他们是不是志愿者帮助科学)和2)的产物已被用于多个不同的实验(即不相同的实验多次以不同参与者池)。如果你知道的其他例子,请让我知道。

  • 与强大的合作伙伴(第4.5.2节)

我听说在高科技公司经常讨论的巴斯德象限的想法,它有助于在谷歌组织的研究工作(Spector, Norvig, and Petrov 2012)

债券及其同事的研究(2012)也试图来检测那些谁接待他们的朋友这些治疗的效果。因为实验的设计中,这些溢出难以干净检测;有兴趣的读者应该看到Bond et al. (2012)为一个更深入的讨论。这个实验是在政治科学实验的努力,鼓励投票的悠久传统的一部分(Green and Gerber 2015)这些获取出的非表决实验是常见的一部分,因为它们是在巴斯德的象限。也就是说,有很多人谁是积极增加投票和投票可以是一个有趣的行为测试行为改变和社会影响力更普遍的理论。

其他研究人员已经与有关伙伴组织,如政党,非政府组织和企业运行的田间试验提供了咨询意见(Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002)其他人提供有关与组织的伙伴关系如何影响研究设计咨询(Green, Calfano, and Aronow 2014; King et al. 2007) 。合作伙伴也能导致伦理问题(Humphreys 2015; Nickerson and Hyde 2016)

  • 设计建议(第4.6节)

如果你打算创建运行实验之前的分析计划,我建议你阅读报告准则开始。驸马准则(的审判统一标准报告)的医药研发(Schulz et al. 2010)和修改社会研究(Mayo-Wilson et al. 2013) 。相关的一系列指导方针已由中华实验政治学的发展编辑人员(Gerber et al. 2014) (见Mutz and Pemantle (2015)Gerber et al. (2015)最后,报告准则已经发展心理学(Group 2008) ,并且还看Simmons, Nelson, and Simonsohn (2011)

如果你创建一个分析计划,你应该考虑预注册,因为注册前将增加的信心,其他人在你的结果。此外,如果你是一个合作伙伴的合作,这将限制你的伴侣的看到结果后更改分析能力。预登记正在成为心理越来越普遍(Nosek and Lakens 2014) ,政治学(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013)和经济学(Olken 2015)

在创建您预先分析计划,你应该知道,有些研究人员还使用回归和相关办法,以提高估计治疗效果的精度,有关于这种方法的一些争论: Freedman (2008)Lin (2013) ,和Berk et al. (2013) ;看到Bloniarz et al. (2016)了解更多信息。

在线田间试验设计具体的建议还提出在Konstan and Chen (2007)以及Chen and Konstan (2015)

  • 创建零可变成本数据(第4.6.1节)

欲了解更多关于MusicLab实验,看Salganik, Dodds, and Watts (2006) Salganik and Watts (2008) Salganik and Watts (2009b) Salganik and Watts (2009a)Salganik (2007) 。欲了解更多关于赢者通吃的市场,看到Frank and Cook (1996) 。欲了解更多关于解开运气和技巧更普遍,见Mauboussin (2012) Watts (2012)Frank (2016)

还有一个办法,以消除研究者应谨慎使用支付参与者:征兵。在许多网上现场实验的参与者基本上都编入实验和永不补偿。这种方法的例子包括雷斯蒂沃和范·德·Rijt的(2012)在维基百科和邦德和他的同事的奖励实验(2012)鼓励人们投票的实验。这些实验真的没有零可变成本,它们具有零可变成本给研究人员。即使许多这些实验的成本是非常小的每个参与者,小成本强加给参与者数​​量庞大的可以迅速增加。运行大量在线实验研究人员经常说,当适用于许多人这些小效果可以成为重要的证明的小预计治疗效果的重要性。完全相同的思维适用于研究人员对参与者付出代价。如果您的实验导致一百万人浪费一分钟后,实验是不是任何特定的人非常有害的,但在总量已经浪费了近两年时间。

打造零可变成本支付给与会者的另一种方法是使用一个彩票,这也得到了调查研究使用的方法(Halpern et al. 2011)最后,所有关于设计愉快的用户体验看Toomim et al. (2011)

  • 替换,优化,减少(第4.6.2节)

下面是三个R的定义原来,从Russell and Burch (1959)

“更换意味着无知觉的物质生活意识的高等动物替代。还原装置中使用,以获得一个给定的量和精度的信息的动物的数量减少。细化装置中的发病率或施加到那些仍然必须使用动物不人道程序严重性的任何下降“。

三个R的,我提议不能取代在第6章中描述的道德原则相反,它们是人体实验的设置比较详细的一个版本的这些原则,行善特异性。

当考虑情绪感染,有三个非道德问题解释这个实验时要牢记。首先,它是不清楚如何在实验的实际细节连接到理论主张;换句话说,还有约构想效度的问题。目前尚不清楚的正面和负面的字数实际上是参与者的情感状态的一个很好的指标,因为1)它是不明确的,人们帖子中的文字是自己的情绪的良好指标; 2)目前尚不清楚该,研究人员使用的特定情感分析技术能够可靠地推断出情绪(Beasley and Mason 2015; Panger 2016)换句话说,可能存在一个偏置信号的不好的量度。二,实验的设计和分析,并没有告诉我们谁是影响最大(即,没有治疗效果异质性分析),什么机制可能。在这种情况下,研究人员有许多有关参与者的信息,但它们如在分析窗口部件基本上是处理。第三,在这个实验中的作用大小是非常小的;治疗和控制条件之间的差异是在1000字约1。在他们的论文,克莱默和同事使这一尺寸的效果是很重要的,因为数亿人访问他们的新闻每天饲料的情况。换言之,他们认为即使是小的每个人,他们是在聚合大的效果。即使你接受这样的说法,它是目前尚不清楚是否对有关情绪传染更普遍的科学问题这种规模的影响是非常重要的。欲了解更多关于哪里小影响是重要的情况看Prentice and Miller (1992)

在第一个R(更换),方面比较情绪感染实验(Kramer, Guillory, and Hancock 2014)和情绪感染的自然实验(Coviello et al. 2014)提供了有关涉及从移动的取舍一些基本的经验教训实验自然实验(和其他方法,如匹配试图接近在非实验数据的实验中,见第2章)。除了伦理好处,从实验切换到非实验研究也能使研究人员研究,他​​们是后勤无法部署治疗。这些道德和后勤的好处是有代价的,但是。随着自然实验的研究人员有超过之类的东西参与者,随机招募较少的控制和治疗的性质。例如,降雨作为治疗的一个限制是,它都增加了积极性和减少消极。在实验研究中,但是,克莱默和他的同事们能够独立调整的积极和消极。

通过所使用的特定方法Coviello et al. (2014)中作了进一步阐述Coviello, Fowler, and Franceschetti (2014)对于一个介绍工具变量看Angrist and Pischke (2009)不太正规的)或Angrist, Imbens, and Rubin (1996)更正式的)。对于工具变量的评估持怀疑态度看Deaton (2010) ,以及介绍了与弱工具(雨是一个薄弱仪)工具变量,看Murray (2006)

更一般地,一个很好的介绍自然实验是Dunning (2012)Rosenbaum (2002) Rosenbaum (2009) ,和Shadish, Cook, and Campbell (2001)提供了有关估计没有实验因果效果好主意。

在第二个R(细化)方面,也有考虑从阻塞职位,以提高岗位不断变化的情绪感染的设计,当科学和后勤权衡。例如,它可能是在技术执行动态消息的使得它基本上更加容易做一个实验以阻断讯息,而不是一个实验升压讯息的情况下(请注意,用封闭讯息的实验可以作为一个层来实现新闻供给系统的顶部,而不需要任何的底层系统的变化)。科学,但是,通过实验解决的理论没有清楚地表明在另一种设计。

不幸的是,我不知道之前关于阻塞和拉动了新闻联播内容的相对优点实质性研究。此外,我还没有看到多少研究如何优化处理,使它们危害较小;唯一的例外是Jones and Feamster (2015) ,其中认为互联网审查的测量的情况下,(一个话题我在第6章中关系安可研究讨论(Burnett and Feamster 2015; Narayanan and Zevenbergen 2015)

在第三个R(还原)而言,一个很好的介绍传统动力分析是Cohen (1988) 。预处理协变量可以包括在设计阶段和实验的分析阶段;第四章Gerber and Green (2012)提供了一个很好的介绍两种方法,和Casella (2008)提供了一个更深入的治疗。使用在随机化此预处理信息技术通常称为被阻止的实验设计或分层实验设计(该术语并不跨社区一致地使用);这些技术都深深涉及到第3章中讨论见的分层抽样技术Higgins, Sävje, and Sekhon (2016)以获得更多关于在大量实验使用这些设计。预处理协变量也可以被包括在分析阶段。 McKenzie (2012)探讨了差合的差异的方法来更详细地分析田间试验。见Carneiro, Lee, and Wilhelm (2016)以获得更多关于不同的做法,以提高治疗效果估计精度之间的权衡。最后,决定何时是否尝试包括在设计或分析阶段(或两者)的前处理的协变量,也有考虑几个因素。在那里的研究人员想表明他们是不是“钓鱼”的设置(Humphreys, Sierra, and Windt 2013) ,采用在设计阶段预处理协变量可以是有益的(Higgins, Sävje, and Sekhon 2016)在参加者依次到达,尤其是网络领域的实验中,使用在设计阶段预处理信息可能是困难的后勤的情况下,参见例如Xie and Aurisset (2016)

这是值得加入了为什么差别,在异能这么多效益比的差异,在均值位的直觉。许多在线结果具有非常高的方差(见例如Lewis and Rao (2015)Lamb et al. (2015)并随着时间的推移相对稳定。在这种情况下,变化得分将具有基本上较小方差,增加了统计测试的力量。一个原因这一逼近,不使用更经常的是,之前的数字时代它是不常见的有前处理的结果。想一想一个更具体的方式是想象一个实验来测量特定的例行演习是否会导致体重减轻。如果您确实有差别,在手段方法,您估计将有来自变异在人群中的权重的变化。如果您确实有差别,在不同的方式,但是在权重是自然发生的变异被删除,您可以更容易地检测由治疗的差异。

减少参与实验的数量的一个重要途径是进行电源分析,克莱默和他的同事可以根据从自然实验中观察到的影响大小都做Coviello et al. (2014)或更早版本的非实验研究由克莱默(2012)其实这些都是在本章结尾活动)。请注意,这个使用功耗分析比一般的有点不同。在模拟时代,研究人员通常做的功耗分析,以确保他们的研究是不是太小(例如,在供电)。但是现在,研究人员应该做的功耗分析,以确保他们的研究不是太大(即逾供电)。

最后,我认为增加了第四个R:重新利用。也就是说,如果研究人员发现自己更多的实验数据比他们需要解决自己的原创性研究的问题,他们应该重新利用这些数据提出新的问题。例如,假设克莱默和他的同事已经使用了差异,在差异估计和发现自己,以解决他们的研究问题不是需要更多的数据。而不是未使用的数据的最大范围内,他们可以研究的影响的大小的函数进行预治疗情感表达。正如Schultz et al. (2007)发现,治疗效果是轻型和重型用户的不同,也许是新闻频道的影响是对谁已经趋于张贴快乐(或悲伤)消息的人不同。再利用可能导致“钓鱼” (Humphreys, Sierra, and Windt 2013)和“P-黑客” (Simmons, Nelson, and Simonsohn 2011)但这些在很大程度上是诚实汇报的组合寻址(Simmons, Nelson, and Simonsohn 2011)预注册(Humphreys, Sierra, and Windt 2013) ,和机器学习方法试图避 ​​免过度拟合。