关于社会研究中因果关系的问题往往是复杂而复杂的。对于基于因果图的因果关系的基础方法,参见Pearl (2009) ,以及基于潜在结果的基础方法,参见Imbens and Rubin (2015) 。有关这两种方法的比较,请参阅Morgan and Winship (2014) 。有关定义混淆因素的正式方法,请参阅VanderWeele and Shpitser (2013) 。
在本章中,我创建了从实验数据和非实验数据进行因果估计的能力之间的界限。但是,我认为,实际上,区别更加模糊。例如,每个人都承认吸烟导致癌症,即使没有任何强迫人们吸烟的随机对照实验也已经完成。对于根据非实验数据进行因果估计的优秀书籍长度处理,参见Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001)以及Dunning (2012) 。
Freedman, Pisani, and Purves (2007)第1章和第2章清楚地介绍了实验,对照实验和随机对照实验之间的差异。
Manzi (2012)为随机对照实验的哲学和统计学基础提供了一个引人入胜且可读的介绍。它还提供了有趣的实际商业实验能力的例子。 Issenberg (2012)提供了在政治活动中使用实验的有趣介绍。
Box, Hunter, and Hunter (2005) ,@ casella_statistical_2008,以及Athey and Imbens (2016b)为实验设计和分析的统计方面提供了很好的介绍。此外,在许多不同领域都有很好的治疗方法:经济学(Bardsley et al. 2009) ,社会学(Willer and Walker 2007; Jackson and Cox 2013) ,心理学(Aronson et al. 1989) ,政治学(Morton and Williams 2010)和社会政策(Glennerster and Takavarasha 2013) 。
参与者招募(例如,抽样)的重要性在实验研究中往往得不到重视。但是,如果治疗效果在人群中是异质的,则抽样是至关重要的。 Longford (1999)在提倡研究人员将实验作为随机抽样的人口调查时提出了这一观点。
我已经提出实验室和实地实验之间存在连续性,其他研究人员提出了更详细的类型,特别是那些将各种形式的实验分开的类型(Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) 。
许多论文在抽象(Falk and Heckman 2009; Cialdini 2009)和政治学特定实验的结果(Coppock and Green 2015) ,经济学(Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) (Coppock and Green 2015)比较了实验室和现场实验(Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013)和心理学(Mitchell 2012) 。 Jerit, Barabas, and Clifford (2013)提供了一个很好的研究设计,用于比较实验室和现场实验的结果。 Parigi, Santana, and Cook (2017)描述了在线现场实验如何结合实验室和现场实验的一些特征。
关于参与者因为知道他们被密切观察而改变他们的行为的担忧有时被称为需求效应 ,并且他们已经在心理学(Orne 1962)和经济学(Zizzo 2010) 。尽管主要与实验室实验相关,但这些相同的问题也会导致现场实验出现问题。事实上, 需求效应有时也被称为霍桑效应 ,这个术语衍生于1924年在西部电气公司的Hawthorne工厂开始的着名照明实验(Adair 1984; Levitt and List 2011) 。 需求效应和霍桑效应都与第2章讨论的反应测量思想密切相关(另见Webb et al. (1966) )。
现场实验在经济学方面有悠久的历史(Levitt and List 2009) ,政治学(Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) ,心理学(Shadish 2002)和公共政策(Shadish and Cook 2009) 。社会科学的一个领域是现场实验迅速成为突出的国际发展。有关经济学内部工作的积极评论,请参阅Banerjee and Duflo (2009) ,以及进行批判性评估,参见Deaton (2010) 。有关政治科学这项工作的回顾,请参阅Humphreys and Weinstein (2009) 。最后,在政治科学(Humphreys 2015; Desposato 2016b)和发展经济学(Baele 2013)的背景下探讨了实地实验产生的伦理挑战。
在本节中,我建议可以使用治疗前信息来提高估计治疗效果的准确性,但是对于这种方法存在一些争议;参见Freedman (2008) , W. Lin (2013) , Berk et al. (2013) ,和Bloniarz et al. (2016)了解更多信息。
最后,社会科学家还进行了另外两种类型的实验,这些实验并不完全适合实验室领域:调查实验和社会实验。 调查实验是使用现有调查的基础设施进行的实验,并比较对同一问题的替代版本的反应(一些调查实验见第3章);有关调查实验的更多信息,请参见Mutz (2011) 。 社会实验是一种实验,其中治疗是一些只能由政府实施的社会政策。社会实验与项目评估密切相关。有关政策实验的更多信息,请参阅Heckman and Smith (1995) , Orr (1998)和@ glennerster_running_2013。
我选择关注三个概念:有效性,治疗效果的异质性和机制。这些概念在不同领域有不同的名称。例如,心理学家倾向于通过专注于调解者和主持人而超越简单的实验(Baron and Kenny 1986) 。调解员的想法被我所谓的机制所捕获,而调节者的想法被我所谓的外部有效性所捕获(例如,如果在不同情况下运行,实验结果会不同)和治疗效果的异质性(例如,某些人的影响比其他人更大)。
Schultz et al. (2007)的实验Schultz et al. (2007)显示了如何使用社会理论来设计有效的干预措施。关于理论在设计有效干预措施中的作用的更一般性论点,参见Walton (2014) 。
Campbell (1957)首先介绍了内部和外部有效性的概念。参见Shadish, Cook, and Campbell (2001)的更详细的历史和仔细阐述统计结论的有效性,内部有效性,结构有效性和外部有效性。
有关实验中统计结论有效性相关问题的概述,请参阅Gerber and Green (2012) (来自社会科学的观点)和Imbens and Rubin (2015) (从统计角度)。在线现场实验中特别出现的统计结论有效性的一些问题包括诸如用于创建具有依赖数据的置信区间的计算有效方法的问题(Bakshy and Eckles 2013) 。
在复杂的现场试验中,很难确保内部有效性。例如,参见Gerber and Green (2000) , Imai (2005)以及Gerber and Green (2005)关于投票的复杂实地实验的实施的辩论。 Kohavi et al. (2012)和Kohavi et al. (2013)介绍了在线现场实验中区间有效性的挑战。
内部有效性的一个主要威胁是随机化失败的可能性。检测随机化问题的一种可能方法是比较治疗组和对照组的可观察性状。这种比较称为平衡检查 。参见Hansen and Bowers (2008)关于平衡检查的统计方法Mutz and Pemantle (2015)对平衡检查的担忧。例如,使用平衡检查, Allcott (2011)发现了一些证据表明在三个Opower实验中没有正确实施随机化(见表2;站点2,6和8)。其他方法见Imbens and Rubin (2015)第21章。
与内部有效性相关的其他主要问题是:(1)单侧不合规,治疗组中的每个人并非实际接受治疗,(2)双方不合规,治疗组中的每个人都不接受治疗,而有些人在对照组接受治疗,(3)磨损,其中一些参与者没有测量结果,以及(4)干扰,其中治疗从治疗状态的人溢出到控制状态的人。有关这些问题的更多信息,请参阅Gerber and Green (2012) 5,6,7和8章。
有关构造有效性的更多信息,请参阅Westen and Rosenthal (2003) ,以及有关大数据源构造有效性的更多信息, Lazer (2015)和本书第2章。
外部有效性的一个方面是测试干预的设置。 Allcott (2015)对场地选择偏差提供了仔细的理论和实证处理。 Deaton (2010)也讨论了这个问题。外部有效性的另一个方面是同一干预的替代操作是否会产生类似的影响。在这种情况下, Schultz et al. (2007)的比较Schultz et al. (2007)和Allcott (2011)表明,与Schultz及其同事的原始实验相比,Opower实验的估计治疗效果较小(1.7%对5%)。 Allcott (2011)推测后续实验的影响较小,因为治疗方法不同:手写表情符号作为大学赞助的研究的一部分,与作为批量生产的一部分的印刷表情符号相比较电力公司的报告。
有关现场实验中处理效果异质性的出色概述,请参阅Gerber and Green (2012)第12章。关于医学试验中治疗效果的异质性的介绍,参见Kent and Hayward (2007) , Longford (1999) ,以及Kravitz, Duan, and Braslow (2004) 。对治疗效果的异质性的考虑通常集中在基于治疗前特征的差异上。如果您对基于治疗后结果的异质性感兴趣,则需要更复杂的方法,例如主要分层(Frangakis and Rubin 2002) ;见Page et al. (2015)进行审查。
许多研究人员使用线性回归估计治疗效果的异质性,但较新的方法依赖于机器学习;例如,参见Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , Athey and Imbens (2016a) 。
由于多重比较问题和“钓鱼”,对效果异质性的发现存在一些怀疑。有多种统计方法可以帮助解决多重比较的问题(Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) 。关注“捕鱼”的一种方法是预注册,这在心理学(Nosek and Lakens 2014) ,政治学(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) (Nosek and Lakens 2014)变得越来越普遍。和经济学(Olken 2015) 。
在Costa and Kahn (2013)的研究中,实验中只有大约一半的家庭可以与人口统计信息联系起来。对这些细节感兴趣的读者应参考原始论文。
机制非常重要,但结果却非常难以研究。关于机制的研究与心理学中的调解员的研究密切相关(但也参见VanderWeele (2009)对这两种观点进行精确比较)。寻找机制的统计方法,例如Baron and Kenny (1986) ,非常普遍。不幸的是,事实证明这些程序依赖于一些强有力的假设(Bullock, Green, and Ha 2010)并且当存在多种机制时会受到影响,正如人们在许多情况下所期望的那样(Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) 。 Imai et al. (2011)和Imai and Yamamoto (2013)提供了一些改进的统计方法。此外, VanderWeele (2015)提供了书籍长度治疗,其中包含许多重要结果,包括全面的灵敏度分析方法。
一种单独的方法侧重于试图直接操纵机制的实验(例如,给水手维生素C)。不幸的是,在许多社会科学环境中,通常存在多种机制,并且难以设计在不改变其他机制的情况下改变一种机制的治疗方法。 Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011)以及Pirlott and MacKinnon (2016)描述了一些实验改变机制的方法。
运行全因子实验的研究人员需要关注多个假设检验;有关详细信息Fink, McConnell, and Vollmer (2014)请参阅Fink, McConnell, and Vollmer (2014)以及List, Shaikh, and Xu (2016) 。
最后, Hedström and Ylikoski (2010)描述的机制在科学哲学中也有悠久的历史。
有关使用函授研究和审计研究来衡量歧视的更多信息,请参阅Pager (2007) 。
招募参与者进行实验的最常见方式是Amazon Mechanical Turk(MTurk)。因为MTurk模仿传统实验室实验的各个方面 - 支付人们完成他们不会免费完成的任务 - 许多研究人员已经开始使用Turkers(MTurk的工作人员)作为实验参与者,导致数据收集速度更快,更便宜在传统的校园实验室实验中(Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) 。
一般来说,使用从MTurk招募的参与者的最大优势是后勤。虽然实验室实验可能需要数周才能完成,现场实验可能需要数月才能完成,但从MTurk招募的参与者的实验可以在几天内完成。例如, Berinsky, Huber, and Lenz (2012)能够在一天内招募400名受试者参加8分钟的实验。此外,这些参与者几乎可以被招募用于任何目的(包括调查和大规模协作,如第3章和第5章所述)。这种易于招募意味着研究人员可以快速连续地运行相关实验序列。
在从MTurk招募参与者进行自己的实验之前,您需要了解四件重要事项。首先,许多研究人员对涉及Turkers的实验持怀疑态度。因为这种怀疑并不具体,所以很难用证据来反驳。然而,经过几年使用Turkers的研究,我们现在可以得出结论,这种怀疑并不是特别合理。有许多研究将Turkers的人口统计数据与其他人群的人口统计数据进行了比较,许多研究将Turkers实验结果与其他人群进行了比较。鉴于所有这些工作,我认为最好的方法是考虑到Turkers是一个合理的便利样本,很像学生,但更多样化(Berinsky, Huber, and Lenz 2012) 。因此,正如学生对某些研究(但不是全部研究)的合理人口一样,对于一些(但不是全部)研究来说,特克斯是一个合理的人口。如果您打算与Turkers合作,那么阅读许多这些比较研究并了解它们的细微差别是有意义的。
其次,研究人员已经开发出了提高MTurk实验内部有效性的最佳实践,您应该了解并遵循这些最佳实践(Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) 。例如,鼓励使用Turkers的研究人员使用筛选器去除不注意的参与者(Berinsky, Margolis, and Sances 2014, 2016) (但也参见DJ Hauser and Schwarz (2015b)以及DJ Hauser and Schwarz (2015a) )。如果你不去除不注意的参与者,那么治疗的任何影响都可能被他们引入的噪音所淹没,并且在实践中,不专心的参与者的数量可能很大。在Huber及其同事(2012)的实验中,大约30%的参与者未能通过基本的注意力检查。使用Turkers时通常会出现的其他问题是非天真的参与者(Chandler et al. 2015)和消耗(Zhou and Fishbach 2016) 。
第三,相对于其他一些形式的数字实验,MTurk实验无法扩展; Stewart et al. (2015)估计,在任何特定时间,MTurk上只有大约7,000人。
最后,您应该知道MTurk是一个拥有自己的规则和规范的社区(Mason and Suri 2012) 。就像你试图了解一个你将要进行实验的国家的文化一样,你应该尝试更多地了解Turkers的文化和规范(Salehi et al. 2015) 。你应该知道,如果你做了一些不恰当或不道德的事情,Turkers会谈论你的实验(Gray et al. 2016) al.2016 (Gray et al. 2016) 。
MTurk是一种非常方便的方式来招募参与者进行实验,无论他们是实验室,如Huber, Hill, and Lenz (2012) ,还是更像现场,如Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) ,和Mao et al. (2016) 。
如果您正在考虑创建自己的产品,我建议您阅读Harper and Konstan (2015) MovieLens小组提供的建议。从他们的经验中得出的一个重要见解是,对于每个成功的项目,都会有很多失败。例如,MovieLens小组推出了完全失败的其他产品,如GopherAnswers (Harper and Konstan 2015) 。另一个研究人员在尝试制造产品时失败的另一个例子是爱德华卡斯特罗诺娃试图建立一个名为阿登的在线游戏。尽管有250,000美元的资金,但这个项目还是失败了(Baker 2008) 。不幸的是,GopherAnswers和Arden等项目比MovieLens这样的项目更为常见。
我听说过巴斯德象限经常在科技公司讨论的想法,它有助于组织Google的研究工作(Spector, Norvig, and Petrov 2012) 。
Bond和同事的研究(2012)也试图发现这些治疗方法对接受它们的朋友的影响。由于实验的设计,这些溢出很难干净地检测出来;有兴趣的读者应该看看Bond et al. (2012)进行更彻底的讨论。琼斯及其同事(2017)在2012年大选期间也进行了非常类似的实验。这些实验是鼓励投票的政治科学实验的长期传统的一部分(Green and Gerber 2015) 。这些获得投票的实验很常见,部分原因是因为它们属于巴斯德的象限。也就是说,有许多人有动力增加投票和投票可能是一个有趣的行为,以测试关于行为改变和社会影响的更一般的理论。
有关与政党,非政府组织和企业等伙伴组织进行实地试验的建议,请参阅Loewen, Rubenson, and Wantchekon (2010) , JA List (2011)和Gueron (2002) 。有关与组织的合作如何影响研究设计的想法,请参阅King et al. (2007)和Green, Calfano, and Aronow (2014) 。正如Humphreys (2015)和Nickerson and Hyde (2016)所讨论的那样,伙伴关系也可能导致道德问题。
如果您要在运行实验之前创建分析计划,我建议您首先阅读报告指南。 CONSORT(综合标准报告报告)指南是在医学中开发的(Schulz et al. 2010)并针对社会研究进行了修改(Mayo-Wilson et al. 2013) 。 “实验政治学杂志” (Gerber et al. 2014)的编辑已经制定了一套相关的指南(参见Mutz and Pemantle (2015)和Gerber et al. (2015) )。最后,心理学已经制定了报告指南(APA Working Group 2008) ,另见Simmons, Nelson, and Simonsohn (2011) 。
如果您创建分析计划,则应考虑预先注册,因为预注册会增加其他人对结果的信心。此外,如果您正在与合作伙伴合作,则会限制您的合作伙伴在看到结果后更改分析的能力。预注册在心理学(Nosek and Lakens 2014) ,政治学(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013)和经济学(Olken 2015)变得越来越普遍。
Konstan and Chen (2007)以及Chen and Konstan (2015)也提供了专门针对在线现场实验的设计建议。
我所谓的无敌战略有时被称为程序研究 ;见Wilson, Aronson, and Carlsmith (2010) 。
有关MusicLab实验的更多信息,请参阅Salganik Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a)以及Salganik (2007) 。有关赢家通吃市场的更多信息,请参阅Frank and Cook (1996) 。有关更多关于解开运气和技能的更多信息,请参阅Mauboussin (2012) , Watts (2012)和Frank (2016) 。
还有另一种消除参与者付款的方法,研究人员应谨慎使用:征兵。在许多在线实地实验中,参与者基本上都被纳入实验并且从未得到过补偿。这种方法的例子包括Restivo和van de Rijt (2012)在维基百科和邦德的奖励实验以及同事(2012)关于鼓励人们投票的实验。这些实验实际上没有零可变成本 - 相反,它们对研究人员来说零可变成本。在这样的实验中,即使每个参与者的成本非常小,总成本也可能非常大。运行大规模在线实验的研究人员经常通过说这些小效应在应用于许多人时变得重要来证明小估计治疗效果的重要性。完全相同的思维适用于研究人员对参与者施加的成本。如果你的实验导致一百万人浪费一分钟,那么这个实验对任何一个人来说都不是很有害,但总的来说它浪费了将近两年的时间。
为参与者创建零可变成本支付的另一种方法是使用彩票,这种方法也被用于调查研究(Halpern et al. 2011) 。有关设计愉快用户体验的更多信息,请参阅Toomim et al. (2011) 。有关使用机器人创建零可变成本实验的更多信息,请参阅( ??? ) 。
Russell and Burch (1959)最初提出的三个R如下:
“更换意味着无知觉的物质生活意识的高等动物替代。还原装置中使用,以获得一个给定的量和精度的信息的动物的数量减少。细化装置中的发病率或施加到那些仍然必须使用动物不人道程序严重性的任何下降“。
我提出的三个R不会超越第6章中描述的道德原则。相反,它们是一个更精细的版本之一 - 有益 - 特别是在人类实验的背景下。
就第一个R(“替代”)而言,比较情绪感染实验(Kramer, Guillory, and Hancock 2014)和情绪感染自然实验(Lorenzo Coviello et al. 2014)提供了一些关于所涉及权衡的一般性教训。从实验转向自然实验(以及其他方法,如匹配试图接近非实验数据的实验;见第2章)。除了道德效益之外,从实验研究转向非实验研究还使研究人员能够研究他们在逻辑上无法部署的治疗方法。然而,这些道德和后勤方面的好处是有代价的。通过自然实验,研究人员对参与者招募,随机化和治疗性质等方面的控制较少。例如,降雨作为一种治疗的一个限制是它既增加积极性又减少消极性。然而,在实验研究中,Kramer及其同事能够独立地调整积极性和消极性。 Lorenzo Coviello et al. (2014)使用的特殊方法Lorenzo Coviello et al. (2014)由L. Coviello, Fowler, and Franceschetti (2014)进一步阐述。关于工具变量的介绍,这是Lorenzo Coviello et al. (2014)使用的方法Lorenzo Coviello et al. (2014) ,见Angrist and Pischke (2009) (不太正式)或Angrist, Imbens, and Rubin (1996) (更正式)。对于工具变量的怀疑评估,参见Deaton (2010) ,以及对弱工具(雨是弱工具)的工具变量的介绍,参见Murray (2006) 。更一般地, Dunning (2012)给出了对自然实验的良好介绍,而Rosenbaum (2002) , ( ??? )和Shadish, Cook, and Campbell (2001)提供了关于在没有实验的情况下估计因果效应的好想法。
就第二个R(“改进”)而言,在考虑将情绪传染的设计从阻塞岗位改为提升岗位时,存在科学和后勤权衡。例如,可能是新闻Feed的技术实施使得更容易进行帖子被阻止而不是被提升的实验(请注意,可以实施涉及阻止帖子的实验)作为News Feed系统顶层的一层,无需更改底层系统)。然而,从科学的角度来看,实验所解决的理论并未明确提出一种设计。不幸的是,我不知道有关阻止和提升新闻Feed中内容的相对优点的大量先前研究。此外,我还没有看到很多关于精炼治疗的研究,以减少它们的危害; B. Jones and Feamster (2015)是一个例外,它考虑了互联网审查的衡量标准(我在第6章讨论的与Encore研究相关的主题(Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) )。
就第三个R(“减少”)而言, Cohen (1988) (书)和Cohen (1992) (文章)给出了对传统权力分析的良好介绍,而Gelman and Carlin (2014)提供了略微不同的观点。预处理协变量可以包括在实验的设计和分析阶段; Gerber and Green (2012)第4章对这两种方法进行了很好的介绍, Casella (2008)提供了更深入的治疗方法。在随机化中使用这种预处理信息的技术通常被称为阻塞实验设计或分层实验设计(术语不是在社区中一致使用);这些技术与第3章中讨论的分层抽样技术密切相关。有关在大规模实验中使用这些设计的更多信息Higgins, Sävje, and Sekhon (2016)请参见Higgins, Sävje, and Sekhon (2016) 。预处理协变量也可以包括在分析阶段中。 McKenzie (2012)更详细地探讨了差异分析方法来分析现场实验。参见Carneiro, Lee, and Wilhelm (2016) ,了解更多关于提高治疗效果估计精确度的不同方法之间的权衡。最后,在决定是否尝试在设计或分析阶段(或两者)包括治疗前协变量时,需要考虑几个因素。在研究人员希望证明他们不是“钓鱼”的环境中(Humphreys, Sierra, and Windt 2013) ,在设计阶段使用预处理协变量可能会有所帮助(Higgins, Sävje, and Sekhon 2016) 。在参与者顺序到达的情况下,特别是在线现场实验,在设计阶段使用预处理信息可能在后勤上很困难;例如,见Xie and Aurisset (2016) 。
值得添加一些直觉,说明为什么差异差异方法比差异方法更有效。许多在线结果具有非常高的方差(参见例如RA Lewis and Rao (2015)和Lamb et al. (2015) )并且随着时间的推移相对稳定。在这种情况下,变化得分将具有明显更小的方差,从而增加统计测试的能力。更常使用这种方法的一个原因是,在数字时代之前,预处理结果并不常见。一个更具体的思考方法是想象一个实验来衡量一个特定的运动常规是否会导致体重减轻。如果您采用手段差异法,您的估计值将因人口中权重的变化而产生变化。但是,如果您采用差异差异法,则会消除自然发生的体重变化,您可以更轻松地检测到治疗引起的差异。
最后,我考虑添加第四个R:“重新调整用途”。也就是说,如果研究人员发现自己拥有的实验数据多于解决原始研究问题所需的实验数据,他们应该重新调整数据以提出新的问题。例如,假设Kramer及其同事使用了差异差异估计器,发现自己拥有的数据超出了解决研究问题所需的数据。他们可能已经研究了效果的大小作为治疗前情绪表达的函数,而不是最大限度地使用数据。正如Schultz et al. (2007)发现,对于轻度和重度用户来说,治疗的效果是不同的,对于已经倾向于发布快乐(或悲伤)消息的人来说,新闻提要的效果可能不同。再利用可能会导致“钓鱼” (Humphreys, Sierra, and Windt 2013)和“p-hacking” (Simmons, Nelson, and Simonsohn 2011) ,但这些在很大程度上可以通过诚实的报道(Simmons, Nelson, and Simonsohn 2011) ,预注册(Humphreys, Sierra, and Windt 2013) ,以及试图避免过度拟合的机器学习方法。