4.6.2在您的设计中建立道德:替换,改进和减少

让与非实验研究实验更换,细化治疗,并减少参加人数实验更加人性化。

我想提供的关于设计数字实验的第二条建议涉及道德规范。正如维基百科上关于barnstars的Restivo和van de Rijt实验所示,降低成本意味着道德将成为研究设计中越来越重要的一部分。除了我将在第6章中描述的指导人类受试者研究的伦理框架之外,设计数字实验的研究人员还可以从不同来源得出伦理观点:为指导涉及动物的实验而制定的伦理原则。特别是,在他们具有里程碑意义的着作“人道实验技术原理”中Russell and Burch (1959)提出了三个应该指导动物研究的原则:取代,改进和减少。我想提出这三个R也可以用于略微修改的形式 - 以指导人体实验的设计。尤其是,

  • 替换:如果可能,用更少侵入性的方法替换实验。
  • 优化:优化治疗,使其尽可能无害。
  • 减少:尽可能减少实验参与者的数量。

为了使这三个R具体化,并展示它们如何可能导致更好和更人性化的实验设计,我将描述一个引发伦理争论的在线实地实验。然后,我将描述三个R如何建议实验设计的具体和实际变化。

Adam Kramer,Jamie Guillroy和Jeffrey Hancock (2014)进行了最具伦理争议的数字现场实验之一,后来被称为“情绪传染”。该实验发生在Facebook上,并受到科学和实际问题。当时,用户与Facebook互动的主要方式是News Feed,这是一组来自用户Facebook好友的经过精算策划的Facebook状态更新。 Facebook的一些批评者认为,由于新闻Feed主要是积极的帖子 - 朋友炫耀他们的最新派对 - 它可能会让用户感到难过,因为相比之下,他们的生活似乎不那么令人兴奋。另一方面,也许效果恰恰相反:也许看到你的朋友过得愉快会让你感到快乐。为了解决这些相互竞争的假设 - 并促进我们对一个人的情绪如何受到朋友的情绪影响的理解 - 克莱默及其同事进行了一项实验。他们将大约70万用户分成四组,持续一周:一个“消极减少”组,负面词语(例如“悲伤”)随机被阻止出现在新闻Feed中;一个“积极性降低”的群体,其中有正面词语(例如,“快乐”)的帖子被随机阻止;和两个对照组。在“消极减少”组的对照组中,帖子被随机阻止,与“消极减少”组相同,但不考虑情绪内容。 “积极性降低”组的对照组以平行方式构建。该实验的设计表明,适当的控制组并不总是没有变化的控制组。相反,有时,对照组接受治疗以产生研究问题所需的精确比较。在所有情况下,通过Facebook网站的其他部分仍然可以向用户提供从新闻Feed中阻止的帖子。

Kramer及其同事发现,对于积极性降低状态的参与者,其状态更新中正面词的百分比下降,负面词的百分比增加。另一方面,对于消极减少状态的参与者,正面词的百分比增加,负面词的百分比减少(图4.24)。然而,这些影响非常小:治疗和对照之间的正面和负面词的差异大约是1,000个单词中的1个。

图4.24:情绪感染的证据(Kramer,Guillory和Hancock,2014)。消极减少状态的参与者使用较少的否定词和更积极的词,而减少积极性的参与者使用更多的否定词和更少的积极词。条形表示估计的标准误差。改编自Kramer,Guillory和Hancock(2014),图1。

图4.24:情绪感染的证据(Kramer, Guillory, and Hancock 2014) 。消极减少状态的参与者使用较少的否定词和更积极的词,而减少积极性的参与者使用更多的否定词和更少的积极词。条形表示估计的标准误差。改编自Kramer, Guillory, and Hancock (2014) ,图1。

在讨论这个实验提出的伦理问题之前,我想用本章前面的一些想法来描述三个科学问题。首先,不清楚实验的实际细节如何与理论主张相关联;换句话说,有关于结构有效性的问题。目前尚不清楚正面和负面的词数实际上是参与者情绪状态的良好指标,因为(1)人们发布的词语是他们情绪的良好指标并且(2)不是很清楚明确研究人员使用的特定情绪分析技术能够可靠地推断出情绪(Beasley and Mason 2015; Panger 2016) 。换句话说,可能存在偏差信号的不良衡量标准。其次,实验的设计和分析没有告诉我们谁受影响最大(即,没有分析治疗效果的异质性)以及机制可能是什么。在这种情况下,研究人员有很多关于参与者的信息,但他们在分析中基本上被视为小部件。第三,该实验中的效果尺寸非常小;治疗和对照条件之间的差异大约是1,000个单词中的1个。在他们的论文中,Kramer及其同事证明了这种规模的影响很重要,因为每天有数亿人访问他们的新闻Feed。换句话说,他们认为,即使每个人的影响都很小,但总的来说它们很大。即使你接受这个论点,仍然不清楚这种大小的影响是否对于关于情绪传播的更普遍的科学问题是重要的(Prentice and Miller 1992)

除了这些科学问题之外,就在本文发表在“美国国家科学院院刊”上几天之后,研究人员和新闻界都引起了极大的强烈抗议(我将在第6章中更详细地描述这场辩论中的论点)。 )。本次辩论中提出的问题导致期刊发表了一篇关于伦理学和研究伦理审查过程的罕见的“关注的编辑表达” (Verma 2014)

鉴于关于情绪传染的背景,我现在想表明三个R可以为实际研究提出具体的,实际的改进(无论你个人如何考虑这个特定实验的伦理)。第一个R是替代品 :如果可能的话,研究人员应该寻求用侵入性较小且风险较高的技术取代实验。例如,研究人员可以利用自然实验 ,而不是进行随机对照实验 。如第2章所述,自然实验是世界上发生的事情,其近似于治疗的随机分配(例如,用于决定谁将被选入军队的抽奖)。自然实验的伦理优势是研究人员无需提供治疗:环境为您做到了这一点。例如,几乎与Emotional Contagion实验同时, Lorenzo Coviello et al. (2014)正在利用所谓的情绪传染自然实验。 Coviello及其同事发现,在下雨的日子里,人们会发布更多的负面词语和更少的正面词汇。因此,通过使用天气的随机变化,他们能够在不需要干预的情况下研究新闻Feed中的变化的影响。好像天气正在为他们进行实验。他们的程序细节有点复杂,但对我们来说最重要的一点是,通过使用自然实验,Coviello及其同事能够了解情绪的传播,而无需进行自己的实验。

三个R中的第二个是精炼的 :研究人员应该寻求改进他们的治疗方法,使它们尽可能无害。例如,研究人员可以提升积极或消极的内容,而不是阻止正面或负面的内容。这种提升设计将改变参与者新闻稿的情感内容,但它会解决评论家所表达的一个问题:实验可能导致参与者错过他们的新闻Feed中的重要信息。通过Kramer及其同事使用的设计,一条重要的信息可能会被阻止,而不是。然而,通过提升设计,将被取代的信息将是那些不那么重要的信息。

最后,第三个R 减少 :研究人员应该设法将实验参与者的数量减少到达到其科学目标所需的最低限度。在模拟实验中,由于参与者的可变成本高,这种情况自然发生。但是在数字实验中,特别是那些成本可变的研究,研究人员不会对实验的规模造成成本限制,这有可能导致不必要的大型实验。

例如,Kramer及其同事可以使用关于其参与者的治疗前信息 - 例如治疗前发布行为 - 以使他们的分析更有效。更具体地说,不是比较治疗和控制条件中阳性词的比例,Kramer及其同事可以比较条件之间阳性词比例的变化 ;一种有时称为混合设计的方法(图4.5),有时也称为差异差异估计。也就是说,对于每个参与者,研究人员可以创建变化分数(治疗后行为\(-\)治疗前行为),然后比较治疗和控制条件下参与者的变化分数。这种差异差异方法在统计上更有效,这意味着研究人员可以使用更小的样本获得相同的统计置信度。

如果没有原始数据,很难确切地知道差异估计器在这种情况下会有多高效。但我们可以查看其他相关实验以获得一个粗略的想法。 Deng et al. (2013)报道,通过使用一种形式的差异差异估计,他们能够在三个不同的在线实验中将他们的估计方差减少约50%; Xie and Aurisset (2016)报告了类似的结果。这种50%的方差减少意味着,如果他们使用稍微不同的分析方法,情绪传染研究人员可能能够将他们的样本切成两半。换句话说,通过分析的微小变化,35万人可能不会参与实验。

在这一点上,您可能想知道为什么研究人员应该关心是否有35万人不必要地处于情绪传染。情绪传染有两个特点,它们适合过大的尺寸,许多数字现场实验都有这些特征:(1)实验是否会对至少一些参与者造成伤害以及(2)参与是不确定的不是自愿的。尝试保持具有尽可能小的这些特征的实验似乎是合理的。

需要明确的是,减少实验规模的愿望并不意味着您不应该进行大量的零可变成本实验。这只意味着您的实验不应超过实现科学目标所需的范围。确保实验尺寸合适的一个重要方法是进行功率分析 (Cohen 1988) 。在模拟时代,研究人员通常进行功效分析,以确保他们的研究不会太小(即功率不足)。然而,现在,研究人员应该进行功效分析,以确保他们的研究不会太大(即过度供电)。

总之,三个R-替代,改进和减少 - 提供原则,可以帮助研究人员将道德建设成他们的实验设计。当然,对情绪传染的这些可能的改变中的每一个都引入了权衡。例如,来自自然实验的证据并不总是像随机实验那样干净,并且提升内容在逻辑上可能比阻止内容更难实现。因此,建议这些变化的目的不是为了猜测其他研究人员的决定。相反,它是为了说明三个R如何在现实情况下应用。事实上,在研究设计中,权衡问题一直存在,而在数字时代,这些权衡将越来越多地涉及道德考虑。稍后,在第6章中,我将提供一些原则和道德框架,可以帮助研究人员理解和讨论这些权衡。