4.4.1有效性

有效性是指实验的结果多少支持更一般性的结论。

没有实验是完美的,研究人员已经开发了一个广泛的词汇来描述可能的问题。 有效性是指特定实验的结果支持更一般结论的程度。社会科学家发现将有效性分为四种主要类型是有帮助的:统计结论有效性,内部有效性,结构有效性和外部有效性(Shadish, Cook, and Campbell 2001, chap. 2) 。掌握这些概念将为您提供批评和改进实验设计和分析的心理检查表,它将帮助您与其他研究人员进行交流。

统计结论的有效性围绕是否正确地进行了实验的统计分析。在Schultz et al. (2007)的背景下Schultz et al. (2007) ,这样的问题可能集中在他们是否正确计算了他们的\(p\) 。需要设计和分析实验的统计原理超出了本书的范围,但它们在数字时代并没有根本改变。然而,改变的是,数字实验中的数据环境创造了新的机会,例如使用机器学习方法来估计治疗效果的异质性(Imai and Ratkovic 2013)

内部有效性围绕实验程序是否正确执行。回到Schultz et al. (2007)的实验Schultz et al. (2007) ,关于内部有效性的问题可能围绕随机化,治疗的提供和结果的测量。例如,您可能担心研究助理没有可靠地读取电表。事实上,舒尔茨和他的同事们对这个问题很担心,他们有两次读数的样本;幸运的是,结果基本相同。一般来说,Schultz及其同事的实验似乎具有很高的内部效度,但情况并非总是如此:复杂的现场和在线实验经常遇到问题,实际上向正确的人提供正确的治疗并衡量每个人的结果。幸运的是,数字时代可以帮助减少对内部有效性的担忧,因为现在更容易确保将治疗传递给应该接受治疗的人并测量所有参与者的结果。

围绕数据与理论结构之间的匹配构建有效性中心。正如第2章所讨论的,构造是社会科学家推理的抽象概念。不幸的是,这些抽象概念并不总是有明确的定义和测量。回到Schultz et al. (2007) ,关于强制性社会规范可以降低用电量的说法要求研究人员设计一种能够操纵“禁令社会规范”(例如,表情符号)和衡量“用电量”的治疗方法。在模拟实验中,许多研究人员设计了自己的治疗方法并测量了自己的结果这种方法确保实验尽可能地与正在研究的抽象结构相匹配。在数字化实验中,研究人员与公司或政府合作提供治疗并使用永远在线的数据系统来衡量结果,实验与理论结构之间的匹配可能不那么紧密。因此,我认为结构有效性在数字实验中往往比模拟实验更受关注。

最后, 外部有效性的核心是该实验的结果是否可以推广到其他情况。回到Schultz et al. (2007) ,人们可以问这个相同的想法 - 为人们提供与他们的同龄人有关的能量使用信息以及禁令规范的信号(例如,表情符号) - 如果以不同的方式完成,将会减少能源使用在不同的环境中。对于大多数设计良好且运行良好的实验,对外部有效性的担忧是最难解决的问题。过去,这些关于外部有效性的辩论通常只涉及一群人坐在一个房间里试图想象如果程序是以不同的方式,在不同的地方,或与不同的参与者完成会发生什么。幸运的是,数字时代使研究人员能够超越这些无数据推测,并凭经验评估外部有效性。

因为Schultz et al. (2007)的结果Schultz et al. (2007)非常令人兴奋,一家名为Opower的公司与美国公用事业公司合作,更广泛地部署治疗方案。基于Schultz et al. (2007)的设计Schultz et al. (2007) ,Opower创建了定制的家庭能源报告,其中包含两个主要模块:一个显示家庭用电相对于邻居的电力使用情况,另一个提供降低能耗的提示(图4.6)。然后,与研究人员合作,Opower进行了随机对照实验,以评估这些家庭能源报告的影响。尽管这些实验中的治疗通常是通过老式的蜗牛邮件进行物理传递 - 但结果是使用物理世界中的数字设备(例如功率计)来测量的。此外,Opower实验都是与电力公司合作完成的,而不是通过每个房子的研究助理手动收集这些信息,使研究人员能够获得电力读数。因此,这些部分数字现场实验以低可变成本大规模运行。

图4.6:家庭能源报告有一个社会比较模块和一个行动步骤模块。经Allcott(2011),图1和图2许可转载。

图4.6:家庭能源报告有一个社会比较模块和一个行动步骤模块。经Allcott (2011) ,图1和图2许可Allcott (2011)

在第一组涉及来自10个不同地点的60万户家庭的实验中, Allcott (2011)发现家庭能源报告降低了电力消耗。换句话说,来自更大,地理上更多样化的研究的结果在质量上与Schultz et al. (2007)的结果相似Schultz et al. (2007) 。此外,在随后的研究中,涉及来自101个不同地点的800万个额外家庭, Allcott (2015)再次发现家庭能源报告持续降低电力消耗。这组更大的实验也揭示了一个有趣的新模式,在任何一个实验中都看不到:在后面的实验中效果的大小下降了(图4.7)。 Allcott (2015)推测这种下降的发生是因为随着时间的推移,治疗正在应用于不同类型的参与者。更具体地说,具有更环保客户的公用事业公司更有可能更早地采用该计划,并且他们的客户对治疗更敏感。由于环保型客户较少的公用事业公司采用该计划,其效力似乎有所下降。因此,正如实验中的随机化确保治疗组和对照组相似,研究地点的随机化确保了估计可以从一组参与者推广到更一般的人群(回想第3章关于抽样)。如果研究地点不是随机抽样的,那么即使从完美设计和实施的实验中进行推广也可能存在问题。

图4.7:111项实验结果,测试家庭能源报告对电力消耗的影响。在以后采用该计划的地点,它往往具有较小的影响。 Allcott(2015)认为,这种模式的主要来源是拥有更多环保客户的网站更有可能更早地采用该计划。改编自Allcott(2015),图3。

图4.7:111项实验结果,测试家庭能源报告对电力消耗的影响。在以后采用该计划的地点,它往往具有较小的影响。 Allcott (2015)认为,这种模式的主要来源是拥有更多环保客户的网站更有可能更早地采用该计划。改编自Allcott (2015) ,图3。

Allcott (2011)这111个实验 - 在Allcott (2011)的10个和在Allcott (2015) 101个 - 涉及来自美国各地的大约850万个家庭。他们一致表明,家庭能源报告降低了平均电力消耗,这一结果支持了Schultz及其同事在加利福尼亚州300个家庭的原始发现。除了复制这些原始结果之外,后续实验还表明效果的大小因位置而异。这组实验还说明了关于部分数字现场实验的两个更一般的观点。首先,当运行实验的成本很低时,研究人员将能够凭经验解决对外部有效性的担忧,如果结果已经被永远在线的数据系统测量,就会发生这种情况。因此,它表明研究人员应该留意已经记录的其他有趣和重要的行为,然后在现有的测量基础设施之上设计实验。其次,这组实验提醒我们,数字现场实验不只是在线;越来越多,我希望他们将无处不在,在建筑环境中通过传感器测量许多结果。

四种类型的有效性 - 统计结论有效性,内部有效性,结构有效性和外部有效性 - 提供心理检查表,以帮助研究人员评估特定实验的结果是否支持更一般的结论。与模拟年龄实验相比,在数字时代的实验中,应该更容易根据经验来解决外部有效性,并且还应该更容易确保内部有效性。另一方面,在数字时代实验中,构造有效性问题可能更具挑战性,特别是涉及与公司合作的数字现场实验。