键:
[ , ] Berinsky和他的同事(2012)通过复制三款经典的实验评估的Mechanical Turk部分。复制的经典亚洲取景疾病实验Tversky and Kahneman (1981) 。做你的结果相吻合Tversky和卡尼曼的?做你的结果相吻合Berinsky和他的同事?什么 - 如果有的话 - 这是否告诉我们如何使用的Mechanical Turk进行调查实验?
[ , 在题为有点舌头在脸颊纸“我们要分手,”社会心理学家罗伯特·西奥迪尼的作者之一Schultz et al. (2007)中写道,他从他的教授工作提前退休,这部分是因为他面临的一门学科(心理学)认为主要是进行实验室实验做现场实验所面临的挑战(Cialdini 2009) 。阅读西奥迪尼的纸,写了他一封电子邮件,敦促他重新考虑在数字化实验的可能性光他分手。使用的研究,解决了他的担忧具体的例子。
[ ]为了确定小最初的成功是否锁定或消逝,范·德·Rijt和和他的同事(2014)干预分为四个不同的系统赐予随机抽取参与者的成功,再测这个任意成功的长期影响。你能想到的其他系统中,你可以运行类似的实验?评估的科学价值的问题而言这些系统,算法的混杂(见第2章),和道德。
[ , [实验的结果可依赖于参与者。创建一个实验,然后用两种不同的招募策略亚马逊的Mechanical Turk(MTurk)运行。尽量挑选实验,招募策略,这样的结果会尽可能不同 。例如,您的招聘策略可能是招收在早晨和晚上参加或补偿参与者有高有低工资。这些类型的招聘策略的差异可能会导致参与者和不同的实验结果的不同池。结果是怎样的不同转出?这是什么揭示上MTurk运行实验?
[ , , , ]想象一下,你正计划在情绪传染研究(Kramer, Guillory, and Hancock 2014) 。使用从由较早观察研究结果Kramer (2012)以决定在每个条件的参与者的数目。这两项研究不匹配完美,所以一定要明确列出所有你做的假设:
[ , , , ]回答以上问题,但不是使用由早期的观察研究Kramer (2012)通过使用结果从早期的自然实验Coviello et al. (2014) 。
[ ]都Rijt et al. (2014)和Margetts et al. (2011)都执行该研究的人签署请愿书的过程中实验。比较和对比的设计,这些研究结果。
[ ] Dwyer, Maki, and Rothman (2015)社会规范和proenvironmental行为之间的关系进行了两次现场试验。下面是他们的论文的摘要:
“怎么可能心理科学被用来鼓励proenvironmental行为?在两项研究,目的是在公共浴室推进节能减排行为干预研究的描述性规范和个人责任的影响。在研究1,之前有人进入未占用的公共浴室,标志着该设置的描述性规范的指示灯状态(即开或关)被操纵。与会者显著更可能关灯,如果他们离开,当他们进入。在研究2中,一个附加条件被包括在关断光的范数是由同伙证实,但是参与者本身并不负责将其打开。个人责任放缓对行为的社会规范的影响;当参与者被不负责开灯,规范的影响被削弱。这些结果表明规范和个人的责任如何描述可调节proenvironmental干预措施的有效性。“
阅读他们的论文和设计研究1的复制。
[ , ]在前面的问题的基础上,现在开展你的设计。
[ ]已经有关于使用了来自亚马逊的Mechanical Turk招募实验实质性辩论。与此同时,也出现了有关使用参与者从本科学生群体招募实验实质性辩论。写两页的备忘录比较和对比零工和本科生研究人员参加。你的比较应该包括科学和后勤问题进行了讨论。
[ ]吉姆蛮子的书不受控制的 (2012)是一个奇妙的引入在商业实验的力量。在这本书中,他转述这个故事:
“我在一个真正的商业天才,一个白手起家的亿万富翁谁了实验的力量的深刻,直观的低估一个会议是一次。他的公司花了显著资源,努力创造伟大的橱窗展示,以吸引消费者,并增加销售,传统的智慧说,他们应该。专家仔细测试后设计的设计,并在保持了数年时间显示在销售每一个新的展示设计的无显著因果关系单独测试审查会议。资深营销和销售主管与CEO开会审查全盘这些历史测试结果。呈现所有的实验数据后,他们得出的结论是传统的智慧是错误的,该窗口显示不开车的销售。他们建议采取的措施是减少在这方面的成本和精力。这极大地证明了实验颠覆传统智慧的能力。 CEO的回答很简单:“我的结论是,你的设计师是不是很好。”他的解决办法是增加店面展示设计工作,并获得新的人去做。“ (Manzi 2012, 158–9)
哪种类型的有效性是CEO的关注?
[ ]在前面的问题的基础上,想象一下你在那里的实验结果进行了讨论会议。什么是四个问题,你可以问,每种类型的有效性(统计,建设,内部和外部)?
[ ] Bernedo, Ferraro, and Price (2014)研究中所描述的节水干预的七年效果Ferraro, Miranda, and Price (2011)见图4.10)。在本文中,Bernedo和他的同事还努力通过比较有和治疗后交付没有移动家庭的行为,了解影响背后的机制。即,大致,他们试图看到治疗是否影响了家庭或房主。
[ 在一个后续Schultz et al. (2007) ,舒尔茨和他的同事在两种情况(一间酒店和分时度假公寓)在不同的环境行为(毛巾再利用)进行了一系列的描述和强制规范的作用三个实验(Schultz, Khazian, and Zaleski 2008) 。
[ 响应于Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016)进行了一系列的实验室实验一样,研究电费的设计。这里是他们是如何描述它的摘要:
“在一个以调查为基础的实验中,每个参与者看到了一个假想的电费为家庭具有比较高的用电量,占地约(一)历史使用信息,(二)比较,以邻,(c)与家电击穿历史使用。与会者认为在三种格式的所有信息类型,包括(一)表,(B)条形图,以及(c)图标图表。我们在三个主要的调查报告。首先,消费者了解每种类型的电力使用信息的最当它在一个表中提出,也许是因为表方便简单点读。其次,喜好和意图节约用电是最强的历史使用信息的,独立的格式。第三,降低能源识字个人了解的所有信息少“。
不像其他的后续研究,在感兴趣的主要成果Canfield, Bruin, and Wong-Parodi (2016)报道的行为没有实际行为。什么是更广泛的研究计划,促进能源节约这类研究的优势和劣势?
[ , ] Smith and Pell (2003)是研究证明降落伞的有效性讽刺荟萃分析。他们总结说:
“与许多干预措施旨在防止不健康,降落伞的有效性尚未通过随机对照试验进行严格的评估。循证医学的倡导者批评采取只使用观测数据评估干预措施。我们认为,随机,安慰剂对照,降落伞的交叉试验,如果组织和参加了一项双盲循证医学的最激进的主角,每个人都可能会受益。“
写一个专栏适合普通读者的报纸,如纽约时报 ,对实验证据的拜物教争吵。提供特定的,具体的例子。提示:也见Bothwell et al. (2016)和Deaton (2010)
[ , , ]差分合差异的治疗效果估计可以比差 - 在均值估计更精确。在初创社交媒体公司解释运行的在线实验的差异,在差异方法的价值写了一份备忘录,负责A / B测试工程师。备忘录应包括对问题的陈述,有关下的差异,在差异估计将会跑赢差异,在平均估计的条件的一些直觉,和一个简单的模拟研究。
[ , ]加里·拉夫曼在哈佛商学院成为哈拉斯的CEO,最大的赌场公司在世界上的一个前教授。当他搬到哈拉斯,洛夫曼改变了公司与收集的关于客户行为数据的数量巨大的一个常客般的忠诚度计划。在这个永远在线测量系统之上,公司开始运行试验。例如,他们可能会进行实验,以评估的优惠券为免费酒店晚上,为客户提供特定的赌博模式的影响。下面是如何拉夫曼描述Harrah的日常商业实践实验的重要性:
“这就像你不骚扰女人,你不偷,你必须有一个对照组。这是你可以失去你的工作在Harrah's-未运行的对照组的事情之一。“ (Manzi 2012, 146)
写电子邮件给新员工解释为什么拉夫曼认为它是如此重要的是要有一个对照组。你应该尝试包括一个例子,无论是实际的组成,来说明你的观点。
[ , ]一个新的实验的目的是评估疫苗接种吸收接收短信提醒的作用。 150诊所,每600符合条件的患者,都愿意参加。还有就是100块钱你想使用的每个诊所一个固定的成本,它的成本1美元对要互送短信。此外,您正在使用的任何诊所将测量结果(是否有人接受了疫苗)是免费的。假设你有1000块钱的预算。
[ , ]与在线课程的主要问题是磨损;该课程开始很多学生最终会脱落出。想象一下,你是在一个在线学习平台的工作,并在平台设计师创造,她认为将有助于防止学生辍学过程的可视化进度条。要测试学生的进度条在一个大的计算社会科学课程的效果。解决在实验中可能出现的任何道德问题后,您和您的同事感到担心,该课程可能没有足够的学生可靠地检测进度条的效果。在下面你计算可以假设学生的一半将接收进度条和半没有。此外,你可以假设没有干扰。换句话说,你可以假设参与者只受他们是否接受治疗或控制;他们没有被其他人是否接受治疗或控制(更正式的定义,请参阅影响Gerber and Green (2012)章8)。请跟踪,你做任何额外的假设。
[ , 在一个可爱的纸, Lewis and Rao (2015)生动地说明了即使大量实验的基本统计的限制。纸张原本有挑衅性的标题是“在测量返回广告的近不可能”-shows是多么难以衡量在线广告的投资回报率,甚至与数字实验,涉及数以百万计的客户。更一般地,本文清楚地表明,它是很难估计之中嘈杂结果数据小的处理效果。或diffently指出,文中显示,预计治疗效果将有较大的置信区间当冲击到标准偏差(\(\压裂{\三角洲\酒吧{Y}} {\西格玛} \))的比例是很小的。从本文的重要的一般经验是,从影响小到标准偏差率的实验结果(例如,广告活动的ROI)将是未能如愿。你面临的挑战将是一份备忘录写有人在贵公司的市场部evaluting计划的实验来衡量广告活动的投资回报率。你的备忘录应与计算机模拟的结果的曲线图来支持。
这里,你可能需要一些背景资料。所有这些数值的典型中报道的实际实验的Lewis and Rao (2015)
投资回报率,对在线广告活动的一个关键指标,被定义为从竞选的费用分为运动(从营销活动的运动减去成本毛利)的净利润。例如,一个运动,对销售没有影响将有100%的投资回报和活动的地方产生的利润等于成本将有0-4的投资回报率。
每个客户的平均销售额为$ 7 $ 75的标准偏差。
运动预计将增加相当于增加每个客户0.175 $利润每个客户0.35 $销售。换句话说,毛利率为50%。
实验的计划规模为20万人,一半的治疗组,另一半对照小组。
运动的成本是$ 0.14每名参与者。
撰写备忘录evaluting这个实验。你会推荐推出这一试验按计划进行?如果是这样,为什么?如果没有,你会推荐什么样的变化?
一个好的备忘录将解决这一具体案例;更好的备忘录将从该情况下概括在单程(例如,显示如何决定变化的影响到标准偏差之比的函数);和一个伟大的备忘录将呈现一个完全概括的结果。
[ , ]做一样的前一个问题,但不是模拟,你应该使用分析结果。
[ , , ]做一样的前一个问题,但同时使用模拟和分析结果。
[ , , ]想象一下,你已经写了上面使用或者模拟,分析结果,还是从市场营销部门都-有人建议使用的不同,在不同估计,而不是办法估计的差异说明的备忘录(见第4.6.2节) 。写一个新的更短的备忘录,解释如何在实验后的实验前的销售量和销售额之间的相关性0.4将改变你的结论。
[ , ]为了评估一个新的基于Web的服务事业的有效性,大学职业服务办公室进行入他们学校的最后一年10,000名学生之间的随机对照试验。具有独特的登录信息免费订阅通过独家电子邮件邀请随机选择学生5000发送的,而其他5000名学生都在对照组中,并没有订阅。十二个月后,后续的调查(其中没有非响应)显示,在这两个治疗组和对照组中,70%的学生已获得全职工作在自己的领域(见表4.5)。因此,似乎该基于web的服务是没有效果的。
然而,在大学一个聪明的科学家的数据看着这个数据有点更加紧密地发现只有20%的学生在治疗组有史以来登录到帐户收到电子邮件后。此外,和有些奇怪的是,那些谁已登录到网站中,只有60%已获得全职工作在自己的领域,这是比那没有登录万人的速度比房价的人越来越低控制条件(见表4.6)。
提示:这个问题超出了本章讨论的材料,但解决了实验中的常见问题。因为鼓励参与者参与治疗这种类型的实验设计有时被称为一种鼓励设计 。这个问题是所谓片面违规的例子(见Gerber and Green (2012)通道5)
[ ]进一步检查后,事实证明,在前面的问题中描述的实验是更加复杂。事实证明,在对照组中10%的人访问的服务付费,他们结束了65%(见表4.7)的就业率。
提示:这个问题超出了本章讨论的材料,但解决了实验中的常见问题。这个问题是所谓的双面违规的例子(见Gerber and Green (2012) ,6章)
组 | 尺寸 | 就业率 |
---|---|---|
授权访问网站 | 5000 | 70% |
无权访问网站 | 5000 | 70% |
组 | 尺寸 | 就业率 |
---|---|---|
获准进入网站并登录 | 1000 | 60% |
获准进入的网站,并在从未登录 | 4000 | 85% |
无权访问网站 | 5000 | 70% |
组 | 尺寸 | 就业率 |
---|---|---|
获准进入网站并登录 | 1000 | 60% |
获准进入的网站,并在从未登录 | 4000 | 72.5% |
无权访问的网站,并为此付出了代价 | 500 | 65% |
无权访问的网站,并没有为它付出 | 4500 | 70.56% |