更多評論

這部分被設計為用作基準,而不是被理解為敘述。

  • 簡介(第4.1節)

關於社會研究因果關係的問題往往錯綜複雜。對於基於因果圖一個基本的方法來因果關係,看Pearl (2009)以及基於潛在結果的基本方法,請參見Imbens and Rubin (2015)本章在技術附錄)。對於這兩種方法之間的比較,看看Morgan and Winship (2014) 。對於正式的方法來定義一個混雜因素,請參閱VanderWeele and Shpitser (2013)

在本章中,我創造了什麼似乎像我們做的實驗性和非實驗數據的因果估計能力之間有亮線。在現實中,我認為區別是較模糊。例如,每個人都接受吸煙可以導致即使我們從來沒有做過一項隨機對照試驗,迫使人們吸煙的癌症。有關從非實驗數據做因果估計優秀的長篇分析看Rosenbaum (2002) Rosenbaum (2009)Shadish, Cook, and Campbell (2001) ,和Dunning (2012)

第1章和第2 Freedman, Pisani, and Purves (2007)提供了一個明確的引入實驗,對照實驗之間的差異,並隨機對照實驗。

Manzi (2012)提供了一個引人入勝,可讀性引入隨機對照試驗的哲學和統計基礎。它還提供了業務試驗的權力有趣的真實世界的例子。

  • 什麼是實驗? (4.2節)

Casella (2008)Box, Hunter, and Hunter (2005)Athey and Imbens (2016b)實驗設計和分析的統計方面提供很好的介紹。此外,也有許多不同的領域中使用的實驗出色的處理:經濟學(Bardsley et al. 2009) ,社會學(Willer and Walker 2007; Jackson and Cox 2013) ,心理學(Aronson et al. 1989)政治學(Morton and Williams 2010)和社會政策(Glennerster and Takavarasha 2013)

受試者招募(例如,採樣)的重要性往往被低估的實驗研究。但是,如果治療的效果是在人口異質性,那麼取樣是至關重要的。 Longford (1999)明確提到這一點時,他主張為研究人員實驗思維與隨意抽樣人口調查。

  • 實驗兩個方面:實驗場和模數(4.3節)

我的實驗室和田間試驗之間提出的二分法有點簡化。事實上,其他研究人員提出更詳細的類型學,在分開的各種形式的現場實驗特別是那些(Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) 。此外,還有其他兩種類型的社會科學家進行的實驗不完全滿足需要的實驗室和現場兩分法:調查實驗和社會實驗調查實驗 ,利用現有調查的基礎實驗和比較的替代版本響應同樣的問題(有些調查實驗,在第3章提交);更多關於調查實驗看Mutz (2011)社會實驗是實驗中的治療方法是只能由政府來實施一些社會政策。社會實驗是密切相關的方案評價。欲了解更多有關的政策實驗,見Orr (1998) Glennerster and Takavarasha (2013) ,和Heckman and Smith (1995)

許多論文都比較抽象實驗室和田間試驗(Falk and Heckman 2009; Cialdini 2009)和政治學的具體實驗成果方面(Coppock and Green 2015)經濟學(Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013)和心理學(Mitchell 2012) Jerit, Barabas, and Clifford (2013)提供了比較從實驗室和田間試驗結果一個很好的研究設計。

有關參與者改變他們的行為,因為他們知道他們正在密切觀察有時也被稱為需求效應 ,他們已經在心理學研究了擔憂(Orne 1962)和經濟學(Zizzo 2009)雖然大多與實驗室的實驗有關,這些相同的問題,可能會導致田間試驗的問題也是如此。事實上, 需求效應有時也稱為霍桑效應 ,即從田間試驗得出的一個術語,特別是著名的照明實驗,在1924年開始在西方電氣公司的霍桑工廠(Adair 1984; Levitt and List 2011) 。既需求效應山楂效果密切相關的第2章中討論了反應性測量的概念(也參見Webb et al. (1966)

田間試驗的歷史在經濟學中被描述(Levitt and List 2009) ,政治學(Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012)心理學(Shadish 2002)和公共政策(Shadish and Cook 2009) 。其中,現場實驗很快就成為突出的社會科學的一個領域是國際化發展。對於經濟內的工作積極的評價看Banerjee and Duflo (2009)和一個重要的評估看Deaton (2010) 。對於政治學這項工作的綜述見Humphreys and Weinstein (2009) 。最後,參與現場試驗的倫理挑戰進行了探討在政治學(Humphreys 2015; Desposato 2016b)和發展經濟學(Baele 2013)

在這一章,我建議預處理信息可以用來改進估計的治療效果的精確度,但是有有關此方法的一些爭論: Freedman (2008) Lin (2013)Berk et al. (2013) ;看到Bloniarz et al. (2016)了解更多信息。

  • 超越簡單的實驗(4.4節)

我選擇把重點放在三個概念:有效性,治療效果異質性和機制。這些概念在不同領域的不同的名稱。例如,心理學家傾向於注重調解員主持人超越簡單的實驗移動(Baron and Kenny 1986) 。調解員的想法被我稱之為機制捕獲,和主持人的想法被我稱之為外部效度(例如,將如果它是在不同的情況下運行實驗的結果不同),而且治療效果異質性(捕獲例如,對於一些人比其他人)更大的影響。

的實驗Schultz et al. (2007)展示了如何理論,社會可以用來設計有效的干預措施。有關理論在設計有效的干預措施的作用更普遍的說法,看到Walton (2014)

  • 有效性(第4.4.1節)

內部和外部效度的概念首次引入Campbell (1957) 。見Shadish, Cook, and Campbell (2001)進行更詳細的歷史和統計結論效度,內部效度進行了認真的闡述,結構效度和外部效度。

對於在實驗中涉及到統計結論效度問題的概述見Gerber and Green (2012)對於社會科學的角度),並Imbens and Rubin (2015)對於統計的角度)。在網上現場實驗特別是出現統計結論效度的一些問題包括,如與相關數據建立的置信區間計算有效的方法問題(Bakshy and Eckles 2013)

內部有效性也很難保證在複雜的現場實驗。見,例如, Gerber and Green (2000)Imai (2005)Gerber and Green (2005)約一個複雜的現場實驗有關投票的實施辯論。 Kohavi et al. (2012)Kohavi et al. (2013)提供了一個引入區間有效性在線現場實驗的挑戰。

內部效度的一個主要問題是隨機的問題。潛在檢測與隨機化問題的一種方法是比較可觀察到的性狀的治療組和對照組。這種比較被稱為平衡檢查 。見Hansen and Bowers (2008)的統計方法來平衡檢查,看看Mutz and Pemantle (2015)關於平衡檢查擔憂。例如,使用一個平衡檢查Allcott (2011)發現,有一些證據表明,隨機未正確在三個實驗中的一些OPower實驗的實現(見表2;位點2,6和8)。對於其他方法,請參閱Imbens and Rubin (2015) ,第21章。

有關內部效度等主要問題是:1)片面不達標,其中治療組中不是每個人實際接受的治療,2)雙面不達標,其中治療組中不是每個人都得到治療和一些人,對照組中接受治療,3)的磨損,其中,結果不為一些與會者測定,和4)的干擾,其中,治療從人溢出的處理條件,以人在控制條件。見Gerber and Green (2012)第5章,第6,第7和8的更多關於這些問題。

欲了解更多關於建構效,看到Westen and Rosenthal (2003) ,以及更多的大數據源的結構效度, Lazer (2015) ,這本書的第二章。

外部效度的一個方面就是干預測試設置。 Allcott (2015)提供選址偏見仔細理論和實證的治療。這個問題也被討論Deaton (2010) 。除了 ​​在許多網站被複製,家庭能源報告的干預也被單獨由多個研究小組的研究(如Ayres, Raseman, and Shih (2013)

  • 治療效果異質性(第4.4.2節)

對於在田間試驗治療效果異質性的一個很好的概述,請參見第12章Gerber and Green (2012)對於介紹給在醫學臨床試驗治療效果不均勻,見Kent and Hayward (2007)Longford (1999)Kravitz, Duan, and Braslow (2004) 。的治療效果的異質性一般集中於基於預處理特性的差異。如果你有興趣的基礎上後處理結果的異質性,那麼更複雜的技術途徑,需要如主分層(Frangakis and Rubin 2002) ;見Page et al. (2015)進行審查。

許多研究者估計使用線性回歸治療效果的異質性,但新的方法依賴於機器學習,比如Green and Kern (2012)Imai and Ratkovic (2013)Taddy et al. (2016)Athey and Imbens (2016a)

有關於因多重比較問題,“釣魚”。還有各種各樣的統計方法,可以幫助有關多重比較地址的擔憂影響異質性的研究結果持懷疑態度(Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016)一種方法有關“釣魚”的擔憂是預註冊,這是成為心理越來越普遍(Nosek and Lakens 2014) ,政治學(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013)和經濟學(Olken 2015)

在研究的Costa and Kahn (2013)只有約一半在實驗的住戶能夠被鏈接到人口統計信息。感興趣的細節和可能出現的問題這一分析的讀者應該參考原來的紙。

  • 機制(第4.4.3節)

機制是非常重要的,但他們練得非常困難的學習。有關機制的研究密切相關的調解員在心理學研究中(也可以查看VanderWeele (2009)兩個概念之間精確的比較)。統計方法來發現機制,如在開發的方法Baron and Kenny (1986)是相當普遍的。不幸的是,事實證明,這些程序依賴於某些嚴格的假設(Bullock, Green, and Ha 2010)當有多種機制受到影響,正如人們所預料在很多情況下(Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014)Imai et al. (2011)Imai and Yamamoto (2013)提供了一些改進統計方法。此外, VanderWeele (2015)提供了一些重要成果,包括全面的方法敏感性分析一本書長度的治療。

一個單獨的方法集中在試圖操縱直接機制(例如,給水手維生素C)的實驗。不幸的是,在許多社會科學的設置,往往有多種機制,這是很難設計出改變一個不改變其他治療。一些方法來改變實驗機制中描述Imai, Tingley, and Yamamoto (2013)Ludwig, Kling, and Mullainathan (2011)Pirlott and MacKinnon (2016)

最後,機制也有很長的歷史,科學的理念為所描述Hedström and Ylikoski (2010)

  • 使用現有環境(第4.5.1.1)

欲了解更多關於使用函授學習和審計研究,以衡量歧視看到Pager (2007)

  • 建立自己的實驗(第4.5.1.2節)

招募參與者,你建立實驗最常用的方法是亞馬遜的Mechanical Turk(MTurk)。由於傳統的室內實驗,支付人MTurk模仿方面來完成,他們不會為自由許多研究人員完成的任務已經使用零工(上MTurk工人)作為參與者人類受試者的實驗結果更快,更便宜的數據採集,比傳統的已經開始校內實驗室實驗(Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012)

與參與者MTurk招募實驗的最大優勢是後勤:他們讓研究人員能夠快速並根據需要徵集參與者。而實驗室的實驗可能需要數週運行和田間試驗可能需要幾個月來設置,參與者來自MTurk招募實驗可以在幾天運行。例如, Berinsky, Huber, and Lenz (2012)能夠招募受試者400的單日參加8分鐘的實驗。此外,這些與會者可被招募為幾乎任何目的(包括調查和大規模協作,在第3章中討論和5)。這便於招聘意味著,研究人員可以快速地連續運行的相關實驗序列。

從MTurk招募參與者為自己的實驗之前,有知道的四個重要的事情。首先,許多研究人員涉及零工實驗非特異性的懷疑。因為這種懷疑是不特定的,這是很難用證據來反駁。然而,經過幾年的使用零工的研究,我們現在可以得出結論,這種懷疑是不是特別必要的。已經有許多研究零工的人口統計數據進行比較,以其他人群和許多研究比較實驗結果與零工從其他人群的結果。鑑於所有這些工作,我認為你去想它的最好辦法是,零工都是合理的便利樣本,很像學生,但稍微更加多樣化(Berinsky, Huber, and Lenz 2012)因此,正如學生們一個合理的人口對一些但不是所有的實驗研究,零工都是合理的人口為一些但不是所有的研究。如果你打算用零工的工作,然後是有意義的閱讀許多比較研究,並了解他們的細微差別。

其次,研究人員已經開發出越來越多的土耳其人實驗內部效度的最佳實踐,你應該了解和遵循這些最佳實踐(Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012)例如,鼓勵使用零工研究人員使用安檢員刪除不留神參與者(Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016)但也請看DJ Hauser and Schwarz (2015b)DJ Hauser and Schwarz (2015a) )。如果不刪除不留神參與者,那麼治療的任何影響,可以通過參加不留神引入的噪聲衝了出去,並在實踐不留神參與者的數量可能是巨大的。在胡貝爾和他的同事的實驗(2012)參加者約30%失敗的基本關注安檢員。與普通零工另一個問題是,非天真參與者(Chandler et al. 2015)

第三,相對於某些其他形式的數字實驗,MTurk實驗不能規模; Stewart et al. (2015)估計,在任何給定的時間只有大約7000人在MTurk。

最後,你應該知道,MTurk是有自己的規則和規範社區(Mason and Suri 2012)以同樣的方式,你會嘗試找出哪裡你要運行實驗,一個國家的文化,你應該嘗試找出更多關於文化和零工規範(Salehi et al. 2015)而且,你應該知道,零工會談論你的實驗,如果你做的東西不當或不道德(Gray et al. 2016)

MTurk是招募參與者您的實驗非常方便的方式,無論是實驗室似的,如Huber, Hill, and Lenz (2012)以上場狀,如Mason and Watts (2009) Goldstein, McAfee, and Suri (2013)Goldstein et al. (2014)Horton and Zeckhauser (2016)Mao et al. (2016)

  • 構建自己的產品(第4.5.1.3)

如果您想嘗試創建自己的產品,我建議你閱讀由MovieLens組提出的建議Harper and Konstan (2015) 。從他們的經驗的一個重要觀點是,每個成功的​​項目還有很多,很多失敗。例如,MovieLens集團推出的其他產品如為完全失敗GopherAnswers (Harper and Konstan 2015) 。研究人員試圖建立一個產品失敗的另一個例子是愛德華·卡斯特羅諾瓦試圖建立一個名為雅頓的網絡遊戲。儘管在資金$ 250,000,該項目是一個失敗(Baker 2008) 。像GopherAnswers和雅頓項目可惜不是像MovieLens項目更為常見。最後,當我說我不知道,已經成功地建立產品的重複實驗的其他研究人員在這裡是我的標準:1)參加者使用,因為它提供了它們(例如,他們不支付的產品,他們是不是志願者幫助科學)和2)的產物已被用於多個不同的實驗(即不相同的實驗多次以不同參與者池)。如果你知道的其他例子,請讓我知道。

  • 與強大的合作夥伴(第4.5.2節)

我聽說在高科技公司經常討論的巴斯德象限的想法,它有助於在谷歌組織的研究工作(Spector, Norvig, and Petrov 2012)

債券及其同事的研究(2012)也試圖來檢測那些誰接待他們的朋友這些治療的效果。因為實驗的設計中,這些溢出難以乾淨檢測;有興趣的讀者應該看到Bond et al. (2012)為一個更深入的討論。這個實驗是在政治科學實驗的努力,鼓勵投票的悠久傳統的一部分(Green and Gerber 2015) 。這些獲取出的非表決實驗是常見的一部分,因為它們是在巴斯德的象限。也就是說,有很多人誰是積極增加投票和投票可以是一個有趣的行為測試行為改變和社會影響力更普遍的理論。

其他研究人員已經與有關夥伴組織,如政黨,非政府組織和企業運行的田間試驗提供了諮詢意見(Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002)其他人提供有關與組織的夥伴關係如何影響研究設計諮詢(Green, Calfano, and Aronow 2014; King et al. 2007) 。合作夥伴也能導致倫理問題(Humphreys 2015; Nickerson and Hyde 2016)

  • 設計建議(第4.6節)

如果你打算創建運行實驗之前的分析計劃,我建議你閱讀報告準則開始。駙馬準則(的審判統一標準報告)的醫藥研發(Schulz et al. 2010)和修改社會研究(Mayo-Wilson et al. 2013) 。相關的一系列指導方針已由中華實驗政治學的發展編輯人員(Gerber et al. 2014) (見Mutz and Pemantle (2015)Gerber et al. (2015)最後,報告準則已經發展心理學(Group 2008) ,並且還看Simmons, Nelson, and Simonsohn (2011)

如果你創建一個分析計劃,你應該考慮預註冊,因為註冊前將增加的信心,其他人在你的結果。此外,如果你是一個合作夥伴的合作,這將限制你的伴侶的看到結果後更改分析能力。預登記正在成為心理越來越普遍(Nosek and Lakens 2014) ,政治學(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013)和經濟學(Olken 2015)

在創建您預先分析計劃,你應該知道,有些研究人員還使用回歸和相關辦法,以提高估計治療效果的精度,有關於這種方法的一些爭論: Freedman (2008)Lin (2013) ,和Berk et al. (2013) ;看到Bloniarz et al. (2016)了解更多信息。

在線田間試驗設計具體的建議還提出在Konstan and Chen (2007)以及Chen and Konstan (2015)

  • 創建零可變成本數據(第4.6.1節)

欲了解更多關於MusicLab實驗,看Salganik, Dodds, and Watts (2006) Salganik and Watts (2008) Salganik and Watts (2009b) Salganik and Watts (2009a)Salganik (2007) 。欲了解更多關於贏者通吃的市場,看到Frank and Cook (1996) 。欲了解更多關於解開運氣和技巧更普遍,見Mauboussin (2012) Watts (2012)Frank (2016)

還有一個辦法,以消除研究者應謹慎使用支付參與者:徵兵。在許多網上現場實驗的參與者基本上都編入實驗和永不補償。這種方法的例子包括雷斯蒂沃和範·德·Rijt的(2012)在維基百科和邦德和他的同事的獎勵實驗(2012)鼓勵人們投票的實驗。這些實驗真的沒有零可變成本,它們具有零可變成本給研究人員。即使許多這些實驗的成本是非常小的每個參與者,小成本強加給參與者數量龐大的可以迅速增加。運行大量在線實驗研究人員經常說,當適用於許多人這些小效果可以成為重要的證明的小預計治療效果的重要性。完全相同的思維適用於研究人員對參與者付​​出代價。如果您的實驗導致一百萬人浪費一分鐘後,實驗是不是任何特定的人非常有害的,但在總量已經浪費了近兩年時間。

打造零可變成本支付給與會者的另一種方法是使用一個彩票,這也得到了調查研究使用的方法(Halpern et al. 2011)最後,所有關於設計愉快的用戶體驗看Toomim et al. (2011)

  • 替換,優化,減少(第4.6.2節)

下面是三個R的定義原來,從Russell and Burch (1959)

“更換意味著無知覺的物質生活意識的高等動物替代。還原裝置中使用,以獲得一個給定的量和精度的信息的動物的數量減少。細化裝置中的發病率或施加到那些仍然必須使用動物不人道程序嚴重性的任何下降“。

三個R的,我提議不能取代在第6章中描述的道德原則相反,它們是人體實驗的設置比較詳細的一個版本的這些原則,行善特異性。

當考慮情緒感染,有三個非道德問題解釋這個實驗時要牢記。首先,它是不清楚如何在實驗的實際細節連接到理論主張;換句話說,還有約構想效度的問題。目前尚不清楚的正面和負面的字數實際上是參與者的情感狀態的一個很好的指標,因為1)它是不明確的,人們帖子中的文字是自己的情緒的良好指標; 2)目前尚不清楚該,研究人員使用的特定情感分析技術能夠可靠地推斷出情緒(Beasley and Mason 2015; Panger 2016)換句話說,可能存在一個偏置信號的不好的量度。二,實驗的設計和分析,並沒有告訴我們誰是影響最大(即,沒有治療效果異質性分析),什麼機制可能。在這種情況下,研究人員有許多有關參與者的信息,但它們如在分析窗口部件基本上是處理。第三,在這個實驗中的作用大小是非常小的;治療和控制條件之間的差異是在1000字約1。在他們的論文,克萊默和同事使這一尺寸的效果是很重要的,因為數億人訪問他們的新聞每天飼料的情況。換言之,他們認為即使是小的每個人,他們是在聚合大的效果。即使你接受這樣的說法,它是目前尚不清楚是否對有關情緒傳染更普遍的科學問題這種規模的影響是非常重要的。欲了解更多關於哪裡小影響是重要的情況看Prentice and Miller (1992)

在第一個R(更換),方面比較情緒感染實驗(Kramer, Guillory, and Hancock 2014)和情緒感染的自然實驗(Coviello et al. 2014)提供了有關涉及從移動的取捨一些基本的經驗教訓實驗自然實驗(和其他方法,如匹配試圖接近在非實驗數據的實驗中,見第2章)。除了倫理好處,從實驗切換到非實驗研究也能使研究人員研究,他們是後勤無法部署治療。這些道德和後勤的好處是有代價的,但是。隨著自然實驗的研究人員有超過之類的東西參與者,隨機招募較少的控制和治療的性質。例如,降雨作為治療的一個限制是,它都增加了積極性和減少消極。在實驗研究中,但是,克萊默和他的同事們能夠獨立調整的積極和消極。

通過所使用的特定方法Coviello et al. (2014)中作了進一步闡述Coviello, Fowler, and Franceschetti (2014) 。對於一個介紹工具變量看Angrist and Pischke (2009)不太正規的)或Angrist, Imbens, and Rubin (1996)更正式的)。對於工具變量的評估持懷疑態度看Deaton (2010) ,以及介紹了與弱工具(雨是一個薄弱儀)工具變量,看Murray (2006)

更一般地,一個很好的介紹自然實驗是Dunning (2012)Rosenbaum (2002) Rosenbaum (2009) ,和Shadish, Cook, and Campbell (2001)提供了有關估計沒有實驗因果效果好主意。

在第二個R(細化)方面,也有考慮從阻塞職位,以提高崗位不斷變化的情緒感染的設計,當科學和後勤權衡。例如,它可能是在技術執行動態消息的使得它基本上更加容易做一個實驗以阻斷訊息,而不是一個實驗升壓訊息的情況下(請注意,用封閉訊息的實驗可以作為一個層來實現新聞供給系統的頂部,而不需要任何的底層系統的變化)。科學,但是,通過實驗解決的理論沒有清楚地表明在另一種設計。

不幸的是,我不知道之前關於阻塞和拉動了新聞聯播內容的相對優點實質性研究。此外,我還沒有看到多少研究如何優化處理,使它們危害較小;唯一的例外是Jones and Feamster (2015) ,其中認為互聯網審查的測量的情況下,(一個話題我在第6章中關係安可研究討論(Burnett and Feamster 2015; Narayanan and Zevenbergen 2015)

在第三個R(還原)而言,一個很好的介紹傳統動力分析是Cohen (1988) 。預處理協變量可以包括在設計階段和實驗的分析階段;第四章Gerber and Green (2012)提供了一個很好的介紹兩種方法,和Casella (2008)提供了一個更深入的治療。使用在隨機化此預處理信息技術通常稱為被阻止的實驗設計或分層實驗設計(該術語並不跨社區一致地使用);這些技術都深深涉及到第3章中討論見的分層抽樣技術Higgins, Sävje, and Sekhon (2016)以獲得更多關於在大量實驗使用這些設計。預處理協變量也可以被包括在分析階段。 McKenzie (2012)探討了差合的差異的方法來更詳細地分析田間試驗。見Carneiro, Lee, and Wilhelm (2016)以獲得更多關於不同的做法,以提高治療效果估計精度之間的權衡。最後,決定何時是否嘗試包括在設計或分析階段(或兩者)的前處理的協變量,也有考慮幾個因素。在那裡的研究人員想表明他們是不是“釣魚”的設置(Humphreys, Sierra, and Windt 2013) ,採用在設計階段預處理協變量可以是有益的(Higgins, Sävje, and Sekhon 2016)在參加者依次到達,尤其是網絡領域的實驗中,使用在設計階段預處理信息可能是困難的後勤的情況下,參見例如Xie and Aurisset (2016)

這是值得加入了為什麼差別,在異能這麼多效益比的差異,在均值位的直覺。許多在線結果具有非常高的方差(見例如Lewis and Rao (2015)Lamb et al. (2015)並隨著時間的推移相對穩定。在這種情況下,變化得分將具有基本上較小方差,增加了統計測試的力量。一個原因這一逼近,不使用更經常的是,之前的數字時代它是不常見的有前處理的結果。想一想一個更具體的方式是想像一個實驗來測量特定的例行演習是否會導致體重減輕。如果您確實有差別,在手段方法,您估計將有來自變異在人群中的權重的變化。如果您確實有差別,在不同的方式,但是在權重是自然發生的變異被刪除,您可以更容易地檢測由治療的差異。

減少參與實驗的數量的一個重要途徑是進行電源分析,克萊默和他的同事可以根據從自然實驗中觀察到的影響大小都做Coviello et al. (2014)或更早版本的非實驗研究 ​​由克萊默(2012)其實這些都是在本章結尾活動)。請注意,這個使用功耗分析比一般的有點不同。在模擬時代,研究人員通常做的功耗分析,以確保他們的研究是不是太小(例如,在供電)。但是現在,研究人員應該做的功耗分析,以確保他們的研究不是太大(即逾供電)。

最後,我認為增加了第四個R:重新利用。也就是說,如果研究人員發現自己更多的實驗數據比他們需要解決自己的原創性研究的問題,他們應該重新利用這些數據提出新的問題。例如,假設克萊默和他的同事已經使用了差異,在差異估計和發現自己,以解決他們的研究問題不是需要更多的數據。而不是未使用的數據的最大範圍內,他們可以研究的影響的大小的函數進行預治療情感表達。正如Schultz et al. (2007)發現,治療效果是輕型和重型用戶的不同,也許是新聞頻道的影響是對誰已經趨於張貼快樂(或悲傷)消息的人不同。再利用可能導致“釣魚” (Humphreys, Sierra, and Windt 2013)和“P-黑客” (Simmons, Nelson, and Simonsohn 2011)但這些在很大程度上是誠實匯報的組合尋址(Simmons, Nelson, and Simonsohn 2011)預註冊(Humphreys, Sierra, and Windt 2013) ,和機器學習方法試圖避免過度擬合。