關於社會研究中因果關係的問題往往是複雜而復雜的。對於基於因果圖的因果關係的基礎方法,參見Pearl (2009) ,以及基於潛在結果的基礎方法,參見Imbens and Rubin (2015) 。有關這兩種方法的比較,請參閱Morgan and Winship (2014) 。有關定義混淆因素的正式方法,請參閱VanderWeele and Shpitser (2013) 。
在本章中,我創建了從實驗數據和非實驗數據進行因果估計的能力之間的界限。但是,我認為,實際上,區別更加模糊。例如,每個人都承認吸煙導致癌症,即使沒有任何強迫人們吸煙的隨機對照實驗也已經完成。對於根據非實驗數據進行因果估計的優秀書籍長度處理,參見Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001)以及Dunning (2012) 。
Freedman, Pisani, and Purves (2007)第1章和第2章清楚地介紹了實驗,對照實驗和隨機對照實驗之間的差異。
Manzi (2012)為隨機對照實驗的哲學和統計學基礎提供了一個引人入勝且可讀的介紹。它還提供了有趣的實際商業實驗能力的例子。 Issenberg (2012)提供了在政治活動中使用實驗的有趣介紹。
Box, Hunter, and Hunter (2005) ,@ casella_statistical_2008,以及Athey and Imbens (2016b)為實驗設計和分析的統計方面提供了很好的介紹。此外,在許多不同領域都有很好的治療方法:經濟學(Bardsley et al. 2009) ,社會學(Willer and Walker 2007; Jackson and Cox 2013) ,心理學(Aronson et al. 1989) ,政治學(Morton and Williams 2010)和社會政策(Glennerster and Takavarasha 2013) 。
參與者招募(例如,抽樣)的重要性在實驗研究中往往得不到重視。但是,如果治療效果在人群中是異質的,則抽樣是至關重要的。 Longford (1999)在提倡研究人員將實驗作為隨機抽樣的人口調查時提出了這一觀點。
我已經提出實驗室和實地實驗之間存在連續性,其他研究人員提出了更詳細的類型,特別是那些將各種形式的實驗分開的類型(Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) 。
許多論文在抽象(Falk and Heckman 2009; Cialdini 2009)和政治學特定實驗的結果(Coppock and Green 2015) ,經濟學(Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) (Coppock and Green 2015)比較了實驗室和現場實驗(Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013)和心理學(Mitchell 2012) 。 Jerit, Barabas, and Clifford (2013)提供了一個很好的研究設計,用於比較實驗室和現場實驗的結果。 Parigi, Santana, and Cook (2017)描述了在線現場實驗如何結合實驗室和現場實驗的一些特徵。
關於參與者因為知道他們被密切觀察而改變他們的行為的擔憂有時被稱為需求效應 ,並且他們已經在心理學(Orne 1962)和經濟學(Zizzo 2010) 。儘管主要與實驗室實驗相關,但這些相同的問題也會導致現場實驗出現問題。事實上, 需求效應有時也被稱為霍桑效應 ,這個術語衍生於1924年在西部電氣公司的Hawthorne工廠開始的著名照明實驗(Adair 1984; Levitt and List 2011) 。 需求效應和霍桑效應都與第2章討論的反應測量思想密切相關(另見Webb et al. (1966) )。
現場實驗在經濟學方面有悠久的歷史(Levitt and List 2009) ,政治學(Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) ,心理學(Shadish 2002)和公共政策(Shadish and Cook 2009) 。社會科學的一個領域是現場實驗迅速成為突出的國際發展。有關經濟學內部工作的積極評論,請參閱Banerjee and Duflo (2009) ,以及進行批判性評估,參見Deaton (2010) 。有關政治科學這項工作的回顧,請參閱Humphreys and Weinstein (2009) 。最後,在政治科學(Humphreys 2015; Desposato 2016b)和發展經濟學(Baele 2013)的背景下探討了實地實驗產生的倫理挑戰。
在本節中,我建議可以使用治療前信息來提高估計治療效果的準確性,但是對於這種方法存在一些爭議;參見Freedman (2008) , W. Lin (2013) , Berk et al. (2013) ,和Bloniarz et al. (2016)了解更多信息。
最後,社會科學家還進行了另外兩種類型的實驗,這些實驗並不完全適合實驗室領域:調查實驗和社會實驗。 調查實驗是使用現有調查的基礎設施進行的實驗,並比較對同一問題的替代版本的反應(一些調查實驗見第3章);有關調查實驗的更多信息,請參見Mutz (2011) 。 社會實驗是一種實驗,其中治療是一些只能由政府實施的社會政策。社會實驗與項目評估密切相關。有關政策實驗的更多信息,請參閱Heckman and Smith (1995) , Orr (1998)和@ glennerster_running_2013。
我選擇關註三個概念:有效性,治療效果的異質性和機制。這些概念在不同領域有不同的名稱。例如,心理學家傾向於通過專注於調解者和主持人而超越簡單的實驗(Baron and Kenny 1986) 。調解員的想法被我所謂的機制所捕獲,而調節者的想法被我所謂的外部有效性所捕獲(例如,如果在不同情況下運行,實驗結果會不同)和治療效果的異質性(例如,某些人的影響比其他人大。)
Schultz et al. (2007)的實驗Schultz et al. (2007)顯示瞭如何使用社會理論來設計有效的干預措施。關於理論在設計有效干預措施中的作用的更一般性論點,參見Walton (2014) 。
Campbell (1957)首先介紹了內部和外部有效性的概念。參見Shadish, Cook, and Campbell (2001)的更詳細的歷史和仔細闡述統計結論的有效性,內部有效性,結構有效性和外部有效性。
有關實驗中統計結論有效性相關問題的概述,請參閱Gerber and Green (2012) (來自社會科學的觀點)和Imbens and Rubin (2015) (從統計角度)。在線現場實驗中特別出現的統計結論有效性的一些問題包括諸如用於創建具有依賴數據的置信區間的計算有效方法的問題(Bakshy and Eckles 2013) 。
在復雜的現場試驗中,很難確保內部有效性。例如,參見Gerber and Green (2000) , Imai (2005)以及Gerber and Green (2005)關於投票的複雜實地實驗的實施的辯論。 Kohavi et al. (2012)和Kohavi et al. (2013)介紹了在線現場實驗中區間有效性的挑戰。
內部有效性的一個主要威脅是隨機化失敗的可能性。檢測隨機化問題的一種可能方法是比較治療組和對照組的可觀察性狀。這種比較稱為平衡檢查 。參見Hansen and Bowers (2008)關於平衡檢查的統計方法Mutz and Pemantle (2015)對平衡檢查的擔憂。例如,使用平衡檢查, Allcott (2011)發現了一些證據表明在三個Opower實驗中沒有正確實施隨機化(見表2;站點2,6和8)。其他方法見Imbens and Rubin (2015)第21章。
與內部有效性相關的其他主要問題是:(1)單側不合規,治療組中的每個人並非實際接受治療,(2)雙方不合規,治療組中的每個人都不接受治療,而有些人在對照組接受治療,(3)磨損,其中一些參與者沒有測量結果,以及(4)干擾,其中治療從治療狀態的人溢出到控制狀態的人。有關這些問題的更多信息,請參閱Gerber and Green (2012) 5,6,7和8章。
有關構造有效性的更多信息,請參閱Westen and Rosenthal (2003) ,以及有關大數據源構造有效性的更多信息, Lazer (2015)和本書第2章。
外部有效性的一個方面是測試干預的設置。 Allcott (2015)對場地選擇偏差提供了仔細的理論和實證處理。 Deaton (2010)也討論了這個問題。外部有效性的另一個方面是同一干預的替代操作是否會產生類似的影響。在這種情況下, Schultz et al. (2007)的比較Schultz et al. (2007)和Allcott (2011)表明,與Schultz及其同事的原始實驗相比,Opower實驗的估計治療效果較小(1.7%對5%)。 Allcott (2011)推測後續實驗的影響較小,因為治療方法不同:手寫表情符號作為大學贊助的研究的一部分,與作為批量生產的一部分的印刷表情符號相比較電力公司的報告。
有關現場實驗中處理效果異質性的出色概述,請參閱Gerber and Green (2012)第12章。關於醫學試驗中治療效果的異質性的介紹,參見Kent and Hayward (2007) , Longford (1999) ,以及Kravitz, Duan, and Braslow (2004) 。對治療效果的異質性的考慮通常集中在基於治療前特徵的差異上。如果您對基於治療後結果的異質性感興趣,則需要更複雜的方法,例如主要分層(Frangakis and Rubin 2002) ;見Page et al. (2015)進行審查。
許多研究人員使用線性回歸估計治療效果的異質性,但較新的方法依賴於機器學習;例如,參見Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , Athey and Imbens (2016a) 。
由於多重比較問題和“釣魚”,對效果異質性的發現存在一些懷疑。有多種統計方法可以幫助解決多重比較的問題(Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) 。關注“捕魚”的一種方法是預註冊,這在心理學(Nosek and Lakens 2014) ,政治學(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) (Nosek and Lakens 2014)變得越來越普遍。和經濟學(Olken 2015) 。
在Costa and Kahn (2013)的研究中,實驗中只有大約一半的家庭可以與人口統計信息聯繫起來。對這些細節感興趣的讀者應參考原始論文。
機制非常重要,但結果卻非常難以研究。關於機制的研究與心理學中的調解員的研究密切相關(但也參見VanderWeele (2009)對這兩種觀點進行精確比較)。尋找機制的統計方法,例如Baron and Kenny (1986) ,非常普遍。不幸的是,事實證明這些程序依賴於一些強有力的假設(Bullock, Green, and Ha 2010)並且當存在多種機制時會受到影響,正如人們在許多情況下所期望的那樣(Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) 。 Imai et al. (2011)和Imai and Yamamoto (2013)提供了一些改進的統計方法。此外, VanderWeele (2015)提供了書籍長度治療,其中包含許多重要結果,包括全面的靈敏度分析方法。
一種單獨的方法側重於試圖直接操縱機制的實驗(例如,給水手維生素C)。不幸的是,在許多社會科學環境中,通常存在多種機制,並且難以設計在不改變其他機制的情況下改變一種機制的治療方法。 Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011)以及Pirlott and MacKinnon (2016)描述了一些實驗改變機制的方法。
運行全因子實驗的研究人員需要關注多個假設檢驗;有關詳細信息Fink, McConnell, and Vollmer (2014)請參閱Fink, McConnell, and Vollmer (2014)以及List, Shaikh, and Xu (2016) 。
最後, Hedström and Ylikoski (2010)描述的機制在科學哲學中也有悠久的歷史。
有關使用函授研究和審計研究來衡量歧視的更多信息,請參閱Pager (2007) 。
招募參與者進行實驗的最常見方式是Amazon Mechanical Turk(MTurk)。因為MTurk模仿傳統實驗室實驗的各個方面 - 支付人們完成他們不會免費完成的任務 - 許多研究人員已經開始使用Turkers(MTurk的工作人員)作為實驗參與者,導致數據收集速度更快,更便宜在傳統的校園實驗室實驗中(Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) 。
一般來說,使用從MTurk招募的參與者的最大優勢是後勤。雖然實驗室實驗可能需要數週才能完成,現場實驗可能需要數月才能完成,但從MTurk招募的參與者的實驗可以在幾天內完成。例如, Berinsky, Huber, and Lenz (2012)能夠在一天內招募400名受試者參加8分鐘的實驗。此外,這些參與者幾乎可以被招募用於任何目的(包括調查和大規模協作,如第3章和第5章所述)。這種易於招募意味著研究人員可以快速連續地運行相關實驗序列。
在從MTurk招募參與者進行自己的實驗之前,您需要了解四件重要事項。首先,許多研究人員對涉及Turkers的實驗持懷疑態度。因為這種懷疑並不具體,所以很難用證據來反駁。然而,經過幾年使用Turkers的研究,我們現在可以得出結論,這種懷疑並不是特別合理。有許多研究將Turkers的人口統計數據與其他人群的人口統計數據進行了比較,許多研究將Turkers實驗結果與其他人群進行了比較。鑑於所有這些工作,我認為最好的方法是考慮到Turkers是一個合理的便利樣本,很像學生,但更多樣化(Berinsky, Huber, and Lenz 2012) 。因此,正如學生對某些研究(但不是全部研究)的合理人口一樣,對於一些(但不是全部)研究來說,特克斯是一個合理的人口。如果您打算與Turkers合作,那麼閱讀許多這些比較研究並了解它們的細微差別是有意義的。
其次,研究人員已經開發出了提高MTurk實驗內部有效性的最佳實踐,您應該了解並遵循這些最佳實踐(Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) 。例如,鼓勵使用Turkers的研究人員使用篩選器去除不注意的參與者(Berinsky, Margolis, and Sances 2014, 2016) (但也參見DJ Hauser and Schwarz (2015b)以及DJ Hauser and Schwarz (2015a) )。如果你不去除不注意的參與者,那麼治療的任何影響都可能被他們引入的噪音所淹沒,並且在實踐中,不專心的參與者的數量可能很大。在Huber及其同事(2012)的實驗中,大約30%的參與者未能通過基本的注意力檢查。使用Turkers時通常會出現的其他問題是非天真的參與者(Chandler et al. 2015)和消耗(Zhou and Fishbach 2016) 。
第三,相對於其他一些形式的數字實驗,MTurk實驗無法擴展; Stewart et al. (2015)估計,在任何特定時間,MTurk上只有大約7,000人。
最後,您應該知道MTurk是一個擁有自己的規則和規範的社區(Mason and Suri 2012) 。就像你試圖了解一個你將要進行實驗的國家的文化一樣,你應該嘗試更多地了解Turkers的文化和規範(Salehi et al. 2015) 。你應該知道,如果你做了一些不恰當或不道德的事情,Turkers會談論你的實驗(Gray et al. 2016) al.2016 (Gray et al. 2016) 。
MTurk是一種非常方便的方式來招募參與者進行實驗,無論他們是實驗室,如Huber, Hill, and Lenz (2012) ,還是更像現場,如Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) ,和Mao et al. (2016) 。
如果您正在考慮創建自己的產品,我建議您閱讀Harper and Konstan (2015) MovieLens小組提供的建議。從他們的經驗中得出的一個重要見解是,對於每個成功的項目,都會有很多失敗。例如,MovieLens小組推出了完全失敗的其他產品,如GopherAnswers (Harper and Konstan 2015) 。另一個研究人員在嘗試製造產品時失敗的另一個例子是愛德華卡斯特羅諾娃試圖建立一個名為阿登的在線遊戲。儘管有250,000美元的資金,但這個項目還是失敗了(Baker 2008) 。不幸的是,GopherAnswers和Arden等項目比MovieLens這樣的項目更為常見。
我聽說過巴斯德象限經常在科技公司討論的想法,它有助於組織Google的研究工作(Spector, Norvig, and Petrov 2012) 。
Bond和同事的研究(2012)也試圖發現這些治療方法對接受它們的朋友的影響。由於實驗的設計,這些溢出很難乾淨地檢測出來;有興趣的讀者應該看看Bond et al. (2012)進行更徹底的討論。瓊斯及其同事(2017)在2012年大選期間也進行了非常類似的實驗。這些實驗是鼓勵投票的政治科學實驗的長期傳統的一部分(Green and Gerber 2015) 。這些獲得投票的實驗很常見,部分原因是因為它們屬於巴斯德的象限。也就是說,有許多人有動力增加投票和投票可能是一個有趣的行為,以測試關於行為改變和社會影響的更一般的理論。
有關與政黨,非政府組織和企業等夥伴組織進行實地試驗的建議,請參閱Loewen, Rubenson, and Wantchekon (2010) , JA List (2011)和Gueron (2002) 。有關與組織的合作如何影響研究設計的想法,請參閱King et al. (2007)和Green, Calfano, and Aronow (2014) 。正如Humphreys (2015)和Nickerson and Hyde (2016)所討論的那樣,夥伴關係也可能導致道德問題。
如果您要在運行實驗之前創建分析計劃,我建議您首先閱讀報告指南。 CONSORT(綜合標準報告報告)指南是在醫學中開發的(Schulz et al. 2010)並針對社會研究進行了修改(Mayo-Wilson et al. 2013) 。 “實驗政治學雜誌” (Gerber et al. 2014)的編輯已經制定了一套相關的指南(參見Mutz and Pemantle (2015)和Gerber et al. (2015) )。最後,心理學已經制定了報告指南(APA Working Group 2008) ,另見Simmons, Nelson, and Simonsohn (2011) 。
如果您創建分析計劃,則應考慮預先註冊,因為預註冊會增加其他人對結果的信心。此外,如果您正在與合作夥伴合作,則會限制您的合作夥伴在看到結果後更改分析的能力。預註冊在心理學(Nosek and Lakens 2014) ,政治學(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013)和經濟學(Olken 2015)變得越來越普遍。
Konstan and Chen (2007)以及Chen and Konstan (2015)也提供了專門針對在線現場實驗的設計建議。
我所謂的無敵戰略有時被稱為程序研究 ;見Wilson, Aronson, and Carlsmith (2010) 。
有關MusicLab實驗的更多信息,請參閱Salganik Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a)以及Salganik (2007) 。有關贏家通吃市場的更多信息,請參閱Frank and Cook (1996) 。有關更多關於解開運氣和技能的更多信息,請參閱Mauboussin (2012) , Watts (2012)和Frank (2016) 。
還有另一種消除參與者付款的方法,研究人員應謹慎使用:徵兵。在許多在線實地實驗中,參與者基本上都被納入實驗並且從未得到過補償。這種方法的例子包括Restivo和van de Rijt (2012)在維基百科和邦德的獎勵實驗以及同事(2012)關於鼓勵人們投票的實驗。這些實驗實際上沒有零可變成本 - 相反,它們對研究人員來說零可變成本。在這樣的實驗中,即使每個參與者的成本非常小,總成本也可能非常大。運行大規模在線實驗的研究人員經常通過說這些小效應在應用於許多人時變得重要來證明小估計治療效果的重要性。完全相同的思維適用於研究人員對參與者施加的成本。如果你的實驗導致一百萬人浪費一分鐘,那麼這個實驗對任何一個人來說都不是很有害,但總的來說它浪費了將近兩年的時間。
為參與者創建零可變成本支付的另一種方法是使用彩票,這種方法也被用於調查研究(Halpern et al. 2011) 。有關設計愉快用戶體驗的更多信息,請參閱Toomim et al. (2011) 。有關使用機器人創建零可變成本實驗的更多信息,請參閱( ??? ) 。
Russell and Burch (1959)最初提出的三個R如下:
“更換意味著無知覺的物質生活意識的高等動物替代。還原裝置中使用,以獲得一個給定的量和精度的信息的動物的數量減少。細化裝置中的發病率或施加到那些仍然必須使用動物不人道程序嚴重性的任何下降“。
我提出的三個R不會超越第6章中描述的道德原則。相反,它們是一個更精細的版本之一 - 有益 - 特別是在人類實驗的背景下。
就第一個R(“替代”)而言,比較情緒感染實驗(Kramer, Guillory, and Hancock 2014)和情緒感染自然實驗(Lorenzo Coviello et al. 2014)提供了一些關於所涉及權衡的一般性教訓。從實驗轉向自然實驗(以及其他方法,如匹配試圖接近非實驗數據的實驗;見第2章)。除了道德效益之外,從實驗研究轉向非實驗研究還使研究人員能夠研究他們在邏輯上無法部署的治療方法。然而,這些道德和後勤方面的好處是有代價的。通過自然實驗,研究人員對參與者招募,隨機化和治療性質等方面的控制較少。例如,降雨作為一種治療的一個限制是它既增加積極性又減少消極性。然而,在實驗研究中,Kramer及其同事能夠獨立地調整積極性和消極性。 Lorenzo Coviello et al. (2014)使用的特殊方法Lorenzo Coviello et al. (2014)由L. Coviello, Fowler, and Franceschetti (2014)進一步闡述。關於工具變量的介紹,這是Lorenzo Coviello et al. (2014)使用的方法Lorenzo Coviello et al. (2014) ,見Angrist and Pischke (2009) (不太正式)或Angrist, Imbens, and Rubin (1996) (更正式)。對於工具變量的懷疑評估,參見Deaton (2010) ,以及對弱工具(雨是弱工具)的工具變量的介紹,參見Murray (2006) 。更一般地, Dunning (2012)給出了對自然實驗的良好介紹,而Rosenbaum (2002) , ( ??? )和Shadish, Cook, and Campbell (2001)提供了關於在沒有實驗的情況下估計因果效應的好想法。
就第二個R(“改進”)而言,在考慮將情緒傳染的設計從阻塞崗位改為提升崗位時,存在科學和後勤權衡。例如,可能是新聞Feed的技術實施使得更容易進行帖子被阻止而不是被提升的實驗(請注意,可以實施涉及阻止帖子的實驗)作為News Feed系統頂層的一層,無需更改底層系統)。然而,從科學的角度來看,實驗所解決的理論並未明確提出一種設計。不幸的是,我不知道有關阻止和提升新聞Feed中內容的相對優點的大量先前研究。此外,我還沒有看到很多關於精煉治療的研究,以減少它們的危害; B. Jones and Feamster (2015)是一個例外,它考慮了互聯網審查的衡量標準(我在第6章討論的與Encore研究相關的主題(Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) )。
就第三個R(“減少”)而言, Cohen (1988) (書)和Cohen (1992) (文章)給出了對傳統權力分析的良好介紹,而Gelman and Carlin (2014)提供了略微不同的觀點。預處理協變量可以包括在實驗的設計和分析階段; Gerber and Green (2012)第4章對這兩種方法進行了很好的介紹, Casella (2008)提供了更深入的治療方法。在隨機化中使用這種預處理信息的技術通常被稱為阻塞實驗設計或分層實驗設計(術語不是在社區中一致使用);這些技術與第3章中討論的分層抽樣技術密切相關。有關在大規模實驗中使用這些設計的更多信息Higgins, Sävje, and Sekhon (2016)請參見Higgins, Sävje, and Sekhon (2016) 。預處理協變量也可以包括在分析階段中。 McKenzie (2012)更詳細地探討了差異分析方法來分析現場實驗。參見Carneiro, Lee, and Wilhelm (2016) ,了解更多關於提高治療效果估計精確度的不同方法之間的權衡。最後,在決定是否嘗試在設計或分析階段(或兩者)包括治療前協變量時,需要考慮幾個因素。在研究人員希望證明他們不是“釣魚”的環境中(Humphreys, Sierra, and Windt 2013) ,在設計階段使用預處理協變量可能會有所幫助(Higgins, Sävje, and Sekhon 2016) 。在參與者順序到達的情況下,特別是在線現場實驗,在設計階段使用預處理信息可能在後勤上很困難;例如,見Xie and Aurisset (2016) 。
值得添加一些直覺,說明為什麼差異差異方法比差異方法更有效。許多在線結果具有非常高的方差(參見例如RA Lewis and Rao (2015)和Lamb et al. (2015) )並且隨著時間的推移相對穩定。在這種情況下,變化得分將具有明顯更小的方差,從而增加統計測試的能力。更常使用這種方法的一個原因是,在數字時代之前,預處理結果並不常見。一個更具體的思考方法是想像一個實驗來衡量一個特定的運動常規是否會導致體重減輕。如果您採用手段差異法,您的估計值將因人口中權重的變化而產生變化。但是,如果您採用差異差異法,則會消除自然發生的體重變化,您可以更輕鬆地檢測到治療引起的差異。
最後,我考慮添加第四個R:“重新調整用途”。也就是說,如果研究人員發現自己擁有的實驗數據多於解決原始研究問題所需的實驗數據,他們應該重新調整數據以提出新的問題。例如,假設Kramer及其同事使用了差異差異估計器,發現自己擁有的數據超出了解決研究問題所需的數據。他們可能已經研究了效果的大小作為治療前情緒表達的函數,而不是最大限度地使用數據。正如Schultz et al. (2007)發現,對於輕度和重度用戶來說,治療的效果是不同的,對於已經傾向於發布快樂(或悲傷)消息的人來說,新聞提要的效果可能不同。再利用可能會導致“釣魚” (Humphreys, Sierra, and Windt 2013)和“p-hacking” (Simmons, Nelson, and Simonsohn 2011) ,但這些在很大程度上可以通過誠實的報導(Simmons, Nelson, and Simonsohn 2011) ,預註冊(Humphreys, Sierra, and Windt 2013) ,以及試圖避免過度擬合的機器學習方法。