4.4.1有效性

有效性是指實驗的結果多少支持更一般性的結論。

沒有實驗是完美的,研究人員已經開發了一個廣泛的詞彙來描述可能的問題。 有效性是指特定實驗的結果支持更一般結論的程度。社會科學家發現將有效性分為四種主要類型是有幫助的:統計結論有效性,內部有效性,結構有效性和外部有效性(Shadish, Cook, and Campbell 2001, chap. 2) 。掌握這些概念將為您提供批評和改進實驗設計和分析的心理檢查表,它將幫助您與其他研究人員進行交流。

統計結論的有效性圍繞是否正確地進行了實驗的統計分析。在Schultz et al. (2007)的背景下Schultz et al. (2007) ,這樣的問題可能集中在他們是否正確計算了\(p\) 。需要設計和分析實驗的統計原理超出了本書的範圍,但它們在數字時代並沒有根本改變。然而,改變的是,數字實驗中的數據環境創造了新的機會,例如使用機器學習方法來估計治療效果的異質性(Imai and Ratkovic 2013)

內部有效性圍繞實驗程序是否正確執行。回到Schultz et al. (2007)的實驗Schultz et al. (2007) ,關於內部有效性的問題可能圍繞隨機化,治療的提供和結果的測量。例如,您可能擔心研究助理沒有可靠地讀取電錶。事實上,舒爾茨和他的同事們對這個問題很擔心,他們有兩次讀數的樣本;幸運的是,結果基本相同。一般來說,Schultz及其同事的實驗似乎具有很高的內部效度,但情況並非總是如此:複雜的現場和在線實驗經常遇到問題,實際上向正確的人提供正確的治療並衡量每個人的結果。幸運的是,數字時代可以幫助減少對內部有效性的擔憂,因為現在更容易確保將治療傳遞給應該接受治療的人並測量所有參與者的結果。

圍繞數據與理論結構之間的匹配構建有效性中心。正如第2章所討論的,構造是社會科學家推理的抽象概念。不幸的是,這些抽象概念並不總是有明確的定義和測量。回到Schultz et al. (2007) ,關於強制性社會規範可以降低用電量的說法要求研究人員設計一種能夠操縱“禁令社會規範”(例如,表情符號)和衡量“用電量”的治療方法。在模擬實驗中,許多研究人員設計了自己的治療方法並測量了自己的結果這種方法確保實驗盡可能地與正在研究的抽象結構相匹配。在數字化實驗中,研究人員與公司或政府合作提供治療並使用永遠在線的數據系統來衡量結果,實驗與理論結構之間的匹配可能不那麼緊密。因此,我認為結構有效性在數字實驗中往往比模擬實驗更受關注。

最後, 外部有效性的核心是該實驗的結果是否可以推廣到其他情況。回到Schultz et al. (2007) ,人們可以問這個相同的想法 - 為人們提供與他們的同齡人有關的能量使用信息以及禁令規範的信號(例如,表情符號) - 如果以不同的方式完成,將會減少能源使用在不同的環境中。對於大多數設計良好且運行良好的實驗,對外部有效性的擔憂是最難解決的問題。過去,這些關於外部有效性的辯論通常只涉及一群人坐在一個房間裡試圖想像如果程序是以不同的方式,在不同的地方,或與不同的參與者完成會發生什麼。幸運的是,數字時代使研究人員能夠超越這些無數據推測,並憑經驗評估外部有效性。

因為Schultz et al. (2007)的結果Schultz et al. (2007)非常令人興奮,一家名為Opower的公司與美國公用事業公司合作,更廣泛地部署治療方案。基於Schultz et al. (2007)的設計Schultz et al. (2007) ,Opower創建了定制的家庭能源報告,其中包含兩個主要模塊:一個顯示家庭用電相對於鄰居的電力使用情況,另一個提供降低能耗的提示(圖4.6)。然後,與研究人員合作,Opower進行了隨機對照實驗,以評估這些家庭能源報告的影響。儘管這些實驗中的治療通常是通過老式的蝸牛郵件進行物理傳遞 - 但結果是使用物理世界中的數字設備(例如功率計)來測量的。此外,Opower實驗都是與電力公司合作完成的,而不是通過每個房子的研究助理手動收集這些信息,使研究人員能夠獲得電力讀數。因此,這些部分數字現場實驗以低可變成本大規模運行。

圖4.6:家庭能源報告有一個社會比較模塊和一個行動步驟模塊。經Allcott(2011),圖1和圖2許可轉載。

圖4.6:家庭能源報告有一個社會比較模塊和一個行動步驟模塊。經Allcott (2011) ,圖1和圖2許可Allcott (2011)

在第一組涉及來自10個不同地點的60萬戶家庭的實驗中, Allcott (2011)發現家庭能源報告降低了電力消耗。換句話說,來自更大,地理上更多樣化的研究的結果在質量上與Schultz et al. (2007)的結果相似Schultz et al. (2007) 。此外,在隨後的研究中,涉及來自101個不同地點的800萬個額外家庭, Allcott (2015)再次發現家庭能源報告持續降低電力消耗。這組更大的實驗也揭示了一個有趣的新模式,在任何一個實驗中都看不到:在後面的實驗中效果的大小下降了(圖4.7)。 Allcott (2015)推測這種下降的發生是因為隨著時間的推移,治療正在應用於不同類型的參與者。更具體地說,具有更環保客戶的公用事業公司更有可能更早地採用該計劃,並且他們的客戶對治療更敏感。由於環保型客戶較少的公用事業公司採用該計劃,其效力似乎有所下降。因此,正如實驗中的隨機化確保治療組和對照組相似,研究地點的隨機化確保了估計可以從一組參與者推廣到更一般的人群(回想第3章關於抽樣)。如果研究地點不是隨機抽樣的,那麼即使從完美設計和實施的實驗中進行推廣也可能存在問題。

圖4.7:111項實驗結果,測試家庭能源報告對電力消耗的影響。在以後採用該計劃的地點,它往往具有較小的影響。 Allcott(2015)認為,這種模式的主要來源是擁有更多環保客戶的網站更有可能更早地採用該計劃。改編自Allcott(2015),圖3。

圖4.7:111項實驗結果,測試家庭能源報告對電力消耗的影響。在以後採用該計劃的地點,它往往具有較小的影響。 Allcott (2015)認為,這種模式的主要來源是擁有更多環保客戶的網站更有可能更早地採用該計劃。改編自Allcott (2015) ,圖3。

Allcott (2011)這111個實驗 - 在Allcott (2011)的10個和在Allcott (2015) 101個 - 涉及來自美國各地的大約850萬個家庭。他們一致表明,家庭能源報告降低了平均電力消耗,這一結果支持了Schultz及其同事在加利福尼亞州300個家庭的原始發現。除了複製這些原始結果之外,後續實驗還表明效果的大小因位置而異。這組實驗還說明了關於部分數字現場實驗的兩個更一般的觀點。首先,當運行實驗的成本很低時,研究人員將能夠憑經驗解決對外部有效性的擔憂,如果結果已經被永遠在線的數據系統測量,就會發生這種情況。因此,它表明研究人員應該留意已經記錄的其他有趣和重要的行為,然後在現有的測量基礎設施之上設計實驗。其次,這組實驗提醒我們,數字現場實驗不只是在線;越來越多,我希望他們將無處不在,在建築環境中通過傳感器測量許多結果。

四種類型的有效性 - 統計結論有效性,內部有效性,結構有效性和外部有效性 - 提供心理檢查表,以幫助研究人員評估特定實驗的結果是否支持更一般的結論。與模擬年齡實驗相比​​,在數字時代的實驗中,應該更容易根據經驗來解決外部有效性,並且還應該更容易確保內部有效性。另一方面,在數字時代實驗中,構造有效性問題可能更具挑戰性,特別是涉及與公司合作的數字現場實驗。