4.4.1有效性

有效性是指實驗的結果多少支持更一般性的結論。

沒有實驗是完美的,研究人員已經開發出一種可擴展的詞彙來形容可能出現的問題。 有效性指的是一個特定實驗的結果支持一些一般性結論的程度。社會科學家已經發現它有助於有效期分為四大類:統計結論效度,內部效度,結構效度和外部效度(Shadish, Cook, and Campbell 2001, Ch 2)掌握這些概念將提供給您的批評和改進實驗的設計和分析的精神的清單,這將幫助您與其他研究人員溝通。

統計結論有效性中心周圍的實驗的統計分析是否正確完成。在上下文Schultz et al. (2007)這樣的問題可能集中在是否正確計算它們的p值。統計分析超出了本書的範圍,但我可以說,設計和分析實驗所需要的統計原則並沒有在數字時代變了。然而,在數字化實驗不同的數據環境,並創造新的統計機會(例如,使用機器學習方法來估計治療效果的異質性(Imai and Ratkovic 2013) )和新的計算挑戰(例如,在大量實驗阻塞(Higgins, Sävje, and Sekhon 2016)

內部有效性主要圍繞實驗程序是否被正確執行。返回到的實驗Schultz et al. (2007)關於內部效度的問題可圍繞著隨機化,輸送治療和結果的測量。例如,你可能會關注的是,研究助理沒讀電錶可靠。事實上,舒爾茨和他的同事擔心這個問題,他們有兩次讀取米的樣本;幸運的是,結果基本相同。在一般情況下,Schultz和同事的實驗似乎具有高內部效度,但是這並不總是如此;複雜的現場和網絡實驗經常碰到的問題實際上提供正確的治療給合適的人,並測量結果的每一個人。幸運的是,數字化時代可以幫助減少有關內部效度的關注,因為它可以更容易,以確保按設計那些誰應該接受它,並測量所有參與者結果的處理交付。

圍繞構建數據和理論結構之間的匹配有效性中心。正如第2章所討論的,結構是抽象的概念,社會科學家原因有關。不幸的是,這些抽象的概念並不總是有明確的定義和測量。返回到Schultz et al. (2007) ,該禁令社會規範可以降低電力使用的索賠要求研究人員設計,將操作“禁令社會規範”(例如,表情符號),並測量“用電量”的處理。在模擬實驗中,許多研究人員設計了他們自己的治療和衡量自己的結果。這種方法可以確保,盡可能的匹配實驗所研究的抽象結構。在數字實驗中與公司或政府的研究人員合作,提供治療和永遠在線的使用數據系統來衡量的結果,實驗和理論結構之間的匹配可能不那麼緊張。因此,我希望構想效度將趨於比模擬實驗,實驗的數字更大的關注。

最後, 外部有效性中心圍繞該實驗的結果是否將推廣到其他情形。返回到Schultz et al. (2007) ,人們可能會問,將有關關係到他們的同齡人自己的能源使用和禁令規範(例如,一個表情符號) -減少能源使用,如果它是在一個不同的方式做了一個信號同樣的想法,為人們提供信息不同的設置?對於大多數精心設計和運行良好的實驗中,關於外部效度的擔憂是解決最難的。在過去,關於外部有效性這些辯論是經常只是一堆人坐在房間裡試圖想像,如果過程被以不同的方式完成,或者在不同的地方,或與不同的人會發生什麼。幸運的是,在數字時代使研究人員能夠超越這些免費的數據推測和經驗評估外部效度。

因為從結果Schultz et al. (2007)是如此令人興奮,一個名為Opower公司在美國的公用事業公司合作,更廣泛地部署的治療。根據設計Schultz et al. (2007) ,Opower創建定制的家庭能源報導指出,有兩個主要的模塊,一個呈現出家庭的用電量相對於其鄰邦,一個表情,一個提供降低能源使用技巧(圖4.6)。然後,在與研究人員合作,Opower跑了隨機對照試驗,以評估家庭能源報告的影響。儘管在這些實驗中的治療方法,通過老式的蝸牛是典型的交付物理上通常郵件的成果用在物理世界中的數字設備(例如,功率計)測量。而不是手工收集與研究助理來訪的每間房子這個信息,Opower實驗的合作夥伴關係都做了與電力公司使研究人員能夠訪問功率讀數。因此,這些部分數碼領域的實驗是在一個大規模以低可變成本運行。

圖4.6:家庭能源報告中Allcott(2011年),有一個社會比較模塊和一個行動步驟模塊。

圖4.6:家庭能源報告中Allcott (2011)有一個社會比較模塊和一個行動步驟模塊。

在第一組涉及60萬戶左右,美國10公用事業公司擔任實驗, Allcott (2011)發現家庭能源報告由1.7%降低電力消耗。換句話說,從大的多,更地理上不同的研究的結果是定性類似於從結果Schultz et al. (2007)但是,其效果的大小是小的:在Schultz et al. (2007)在描述和規範射條件(一個與圖釋)家庭減少5%的用電量。造成這種差異的確切原因尚不清楚,但Allcott (2011)推測,接收手寫表情符號作為一所大學贊助的一項研究的一部分,可能對行為產生較大的影響比接受印刷表情符號作為從一個大規模生產報告的一部分電力公司。

此外,在隨後的研究中, Allcott (2015)報導了涉及額外的800萬個家庭的額外101實驗。在今後的101實驗家庭能源報告繼續引起人們的降低電力消耗,但效果都更小。這一下降的確切原因尚不清楚,但Allcott (2015)推測,該報告的有效性出現,因為它實際上被應用到不同類型的參與者在下降一段時間。更具體地,在更環保區域公用事業更可能採用較早的方案和它們的客戶更響應於治療。與減少對環境的公用事業客戶通過的方案,其效益出現下滑。因此,正如隨機實驗,確保治療組和對照組相似,隨機研究網站保證了估計可以從一組參與者被推廣到更廣泛的人群(回想一下第3章關於抽樣)。如果研究地點不是隨機抽樣,那麼泛化即使從完美的設計,並進行了試驗,可能會有問題。

總之,這些實驗111-10 Allcott (2011)和101 Allcott (2015)來自全國各地的美國-involved約8.5萬戶。他們一致顯示,家庭能源報告降低平均電力消耗,支持舒爾茨從加州300家原來的調查結果和同事的結果。不僅僅是複製這些原始效果,後續實驗還顯示,影響的大小因地點而異。這組實驗也說明了有關部分數碼領域的實驗兩個基本點。 First,研究人員將能夠根據經驗有關外部有效性性方面的考慮,當運行實驗的成本低,而如果結果是已經由一個始終保持接通數據系統測定該可以發生。因此,建議研究應該對查找出來為那些已經被記錄其他有趣和重要的行為,然後設計在這個現有測量基礎架構之上的實驗。第二,這組實驗提醒我們,數字領域的實驗是不只是在網上;越來越多我希望他們將無處不在由傳感器在建築環境中測得的很多成果。

四種類型的有效性,統計結論效度,內部效度的,結構效度,外部效度,提供了一個精神清單,以幫助研究人員評估從一個特定的實驗結果是否支持更一般性的結論。相比於模擬時代的實驗,在數字化時代的實驗應該是比較容易解決經驗外部有效性,它應該是更容易保證內部效度。在另一方面,結構效度的問題將可能會在數字化時代的實驗更具挑戰性(雖然這不是與Opower實驗的情況下)。