我認為理解實驗的最佳方式是潛在的結果框架(我在第2章的數學註釋中討論過)。潛在的成果框架與我在第3章(Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6)描述的基於設計的抽樣的想法密切相關。本附錄的編寫方式是為了強調這種聯繫。這種強調有點不傳統,但我認為抽樣和實驗之間的聯繫是有幫助的:這意味著如果你對抽樣有所了解,那麼你就會對實驗有所了解,反之亦然。正如我將在這些說明中所示,潛在的結果框架揭示了用於估計因果效應的隨機對照實驗的強度,並且它顯示了即使完美執行的實驗可以做什麼的局限性。
在本附錄中,我將描述潛在的結果框架,重複第2章中數學註釋中的一些材料,以使這些註釋更加獨立。然後,我將描述關於平均治療效果估計精度的一些有用結果,包括討論最佳分配和差異差異估計。本附錄主要依據Gerber and Green (2012) 。
潛在的成果框架
為了說明潛在的結果框架,讓我們回到Restivo和van de Rijt的實驗來估計接收barnstar對維基百科未來貢獻的影響。潛在的結果框架有三個主要因素: 單位 , 治療和潛在結果 。在Restivo和van de Rijt的案例中,這些單位值得編輯 - 那些排名前1%的貢獻者 - 他們還沒有收到過barnstar。我們可以通過\(i = 1 \ldots N\)索引這些編輯器。在他們的實驗中的治療是“barnstar”或“沒有barnstar”,如果人\(i\)處於治療狀態並且\(W_i = 0\) ,我將寫\(W_i = 1\) 。潛在成果框架的第三個要素是最重要的: 潛在成果 。這些在概念上有點困難,因為它們涉及“潛在的”結果 - 可能發生的事情。對於每個維基百科編輯器,可以想像她將在治療條件下進行的編輯次數( \(Y_i(1)\) )以及她在控制條件下所做的編號( \(Y_i(0)\) )。
請注意,這種單位,治療和結果的選擇定義了從該實驗中可以學到的東西。例如,在沒有任何其他假設的情況下,Restivo和van de Rijt無法對所有維基百科編輯的barnstars效果或編輯質量等結果發表任何看法。一般而言,單位,治療和結果的選擇必須基於研究的目標。
鑑於這些潛在的結果 - 表4.5中總結了 - 人們可以定義治療對人\(i\)的因果效應
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
對我來說,這個等式是定義因果效應的最明確的方法,雖然非常簡單,但這個框架在很多重要和有趣的方面都可以推廣(Imbens and Rubin 2015) 。
人 | 編輯治療條件 | 在控制條件下編輯 | 治療效果 |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
ñ | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
意思 | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
但是,如果我們以這種方式定義因果關係,我們就會遇到問題。幾乎在所有情況下,我們都沒有觀察到兩種可能的結果。也就是說,一個特定的維基百科編輯或者收到了一個barnstar。因此,我們觀察到一個潛在的結果 - \(Y_i(1)\)或\(Y_i(0)\) - 但不是兩者。無法觀察到這兩種潛在的結果是Holland (1986)稱之為因果推理的基本問題的一個主要問題。
幸運的是,當我們進行研究時,我們不只有一個人,我們有很多人,這提供了解決因果推理的基本問題的方法。我們可以估算平均治療效果,而不是試圖估計個體水平的治療效果:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
這仍然用\(\tau_i\) ,這是不可觀察的,但有一些代數( Gerber and Green (2012)等式2.8 Gerber and Green (2012) )我們得到
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
公式4.3顯示,如果我們可以估計處理下的人口平均結果( \(N^{-1} \sum_{i=1}^N Y_i(1)\) )和人口平均結果得到控制( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ),然後我們可以估計平均治療效果,即使沒有估計任何特定人的治療效果。
現在我已經定義了我們的估計 - 我們試圖估計的事情 - 我將轉向我們如何用數據實際估計它。我喜歡將這種估計挑戰視為抽樣問題(回想第3章中的數學註釋)。想像一下,我們隨機挑選一些人在治療條件下觀察,我們隨機挑選一些人在控制條件下觀察,然後我們可以估計每種情況下的平均結果:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
其中\(N_t\)和\(N_c\)是治療和控制條件下的人數。公式4.4是均值差估計。由於抽樣設計,我們知道第一項是針對平均治療結果的無偏估計,第二項是無偏估計可控制。
考慮隨機化能夠實現的另一種方法是確保治療組和對照組之間的比較是公平的,因為隨機化確保了兩組之間的相似性。這種相似性適用於我們測量的事物(比如實驗前30天的編輯次數)以及我們未測量的事物(比如說性別)。這種確保觀察到的和未觀察到的因素平衡的能力是至關重要的。為了看到自動平衡對未觀察到的因素的影響,讓我們假設未來的研究發現男性對獎勵的反應比女性更高。這會使Restivo和van de Rijt的實驗結果無效嗎?不是。通過隨機化,他們確保所有不可觀察的東西在期望中得到平衡。這種對未知的保護是非常強大的,並且它是實驗與第2章中描述的非實驗技術不同的重要方式。
除了定義整個人群的治療效果之外,還可以為一部分人定義治療效果。這通常稱為條件平均治療效果 (CATE)。例如,在Restivo和van de Rijt的研究中,讓我們想像\(X_i\)是編輯在實驗前90天內是否高於或低於編輯中位數。人們可以分別為這些輕型和重型編輯計算治療效果。
潛在的結果框架是思考因果推理和實驗的有力方式。但是,您應該記住兩個額外的複雜性。這兩種複雜性通常在術語“ 穩定單位處理值假設” (SUTVA)下匯總在一起。 SUTVA的第一部分是假設對於人\(i\)的結果唯一重要的是該人是否處於治療或控制狀態。換句話說,假設人\(i\)不受給予他人的待遇的影響。這有時被稱為“無干擾”或“無溢出”,可以寫成:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
其中\(\mathbf{W_{-i}}\)是除人\(i\)以外的所有人的治療狀態向量。可以違反這一點的一種方式是,如果來自一個人的治療溢出到另一個人身上,無論是積極的還是消極的。回到Restivo和van de Rijt的實驗,想像兩個朋友\(i\)和\(j\)和那個人\(i\)收到一個barnstar而\(j\)沒有。如果\(i\)接收到barnstar導致\(j\)編輯更多(出於競爭意識)或編輯更少(出於絕望感),則SUTVA被違反。如果治療的影響取決於接受治療的其他人的總數,也可能違反。例如,如果Restivo和van de Rijt已經發出1000或10,000個barnstars而不是100個,這可能會影響接收barnstar的效果。
第二個問題歸結為SUTVA,假設唯一相關的處理是研究人員提供的處理;這種假設有時被稱為沒有隱藏的治療或排他性 。例如,在Restivo和van de Rijt,可能是這樣的情況:通過給出一個barnstar,研究人員讓編輯器出現在一個受歡迎的編輯頁面上,而且它正在流行的編輯頁面上 - 而不是收到一個barnstar-這導致了編輯行為的變化。如果這是真的,那麼barnstar的效果與在流行的編輯器頁面上的效果無法區分。當然,從科學的角度來看,目前尚不清楚這應該被認為是有吸引力的還是沒有吸引力的。也就是說,你可以想像一位研究人員說接收barnstar的效果包括barnstar觸發的所有後續治療。或者你可以想像一種研究想要將barnstars的影響與其他所有東西隔離開來的情況。考慮它的一種方法是詢問是否有任何導致Gerber and Green (2012) (第41頁)稱之為“對稱性崩潰”的東西?換句話說,除了治療之外還有什麼可以使治療和控制條件的人得到不同的治療嗎?關於對稱性破壞的擔憂是導致對照組患者在醫學試驗中服用安慰劑藥丸的原因。這樣,研究人員可以確定這兩種情況之間的唯一區別是實際藥物而不是服用避孕藥的經驗。
有關SUTVA的更多信息,請參閱Gerber and Green (2012)第2.7節, Morgan and Winship (2014)第2.5節Morgan and Winship (2014) ,以及Imbens and Rubin (2015)第1.6節Imbens and Rubin (2015) 。
精確
在上一節中,我已經描述瞭如何估計平均治療效果。在本節中,我將提供一些關於這些估計的可變性的想法。
如果您考慮將平均治療效果估計為估計兩個樣本均值之間的差異,則可以顯示平均治療效果的標準誤差為:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
其中\(m\)人員分配到治療和\(Nm\)控制(見Gerber and Green (2012) ,方程3.4)。因此,當考慮分配給治療的人數和分配給控制的人數時,你可以看到如果\(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) ,那麼你想要\(m \approx N / 2\) ,只要治療和控制的成本是相同的。公式4.6闡明了邦德及其同事(2012)關於社會信息對投票影響的實驗(圖4.18)的設計在統計上效率低下的原因。回想一下,它有98%的參與者處於治療狀態。這意味著控制條件下的平均行為沒有像它本來那樣準確地估計,這反過來意味著治療和控制條件之間的估計差異沒有盡可能準確地估計。有關參與者對條件的最佳分配的更多信息,包括條件之間的成本不同,請參閱List, Sadoff, and Wagner (2011) 。
最後,在正文中,我描述了通常在混合設計中使用的差異差異估計器如何導致比差異估計器更小的方差,差異估計器通常用於主體間設計。如果\(X_i\)是治療前結果的值,那麼我們試圖用差異差異法估計的數量是:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
該數量的標準誤差是(參見Gerber and Green (2012) ,方程4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
方程式的比較4.6和eq。 4.8顯示差異差異方法在標準誤差較小時(參見Gerber and Green (2012) ,方程4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
粗略地說,當\(X_i\)非常預測\(Y_i(1)\)和\(Y_i(0)\) ,你可以從差異方法得到更精確的估計而不是差異 - - 一個。在Restivo和van de Rijt的實驗中考慮這一點的一種方法是,人們編輯的數量存在很多自然變化,因此這使得比較治療和控制條件變得困難:很難檢測到親屬嘈雜的結果數據影響很小。但是如果你區分出這種自然發生的變異性,那麼可變性就會大大減少,這樣就可以更容易地發現一個小的影響。
參見Frison and Pocock (1992)對於在治療前和治療後有多種測量的更一般的環境中,對手段差異,差異差異和基於ANCOVA的方法進行精確比較。特別是,他們強烈推薦ANCOVA,我在這裡沒有介紹過。此外,請參閱McKenzie (2012) ,討論多種治療後結果指標的重要性。