2.4.3逼近實驗

我們可以近似實驗,我們不能這樣做。這尤其是從數字時代受益兩種方法匹配和自然實驗。

許多重要的科學和政策問題是因果關係。讓我們考慮,例如,下面的問題:什麼是工資工作培訓項目的效果呢?回答這個問題的一個方法是用隨機對照試驗,其中工人被隨機分配到接受培訓或不接受培訓。然後,研究人員可以通過簡單地比較誰收到的訓練到那些沒有收到人們的工資估算為這些參與者訓練的效果。

簡單的比較是因為有事甚至被收集的數據之前出現這種情況有效:隨機化。如果沒有隨機化,這個問題是非常棘手。一位研究人員可以比較誰自願報名參加培訓,那些誰沒有登錄達人的工資。這比較可能會表明誰接受培訓的人掙得多,但其中有多少是因為訓練和其中有多少是因為登錄了培訓人都是從那些不簽了訓練有什麼不同?換句話說,它是公平地比較這兩個群體的人的工資?

這是關於公平的比較擔憂使得一些研究人員認為,它不可能做出因果估計沒有運行實驗。這種說法太過分了。雖然這是事實,實驗提供了因果效應最有力的證據,有一些可以提供有價值的因果估計其他策略。相反,認為因果估計要么是容易的(在實驗的情況下)或不可能(在的情況下被動地觀測數據),這是更好地認為戰略作出因果估計一個連續從最強到最弱(圖說謊2.4)。在連續的最強結束時隨機對照實驗。但是,這些往往是很難在社會研究做的,因為許多治療需要大量不切實際的來自政府或公司合作;很簡單,有很多的實驗,我們不能這樣做。我將全心的所有第4章的優勢和隨機對照實驗的弱點兩者,我會認為,在某些情況下,有強烈的道德上的原因喜歡觀察到的實驗方法。

圖2.4:對估計的影響因果關係的研究戰略連續。

圖2.4:對估計的影響因果關係的研究戰略連續。

沿連續移動的,還有那裡的研究人員還沒有明確的情況下隨機。也就是說,研究人員正在試圖學習實驗樣的知識,而無需實際做實驗;當然,這將是棘手的,但大數據大大提高了我們,使因果估計在這些情況下的能力。

有時有設置​​裡隨機性的世界正好創造這樣一個實驗研究人員。這些設計被稱為天然的實驗中 ,他們將在詳細的節2.4.3.1考慮。大數據源,他們永遠在線的性質和他們的兩個特徵尺寸大大增強了我們發生時,他們從自然實驗學習的能力。

移動從隨機對照實驗中漸行漸遠,有時甚至沒有在本質上,我們可以用它來近似自然實驗的事件。在這些設置中,我們可以仔細構造以試圖近似一個實驗內非實驗數據進行比較。這些設計被稱為匹配 ,以及他們將在詳細的節2.4.3.2考慮。就像自然實驗,匹配是一個設計,也是從大數據源中受益。特別是,大規模的尺寸都在病例數和每信息類型方面的情況下,極大地方便了匹配。自然實驗和匹配之間的主要區別在於,在自然實驗研究者知道通過治療分配,並且認為這是隨機的過程。

這激發了慾望做實驗比較公平的概念還underlies兩種替代方法:自然實驗和匹配。這些方法將使您能夠通過發現公平的比較坐在你已經擁有的數據從內部觀察到被動數據估計因果效應。