我們可以接近我們沒有或不能做的實驗。特別受益於大數據源的兩種方法是自然實驗和匹配。
一些重要的科學和政策問題是因果關係。例如,職業培訓計劃對工資的影響是什麼?試圖回答這個問題的研究人員可能會將報名參加培訓的人的收入與未參加培訓的人的收入進行比較。但是,這些群體之間的工資差異有多大是因為培訓和多少是因為註冊的人與不註冊的人之間存在差異?這是一個棘手的問題,它不會自動消失更多的數據。換句話說,無論您的數據中有多少工人,都會出現對可能存在的預先存在的差異的擔憂。
在許多情況下,估計某些治療(例如職業培訓)的因果效應的最有效方法是進行隨機對照實驗,其中研究人員將治療隨機地遞送給某些人而不是其他人。我將把第4章全部用於實驗,所以在這裡我將重點介紹兩種可用於非實驗數據的策略。第一種策略取決於尋找世界上發生的事情,隨機(或幾乎隨機)將治療分配給某些人,而不是其他人。第二種策略取決於統計調整非實驗數據,以試圖解釋那些接受和未接受治療的患者之間存在的差異。
懷疑論者可能會聲稱應該避免這兩種策略,因為它們需要強有力的假設,難以評估的假設以及在實踐中經常被違反的假設。雖然我對這一主張表示同情,但我認為這有點太過分了。毫無疑問,很難從非實驗數據中可靠地進行因果估計,但我認為這並不意味著我們不應該嘗試。特別是,如果後勤約束阻止您進行實驗或者道德約束意味著您不想進行實驗,那麼非實驗性方法可能會有所幫助。此外,如果您想利用已有的數據來設計隨機對照實驗,非實驗方法可能會有所幫助。
在繼續之前,還值得注意的是,進行因果估計是社會研究中最複雜的主題之一,並且可能導致激烈的情感辯論。在下文中,我將提供對每種方法的樂觀描述,以便建立對它的直覺,然後我將描述使用該方法時出現的一些挑戰。有關每種方法的更多詳細信息,請參見本章末尾的資料。如果您計劃在自己的研究中使用這些方法中的任何一種,我強烈建議您閱讀許多關於因果推理的優秀書籍之一(Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) 。
從非實驗數據中進行因果估計的一種方法是尋找向某些人而不是其他人隨機分配治療的事件。這些情況稱為自然實驗 。自然實驗最明顯的例子之一來自Joshua Angrist (1990)的研究,該研究測量了軍事服務對收入的影響。在越南戰爭期間,美國通過選秀增加了其武裝部隊的規模。為了決定哪些公民將被服務,美國政府舉行了抽獎活動。每個出生日期都寫在一張紙上,如圖2.7所示,這些紙張一次一個地被選中,以確定年輕男性的服務順序(年輕女性不是主題)到草案)。根據結果,9月14日出生的男性被稱為第一名,4月24日出生的男性被稱為第二名,依此類推。最終,在這個抽籤中,在195天出生的男性被起草,而在171天出生的男性則沒有。
儘管可能不會立即顯現,但草案抽籤與隨機對照實驗具有重要的相似性:在這兩種情況下,參與者被隨機分配接受治療。為了研究這種隨機治療的效果,安格里斯特利用了一個永遠在線的大數據系統:美國社會保障管理局,它收集幾乎所有美國人就業收入的信息。通過將關於抽籤中隨機選擇的人的信息與政府行政記錄中收集的收入數據相結合,安格里斯特得出結論,退伍軍人的收入比同類非退伍軍人的收入低約15%。
正如這個例子所示,有時社會,政治或自然力量以一種可以被研究人員利用的方式分配治療,有時這些治療的效果會被永遠在線的大數據源捕獲。該研究策略可歸納如下: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
為了說明數字時代的這一策略,讓我們考慮一下Alexandre Mas和Enrico Moretti (2009)一項研究,該研究試圖估計與富有成效的同事合作對工人生產力的影響。在看到結果之前,值得指出的是,您可能會有相互矛盾的期望。一方面,您可能期望與富有成效的同事一起工作會導致工人因同伴壓力而提高生產力。或者,另一方面,你可能會認為,勤勞的同齡人可能會導致工人懈怠,因為工作將由她的同伴完成。研究同伴對生產力影響的最明確方法是隨機對照實驗,將工人隨機分配到不同生產力水平的工人輪班,然後測量每個人的生產率。然而,研究人員並不控制任何實際業務中的工人時間表,因此Mas和Moretti不得不依賴於涉及超市收銀員的自然實驗。
在這個特定的超市中,由於調度的方式以及班次重疊的方式,每個收銀員在一天中的不同時間都有不同的同事。此外,在這個特定的超市中,收銀員的分配與同齡人的生產力或商店的繁忙程度無關。換句話說,即使收銀員的時間安排不是通過抽獎來確定的,也就好像工人有時被隨機分配到與高(或低)生產力同行一起工作。幸運的是,這家超市還有一個數字時代的結賬系統,可以跟踪每個收銀員一直在掃描的物品。通過此結帳日誌數據,Mas和Moretti能夠創建精確,個性化且始終在線的生產率衡量標準:每秒掃描的項目數。結合這兩件事 - 同伴生產力的自然發生變化和生產力的持續衡量標準 - Mas和Moretti估計,如果收銀員被分配的同事生產率比平均水平高10%,那麼她的生產率將提高1.5% 。此外,他們利用數據的大小和豐富程度來探討兩個重要問題:這種影響的異質性 (對哪類工人影響更大?)以及影響背後的機制 (為什麼高效率的同行會導致更高的生產力?)。當我們更詳細地討論實驗時,我們將在第4章回到這兩個重要問題 - 治療效果和機制的異質性。
從這兩項研究中推廣,表2.3總結了具有相同結構的其他研究:使用永遠在線的數據源來測量某些隨機變化的影響。在實踐中,研究人員使用兩種不同的策略來尋找自然實驗,這兩種策略都可以取得豐碩成果。一些研究人員從一個永遠在線的數據源開始,並尋找世界上的隨機事件;其他人在世界上開始一個隨機事件,並尋找能夠捕捉其影響的數據源。
實質性的重點 | 自然實驗的來源 | 永遠在線的數據源 | 參考 |
---|---|---|---|
同行對生產力的影響 | 調度過程 | 結帳數據 | Mas and Moretti (2009) |
友誼的形成 | 颶風 | Facebook的 | Phan and Airoldi (2015) |
情緒的傳播 | 雨 | Facebook的 | Lorenzo Coviello et al. (2014) |
點對點經濟轉移 | 地震 | 移動貨幣數據 | Blumenstock, Fafchamps, and Eagle (2011) |
個人消費行為 | 2013年美國政府關閉 | 個人理財數據 | Baker and Yannelis (2015) |
推薦系統的經濟影響 | 各個 | 在亞馬遜瀏覽數據 | Sharma, Hofman, and Watts (2015) |
壓力對未出生嬰兒的影響 | 2006年以色列 - 真主黨的戰爭 | 出生記錄 | Torche and Shwed (2015) |
在維基百科上閱讀行為 | 斯諾登的啟示 | 維基百科日誌 | Penney (2016) |
同伴對運動的影響 | 天氣 | 健身追踪器 | Aral and Nicolaides (2017) |
在迄今為止關於自然實驗的討論中,我遺漏了一個重要的觀點:從大自然提供的東西到你想要的東西有時候會非常棘手。讓我們回到越南草案的例子。在這種情況下,安格里斯特有興趣估計兵役對收入的影響。不幸的是,兵役並非隨機分配;而是正在起草的是隨機分配的。然而,並非所有被起草的人都服務過(有各種各樣的豁免),而且並非所有服務的人都被起草(人們可以自願服務)。由於被起草是隨機分配的,研究人員可以估計草案中所有男性的起草效果。但安格里斯特不想知道起草的效果;他想知道在軍隊服役的效果。然而,為了進行這種估計,需要額外的假設和復雜性。首先,研究人員需要假設起草影響收益的唯一方式是通過軍事服務,這種假設稱為排除限制 。例如,如果被起草的男性為了避免在職或者雇主不太可能僱用被起草的男性,那麼這種假設可能是錯誤的。一般而言,排除限制是一個關鍵假設,通常很難驗證。即使排除限制是正確的,仍然無法估計服務對所有男性的影響。相反,事實證明,研究人員只能估計對特定人群的影響,這些人稱為編纂者(在起草時服務但在未起草時不起作用的人) (Angrist, Imbens, and Rubin 1996) 。然而,編制者並不是最初感興趣的人群。請注意,即使在抽籤的相對清潔的情況下也會出現這些問題。當物理抽選沒有指定治療時,會出現另一組並發症。例如,在Mas和Moretti對收銀員的研究中,出現了關於同伴分配基本上是隨機的假設的其他問題。如果強烈違反這一假設,可能會使他們的估計偏差。總之,自然實驗可以成為從非實驗數據中進行因果估計的有力策略,而大數據源可以提高我們在自然實驗發生時利用自然實驗的能力。然而,它可能需要非常小心 - 有時候是強有力的假設 - 從大自然提供給你想要的估計。
我想告訴你的第二個策略是從非實驗數據中做出因果估計取決於統計調整非實驗數據,試圖解釋那些接受治療和未接受治療的患者之間存在的差異。有很多這樣的調整方法,但我會專注於一個稱為匹配的方法 。在匹配中,研究人員查看非實驗數據以創建相似的人,除了一個人已經接受治療而一個人沒有接受治療。在匹配過程中,研究人員實際上也在修剪 ;也就是說,丟棄沒有明顯匹配的情況。因此,這種方法更準確地稱為匹配和修剪,但我會堅持使用傳統術語:匹配。
Liran Einav及其同事(2015)對消費者行為的研究得出了與大規模非實驗數據源匹配策略的力量的一個例子。他們對在eBay上進行的拍賣感興趣,並且在描述他們的工作時,我將關注拍賣起始價格對拍賣結果的影響,例如銷售價格或銷售概率。
估算起始價格對銷售價格影響的最天真的方法是簡單地計算具有不同起始價格的拍賣的最終價格。如果您想根據起始價格預測銷售價格,這種方法會很好。但如果你的問題涉及起始價格的影響,那麼這種方法將不起作用,因為它不是基於公平的比較;起始價格較低的拍賣可能與起始價格較高的拍賣完全不同(例如,它們可能針對不同類型的商品或包括不同類型的賣家)。
如果您已經意識到從非實驗數據進行因果估計時可能出現的問題,您可以跳過天真的方法並考慮進行現場實驗,在那裡您可以出售特定項目 - 比如高爾夫俱樂部 - 具有固定的一套拍賣參數 - 比方說,免費送貨和拍賣開放兩週 - 但隨機分配起始價格。通過比較由此產生的市場結果,該現場實驗將非常清楚地衡量起始價格對銷售價格的影響。但是這種測量僅適用於一種特定產品和一組拍賣參數。結果可能不同,例如,對於不同類型的產品。如果沒有強有力的理論,很難從這個單一的實驗推斷出可能已經進行過的各種可能的實驗。此外,現場實驗足夠昂貴,因此運行您可能想要嘗試的每個變體是不可行的。
與天真和實驗方法相比,Einav及其同事採用了第三種方法:匹配。他們策略的主要技巧是發現類似於已在eBay上發生的現場實驗的事情。例如,圖2.8顯示了完全相同的高爾夫俱樂部的31個列表中的一些 - 由完全相同的賣家 - “budgetgolfer”出售的Taylormade Burner 09 Driver。然而,這31個列表具有略微不同的特徵,例如不同的起始價格,結束日期和運費。換句話說,就像“預算工作”正在為研究人員進行實驗。
這些由“budgetgolfer”出售的Taylormade Burner 09 Driver的列表是匹配的一組列表中的一個示例,其中完全相同的物品由完全相同的賣家出售,但每次具有略微不同的特徵。在eBay的大量日誌中,實際上有成千上萬的匹配集涉及數百萬個列表。因此,Einav及其同事在匹配的集合中進行了比較,而不是將所有拍賣的最終價格與給定的起始價格進行比較。為了結合這些成千上萬套匹配的比較結果,Einav及其同事根據每個項目的參考價值(例如,其平均銷售價格)重新表達起始價格和最終價格。例如,如果Taylormade Burner 09 Driver的參考價值為100美元(基於其銷售額),則10美元的起始價格將表示為0.1,最終價格為120美元表示為1.2。
回想一下,Einav及其同事對起始價格對拍賣結果的影響感興趣。首先,他們使用線性回歸估計較高的起始價格降低了銷售的可能性,並且較高的起始價格增加了最終銷售價格(以銷售發生為條件)。這些估計 - 它們描述了一種線性關係並且在所有產品上的平均值 - 本身並不是那麼有趣。然後,Einav及其同事利用他們龐大的數據來創建各種更微妙的估計。例如,通過分別估算各種不同起始價格的影響,他們發現起始價格和銷售價格之間的關係是非線性的(圖2.9)。特別是,對於0.05到0.85之間的起始價格,起始價格對銷售價格的影響非常小,這一發現完全被他們的第一次分析所忽略。此外,Einav及其同事估計了23種不同類別物品(如寵物用品,電子產品和體育紀念品)的起價影響,而不是對所有物品進行平均(圖2.10)。這些估計表明,對於更具特色的項目 - 例如紀念品 - 起始價格對銷售概率的影響較小,對最終銷售價格的影響較大。此外,對於更多商品化的商品 - 例如DVD - 起始價格對最終價格幾乎沒有影響。換句話說,結合來自23個不同類別項目的結果的平均值隱藏了這些項目之間的重要差異。
即使你對eBay上的拍賣不是特別感興趣,你也不得不佩服圖2.9和圖2.10提供對eBay更豐富理解的方式,而不是描述線性關係並結合許多不同類別項目的簡單估計。此外,儘管通過現場實驗在科學上可能產生這些更微妙的估計,但成本將使這些實驗基本上不可能。
與自然實驗一樣,匹配可能會導致錯誤估計。我認為匹配估計的最大問題是它們可能會被匹配中未使用的東西所偏向。例如,在他們的主要結果中,Einav及其同事對四個特徵進行了精確匹配:賣家ID號,項目類別,項目標題和副標題。如果項目在不用於匹配的方式上有所不同,那麼這可能會造成不公平的比較。例如,如果“budgetgolfer”在冬季降低了Taylormade Burner 09 Driver的價格(當時高爾夫球桿不太受歡迎),那麼起始價格較低會導致最終價格降低,而事實上這將是一件神器。需求的季節性變化。解決這個問題的一種方法是嘗試許多不同類型的匹配。例如,Einav及其同事重複他們的分析,同時改變用於匹配的時間窗口(匹配的集合包括一年內,一個月內和同期銷售的項目)。幸運的是,他們發現了所有時間窗口的類似結果。匹配的另一個問題來自解釋。匹配估算僅適用於匹配數據;它們不適用於無法匹配的案例。例如,通過將他們的研究限制在具有多個列表的項目上,Einav及其同事專注於專業和半專業賣家。因此,在解釋這些比較時,我們必須記住它們只適用於eBay的這個子集。
匹配是在非實驗數據中找到公平比較的有力策略。對於許多社會科學家來說,匹配對於實驗來說是第二好的,但這是一個可以稍微修改的信念。當(1)影響的異質性很重要和(2)測量匹配所需的重要變量時,大量數據中的匹配可能比少數現場實驗更好。表2.4提供瞭如何將匹配與大數據源一起使用的一些其他示例。
實質性的重點 | 大數據源 | 參考 |
---|---|---|
槍擊對警察暴力的影響 | 停止和frisk記錄 | Legewie (2016) |
2001年9月11日對家庭和鄰居的影響 | 投票記錄和捐贈記錄 | Hersh (2013) |
社會傳染 | 溝通和產品採用數據 | Aral, Muchnik, and Sundararajan (2009) |
總之,估計非實驗數據的因果效應是困難的,但可以使用諸如自然實驗和統計調整(例如匹配)的方法。在某些情況下,這些方法可能會出現嚴重錯誤,但在仔細部署時,這些方法可以作為我在第4章中描述的實驗方法的有用補充。此外,這兩種方法似乎特別有可能從總是 - 在,大數據系統。