3.6.1豐富的詢問

在豐富的詢問中,調查數據圍繞包含一些重要測量但缺少其他測量的大數據源建立背景。

將調查數據和大數據源結合起來的一種方法是我稱之為豐富的問題 。在豐富的詢問中,大數據源包含一些重要的測量但缺少其他測量,因此研究人員在調查中收集這些缺失的測量值,然後將兩個數據源鏈接在一起。富有問題的一個例子是Burke and Kraut (2014)關於Facebook上的互動是否會增加友誼力量的研究,我在3.2節中描述過。在這種情況下,Burke和Kraut將調查數據與Facebook日誌數據結合起來。

然而,Burke和Kraut工作的環境意味著他們不必處理研究人員所做的豐富問題通常面臨的兩個大問題。首先,如果兩個數據源中沒有可用於確保一個數據集中的正確記錄與正確記錄匹配的唯一標識符,則實際將個體級數據集鏈接在一起,稱為記錄鏈接的過程可能很困難。在另一個數據集中。富裕問題的第二個主要問題是,大數據源的質量通常很難讓研究人員評估,因為創建數據的過程可能是專有的,並且可能容易受到第2章中描述的許多問題的影響。換句話說,豐富的詢問通常會涉及容易出錯的調查與未知質量的黑匣子數據源之間的聯繫。然而,儘管有這些問題,豐富的要求可用於進行重要的研究,正如Stephen Ansolabehere和Eitan Hersh (2012)在他們對美國投票模式的研究中所證明的那樣。

選民投票率一直是政治學廣泛研究的主題,過去,研究人員對誰投票及其原因的理解通常基於對調查數據的分析。然而,在美國進行投票是一種不尋常的行為,因為政府記錄每個公民是否投票(當然,政府沒有記錄每個公民投票的人)。多年來,這些政府投票記錄以紙質形式提供,分散在全國各地的政府辦公室中。這使政治科學家很難(但並非不可能)全面了解選民,並將人們在投票調查中所說的與他們的實際投票行為進行比較(Ansolabehere and Hersh 2012)

但是這些投票記錄現已被數字化,許多私營公司已經系統地收集並合併它們,以生成包含所有美國人投票行為的綜合主投票文件。 Ansolabehere和Hersh與其中一家公司--Catalist LCC合作 - 為了使用他們的主投票文件來幫助改善選民的情況。此外,由於他們的研究依賴於在數據收集和協調方面投入大量資源的公司收集和策劃的數字記錄,因此與以前在沒有公司的幫助和使用模擬記錄的情況下所做的努力相比,它提供了許多優勢。

與第2章中的許多大數據源一樣,Catalist主文件並未包含Ansolabehere和Hersh所需的大部分人口統計,態度和行為信息。事實上,他們特別感興趣的是將調查中報告的投票行為與經過驗證的投票行為(即凱利板數據庫中的信息)進行比較。因此,Ansolabehere和Hersh收集了他們想要的數據,作為一項大型社會調查,本章前面提到的CCES。然後他們將數據提供給Catalist,並且Catalist給了他們一個合併的數據文件,其中包括經過驗證的投票行為(來自Catalist),自我報告的投票行為(來自CCES)以及受訪者的人口統計和態度(來自CCES)(圖3.13)。換句話說,Ansolabehere和Hersh將投票記錄數據與調查數據相結合,以便進行單獨使用任何數據源無法進行的研究。

圖3.13:Ansolabehere和Hersh(2012)的研究示意圖。為了創建主數據文件,Catalist組合併協調來自許多不同來源的信息。無論多麼小心,這種合併過程都會傳播原始數據源中的錯誤,並會引入新的錯誤。第二個錯誤來源是調查數據和主數據文件之間的記錄鏈接。如果每個人在兩個數據源中都有一個穩定的唯一標識符,那麼鏈接將是微不足道的。但是,凱利板人必須使用不完美的標識符來進行鏈接,在這種情況下,名稱,性別,出生年份和家庭住址。不幸的是,在許多情況下,信息可能不完整或不准確;一個名叫Homer Simpson的選民可能會出現在Homer Jay Simpson,Homie J Simpson,甚至Homer Sampsin身上。儘管Catalist主數據文件可能存在錯誤,並且記錄鏈接中存在錯誤,但Ansolabehere和Hersh能夠通過幾種不同類型的檢查建立對其估算的信心。

圖3.13: Ansolabehere and Hersh (2012)的研究示意圖。為了創建主數據文件,Catalist組合併協調來自許多不同來源的信息。無論多麼小心,這種合併過程都會傳播原始數據源中的錯誤,並會引入新的錯誤。第二個錯誤來源是調查數據和主數據文件之間的記錄鏈接。如果每個人在兩個數據源中都有一個穩定的唯一標識符,那麼鏈接將是微不足道的。但是,凱利板人必須使用不完美的標識符來進行鏈接,在這種情況下,名稱,性別,出生年份和家庭住址。不幸的是,在許多情況下,信息可能不完整或不准確;一個名叫Homer Simpson的選民可能會出現在Homer Jay Simpson,Homie J Simpson,甚至Homer Sampsin身上。儘管Catalist主數據文件可能存在錯誤,並且記錄鏈接中存在錯誤,但Ansolabehere和Hersh能夠通過幾種不同類型的檢查建立對其估算的信心。

通過他們的綜合數據文件,Ansolabehere和Hersh得出了三個重要結論。首先,投票過度報導猖獗:幾乎一半的非投票者報告投票,如果有人報告投票,他們實際投票的可能性只有80%。其次,過度報導並不是隨機的:過度報導在從事公共事務的高收入,受過良好教育的游擊隊員中更為常見。換句話說,最有可能投票的人也最有可能撒謊投票。第三,也是最關鍵的,由於過度報導的系統性,選民和非選民之間的實際差異小於他們僅從調查中看到的差異。例如,擁有學士學位的人報告投票的可能性大約高22個百分點,但實際投票的可能性僅高出10個百分點。事實證明,現有的基於資源的投票理論可以更好地預測誰將報告投票(這是研究人員過去使用的數據),而不是預測誰實際投票。因此, Ansolabehere and Hersh (2012)的實證研究結果要求新的理論來理解和預測投票。

但是,我們應該相信這些結果多少錢?請記住,這些結果取決於容易出錯的鏈接到具有未知錯誤量的黑盒數據。更具體地說,結果取決於兩個關鍵步驟:(1)Catalist組合許多不同數據源以產生準確的主數據文件的能力和(2)Catalist將調查數據鏈接到其主數據文件的能力。這些步驟中的每一步都很困難,任何一步的錯誤都可能導致研究人員得出錯誤的結論。然而,數據處理和鏈接對於凱利板公司作為一家公司的持續存在至關重要,因此它可以投入資源來解決這些問題,通常規模與學術研究人員無法匹敵。在他們的論文中,Ansolabehere和Hersh經歷了許多步驟來檢查這兩個步驟的結果 - 儘管其中一些是專有的 - 這些檢查可能對其他希望將調查數據與黑匣子大數據聯繫起來的研究人員有所幫助源。

研究人員可以從這項研究中得出什麼一般教訓?首先,通過利用調查數據豐富大數據來源和利用大數據來源豐富調查數據,都有巨大的價值(無論哪種方式都可以看到這一研究)。通過結合這兩個數據源,研究人員能夠做出一些不可能單獨完成的事情。第二個一般性的教訓是,雖然聚合的商業數據來源,例如來自凱利板的數據,不應被視為“基本事實”,但在某些情況下,它們可能是有用的。懷疑者有時會將這些匯總的商業數據源與絕對真理進行比較,並指出這些數據來源不足。然而,在這種情況下,懷疑論者正在進行錯誤的比較:研究人員使用的所有數據都沒有達到絕對真理。相反,最好將聚合的商業數據源與其他可用數據源(例如,自我報告的投票行為)進行比較,這些數據源也總是存在錯誤。最後,Ansolabehere和Hersh的研究的第三個一般教訓是,在某些情況下,研究人員可以從許多私營公司在收集和協調複雜社會數據集方面所做的巨額投資中受益。