儘管它可能是骯髒的,豐富的要價可厲害了。
不同的方法來處理數字跟踪數據的不完備性是直接調查數據,我會打電話問充實的過程豐富它。豐富要價的一個例子是的研究Burke and Kraut (2014) ,這是我在本章前面描述(第3.2節),是否在Facebook上的互動增加了友誼的力量。在這種情況下,伯克和克勞特結合實日誌數據的調查數據。
伯克和克勞特是在工作的環境,但是,這意味著他們沒有處理,研究人員做詢問充實面對兩大問題。首先,居然連在一起的數據集,這個過程被稱為記錄鏈接 ,記錄在一個數據集的匹配與下面這個問題的其他數據集,是很困難的,而且容易出錯(我們將看到一個例子相應的記錄)。富集詢問的第二個主要問題是,數字跡線的質量將經常是困難的研究人員評估。例如,有時通過它被收集過程是專有的並且可能容易受到許多的第2章所述換言之的問題,富集要價將經常涉及調查來的未知的黑箱的數據源的容易出錯的聯質量。儘管這兩個問題提出的關注,它有可能與這一戰略是由Stephen Ansolabehere和埃坦·赫什被證明進行重要的研究(2012)在其對美國投票模式的研究。這是值得去在這個研究中的一些細節,因為許多Ansolabehere和赫什開發將是豐富的問其他應用程序非常有用的策略。
選民投票率一直在政治學的廣泛研究的主題,而在過去,研究人員是誰投票,為什麼已普遍基於調查數據的分析理解。在美國的投票,但是,在政府記錄每個公民是否已經投票的異常行為(當然,政府並沒有記錄誰對每一個公民投票)。多年來,這些政府的投票紀錄,是可利用的在紙上的形式,散落在全國各地的各地方政府辦公室。這使得它很難,但不是不可能,政治學家有選民的全貌,並比較什麼人在調查中說,有關投票自己的實際投票行為(Ansolabehere and Hersh 2012)
但是,現在這些投票記錄已經被數字化,以及一些私營公司已經系統地收集並合併這些投票記錄產生全面掌握投票文件記錄所有美國人的投票行為。 Ansolabehere和赫什與這些公司 - 凱利之一LCC-才能使用他們的主人表決文件,以幫助開發選民更好的畫面合作。此外,因為它依賴於收集和一個公司策劃數字記錄,它提供了許多優於由研究人員所作的努力,已被沒有公司的助劑和使用模擬記錄完成的優點。
像許多在第2章數字跟踪源,凱利主文件並沒有包含太多的那Ansolabehere和赫什所需要的人口,態度和行為的信息。除了這個信息,Ansolabehere和赫什是在比較報告投票行為來驗證投票行為(即在凱利板數據庫中的信息)特別感興趣。因此,研究人員收集的,他們希望作為合作國會選舉研究(CCES),大型社會調查的一部分數據。接下來,研究人員給這些數據凱利和凱利給了研究人員備份,包括有效的投票行為(從凱利)合併數據文件時,自報的投票行為(從CCES)和人口統計學和受訪者的態度(從CCES )。換句話說,Ansolabehere和赫什富含調查數據投票數據,合併後的文件使他們能夠做一些事情,無論是文件單獨啟用。
通過豐富調查數據凱利主數據文件,Ansolabehere和赫什來到三個重要結論。首先,過度報告投票猖獗:非選民將近一半報導投票。或者,看它的另一種方式是,如果有人舉報的投票中,只有80%的機會,他們居然投了反對票。其次,過度報告不是隨機的;過度報告是較為常見的高收入之間,受過良好教育,誰是從事公共事務的黨羽。換句話說,誰最有可能投票的人也最有可能撒謊投票。第三,也是最關鍵的,因為過度的報告,選民和非選民之間的實際差異比他們通過調查才出現小的系統性。例如,那些具有學士學位大約22個百分點,更可能報告投票,但只有10個百分點,更可能實際投票。此外,投票的現有資源為基礎的理論是在預測誰將會比究竟是誰投票,實證發現,呼喚新的理論來理解和預測報告投票表決好得多。
但是,有多少要我們相信這些結果?記住,這些結果取決於容易出錯鏈接到黑匣子的數據與未知數量的錯誤。更具體地,其結果取決於兩個關鍵的步驟:1)凱利的許多不同的數據源相結合,以產生一個準確的主數據文件和2)凱利的調查數據鏈接到它的主數據文件的能力的能力。每個步驟是相當困難的,在任一步錯誤可能導致研究者錯誤的結論。但是,這兩個數據處理和匹配對凱利的繼續存在作為一個公司的關鍵,因此它可以在解決這些問題投入資源,往往規模,研究人員的任何個人學術研究或組可以比擬的。在本章結尾的進一步閱讀,我更加詳細地介紹如何Ansolabehere和赫什建立其結果的可信度這些問題。儘管這些細節是特定於本研究中,類似這些問題將對於希望鏈接到暗箱數字跟踪數據源的其他研究人員產生。
什麼是一般的經驗教訓的研究人員可以從這項研究得出?首先,從豐富的數字痕跡調查數據巨大的價值。第二,即使這些聚集,商業數據源不應該被認為是“地面實況”,在一些情況下,它們可能是有用的。事實上,最好是比較這些數據源不是絕對真理(從他們總是功虧一簣)。相反,它是最好把它們比其他可用的數據源,這總是有誤差也是如此。