大數據集是達到目的的一種手段;他們不是目的本身。
大數據源最廣泛討論的特徵是它們很大。例如,許多論文首先討論 - 有時吹牛 - 他們分析了多少數據。例如,在“ 科學”雜誌上發表的一篇研究Google Books語料庫中詞彙使用趨勢的論文包括以下內容(Michel et al. 2011) :
“[我們的]語料庫包含超過5000億字,英語(3610億),法語(450億),西班牙語(450億),德語(370億),中文(130億),俄語(350億)和希伯來語(20億)。最古老的作品發表於16世紀。早期的幾十年每年只有幾本書,包括數十萬字。到1800年,語料庫每年增長到9800萬字;到1900年,18億;到2000年,110億。語料庫不能被人讀取。如果你試圖僅從2000年開始閱讀英語詞條,以200字/分鐘的合理速度閱讀,不會中斷食物或睡眠,則需要80年。字母序列比人類基因組長1000倍:如果你用直線寫出它,它會到達月球並返回10倍。“
這些數據的規模無疑令人印象深刻,我們很幸運,Google Books團隊已經向公眾發布了這些數據(實際上,本章末尾的一些活動利用了這些數據)。但是,每當你看到這樣的東西時,你應該問:所有數據真的在做什麼嗎?如果數據可以到達月球並且僅返回一次,他們可以做同樣的研究嗎?如果數據只能到達珠穆朗瑪峰的頂部或埃菲爾鐵塔的頂部怎麼辦?
事實上,在這種情況下,他們的研究確實有一些研究結果需要很長一段時間內的大量詞彙。例如,他們探索的一件事是語法的演變,特別是不規則動詞共軛率的變化。由於一些不規則動詞非常罕見,因此需要大量數據來檢測隨時間的變化。然而,很多時候,研究人員似乎將大數據源的大小視為一個目的 - “看看我能夠處理多少數據” - 而不是一種更重要的科學目標的手段。
根據我的經驗,稀有事件的研究是大型數據集傾向於實現的三個特定科學目標之一。第二個是異質性的研究,Raj Chetty及其同事(2014)關於美國社會流動性的研究可以說明這一點。過去,許多研究人員通過比較父母和孩子的生活結果來研究社會流動性。從這些文獻中得出的一致結論是,有利的父母傾向於有優勢的孩子,但這種關係的強度隨著時間和國家的不同而變化(Hout and DiPrete 2006) 。然而,最近,Chetty及其同事能夠使用來自4千萬人的稅務記錄來估計美國各地區代際流動的異質性(圖2.1)。例如,他們發現,兒童在最低分位的家庭中從最低五分之一家庭到達最高五分位數的概率在加利福尼亞州聖何塞約為13%,但在北卡羅來納州夏洛特只有約4%。如果你看一下圖2.1,你可能會開始想知道為什麼代際移動性在某些地方比其他地方更高。 Chetty和他的同事們提出了完全相同的問題,他們發現高流動性地區的居住隔離較少,收入不平等較少,小學更好,社會資本更多,家庭穩定性更高。當然,這些相關性本身並不表明這些因素會導致更高的移動性,但它們確實提出了可以在進一步工作中探索的可能機制,這正是Chetty及其同事在後續工作中所做的。注意數據的大小在這個項目中是如何真正重要的。如果Chetty和他的同事們使用了4萬人而不是4千萬人的稅收記錄,他們將無法估計區域異質性,他們也無法進行後續研究以試圖找出造成這種變異的機制。
最後,除了研究罕見事件和研究異質性之外,大型數據集還使研究人員能夠發現微小差異。事實上,對行業大數據的關注主要集中在這些小差異上:可靠地檢測到廣告上1%到1.1%點擊率之間的差異可以轉化為數百萬美元的額外收入。然而,在某些科學環境中,即使它們具有統計學意義,這種微小的差異可能也不是特別重要(Prentice and Miller 1992) 。但是,在某些策略設置中,它們在匯總查看時會變得很重要。例如,如果有兩個公共衛生干預措施,一個比另一個更有效,那麼選擇更有效的干預措施最終可以挽救數千個額外的生命。
雖然正確使用時大的通常是一個很好的屬性,但我注意到它有時會導致概念錯誤。出於某種原因,巨大似乎導致研究人員無視數據的生成方式。雖然bigness確實減少了擔心隨機錯誤的需要,但它實際上增加了擔心系統錯誤的需要,我將在下面描述的錯誤類型是由數據創建方式的偏差引起的。例如,在我將在本章後面描述的一個項目中,研究人員使用2001年9月11日生成的信息來產生對恐怖襲擊的反應的高分辨率情感時間表(Back, Küfner, and Egloff 2010) 。因為研究人員有大量的信息,他們並不需要擔心他們觀察到的模式 - 在一天中增加的憤怒 - 可以通過隨機變化來解釋。數據非常多,模式非常清晰,所有統計統計測試都表明這是一個真實的模式。但是,這些統計測試不知道數據是如何創建的。事實上,事實證明,許多模式可歸因於一個機器人,它在一天中產生了越來越多無意義的消息。刪除這個機器人完全破壞了論文中的一些主要發現(Pury 2011; Back, Küfner, and Egloff 2011) 。很簡單,不考慮系統誤差的研究人員面臨使用其大型數據集來獲得對不重要數量的精確估計的風險,例如自動機器人產生的無意義消息的情感內容。
總之,大數據集本身並不是目的,但它們可以實現某些類型的研究,包括稀有事件的研究,異質性的估計以及小差異的檢測。大數據集似乎也導致一些研究人員無視他們的數據是如何創建的,這可能導致他們對不重要的數量進行精確估計。