大數據集是達到目的的一種手段;他們不是目的本身。
第一個大數據的三個好特性所討論的大多數:這些都是大數據。這些數據源可以在三種不同的方式大:很多人來說,大量的信息每人,或隨著時間的推移很多意見。有一個大的數據集使某些特定類型的研究測量的異質性,研究罕見的事件,檢測小的差異,並從觀測數據作出估算因果關係。這也似乎導致了特定類型的草率。
為此大小是特別有用的第一件事就是超越平均水平,使特定亞群的估計。例如,加里·王,潘珍妮弗和羅伯特莫莉(2013)測量的概率,在中國社交媒體文章將得到政府的審查。就其本身而言刪除這個平均概率是不理解為什麼政府審查一些帖子,而不是其他非常有幫助。但是,因為他們的數據包括1100萬的帖子,國王和他的同事還為送檢的85單獨的類別(例如,色情,西藏,並在北京交通)職位概率估計。通過比較審查為不同類別職位的概率,他們能夠更加了解政府如何以及為何審查某些類型的帖子。隨著11000個職位(而超過1100萬個),他們就不會已經能夠生產這些特定類別的估計。
其次,大小是罕見的事件正在研究特別有用。例如,戈埃爾和他的同事(2015)要研究不同的方式,微博可以去病毒。由於重新鳴叫的大瀑布是在一個極為罕見,大約3000 - 他們需要的,以便找到適合他們的分析足夠大瀑布學習超過十億鳴叫。
三,大型數據集使研究人員能夠檢測小的差異。事實上,許多專注於行業大數據是這些小的差異:可靠地檢測上的廣告1%和1.1%的點擊率之間的差異可以轉化為上百萬美元的額外收入。在一些科學設置,例如小的差異可能不是特別重要的(即使它們是統計學顯著)。但是,在一些策略設置,比如小的差異可以在聚合觀察時變得重要。例如,如果有兩個公共衛生干預和一個比另一個稍微更有效,然後切換到更有效的干預可能最終會節省數千額外的生命。
最後,大數據集大大提高我們從觀測數據做出因果關係的估計能力。雖然大數據集不從根本上改變與觀測數據做出因果推論,匹配和自然實驗,兩種技術,研究人員製作從觀察因果索賠開發的數據都極大地從大型數據集受益的問題。我會解釋,後來更詳細地說明這種說法這一章時,我描述了研究策略。
雖然漿液一般為正確使用一個很好的財產,我注意到,就是大型通常導致概念上的錯誤。出於某種原因,就是大型似乎導致研究者忽視是如何生成它們的數據。而就是大型確實降低了必要擔心隨機誤差,它實際上增加了無需擔心系統誤差,該種我將更下面描述錯誤的偏見,從發生於如何創建和收集的數據。在一個小數據集,兩個隨機誤差和系統誤差可能是重要的,但在大的數據集的隨機誤差可以被平均距離和系統誤差佔主導地位。不考慮系統誤差最終會使用他們的大型數據集來獲得錯誤的東西準確估計誰的研究人員;他們將是不準確的精確 (McFarland and McFarland 2015) 。