大數據源無處不在,但將它們用於社會研究可能會非常棘手。根據我的經驗,有一些類似於“沒有免費午餐”的數據規則:如果你沒有投入大量的工作來收集它,那麼你可能不得不投入大量的工作來考慮它和分析它。
今天 - 可能明天 - 的大數據來源往往會有10個特徵。其中三個通常(但並不總是)有助於研究:大,永遠在線和非反應。研究中一般(但並不總是)存在七個問題:不完整,不可訪問,非代表性,漂移,算法混淆,骯髒和敏感。這些特徵中的許多特徵最終都是因為大數據源不是為了社會研究而創建的。
基於本章中的想法,我認為大數據源有三種主要方式對社會研究最有價值。首先,它們可以使研究人員在相互競爭的理論預測之間做出決定。這類工作的例子包括Farber (2015) (紐約出租車司機)和King, Pan, and Roberts (2013) (中國的審查)。其次,大數據源可以通過臨近預報改進政策測量。這種工作的一個例子是Ginsberg et al. (2009) (谷歌流感趨勢)。最後,大數據源可以幫助研究人員在不進行實驗的情況下進行因果估計。這類工作的例子是Mas and Moretti (2009) (生產力的同伴效應)和Einav et al. (2015) (起價對eBay拍賣的影響)。然而,這些方法中的每一種都傾向於要求研究人員為數據帶來很多東西,例如對估計重要的數量的定義或兩種進行競爭預測的理論。因此,我認為考慮大數據源可以做的最好的方法是,他們可以幫助那些可以提出有趣和重要問題的研究人員。
在結束之前,我認為值得考慮的是大數據源可能對數據和理論之間的關係產生重要影響。到目前為止,本章採用了理論驅動的實證研究方法。但是大數據源也使研究人員能夠憑經驗推動理論化 。也就是說,通過仔細積累經驗事實,模式和謎題,研究人員可以建立新的理論。這種替代的,數據優先的理論方法並不新鮮,Barney Glaser和Anselm Strauss (1967)最強烈地闡述了他們對紮根理論的呼籲。然而,這種數據優先的方法並不意味著“理論的終結”,正如一些圍繞數字時代研究的新聞報導所聲稱的那樣(Anderson 2008) 。相反,隨著數據環境的變化,我們應該期待數據和理論之間關係的再平衡。在數據收集昂貴的世界中,僅收集理論認為最有用的數據是有意義的。但是,在一個已經免費提供大量數據的世界中,嘗試數據優先方法也是有意義的(Goldberg 2015) 。
正如我在本章中所展示的,研究人員可以通過觀察人們來學習很多東西。在接下來的三章中,我將描述如果我們定制數據集並通過向他們提問(第3章),運行實驗(第4章),甚至涉及他們而更直接地與人交流,我們將如何學習更多不同的東西。直接在研究過程中(第5章)。