在模擬時代,收集關於行為的數據 - 誰做什麼,何時做什麼 - 是昂貴的,因此相對罕見。現在,在數字時代,數十億人的行為被記錄,存儲和分析。例如,每次您點擊網站,在手機上撥打電話或使用信用卡付款時,都會創建並存儲您的行為的數字記錄。由於這些類型的數據是人們日常行為的副產品,因此通常稱為數字痕跡 。除了企業所持有的這些痕蹟之外,政府還擁有關於人員和企業的非常豐富的數據。這些業務和政府記錄通常被稱為大數據 。
不斷增長的大數據氾濫意味著我們已經從行為數據稀缺的世界轉變為行為數據充足的世界。從大數據中學習的第一步是認識到它是多年來用於社會研究的更廣泛的數據類別的一部分: 觀察數據 。粗略地說,觀測數據是觀察社會系統而不以某種方式乾預的任何數據。思考它的一種粗略方式是觀察數據是不涉及與人交談的一切(例如,調查,第3章的主題)或改變人們的環境(例如,實驗,第4章的主題)。因此,除了商業和政府記錄之外,觀測數據還包括諸如報紙文章和衛星照片之類的內容。
本章分為三個部分。首先,在2.2節中,我更詳細地描述了大數據源,並闡明了它們與過去通常用於社會研究的數據之間的根本區別。然後,在2.3節中,我描述了大數據源的十個共同特徵。了解這些特徵使您能夠快速識別現有來源的優勢和劣勢,並幫助您利用將來可用的新資源。最後,在2.4節中,我描述了三種可用於從觀察數據中學習的主要研究策略:計算事物,預測事物和近似實驗。