在模擬時代,收集有關數據的行為,誰做什麼的時候,是昂貴的,因此,比較少見。現在,在數字時代,數十億人的行為記錄,存儲和分析的。例如,每次你點擊一個網站上的時間,讓你的手機通話,或支付的東西,用您的信用卡中,創建你的行為的數字記錄和企業存儲。因為這些數據是人的每天操作的副產品,它們通常被稱為數字痕跡 。除了這些痕跡由企業持有,政府也對兩國人民和企業的令人難以置信的豐富的數據,這常常是數字化和分析的數據。連同這些企業和政府的記錄通常被稱為大數據 。
大數據的不斷上漲的洪水意味著我們已經從一個世界移動而行為數據是稀缺的世界裡的行為數據充足。但是,因為這些類型的數據是比較新的,使用它們的研究不幸的金額看起來像科學家盲目追可用的數據。這一章,而是提供了一個原則性的角度來理解數據的不同來源,以及它們如何被使用。這更豐富的理解應該幫助您更好地滿足您的研究問題,以數據的合適的資源。或者,如果這樣的現有來源缺乏,說服你在今後的章節中使用的想法收集自己的數據。
第一步,從大數據中學習是要認識到這是一個已經用於社會研究多年的數據更廣泛類別的一部分: 觀測數據 。粗略地說,觀測數據是,從觀察社會制度沒有以某種方式干預導致的任何數據。想想它的原始方法是,觀測數據是不涉及與人(例如,調查,第3章的主題),或改變著人們的環境(例如,實驗,第4章的主題)談論一切。因此,除了企業和政府的記錄,觀測數據還包括像報紙上的文章和衛星照片的文字。
本章包括三個部分。首先,在2.2節,我將介紹大數據更加詳細,明確,並已普遍被用於在過去的社會研究的數據之間有根本的區別。然後,在2.3節中,我描述的大數據源10的共同特點。了解這些特點使我們能夠快速識別的優勢和現有資源的弱點,將幫助我們充分利用,這將在未來創造新的來源。最後,在2.4節中,我描述,您可以使用從觀測數據學習三個主要的研究策略:計數的事情,預測的東西,逼近實驗。