大數據創建和政府比其他研究的目的收集。利用這些數據進行研究,因此,需要再利用。
社會研究的一種理想化的看法想像有一個想法,然後收集數據,以驗證這一想法的科學家。研究這種風格導致研究問題和數據之間的緊密配合,但由於個別研究者往往不具備收集他們所需要的數據,如大型,豐富,而且全國代表性的數據所需要的資源是有限的。因此,很多在過去的社會研究採用了大型社會調查,比如綜合社會調查(GSS),美國國家選舉研究(ANES)和收入動態研究小組(PSID)。這些大規模的調查通常由一個研究小組的運行,他們的目的是創建可被許多研究人員使用的數據。由於這些大規模調查的目標,非常小心放入設計數據收集和研究人員製備所得數據以供使用。這些數據是由研究人員和研究人員。
採用數字化時代最來源的社會研究,但是,是根本不同的。而不是使用由研究人員和研究人員收集的數據,它使用了創建企業和政府為了自己的目的,如賺取利潤,提供服務,或給予法律收集到的數據源。這些企業和政府數據源,來到被稱為大數據 。大數據做研究比做與最初的研究中創建的數據研究不同。比較,例如,社交媒體網站,如Twitter,與傳統的民意調查,如綜合社會調查(GSS)。 Twitter的主要目標是提供給其用戶的服務,並賺取利潤。在實現這些目標的過程中,Twitter的創建可能用於研究輿論的某些方面有用的數據。但是,與綜合社會調查(GSS),微博是不是主要集中在社會研究。
術語大數據是令人沮喪的含糊不清,而且群體很多不同的東西放在一起。對於社會研究而言,我認為這是有幫助的2種大數據源之間的區別:政府的行政記錄和企業行政記錄政府的行政記錄是由政府創建為日常活動的一部分數據。這些種類的記錄,在過去,這種被用來研究人員作為人口學家研究出生,結婚和死亡記錄,但各國政府正越來越多地收集和分析的中釋放的形式詳細記錄。例如,紐約市的政府安裝在每一個城市的出租車內數字米。這些儀表記錄各種數據,每個乘坐出租車包括司機在內,開始時間和地點,停止時間和地點,以及車費。在一項研究中,我將在本章後面講,亨利法伯(2015)重新利用這些數據來解決勞動經濟學有關小時工資和工作小時數之間的關係的一個基本的辯論。
社會研究的第二個主要類型的大數據是企業行政記錄 。這些都是企業創造,並收集他們的日常活動的一部分數據。這些業務行政記錄通常被稱為數字軌跡 ,以及包括像搜索引擎的查詢日誌,社交媒體帖子,並從手機通話記錄。重要的是,這些業務的管理記錄不只是上網行為。例如,使用退房掃描器的商店正在創建工人的生產力的實時措施。在一項研究中,我將關於本章後面的告訴你,亞歷山大馬斯和恩里科·莫雷蒂(2009)改變用途這家超市的退房數據,研究如何工人的生產力是由他們的同齡人的生產力的影響。
由於這兩個例子說明,再利用的想法是從大數據中學習的基礎。根據我的經驗,社會科學家和科學家的數據處理這一再利用非常不同。社會科學家,誰習慣於與設計研究數據工作,很快指出與改變用途的數據的問題,而忽略了它的優勢。在另一方面,數據科學家們很快指出改變用途數據的好處而忽視它的弱點。當然,最好的辦法是混合。也就是說,研究人員需要了解的數據有好有壞,然後弄清楚如何向他們學習這些新源的特點。而且,這是本章的其餘部分計劃。接下來,我將介紹企業和政府管理數據十個共同特點。在那之後,我將描述可以與這些數據,即是公適合此數據的特性的方法可使用三個研究的方法。