2.4.1計數的東西

如果你把好的數據一個很好的問題簡單的計數會很有意思。

雖然它用尖端的語言表達,但許多社會研究實際上只是在計算事物。在大數據時代,研究人員比以往任何時候都更重要,但這並不意味著他們應該隨意開始計算。相反,研究人員應該問:什麼東西值得數數?這似乎是一個完全主觀的問題,但有一些一般模式。

通常學生會通過以下方式激勵他們的計數研究:我會計算以前沒有人曾經計算過的東西。例如,學生可能會說許多人研究過移民,很多人研究過雙胞胎,但沒有人研究過移民雙胞胎。根據我的經驗,這種策略,我稱之為缺席動機 ,通常不會導致良好的研究。缺席的動機有點像說那邊有一個洞,我會非常努力地填補它。但並不是每個洞都需要填補。

我認為更好的策略是尋找重要有趣 (或理想兩者)的研究問題,而不是通過缺席來激勵。這兩個術語都有點難以定義,但考慮重要研究的一種方式是它會產生一些可衡量的影響,或者是決策者做出的一項重要決策。例如,衡量失業率很重要,因為它是推動政策決策的經濟指標。一般來說,我認為研究人員非常清楚什麼是重要的。因此,在本節的其餘部分中,我將提供兩個示例,我認為計數很有趣。在每種情況下,研究人員都沒有隨意計算;相反,他們在非常特殊的環境中進行計數,這些環境揭示了關於社會系統如何運作的更一般概念的重要見解。換句話說,很多使這些特定計數練習變得有趣的不是數據本身,而是來自這些更一般的想法。

簡單計算能力的一個例子來自Henry Farber (2015)對紐約市出租車司機行為的研究。雖然這個小組可能聽起來不是很有趣,但它是一個戰略研究網站,用於測試勞動經濟學中的兩個相互競爭的理論。出於法伯研究的目的,出租車司機的工作環境有兩個重要特徵:(1)他們的小時工資每天波動,部分基於天氣等因素,(2)他們的小時數工作可以根據他們的決定每天波動。這些特徵導致了一個關於小時工資和工作小時數之間關係的有趣問題。經濟學中的新古典模型預測出租車司機將在他們有更高的小時工資的日子里工作更多。或者,來自行為經濟學的模型恰恰相反。如果司機設定了一個特定的收入目標 - 比如說每天100美元 - 並且在達到目標之前工作,那麼司機最終會在他們賺取更多收入的日子裡減少工作時間。例如,如果你是目標收入者,你可能最終在美好的一天工作四小時(每小時25美元),在糟糕的一天工作五小時(每小時20美元)。那麼,司機在小時工資較高的日子(新古典主義模型所預測的)工作時間更長,或者每小時工資更低的小時工作(按行為經濟模型預測)?

為了回答這個問題,Farber獲得了2009年至2013年紐約市出租車每次出行的數據,這些數據現已公開發布。這些數據 - 由城市要求出租車使用的電子儀表收集 - 包括每次旅行的信息:開始時間,開始地點,結束時間,結束地點,票價和小費(如果小費是用信用卡支付的) 。使用這種計程車數據,法伯發現大多數司機在工資較高的日子工作更多,與新古典理論一致。

除了這一主要發現之外,Farber還能夠利用數據的大小來更好地理解異質性和動態。他發現,隨著時間的推移,新的司機逐漸學會在高工資日工作更長時間(例如,他們學會像新古典主義模型所預測的那樣行事)。而那些表現得更像目標收入者的新車手更有可能退出出租車司機。由於數據集的大小,這兩個更微妙的發現,這有助於解釋當前驅動因素的觀察行為。在短期內使用少數出租車司機的紙張旅行表的早期研究中,他們無法察覺(Camerer et al. 1997)

Farber的研究接近於使用大數據源進行研究的最佳情況,因為該城市收集的數據非常接近Farber將收集的數據(一個區別是Farber希望獲得總數據)工資 - 票價加上提示 - 但城市數據僅包括信用卡支付的提示)。但是,僅靠數據還不夠。 Farber研究的關鍵是為數據帶來一個有趣的問題,這個問題除了這個特定的環境之外還有更大的影響。

計算事物的第二個例子來自Gary King,Jen​​nifer Pan和Molly Roberts (2013)關於中國政府在線審查的研究。然而,在這種情況下,研究人員必須收集他們自己的大數據,他們必須處理他們的數據不完整的事實。

國王和同事的動機是,中國的社交媒體帖子被一個被認為包括數万人的巨大國家機構審查。然而,研究人員和公民對於這些審查者如何決定應刪除哪些內容幾乎沒有意識。中國學者實際上對哪類帖子最有可能被刪除存在矛盾的期望。有些人認為審查人員關注的是批評國家的職位,而另一些人則認為他們專注於鼓勵集體行為的職位,例如抗議活動。弄清楚哪些期望是正確的,這對於研究人員如何理解中國和其他參與審查的威權政府具有重要意義。因此,King及其同事希望將已發布和隨後刪除的帖子與已發布且從未刪除的帖子進行比較。

收集這些職位涉及爬行超過1000名中國社交媒體網站,每一個不同的頁面佈局,查找相關的帖子,然後重新審視這些帖子,看看哪些隨後刪除了驚人的工程壯舉。除了與大型網頁檢索相關的正常工程問題,這個項目有它需要的是非常快的,因為許多審查職位取下來,在不到24小時內更大的挑戰。換句話說,一個緩慢的爬行會想念很多被審查的職位。此外,爬蟲不得不做這一切的數據採集,同時逃避檢測免得社交媒體網站阻止訪問或以其他方式響應學習改變自己的政策。

當這項龐大的工程任務完成時,King及其同事已經在85個不同的預定主題上獲得了大約1100萬個帖子,每個帖子都有一個假設的敏感度。例如,一個高度敏感的話題是持不同政見的藝術家艾未未;一個中等敏感性的話題是人民幣的升值和貶值,而一個低敏感度的話題是世界杯。在這1100萬個職位中,約有200萬人受到審查。有些令人驚訝的是,King及其同事發現,高度敏感話題的帖子僅比中低敏感話題的帖子略微受到審查。換句話說,中國的審查人員很可能會審查一個提到艾未未是一個提到世界杯的帖子的帖子。這些調查結果不支持政府審查敏感話題的所有帖子。

然而,按主題簡單計算審查率可能會產生誤導。例如,政府可能審查支持艾未未的帖子,但留下批評他的帖子。為了更仔細地區分帖子,研究人員需要衡量每個帖子的情緒 。不幸的是,儘管工作量很大,但在許多情況下使用預先存在的詞典進行情緒檢測的全自動方法仍然不是很好(回想一下創建2001年9月11日情節時間表的問題,在2.3.9節中描述)。因此,金和他的同事需要一種方式來標記他們的1100萬社交媒體帖子,關於他們是否(1)批評國家,(2)支持國家,或(3)關於事件的無關或事實報導。這聽起來像是一項龐大的工作,但是他們使用了一種在數據科學中很常見但在社會科學中相對罕見的強大技巧來解決它: 監督學習 ;見圖2.5。

首先,在通常稱為預處理的步驟中,研究人員將社交媒體帖子轉換為文檔術語矩陣 ,其中每個文檔有一行,一列記錄帖子是否包含特定單詞(例如,抗議或交通) 。接下來,一組研究助理手工貼上了帖子樣本的情緒。然後,他們使用這些手工標記的數據創建了一個機器學習模型,可以根據其特徵推斷帖子的情緒。最後,他們使用這個模型來估計所有1100萬個帖子的情緒。

因此,不是手動閱讀和標記1100萬個帖子 - 這在後勤上是不可能的 - 金和同事手動標記了少量帖子,然後使用監督學習來估計所有帖子的情緒。完成這一分析後,他們得出結論,有些令人驚訝的是,刪除一個帖子的可能性與它是否批評國家或支持國家無關。

圖2.5:King,Pan和Roberts(2013)用於估計1100萬中國社交媒體帖子情緒的簡化示意圖。首先,在預處理步驟中,研究人員將社交媒體帖子轉換為文檔術語矩陣(有關更多信息,請參閱Grimmer和Stewart(2013))。其次,他們手工編寫了一小部分帖子的情緒。第三,他們訓練了一種監督學習模型來對職位情緒進行分類。第四,他們使用監督學習模型來估計所有帖子的情緒。有關更詳細的說明,請參閱King,Pan和Roberts(2013),附錄B。

圖2.5: King, Pan, and Roberts (2013)用於估計1100萬中國社交媒體帖子情緒的簡化示意圖。首先,在預處理步驟中,研究人員將社交媒體帖子轉換為文檔術語矩陣 (有關更多信息,請參閱Grimmer and Stewart (2013) )。其次,他們手工編寫了一小部分帖子的情緒。第三,他們訓練了一種監督學習模型來對職位情緒進行分類。第四,他們使用監督學習模型來估計所有帖子的情緒。有關更詳細的說明King, Pan, and Roberts (2013)請參閱King, Pan, and Roberts (2013) ,附錄B。

最後,金和他的同事發現,只有三種類型的帖子經常被審查:色情,批評審查,以及具有集體行動潛力的那些(即可能導致大規模的抗議活動)。通過觀察大量已刪除的帖子和未刪除的帖子,King和同事們能夠通過觀察和統計來了解審查的工作方式。此外,預示著本書將要出現的一個主題,他們使用的監督學習方法 - 手工標記一些結果,然後建立機器學習模型來標記其餘部分 - 在數字時代的社會研究中變得非常普遍。您將在第3章(提問題)和第5章(創建大規模協作)中看到與圖2.5非常類似的圖片;這是多章中出現的為數不多的幾個想法之一。

這些例子 - 紐約出租車司機的工作行為和中國政府的社交媒體審查行為 - 表明,在某些情況下,相對簡單的大數據來源計數可以帶來有趣和重要的研究。然而,在這兩種情況下,研究人員都必須向大數據源提出有趣的問題;數據本身還不夠。