研究人員刮掉中國社交媒體網站來研究審查。他們處理與潛特質推論不完備。
除了 前面兩個例子中使用的大數據,研究人員還可以自行收集的觀測數據,正如奇妙加里王,潘珍妮弗和羅伯特莫莉'所示(2013)的審查研究了中國政府。
在中國的社會化媒體的帖子是由被認為是包括數万人的龐大國家機器審查。研究人員和市民,然而,有這些審查如何決定哪些內容應該從社交媒體中刪除意義不大。中國學者居然有衝突的期望哪些類型的職位最有可能被刪除。有些人認為,審查重點是國家的關鍵,而其他人則認為,他們專注於鼓勵集體行為的帖子,例如抗議的帖子。搞清楚這些期望這是正確的有研究人員是如何理解中國,從事審查其他獨裁政府的影響。因此,王和他的同事想比較陸續出版後又被刪除了該發表永不刪帖的帖子。
收集這些職位涉及爬行超過1000名中國社交媒體網站,每一個不同的頁面佈局,查找相關的帖子,然後重新審視這些帖子,看看哪些隨後刪除了驚人的工程壯舉。除了與大型網頁檢索相關的正常工程問題,這個項目有它需要的是非常快的,因為許多審查職位取下來,在不到24小時內更大的挑戰。換句話說,一個緩慢的爬行會想念很多被審查的職位。此外,爬蟲不得不做這一切的數據採集,同時逃避檢測免得社交媒體網站阻止訪問或以其他方式響應學習改變自己的政策。
一旦這個龐大的工程任務完成後,國王和同事們討論那些預先指定的基於靈敏度他們的預期水平85個不同主題獲得1100萬的職位。例如,高靈敏度的話題是艾未未,持不同政見的藝術家;中間敏感性的話題是升值以及中國貨幣貶值和低靈敏度的話題是世界杯。這11個百萬的發帖約200萬已被審查,但對高度敏感的話題職位審查僅略往往比對中,低敏感性的話題帖子。換句話說,中國的審查即將作為可能的審查提到艾未未作為提到世界杯後一個職位。這些發現不匹配的簡單想法,即政府審查的敏感話題的所有帖子。
這個簡單的主題送檢率計算可能會產生誤導,但是。例如,政府可能會審查那些支持艾未未的,但離開這個是他的關鍵崗位的職位。為了更仔細的職位之間進行區分,研究人員需要測量每個帖子的情緒 。因此,要想想一個辦法是,每個崗位每個崗位的一個重要潛在功能的感悟。不幸的是,儘管有許多工作,使用預先存在的字典情緒檢測全自動化的方法仍然沒有在許多情況下非常好(回想2001年創造9月11日,從第2.3.2.6情緒時間表的問題)。因此,王和他的同事需要一種方式來標記他們的1100萬社交媒體文章他們是否是1)國家的至關重要的,2)支持的狀態,或3)關於事件無關的或實際的報告。這聽起來像一個巨大的工作,但他們解決它使用的是厲害的一招;一個是數據的科學常見,但目前在社會科學中比較少見。
首先,在步驟通常稱為預處理 ,研究人員轉換的社交媒體文章到文檔長期矩陣 ,那裡是每個文檔一行,並且記錄後是否包含特定單詞的一列(例如,抗議,交通,等等)。接下來,一組研究助理的手標記後的樣品的情緒。然後,國王和他的同事利用這一手標記的數據來估計機器學習模型,可以推斷基於其特性後的感悟。最後,他們用這台機器學習模型來估計所有11個百萬的發帖的情緒。因此,而不是手動讀取和標籤1100萬個職位(這將是後勤不可能的),他們手動標記少數職位,然後用什麼樣的數據科學家稱之為監督學習來估計所有的職位類別。完成這個分析後,國王和他的同事們能夠得出這樣的結論,多少有些出人意料的是,一個職位的機率被刪除無關它是否是至關重要的國家或支持的狀態。
最終,國王和他的同事發現,只有三類崗位定期審查:色情,審查的批評,那些有集體動作電位(即領先的大規模抗議活動的可能性)。通過觀察那些沒有刪除的被刪除和崗位的職位數量龐大,國王和他的同事們能夠學習如何審查通過觀察和計數只是工作。在隨後的研究中,他們居然直接通過創建具有系統性不同的內容和衡量得到刪帖介入到中國的社交媒體生態系統(King, Pan, and Roberts 2014) 。我們將了解更多關於在第4章進一步的實驗方法,預示著這將貫穿全書出現的主題,這些潛在屬性的推理問題,有時可有解決監督學習,變成是在社會研究很常見數字時代。你會看到圖片類似圖中的第3章(提出問題)和5 2.3(創建大規模協作);它是出現在多個章節的一些想法之一。
所有這三個例子,在紐約的出租車司機,學生友誼的形成,與中國政府,表明觀測數據的相對簡單的計算可以使研究人員能夠測試理論預測社交媒體審查行為的工作行為。在某些情況下,大數據使您能夠直接比較做計數(在紐約出租車的情況下)。在其他情況下,研究人員需要收集自己的觀測數據(如在中國審查制度的情況下);處理通過合併數據一起(如網絡演進的情況下)不完整;或進行某種形式的潛特質推論(如在中國審查制度的情況下)。正如我希望這些例子表明,研究者誰能夠提出有趣的問題,大發展都是大有裨益。