1.1的墨水印跡

2009年夏天,整個盧旺達的手機響起。除了來自家人,朋友和商業夥伴的數百萬電話外,約有1,000名盧旺達人接到了Joshua Blumenstock及其同事的電話。這些研究人員通過對來自盧旺達最大的移動電話提供商的150萬客戶的數據庫的隨機樣本進行調查,研究財富和貧困。 Blumenstock及其同事向隨機選擇的人詢問他們是否想參加調查,向他們解釋研究的性質,然後詢問有關其人口,社會和經濟特徵的一系列問題。

到目前為止我所說的一切都讓這聽起來像傳統的社會科學調查。但接下來的不是傳統 - 至少還沒有。除了調查數據,Blumenstock及其同事還擁有所有150萬人的完整通話記錄。結合這兩個數據來源,他們使用調查數據來訓練機器學習模型,以根據他們的通話記錄預測一個人的財富。接下來,他們使用此模型估算數據庫中所有150萬客戶的財富。他們還使用嵌入在通話記錄中的地理信息估算了所有150萬客戶的居住地。把所有這些放在一起 - 估計的財富和估計的居住地 - 他們能夠製作盧旺達財富地理分佈的高分辨率地圖。特別是,他們可以為盧旺達的2,148個小區(該國最小的行政單位)提供估計的財富。

不幸的是,無法驗證這些估計的準確性,因為沒有人對盧旺達這樣的小地理區域進行過估算。但是當Blumenstock及其同事將他們的估計匯總到盧旺達30個地區時,他們發現他們的估計與人口與健康調查的估計非常相似,人口統計和健康調查被普遍認為是發展中國家調查的黃金標準。雖然這兩種方法在這種情況下產生了類似的估計,但Blumenstock及其同事的方法比傳統的人口和健康調查快10倍,便宜50倍。這些(Blumenstock, Cadamuro, and On 2015)更快,成本更低的估算為研究人員,政府和公司創造了新的可能性(Blumenstock, Cadamuro, and On 2015)

這項研究有點像羅夏墨跡測試:人們看到的東西取決於他們的背景。許多社會科學家都看到了一種新的測量工具,可用於測試有關經濟發展的理論。許多數據科學家都看到了很酷的新機器學習問題。許多商業人士看到了一種強大的方法來解鎖他們已經收集的大數據中的價值。許多隱私倡導者看到一個可怕的提醒,我們生活在一個大規模監視的時代。最後,許多政策制定者認為新技術有助於創造一個更美好的世界。事實上,這項研究就是所有這些,因為它具有這種特徵,我認為它是進入社會研究未來的窗口。