3.6.1擴增問

將您的調查數字軌跡能像大家問你的問題在任何時候。

要求一般有兩種主要類別:抽樣調查和普查。抽樣調查,在那裡你訪問一個少數人,可以靈活,及時,價格相對便宜。然而,抽樣調查,因為它們是基於一個樣品,常常在他們的分辨率的限制;用抽樣調查,往往是很難做出關於特定地理區域或特定人口群體的估計。普查,另一方面,試圖在人群中採訪的每一個人。他們有很大的分辨率,但它們通常價格昂貴,焦點狹窄(他們只包括一個小一些問題),而且不及時(它們發生在一個固定的時間表,如每10年) (Kish 1979)現在想像一下,如果研究人員能夠結合抽樣調查和普查的最佳特性;想像一下,如果研究人員能夠每天問的每一個問題給大家。

顯然,這種持續的,無處不在,永遠在線調查是一種社會科學幻想。但是,我們似乎可以開始調查問題從少數人從許多人的數字軌跡相結合,這種近似。我把這種類型的組合擴增要求 。如果做得好,它可以幫助我們提供估計是更當地化(較小的地理區域),更細粒度的(特定人口群體),更及時。

問放大的一個例子來自約書亞Blumenstock,誰想要收集數據,這將有助於引導開發貧窮國家的工作。更具體地說,Blumenstock想建立一個系統來衡量財富和福祉的聯合調查的靈活性和頻率普查的完整性(Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) 。事實上,我已經在第一章中所描述Blumenstock工作的簡要介紹。

要開始,Blumenstock與盧旺達最大的手機供應商合作。該公司為他提供了匿名交易記錄大約1.5萬用戶覆蓋的行為從2005年和2009年的日誌包含有關每個呼叫和短信信息,如開始時間,持續時間,主叫方和接收器的大致地理位置。我們開始談論統計問題之前,值得指出的是這第一步可能是最難的之一。正如第2章所述,大多數數碼跟踪數據無法訪問研究員。而且,許多公司有理由不願分享自己的數據,因為它是私有的;這是他們的客戶可能沒有想到,他們的記錄將被共享的大容量與研究人員。在這種情況下,研究人員把小心步驟匿名數據,他們的工作是由第三方(即,它們的IRB​​)監督。但是,儘管有這些努力,這些數據可能仍然辨認,他們有可能包含敏感信息(Mayer, Mutchler, and Mitchell 2016; Landau 2016) 。我將回到這些道德問題在第6章。

回想一下,Blumenstock感興趣的衡量​​財富和福祉。但是,這些特徵都不能直接在呼叫記錄。換句話說,這些通話記錄是不完整的這項研究,是進行了詳細在第2章中討論的數字軌跡的一個共同特點但是,它很可能是通話記錄可能對財富和福祉的一些信息。因此,要求Blumenstock的問題可能是一個辦法:就是它可以預測怎麼會有人一項調查基於其數字跟踪數據回應?如果是這樣,那麼通過詢問幾個人,我們可以猜測其他人的答案。

要性的評估,從科學的基加利技術研究所Blumenstock和研究助理叫約一千手機客戶樣本。研究人員解釋該項目的目標參與者,詢問他們同意對調查的答复鏈接到的通話記錄,然後問他們一系列的問題來衡量他們的財富和幸福,如“你擁有收音機嗎?“”你自己的自行車嗎?“(見圖3.11的部分列表)。在所有參與調查的進行財政補償。

接著,Blumenstock應用於數據科學共同的兩步過程:特徵工程隨後監督學習。首先,在功能設計的步驟,每個人都被採訪,Blumenstock轉換的通話記錄成一組關於每個人的特點;數據科學家可能把這些特色的“功能”和社會科學家們稱他們為“變量”。例如,對於每個人,Blumenstock計算出具有活性的總天數,一個人一直在接觸不同的人的數量,金額金錢花在通話時間,等等。重要的是,良好的功能要求的工程研究環境的知識。例如,如果是重要的國內,國際電話區分(我們可以期待誰打電話國際人要富裕),那麼必須在功能設計步驟中完成。與盧旺達知之甚少一位研究員可能不包含此功能,然後將模型的預測業績將受到影響。

接著,在監督學習步驟,Blumenstock構建統計模型來預測基於其特徵每個人的調查響應。在這種情況下,Blumenstock採用Logistic回歸10倍交叉驗證,但他也可以使用其他各種統計或機器學習的方法。

那麼如何做的工作?當時Blumenstock能夠預知答案調查這樣的問題:“你自己的電台嗎?”“你自己的自行車嗎?”使用從通話記錄導出功能?有點。該預測的準確性是很高的一些特徵(圖3.11)。但是,它始終是重要的對一個簡單的替代比較複雜的預測方法。在這種情況下,一個簡單的選擇是預測每個人都將給出最常見的答案。例如,97.3%的人報告擁有的,所以如果Blumenstock曾預測,每個人都將擁有匯報電台,他將不得不97.3%,這是驚人的相似,以他的更加複雜的程序(97.6%精度)的性能,精度收音機。換言之,所有的花式數據和建模提高預測的精確度從97.3%至97.6%。然而,對於其他的問題,比如“你自己的自行車嗎?”時,預測從54.4%提高到67.6%。更一般地,如圖3.12所示為某些特質Blumenstock沒有改善遠遠超出只是讓簡單的基線預測,不過這對於其他性狀有一定的提升。

圖3.11:與通話記錄訓練的統計模型預測的準確性。結果從Blumenstock(2014)的表2。

圖3.11:與通話記錄訓練的統計模型預測的準確性。結果從表2 Blumenstock (2014)

圖3.12:帶通話記錄簡單的基線預測訓練的統計模型的預測準確度的比較。點略微抖動,以避免重疊;看到Blumenstock(2014年)的表2精確值。

圖3.12:帶通話記錄簡單的基線預測訓練的統計模型的預測準確度的比較。點略微抖動,以避免重疊;看看表2 Blumenstock (2014)的精確值。

在這一點上,你可能會想,這些結果是有點令人失望,但僅僅一年後,Blumenstock和兩位同事-加布里埃爾卡達穆羅和羅伯特在-發表在科學論文基本上更好的結果(Blumenstock, Cadamuro, and On 2015) 。有用於改善兩個主要的技術原因:1)他們用更複雜的方法(即一種新的方法以特色工程和更複雜的機器學習模型)和2),而不是試圖去推斷個體的調查問題的回答(例如, “你自己的收音機?”),他們試圖推斷複合財富指數。

Blumenstock和同事們展示了他們的做法在兩個方面的表現。首先,他們發現,他們的樣本中的人,他們可以這樣做,從通話記錄(圖3.14),預測他們的財富的一個不錯的工作。第二,更加重要的是,Blumenstock和他的同事發現,他們的做法可能產生的財富在盧旺達的地理分佈的高品質的估計。更具體地說,他們用自己的機器學習模型,這是對他們的約1000人樣本的訓練,預測到所有150萬人的財富通話記錄。此外,通過嵌入在呼叫數據的地理空間數據(記得,呼叫數據包括最近的手機信號塔每個呼叫的位置),研究人員能夠估計每個人居住的大致位置。把這些兩個估計在一起,研究在製作極其精細的空間粒度用戶豐富的地理分佈的估計。例如,他們可以估算每個盧旺達的2148細胞(全國最小的行政單位)的平均財富。這些預測值,財富是如此精細,他們很難檢查。因此,研究人員匯總他們的結果產生盧旺達的30個地區的平均財富的估計。這些區級的估計是密切相關,從金本位傳統的調查估計,盧旺達人口與健康調查(圖3.14)。雖然來自兩個源的估計值是相似的,從Blumenstock和同事的估計是大約50便宜倍和10倍的速度(當在可變成本方面的測量費用)。在此成本急劇下降意味著,而不是被運行,每隔幾年,因為是人口與健康調查的標準 - 小調查大數字跟踪數據相結合混合可以每月運行。

圖3.13:Blumenstock,卡達穆羅的示意圖,並在(2015)。從電話公司的呼叫數據被轉換為一個矩陣的一行的每個人,並為每一個特徵(即,可變的)一列。接下來,研究人員建立了一個監督的學習模型通過特徵矩陣來預測從人的調查答复。隨後,監督學習模型被用來歸咎於每個人的調查答复。從本質上說,研究人員使用了大約一千人的反應歸咎於約一萬人的財富。此外,研究人員估計住所的大致位置為基於它們的呼叫的位置的所有150萬人。當這兩個估計合併,估計財富和滯留的結果估計地方是相似的,從人口與健康調查,一個黃金標準的傳統調查(圖3.14)的估計。

圖3.13:示意圖Blumenstock, Cadamuro, and On (2015) 。從電話公司的呼叫數據轉化為矩陣一行每人一列每個功能(即變量)。接下來,研究人員建立了一個監督的學習模型通過特徵矩陣來預測從人的調查答复。隨後,監督學習模型被用來歸咎於每個人的調查答复。從本質上說,研究人員使用了大約一千人的反應歸咎於約一萬人的財富。此外,研究人員估計住所的大致位置為基於它們的呼叫的位置的所有150萬人。當這兩個估計合併,估計財富和滯留的結果估計地方是相似的,從人口與健康調查,一個黃金標準的傳統調查(圖3.14)的估計。

圖3.14:從Blumenstock,卡達穆羅,並在(2015年)結果。在個人層面,研究人員能夠從他們的通話記錄預測一個人的財富做一個合理的工作。區級財富 - 這是基於財富和居住地,結果的個體層面估計的估計相似,從人口與健康調查,金標準的傳統的調查結果。

圖3.14:從結果Blumenstock, Cadamuro, and On (2015) 。在個人層面,研究人員能夠從他們的通話記錄預測一個人的財富做一個合理的工作。區級財富 - 這是基於財富和居住地,結果的個體層面估計的估計相似,從人口與健康調查,金標準的傳統的調查結果。

總之,Blumenstock的擴增詢問數字跟踪數據相結合的方法調查數據產生的估計與黃金標準調查估計媲美。這個特殊的例子也澄清了一些放大的要價與傳統調查方法之間的權衡。首先,擴增問估計是更加及時,便宜很多,而且更精細。但是,另一方面,在這個時候,不存在用於這種擴增要價的一個有力的理論基礎。即,此一實施例不顯示時,將工作,當它不會。此外,放大要價的做法目前還沒有很好的方法來量化圍繞其估算的不確定性。然而,放大要價已在基於統計模型的事後分層三大領域深厚的關係(Little 1993) ,估算(Rubin 2004) ,和小面積估計(Rao and Molina 2015) -和,所以我期望的進展將迅速。

問放大遵循一個基本的食譜,可以根據您的具體情況。有兩種成分和兩個步驟。兩種成分是1)的數字跟踪數據集是寬,但薄的(即,它具有需要有關每個人的許多人,但不中的信息)和2),該窄但厚(即一個調查,它具有只有少數人,但它有你需要為那些人的信息)。然後,有兩個步驟。首先,對於這兩個數據源的人,建立使用數字跟踪數據來預測調查的答案機器學習模型。接下來,使用機器學習模型歸咎於每個人的問卷答案在數字跟踪數據。因此,如果你要問到很多人,從可能被用來預測他們的回答那些人找數字跟踪數據的一些問題。

比較Blumenstock的這個問題第一和第二次嘗試​​也說明了有關從第二個時代第三時代辦法過渡的重要一課調查研究:一開始不是結束。也就是說,很多時候,第一種方式將不會是最好的,但如果研究人員繼續工作,事情可以變得更好。更一般地,評估新方法在數字化時代的社會研究時,提出兩個不同的評估是非常重要的:1)現在如何做這項工作,並2)如何你覺得這可能會在今後的工作中作為數據的風景變化,研究人員更加關注這個問題。雖然研究人員進行培訓,使第一樣的評價(有多好是研究這個特殊片),第二次往往是更重要的。