2.4.2預測和臨近預報

預測未來是很難,但預計目前比較容易。

研究人員可以使用觀測數據的第二個主要策略進行預測 。猜測未來是非常困難的,也許正因為如此,預測目前還不是社會研究的重要組成部分(儘管它是人口學,經濟學,流行病學和政治學的一個小而重要的部分)。然而,在這裡,我想集中討論一種稱為臨近預報的特殊預測 - 一種源於“現在”和“預測”相結合的術語。而不是預測未來,臨近預測嘗試使用預測中的想法來衡量當前狀態世界的;它試圖“預測現在” (Choi and Varian 2012) 。臨近預報有可能對需要及時準確衡量世界的政府和公司特別有用。

流行病學是一個非常明確需要及時準確測量的環境。考慮流感病例(“流感”)。每年,季節性流感流行病都會導致全世界數百萬人患病和數十萬人死亡。此外,每年都有可能出現一種可能導致數百萬人死亡的新型流感。例如,1918年的流感爆發估計導致5000至1億人死亡(Morens and Fauci 2007) 。由於需要跟踪和潛在應對流感爆發,世界各國政府已經建立了流感監測系統。例如,美國疾病控制和預防中心(CDC)定期和系統地從全國各地精心挑選的醫生那裡收集信息。儘管該系統產生高質量的數據,但它具有報告滯後性。也就是說,由於從醫生那裡獲取的數據被清理,處理和發布所需的時間,CDC系統會發布兩週前有多少流感的估計值。但是,在處理新出現的流行病時,公共衛生官員不想知道兩週前有多少流感;他們想知道現在有多少流感。

在疾病預防控制中心收集數據以追踪流感的同時,谷歌也在收集有關流感流行的數據,儘管形式完全不同。來自世界各地的人們不斷向Google發送查詢,其中一些查詢 - 例如“流感補救措施”和“流感症狀” - 可能表明提出查詢的人患有流感。但是,使用這些搜索查詢來估計流感患病率是非常棘手的:並非所有感染流感的人都會進行與流感相關的搜索,而且並非所有與流感相關的搜索都來自患有流感的人。

傑里米金斯伯格和一個同事團隊(2009) ,一些在谷歌和一些在CDC,有一個重要和聰明的想法結合這兩個數據源。粗略地說,通過一種統計學的煉金術,研究人員將快速和不准確的搜索數據與緩慢而準確的CDC數據相結合,以便快速準確地測量流感流行率。另一種思考方式是他們使用搜索數據來加速CDC數據。

更具體地說,使用2003年至2007年的數據,Ginsberg及其同事估計了CDC數據中流感的流行與5000萬個不同術語的搜索量之間的關係。從這個完全由數據驅動並且不需要專業醫學知識的過程,研究人員發現了一組45個不同的查詢,這些查詢似乎最能預測CDC流感患病率數據。然後,根據他們從2003-2007數據中學到的關係,Ginsberg及其同事在2007-2008流感季節測試了他們的模型。他們發現他們的程序確實可以製作出有用而準確的臨近預報(圖2.6)。這些結果發表在“ 自然”雜誌上並受到了新聞報導。這個被稱為Google流感趨勢的項目成為了一個經常重複的寓言,講述了大數據改變世界的力量。

圖2.6:Jeremy Ginsberg及其同事(2009年)將Google搜索數據與CDC數據相結合,創建了Google流感趨勢,可以預測流感樣疾病(ILI)的發生率。該數字的結果是針對2007-2008流感季節的美國中大西洋地區。雖然最初非常有前途,但谷歌流感趨勢的表現隨著時間的推移而衰退(Cook等人2011; Olson等人2013; Lazer等人2014)。改編自Ginsberg等人。 (2009年),圖3。

圖2.6:Jeremy Ginsberg及其同事(2009)將Google搜索數據與CDC數據相結合,創建了Google流感趨勢,可以預測流感樣疾病(ILI)的發生率。該數字的結果是針對2007-2008流感季節的美國中大西洋地區。雖然最初非常有前途,但谷歌流感趨勢的表現隨著時間的推移而衰退(Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) 。改編自Ginsberg et al. (2009) ,圖3。

然而,這個明顯的成功故事最終變成了尷尬。隨著時間的推移,研究人員發現了兩個重要的局限性,使谷歌流感趨勢不如最初出現的那麼令人印首先,谷歌流感趨勢的表現實際上並不比基於最近兩次流感流行率測量的線性推斷估計流感量的簡單模型的表現要好(Goel et al. 2010) 。而且,在一段時間內,谷歌流感趨勢實際上比這種簡單的方法更糟糕(Lazer et al. 2014) 。換句話說,谷歌流感趨勢及其所有數據,機器學習和強大的計算並沒有顯著超越簡單易懂的啟發式。這表明在評估任何預測或臨近預報時,與基線進行比較非常重要。

關於谷歌流感趨勢的第二個重要警告是,它預測CDC流感數據的能力很容易因為漂移算法混淆而導致短期失敗和長期衰退。例如,在2009年豬流感爆發期間,谷歌流感趨勢大大高估了流感的數量,可能是因為人們傾向於改變他們的搜索行為以應對全球大流行的普遍恐懼(Cook et al. 2011; Olson et al. 2013) 。除了這些短期問題,表現逐漸衰退。診斷這種長期衰退的原因很難,因為谷歌搜索算法是專有的,但似乎在2011年谷歌開始建議相關的搜索條件,當人們搜索流感症狀,如“發燒”和“咳嗽”(它似乎也是此功能不再有效)。如果您正在運行搜索引擎,添加此功能是一件非常合理的事情,但這種算法更改會產生更多與健康相關的搜索,從而導致Google流感趨勢高估流感的流行(Lazer et al. 2014)

這兩個警告使未來的臨近預報工作複雜化,但它們並沒有使它們毀滅。事實上,通過使用更仔細的方法, Lazer et al. (2014)Yang, Santillana, and Kou (2015)能夠避免這兩個問題。展望未來,我期望將大數據源與研究人員收集的數據相結合的臨近預報研究將使公司和政府能夠通過實質性地加速隨著時間的推移重複進行的任何測量而產生更加及時和更準確的估算。 Google流感趨勢等臨近預測項目也展示瞭如果將大數據源與為研究目的而創建的更傳統數據相結合會發生什麼。回想第1章的藝術比喻,臨近預報有可能將杜尚風格的現成品與米開朗基羅風格的自定義結合起來,以便為決策者提供更加及時和更準確的現狀測量和近期預測。