2.4.2预测和临近预报

预测未来是很难,但预计目前比较容易。

研究人员可以使用观测数据的第二个主要策略进行预测 。猜测未来是非常困难的,也许正因为如此,预测目前还不是社会研究的重要组成部分(尽管它是人口学,经济学,流行病学和政治学的一个小而重要的部分)。然而,在这里,我想集中讨论一种称为临近预报的特殊预测 - 一种源于“现在”和“预测”相结合的术语。而不是预测未来,临近预测尝试使用预测中的想法来衡量当前状态世界的;它试图“预测现在” (Choi and Varian 2012) 。临近预报有可能对需要及时准确衡量世界的政府和公司特别有用。

流行病学是一个非常明确需要及时准确测量的环境。考虑流感病例(“流感”)。每年,季节性流感流行病都会导致全世界数百万人患病和数十万人死亡。此外,每年都有可能出现一种可能导致数百万人死亡的新型流感。例如,1918年的流感爆发估计导致5000至1亿人死亡(Morens and Fauci 2007) 。由于需要跟踪和潜在应对流感爆发,世界各国政府已经建立了流感监测系统。例如,美国疾病控制和预防中心(CDC)定期和系统地从全国各地精心挑选的医生那里收集信息。尽管该系统产生高质量的数据,但它具有报告滞后性。也就是说,由于从医生那里获取的数据被清理,处理和发布所需的时间,CDC系统会发布两周前有多少流感的估计值。但是,在处理新出现的流行病时,公共卫生官员不想知道两周前有多少流感;他们想知道现在有多少流感。

在疾病预防控制中心收集数据以追踪流感的同时,谷歌也在收集有关流感流行的数据,尽管形式完全不同。来自世界各地的人们不断向Google发送查询,其中一些查询 - 例如“流感补救措施”和“流感症状” - 可能表明提出查询的人患有流感。但是,使用这些搜索查询来估计流感患病率是非常棘手的:并非所有感染流感的人都会进行与流感相关的搜索,而且并非所有与流感相关的搜索都来自患有流感的人。

杰里米金斯伯格和一个同事团队(2009) ,一些在谷歌和一些在CDC,有一个重要和聪明的想法结合这两个数据源。粗略地说,通过一种统计炼金术,研究人员将快速和不准确的搜索数据与缓慢而准确的CDC数据相结合,以便快速准确地测量流感流行率。另一种思考方式是他们使用搜索数据来加速CDC数据。

更具体地说,使用2003年至2007年的数据,Ginsberg及其同事估计了CDC数据中流感的流行与5000万个不同术语的搜索量之间的关系。从这个完全由数据驱动并且不需要专业医学知识的过程,研究人员发现了一组45个不同的查询,这些查询似乎最能预测CDC流感患病率数据。然后,根据他们从2003-2007数据中学到的关系,Ginsberg及其同事在2007-2008流感季节测试了他们的模型。他们发现他们的程序确实可以制作出有用而准确的临近预报(图2.6)。这些结果发表在“ 自然”杂志上并受到了新闻报道。这个被称为Google流感趋势的项目成为了一个经常重复的寓言,讲述了大数据改变世界的力量。

图2.6:Jeremy Ginsberg及其同事(2009年)将Google搜索数据与CDC数据相结合,创建了Google流感趋势,可以预测流感样疾病(ILI)的发生率。该数字的结果是针对2007-2008流感季节的美国中大西洋地区。虽然最初非常有前途,但谷歌流感趋势的表现随着时间的推移而衰退(Cook等人2011; Olson等人2013; Lazer等人2014)。改编自Ginsberg等人。 (2009年),图3。

图2.6:Jeremy Ginsberg及其同事(2009)将Google搜索数据与CDC数据相结合,创建了Google流感趋势,可以预测流感样疾病(ILI)的发生率。该数字的结果是针对2007-2008流感季节的美国中大西洋地区。虽然最初非常有前途,但谷歌流感趋势的表现随着时间的推移而衰退(Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) 。改编自Ginsberg et al. (2009) ,图3。

然而,这个明显的成功故事最终变成了尴尬。随着时间的推移,研究人员发现了两个重要的局限性,使谷歌流感趋势不如最初出现的那么令人印首先,谷歌流感趋势的表现实际上并不比基于最近两次流感流行率测量的线性推断估计流感量的简单模型的表现要好(Goel et al. 2010) 。而且,在一段时间内,谷歌流感趋势实际上比这种简单的方法更糟糕(Lazer et al. 2014) 。换句话说,谷歌流感趋势及其所有数据,机器学习和强大的计算并没有显着超越简单易懂的启发式。这表明在评估任何预测或临近预报时,与基线进行比较非常重要。

关于谷歌流感趋势的第二个重要警告是,它预测CDC流感数据的能力很容易因为漂移算法混淆而导致短期失败和长期衰退。例如,在2009年猪流感爆发期间,谷歌流感趋势大大高估了流感的数量,可能是因为人们倾向于改变他们的搜索行为以应对全球大流行的普遍恐惧(Cook et al. 2011; Olson et al. 2013) 。除了这些短期问题,表现逐渐衰退。诊断这种长期衰退的原因很难,因为谷歌搜索算法是专有的,但似乎在2011年谷歌开始建议相关的搜索条件,当人们搜索流感症状,如“发烧”和“咳嗽”(它似乎也是此功能不再有效)。如果您正在运行搜索引擎,添加此功能是一件非常合理的事情,但这种算法更改会产生更多与健康相关的搜索,从而导致Google流感趋势高估流感的流行(Lazer et al. 2014)

这两个警告使未来的临近预报工作复杂化,但它们并没有使它们毁灭。事实上,通过使用更仔细的方法, Lazer et al. (2014)Yang, Santillana, and Kou (2015)能够避免这两个问题。展望未来,我期望将大数据源与研究人员收集的数据相结合的临近预报研究将使公司和政府能够通过实质性地加速随着时间的推移重复进行的任何测量而产生更加及时和更准确的估算。 Google流感趋势等临近预测项目也展示了如果将大数据源与为研究目的而创建的更传统数据相结合会发生什么。回想第1章的艺术比喻,临近预报有可能将杜尚风格的现成品与米开朗基罗风格的自定义结合起来,以便为决策者提供更加及时和更准确的现状测量和近期预测。