放大询问使用预测模型将来自少数人的调查数据与来自许多人的大数据源相结合。
将调查和大数据源结合起来的另一种方法是我称之为放大询问的过程 。在放大的询问中,研究人员使用预测模型将少量调查数据与大数据源相结合,以便按比例或粒度产生估计,这是单独使用任一数据源所无法实现的。放大询问的一个重要例子来自Joshua Blumenstock的工作,他希望收集有助于指导穷国发展的数据。过去,收集此类数据的研究人员通常必须采用以下两种方法之一:抽样调查或人口普查。研究人员采访少数人的抽样调查可以灵活,及时,相对便宜。但是,这些调查由于是基于样本,因此通常在解决方案上受到限制。通过抽样调查,通常很难对特定地理区域或特定人口群体进行估算。另一方面,人口普查试图采访每个人,因此他们可以用来为小地理区域或人口群体提供估算。但人口普查通常很昂贵,重点狭窄(它们只包含少量问题),而且不及时(它们按照固定的时间表发生,例如每10年一次) (Kish 1979) 。想象一下研究人员是否可以结合两者的最佳特征,而不是坚持抽样调查或人口普查。想象一下,如果研究人员每天都能向每个人提出每个问题。显然,这种无所不在,永远在线的调查是一种社会科学幻想。但看起来我们可以通过将来自少数人的调查问题与来自许多人的数字痕迹相结合来开始近似。
Blumenstock的研究始于他与卢旺达最大的移动电话提供商合作,该公司在2005年至2009年期间提供了约150万客户的匿名交易记录。这些记录包含有关每个电话和短信的信息,例如开始时间,持续时间,以及呼叫者和接收者的近似地理位置。在我谈论统计问题之前,值得指出的是,这第一步可能是许多研究人员最难的一步。正如我在第2章中所描述的那样,研究人员无法访问大多数大数据源。特别是电话元数据尤其难以访问,因为它基本上不可能匿名化,并且几乎肯定包含参与者认为敏感的信息(Mayer, Mutchler, and Mitchell 2016; Landau 2016) 。在这种特殊情况下,研究人员小心翼翼地保护数据,他们的工作由第三方(即他们的IRB)监督。我将在第6章中更详细地回到这些道德问题。
Blumenstock对衡量财富和福祉感兴趣。但这些特征并不直接存在于通话记录中。换句话说,这些调用记录对于这项研究来说是不完整的 - 这是大数据源的一个共同特征,详见第2章。但是,呼叫记录似乎可能有一些间接提供有关财富和信息的信息。福利。鉴于这种可能性,Blumenstock询问是否有可能培训机器学习模型来预测某人将如何根据他们的通话记录对调查做出回应。如果可行,那么Blumenstock可以使用这个模型来预测所有150万客户的调查回复。
为了建立和培养这样一个模型,来自基加利科学技术研究所的Blumenstock和研究助理称随机抽样了大约一千名顾客。研究人员向参与者解释了该项目的目标,要求他们同意将调查回复与呼叫记录联系起来,然后向他们询问一系列问题来衡量他们的财富和福祉,例如“你拥有一个收音机?“和”你有自行车?“(部分清单见图3.14)。调查的所有参与者都获得了经济补偿。
接下来,Blumenstock使用机器学习中常见的两步程序:特征工程,然后是监督学习。首先,在特色工程步骤中,对于接受采访的每个人,Blumenstock将通话记录转换为关于每个人的一组特征;数据科学家可能将这些特征称为“特征”,社会科学家将其称为“变量”。例如,对于每个人,Blumenstock计算了活动的总天数,一个人与之接触的不同人数,花在通话时间上的金额,等等。至关重要的是,良好的特征工程需要对研究环境的了解。例如,如果区分国内和国际电话(我们可能期望国际上呼叫更富裕的人)是很重要的,那么必须在特征工程步骤中完成。对卢旺达了解甚少的研究人员可能不会包含此功能,因此模型的预测性能会受到影响。
接下来,在监督学习步骤中,Blumenstock建立了一个模型,根据每个人的特征预测每个人的调查反应。在这种情况下,Blumenstock使用逻辑回归,但他可以使用各种其他统计或机器学习方法。
那么它的效果如何? Blumenstock是否能够使用来自通话记录的功能预测调查问题的答案,例如“您是否拥有收音机?”和“您是否拥有自行车?”?为了评估其预测模型的性能,Blumenstock使用交叉验证 ,这是一种常用于数据科学但很少用于社会科学的技术。交叉验证的目标是通过训练模型并在不同的数据子集上进行测试,对模型的预测性能进行公平的评估。特别是,Blumenstock将他的数据分成10块,每块100人。然后,他使用了九个块来训练他的模型,并且在剩余的块上评估训练模型的预测性能。他重复了这个过程10次 - 每个数据块得到一个回合作为验证数据 - 并对结果进行平均。
对于某些特征,预测的准确性很高(图3.14);例如,如果有人拥有收音机,Blumenstock可以预测97.6%的准确率。这可能听起来令人印象深刻,但将复杂的预测方法与简单的替代方法进行比较总是很重要的。在这种情况下,一个简单的替代方案是预测每个人都会给出最常见的答案。例如,97.3%的受访者表示拥有收音机,所以如果Blumenstock预测每个人都会报告拥有收音机,他的准确率将达到97.3%,这与他更复杂程序的表现惊人地相似(准确率为97.6%) 。换句话说,所有奇特的数据和建模都将预测的准确性从97.3%提高到97.6%。但是,对于其他问题,例如“你有自行车吗?”,预测从54.4%提高到67.6%。更一般地说,图3.15显示,对于某些特征,Blumenstock除了进行简单的基线预测之外没有太大的改善,但是对于其他特征,有一些改进。但是,仅仅看一下这些结果,您可能不会认为这种方法特别有希望。
然而,就在一年之后,Blumenstock和两位同事Gabriel Cadamuro和Robert On发表了一篇科学论文,结果(Blumenstock, Cadamuro, and On 2015)好(Blumenstock, Cadamuro, and On 2015) 。这种改进有两个主要的技术原因:(1)他们使用更复杂的方法(即,一种新的特征工程方法和一种更复杂的模型来预测特征的响应)和(2)而不是试图推断对个体的反应调查问题(例如,“你是否拥有收音机?”),他们试图推断出综合财富指数。这些技术改进意味着他们可以合理地使用呼叫记录来预测样本中人们的财富。
然而,预测样本中的人员财富并不是研究的最终目标。请记住,最终目标是结合抽样调查和人口普查的一些最佳特征,以便在发展中国家产生准确,高分辨率的贫困估计。为了评估他们实现这一目标的能力,Blumenstock及其同事利用他们的模型和他们的数据来预测通话记录中所有150万人的财富。他们使用嵌入呼叫记录中的地理空间信息(回想一下,数据包括每次呼叫最近的蜂窝塔的位置)来估计每个人的大致居住地点(图3.17)。将这两个估算结合起来,Blumenstock及其同事以非常精细的空间粒度估算了用户财富的地理分布。例如,他们可以估计卢旺达每个2,148个小区(该国最小的行政单位)的平均财富。
这些估计与这些地区的实际贫困水平相符的程度如何?在回答这个问题之前,我想强调一个事实,即有很多理由要持怀疑态度。例如,在个人层面进行预测的能力相当嘈杂(图3.17)。而且,或许更重要的是,拥有移动电话的人可能与没有移动电话的人有系统地不同。因此,布鲁门斯托克及其同事可能会遭受覆盖错误的类型,这种错误偏向于我之前描述的1936年文学摘要调查。
为了了解他们的估计质量,Blumenstock及其同事需要将它们与其他东西进行比较。幸运的是,在他们研究的同时,另一组研究人员正在卢旺达进行更传统的社会调查。这项另一项调查是广受尊重的人口与健康调查计划的一部分,其预算庞大,采用了高质量的传统方法。因此,人口与健康调查的估计数可以合理地被视为黄金标准估计数。比较两个估计时,它们非常相似(图3.17)。换句话说,通过将少量调查数据与通话记录相结合,Blumenstock及其同事能够产生与黄金标准方法相当的估计值。
怀疑论者可能会认为这些结果令人失望。毕竟,观察它们的一种方式是通过使用大数据和机器学习,Blumenstock及其同事能够通过现有方法产生可以更可靠地进行的估计。但我不认为这是考虑这项研究的正确方法,原因有两个。首先,Blumenstock及其同事的估算速度提高了10倍,便宜了50倍(根据可变成本计算成本)。正如我在本章前面所论述的那样,研究人员忽视成本处于危险之中。例如,在这种情况下,成本的急剧下降意味着不是每隔几年运行一次 - 这是人口和健康调查的标准 - 这种调查可以每个月进行一次,这将为研究人员和政策提供许多优势。制造商。不接受怀疑论者观点的第二个原因是,这项研究提供了一个基本的配方,可以适应许多不同的研究情况。这个配方只有两个成分和两个步骤。成分是(1)一个广泛而薄的大数据源(即,它有很多人,但不是你需要的关于每个人的信息)和(2)一个狭窄但厚的调查(即它只有一些人,但它确实有你需要的关于那些人的信息)。然后将这些成分分两步合并。首先,对于两个数据源中的人员,构建一个使用大数据源来预测调查答案的机器学习模型。接下来,使用该模型来估算大数据源中每个人的调查答案。因此,如果您有一些问题要问很多人, 那么即使您不关心大数据源 , 也要从那些可能用于预测答案的人那里寻找大数据源 。也就是说,Blumenstock及其同事本身并不关心通话记录;他们只关心通话记录,因为它们可以用来预测他们关心的调查答案。这种特征 - 仅对大数据源的间接兴趣 - 使得放大的要求与我之前描述的嵌入式询问不同。
总之,Blumenstock的扩大询问方法将调查数据与大数据源相结合,以产生与黄金标准调查相当的估计值。这个特殊的例子也澄清了放大询问和传统调查方法之间的一些权衡。放大的询问估计更及时,更便宜,更精细。但是,另一方面,这种放大的问题还没有强有力的理论依据。这个单一的例子没有说明这种方法何时起作用,何时不起作用,使用这种方法的研究人员需要特别关注由于包括谁而未包括在他们的大数据源中所造成的可能偏差。此外,放大的询问方法还没有很好的方法来量化其估计值的不确定性。幸运的是,扩大的要求与统计学中的三个大区域(Rao and Molina 2015) ,插补(Rubin 2004)和基于模型的后分层(其本身与P.先生密切相关(Rubin 2004)有很大关系。我在前面章节中描述的方法(Little 1993) 。由于这些深层次的联系,我预计许多扩大要求的方法论基础将很快得到改善。
最后,比较Blumenstock的第一次和第二次尝试也说明了关于数字时代社会研究的一个重要教训:开始并非结束。也就是说,很多时候,第一种方法不是最好的,但如果研究人员继续工作,事情就会变得更好。更一般地说,在评估数字时代社会研究的新方法时,重要的是做出两个不同的评估:(1)现在这样做有多好? (2)随着数据格局的变化以及研究人员对问题的关注度越来越高,未来的效果如何?虽然研究人员接受过第一种评估的培训,但第二种评估往往更为重要。