1.1的墨水印迹

2009年夏天,整个卢旺达的手机响起。除了来自家人,朋友和商业伙伴的数百万电话外,约有1,000名卢旺达人接到了Joshua Blumenstock及其同事的电话。这些研究人员通过对来自卢旺达最大的移动电话提供商的150万客户的数据库的随机样本进行调查,研究财富和贫困。 Blumenstock及其同事向随机选择的人询问他们是否想参加调查,向他们解释研究的性质,然后询问有关其人口,社会和经济特征的一系列问题。

到目前为止我所说的一切都让这听起来像传统的社会科学调查。但接下来的不是传统 - 至少还没有。除了调查数据,Blumenstock及其同事还拥有所有150万人的完整通话记录。结合这两个数据来源,他们使用调查数据来训练机器学习模型,以根据他们的通话记录预测一个人的财富。接下来,他们使用此模型估算数据库中所有150万客户的财富。他们还使用嵌入在通话记录中的地理信息估算了所有150万客户的居住地。把所有这些放在一起 - 估计的财富和估计的居住地 - 他们能够制作卢旺达财富地理分布的高分辨率地图。特别是,他们可以为卢旺达的2,148个小区(该国最小的行政单位)提供估计的财富。

不幸的是,无法验证这些估计的准确性,因为没有人对卢旺达这样的小地理区域进行过估算。但是当Blumenstock及其同事将他们的估计汇总到卢旺达30个地区时,他们发现他们的估计与人口与健康调查的估计非常相似,人口统计和健康调查被普遍认为是发展中国家调查的黄金标准。虽然这两种方法在这种情况下产生了类似的估计,但Blumenstock及其同事的方法比传统的人口和健康调查快10倍,便宜50倍。这些显着更快,成本更低的估算为研究人员,政府和公司创造了新的可能性(Blumenstock, Cadamuro, and On 2015)

这项研究有点像罗夏墨迹测试:人们看到的东西取决于他们的背景。许多社会科学家都看到了一种新的测量工具,可用于测试有关经济发展的理论。许多数据科学家都看到了很酷的新机器学习问题。许多商业人士看到了一种强大的方法来解锁他们已经收集的大数据中的价值。许多隐私倡导者看到一个可怕的提醒,我们生活在一个大规模监视的时代。最后,许多政策制定者认为新技术有助于创造一个更美好的世界。事实上,这项研究就是所有这些,因为它具有这种特征,我认为它是进入社会研究未来的窗口。