在模拟时代,收集关于行为的数据 - 谁做什么,何时做什么 - 是昂贵的,因此相对罕见。现在,在数字时代,数十亿人的行为被记录,存储和分析。例如,每次您点击网站,在手机上拨打电话或使用信用卡付款时,都会创建并存储您的行为的数字记录。由于这些类型的数据是人们日常行为的副产品,因此通常称为数字痕迹 。除了企业所持有的这些痕迹之外,政府还拥有关于人员和企业的非常丰富的数据。这些业务和政府记录通常被称为大数据 。
不断增长的大数据泛滥意味着我们已经从行为数据稀缺的世界转变为行为数据充足的世界。从大数据中学习的第一步是认识到它是多年来用于社会研究的更广泛的数据类别的一部分: 观察数据 。粗略地说,观测数据是观察社会系统而不以某种方式干预的任何数据。思考它的一种粗略方式是观察数据是不涉及与人交谈的一切(例如,调查,第3章的主题)或改变人们的环境(例如,实验,第4章的主题)。因此,除了商业和政府记录之外,观测数据还包括诸如报纸文章和卫星照片之类的内容。
本章分为三个部分。首先,在2.2节中,我更详细地描述了大数据源,并阐明了它们与过去通常用于社会研究的数据之间的根本区别。然后,在2.3节中,我描述了大数据源的十个共同特征。了解这些特征使您能够快速识别现有来源的优势和劣势,并帮助您利用将来可用的新资源。最后,在2.4节中,我描述了三种可用于从观察数据中学习的主要研究策略:计算事物,预测事物和近似实验。