2.2大数据

公司和政府为研究以外的目的创建和收集大数据。因此,使用这些数据进行研究需要重新利用。

许多人在数字时代遇到社会研究的第一种方式是通常所谓的大数据 。尽管这个术语被广泛使用,但对大数据甚至没有达成共识。然而,大数据最常见的定义之一侧重于“3 V”:音量,多样性和速度。粗略地说,有很多数据,有各种各样的格式,而且它是不断创建的。一些大数据的粉丝也增加了其他“V”,如Veracity和Value,而一些评论家则添加Vs,如Vague和Vacuous。为了社会研究的目的,我认为一个更好的起点是5“Ws”而不是3“Vs”(或5“Vs”或7“Vs”):Who,What,Where,When ,以及为什么。事实上,我认为大数据源所带来的许多挑战和机遇只来自一个“W”:为什么。

在模拟时代,大多数用于社会研究的数据都是为了进行研究而创建的。然而,在数字时代,公司和政府正在为研究以外的目的创造大量数据,例如提供服务,创造利润和管理法律。然而, 富有创造力的人已经意识到您可以这些公司和政府数据重新用于研究。回想第1章中的艺术比喻,就像杜尚将一个被发现的对象重新用于创作艺术一样,科学家们现在可以重新利用已发现的数据来创造研究。

虽然毫无疑问是重新利用的巨大机会,但使用非为研究目的而创建的数据也带来了新的挑战。例如,将Twitter等社交媒体服务与传统的民意调查(例如一般社会调查)进行比较。推特的主要目标是为用户提供服务并赚取利润。另一方面,一般社会调查的重点是为社会研究创建通用数据,特别是舆论研究。目标的这种差异意味着Twitter创建的数据和通用社会调查所创建的数据具有不同的属性,即使两者都可用于研究公众舆论。 Twitter的运作规模和速度与普通社会调查无法相提并论,但与通用社会调查不同,Twitter不会仔细地对用户进行抽样,也不会努力保持长期的可比性。因为这两个数据源是如此不同,所以说一般社会调查比Twitter好,反之亦然。如果你想要每小时测量全球情绪(例如, Golder and Macy (2011) ),Twitter是最好的。另一方面,如果你想了解美国态度两极分化的长期变化(例如, DiMaggio, Evans, and Bryson (1996) ),那么一般社会调查是最好的选择。更一般地说,本章不是试图争论大数据源比其他类型的数据更好或更差,而是试图澄清哪些类型的研究问题大数据源具有吸引力的属性以及哪些类型的问题可能不是理想。

在考虑大数据源时,许多研究人员立即关注公司创建和收集的在线数据,例如搜索引擎日志和社交媒体帖子。然而,这个狭隘的焦点遗漏了另外两个重要的大数据来源。首先,越来越多的企业大数据源来自物理世界中的数字设备。例如,在本章中,我将告诉您一项研究,该研究重新利用超市结账数据来研究工人的生产力如何受到同龄人生产力的影响(Mas and Moretti 2009) 。然后,在后面的章节中,我将告诉您使用手机通话记录的研究人员(Blumenstock, Cadamuro, and On 2015)以及电力公司创建的计费数据(Allcott 2015) 。正如这些例子所示,企业大数据源不仅仅是在线行为。

狭隘地关注在线行为而错过的第二个重要数据来源是政府创建的数据。这些政府数据,研究人员称之为政府行政记录 ,包括税务记录,学校记录和人口动态统计记录(如出生和死亡登记处)等内容。在某些情况下,政府一直在为这些数据创造数百年的数据,社会科学家几乎与社会科学家一样长期利用这些数据。然而,改变的是数字化,这使政府更容易收集,传输,存储和分析数据。例如,在本章中,我将向您介绍一项研究,该研究重新利用纽约市政府的数字出租车计量表的数据,以解决劳动经济学中的一个基本争论(Farber 2015) 。然后,在后面的章节中,我将告诉您政府收集的投票记录如何用于调查(Ansolabehere and Hersh 2012)和实验(Bond et al. 2012)

我认为再利用的想法是从大数据源学习的基础,因此,在更具体地讨论大数据源的属性(第2.3节)以及如何在研究中使用这些(第2.4节)之前,我想要提供关于再利用的两条一般性建议。首先,考虑我在“找到的”数据和“设计的”数据之间建立的对比度是很诱人的。那很接近,但是不太对劲。尽管从研究人员的角度来看,大数据源“被发现”,但它们并不仅仅是从天而降。相反,研究人员“发现”的数据源是出于某种目的而由某人设计的。由于“发现”数据是由某人设计的,因此我始终建议您尽可能多地了解创建数据的人员和流程。其次,当您重新调整数据时,想象您的问题的理想数据集,然后将该理想数据集与您正在使用的数据集进行比较通常会非常有帮助。如果您自己没有收集数据,那么您想要的和您拥有的数据之间可能存在重要差异。注意到这些差异将有助于澄清您可以从您拥有的数据中学到什么,也无法从中学到什么,并且可能会建议您应该收集的新数据。

根据我的经验,社会科学家和数据科学家倾向于以非常不同的方式进行再利用。习惯于使用专为研究设计的数据的社会科学家通常会快速指出重新利用数据的问题而忽略其优势。另一方面,数据科学家通常会快速指出重新利用数据的好处,同时忽略其弱点。当然,最好的方法是混合。也就是说,研究人员需要了解大数据源的特征 - 无论好坏 - 然后找出如何从中学习。而且,这是本章其余部分的计划。在下一节中,我将描述大数据源的十个常见特征。然后,在下一节中,我将描述三种可以很好地处理这些数据的研究方法。