大数据源无处不在,但将它们用于社会研究可能会非常棘手。根据我的经验,有一些类似于“没有免费午餐”的数据规则:如果你没有投入大量的工作来收集它,那么你可能不得不投入大量的工作来考虑它和分析它。
今天 - 可能明天 - 的大数据来源往往会有10个特征。其中三个通常(但并不总是)有助于研究:大,永远在线和非反应。研究中一般(但并不总是)存在七个问题:不完整,不可访问,非代表性,漂移,算法混淆,肮脏和敏感。这些特征中的许多特征最终都是因为大数据源不是为了社会研究而创建的。
基于本章中的想法,我认为大数据源有三种主要方式对社会研究最有价值。首先,它们可以使研究人员在相互竞争的理论预测之间做出决定。这类工作的例子包括Farber (2015) (纽约出租车司机)和King, Pan, and Roberts (2013) (中国的审查)。其次,大数据源可以通过临近预报改进政策测量。这种工作的一个例子是Ginsberg et al. (2009) (谷歌流感趋势)。最后,大数据源可以帮助研究人员在不进行实验的情况下进行因果估计。这类工作的例子是Mas and Moretti (2009) (生产力的同伴效应)和Einav et al. (2015) (起价对eBay拍卖的影响)。然而,这些方法中的每一种都倾向于要求研究人员为数据带来很多东西,例如对估计重要的数量的定义或两种进行竞争预测的理论。因此,我认为考虑大数据源可以做的最好的方法是,他们可以帮助那些可以提出有趣和重要问题的研究人员。
在结束之前,我认为值得考虑的是大数据源可能对数据和理论之间的关系产生重要影响。到目前为止,本章采用了理论驱动的实证研究方法。但是大数据源也使研究人员能够凭经验推动理论化 。也就是说,通过仔细积累经验事实,模式和谜题,研究人员可以建立新的理论。这种替代的,数据优先的理论方法并不新鲜,Barney Glaser和Anselm Strauss (1967)最强烈地阐述了他们对扎根理论的呼吁。然而,这种数据优先方法并不意味着“理论的终结”,正如一些关于数字时代研究的新闻报道所声称的那样(Anderson 2008) 。相反,随着数据环境的变化,我们应该期待数据和理论之间关系的再平衡。在数据收集昂贵的世界中,仅收集理论认为最有用的数据是有意义的。但是,在一个已经免费提供大量数据的世界中,尝试数据优先方法也是有意义的(Goldberg 2015) 。
正如我在本章中所展示的,研究人员可以通过观察人们来学习很多东西。在接下来的三章中,我将描述如果我们定制数据集并通过向他们提问(第3章),运行实验(第4章),甚至涉及他们而更直接地与人交流,我们将如何学习更多不同的东西。直接在研究过程中(第5章)。