2.5结论

大数据无处不在,但用它和其他形式的社会研究的观测数据是困难的。根据我的经验有像一个没有免费的午餐属性的研究:如果你没有投入大量的工作收集数据做,那么你很可能将不得不投入大量工作,分析数据,或者在思考什么是一个有趣的问题要问的数据。根据本章的想法,我认为有那么大的数据来源将是社会研究最有价值的三种主要方式:

  • 竞争的理论预测之间的凭经验审理。这种工作的例子包括: Farber (2015) (纽约出租车司机)和King, Pan, and Roberts (2013)在中国的审查制度)
  • 改善社会测量通过临近预报策略。这类工作的一个例子是Ginsberg et al. (2009) (谷歌流感趋势)。
  • 估计与自然实验和匹配的因果效应。这样的工作。的例子Mas and Moretti (2009)对生产率的影响)和Einav et al. (2015) (在eBay的拍卖上起拍价的影响)。

在社会研究许多重要的问题可以表示为这三个之一。然而,这些方法通常需要研究者带来了很多的数据。是什么让Farber (2015)有趣的是测量的理论动力。这一理论的动机来自于数据之外。因此,对于那些谁是善于提出某些类型的研究问题,大数据源可以是非常富有成果。

最后,而不是理论驱动的实证研究(这一直是焦点这一章),我们可以翻转的脚本,并创造经验,推动理论化 。也就是说,通过经验事实,模式和谜题的悉心积累,我们可以构建新的理论。

理论这种替代,数据优先方法是不是新的,并且它最有力地阐述Glaser and Strauss (1967)与他们的呼吁扎根理论 。该数据优先的方法,但是,不作为已被周围很多在数字时代研究新闻声称意味着“理论的终结” (Anderson 2008) 。相反,如数据环境的变化,我们必须预期的理论和数据之间的关系的重新平衡。在当今世界,数据收集是昂贵的,是有意义的只收集理论认为将是最有用的数据。但是,在这个世界上,大量的数据已经是免费的,它是有道理也尝试一个数据第一种方法(Goldberg 2015)

正如我在本章中所显示的,研究人员可以通过观察人们学到很多东西。在接下来的三个章节,我将描述我们如何能学到更多不同的东西,如果我们更直接问他们问题(第3章),运行实验(第4章),甚至涉及到他们定制我们的数据收集和交互与人在调研过程中,直接(第5章)。