2.3.3反应

大数据源中的测量更不可能改变行为。

社会研究的一个挑战是,当人们知道研究人员正在观察他们时,他们可以改变他们的行为。社会科学家通常称之为反应性 (Webb et al. 1966) 。例如,人们在实验室研究中可能比实地研究更慷慨,因为在前者他们非常清楚他们正在被观察(Levitt and List 2007a) 。许多研究人员发现有希望的大数据的一个方面是参与者通常不知道他们的数据被捕获,或者他们已经习惯了这个数据集,它不再改变他们的行为。因为参与者是非反应性的 ,因此,许多大数据来源可用于研究以前无法进行精确测量的行为。例如, Stephens-Davidowitz (2014)使用搜索引擎查询中种族主义术语的普遍性来衡量美国不同地区的种族仇恨。搜索数据的非反应性和大的(参见第2.3.1节)性质使得使用其他方法(例如调查)难以进行测量。

然而,非反应性并不能确保这些数据在某种程度上直接反映了人们的行为或态度。例如,正如基于访谈的研究中的一位受访者所说:“我不是没有问题,我只是不把它们放在Facebook上” (Newman et al. 2011) 。换句话说,尽管一些大数据源是非反应性的,但它们并不总是没有社会期望偏见,人们倾向于以最佳方式展示自己。此外,正如我将在本章后面描述的那样,大数据源中捕获的行为有时会受到平台所有者目标的影响,这个问题我称之为算法混淆 。最后,尽管非反应性对于研究是有利的,但在没有他们同意和意识的情况下追踪人们的行​​为会引起道德问题,我将在第6章详细描述。

我刚刚描述的三个属性 - 大,永远在线和非反应 - 通常,但并不总是有利于社会研究。接下来,我将转向大数据源的七个属性 - 不完整,不可访问,非代表性,漂移,算法混淆,肮脏和敏感 - 这些通常但不总是会给研究带来问题。