测量是不太可能改变在大的数据源的行为。
社会研究的一个挑战是,人们可以改变他们的行为,当他们知道他们正在被研究人员观察到。社会科学家们普遍呼吁响应研究员测量反应这一行为改变(Webb et al. 1966)大数据的一个方面,许多研究者发现有前途的是,参与者通常不知道他们的数据被捕获或者他们已经变得如此习惯了这种数据收集器,不再改变自己的行为。因为它们是不反应的 ,因此,大的数据的许多来源可用于研究行为尚未易于进行精确测量先前。例如, Stephens-Davidowitz (2014)用于在搜索引擎查询种族方面的患病率以测量在美国的不同区域种族敌意。搜索数据的非反应性和大的(见前面的部分)的性质使能测量,将使用其他方法,诸如调查是困难的。
非反应性,但并不保证这些数据在某种程度上直接的人的行为或态度反映。例如,一位受访者告诉Newman et al. (2011) ,“这并不是说我没有问题,我只是没有把他们在Facebook上。”换句话说,即使一些大的数据源是无反应,他们并不总是免费的社会期望偏见,对于人的倾向要展示自己的最佳可能的方式。此外,下面我将介绍更多的,这些数据源有时是由平台拥有者的目标的影响,(说明详见下文),一个叫算法混杂的问题。
虽然非反应性研究有利,跟踪人们的行为未经其同意和意识引发的伦理问题在第6章公众的强烈反应反对增加数字监控可能会导致大数据系统,随着时间的推移更多的反应,以及强烈的下面和详细的讨论有关数字监控的关注甚至可能会导致一些人试图完全退出大数据系统,提高对非代表性 (更多如下所述)的担忧。
社会研究型大,永远在线,和非反应,通常出现,因为这些数据源没有被研究人员研究创建大数据这三个性能良好。现在,我要谈谈的是坏的研究大数据源的七个属性。这些特性也趋向于出现因为这个数据没有被研究人员研究创建。