2.3.7漂流

人口漂移,使用偏差和系统漂移使得很难使用大数据源来研究长期趋势。

许多大数据源的一大优势是它们随着时间的推移收集数据。社会科学家将这种超时数据称为纵向数据 。当然,纵向数据对于研究变化非常重要。然而,为了可靠地测量变化,测量系统本身必须是稳定的。用社会学家Otis Dudley Duncan的话来说,“如果你想衡量变化,就不要改变措施” (Fischer 2011)

不幸的是,许多大数据系统 - 特别是业务系统 - 一直在变化,这个过程我称之为漂移 。特别是,这些系统以三种主要方式发生变化: 人口漂移 (谁在使用它们的变化), 行为漂移 (人们如何使用它们的变化)和系统漂移 (系统本身的变化)。三个漂移源意味着大数据源中的任何模式都可能是由世界上的重大变化引起的,或者可能是由某种形式的漂移引起的。

漂移 - 人口漂移的第一个来源是由谁使用该系统的变化引起的,这些变化可能发生在短时间和长时间尺度上。例如,在2012年美国总统大选期间,女性撰写的关于政治的推文比例每天都在波动(Diaz et al. 2016) 。因此,看起来可能改变Twitter版本的情绪可能实际上只是改变了谁在随时说话。除了这些短期波动之外,某些人口群体采用和放弃Twitter的长期趋势也是如此。

除了使用系统的用户的变化之外,系统的使用方式也有变化,我称之为行为漂移。例如,在土耳其举行的2013年占领格兹抗议期间,随着抗议的演变,抗议者改变了对标签的使用。 Zeynep Tufekci (2014)描述了她能够发现的行为漂移,因为她在Twitter上亲自观察行为:

“发生的事情是,一旦抗议活动成为主导故事,大量人员......停止使用标签,除了引起对新现象的关注......当抗议活动继续,甚至加剧时,标签就会消失。访谈揭示了两个原因。首先,一旦每个人都知道这个主题,那么在人物有限的Twitter平台上,标签就会变得多余和浪费。其次,主题标签被认为仅对吸引对特定主题的关注有用,而不是用于谈论它。

因此,谁是通过分析与抗议活动有关的主题标签鸣叫学习抗议研究者将不得不因为这种行为漂移发生了什么事的扭曲感。例如,他们可能会认为,抗议活动的讨论长期下降实际上减少了。

第三种漂移是系统漂移。在这种情况下,不是人们改变或他们的行为改变,而是系统本身在变化。例如,随着时间的推移,Facebook增加了状态更新长度的限制。因此,对状态更新的任何纵向研究都将容易受到由此变化引起的伪影的影响。系统漂移与称为算法混淆的问题密切相关,我将在2.3.8节中介绍。

总而言之,许多大数据源正在漂移,因为谁在使用它们,如何使用它们以及系统如何工作。这些变化的来源有时是有趣的研究问题,但这些变化使大数据源跟踪长期变化的能力变得复杂。