2.3.2.4沙僧

人口漂移,漂移的使用和系统漂移使其难以利用大数据源来研究长期趋势。

其中的许多大数据源的巨大优势是,他们收集的数据随着时间的推移。社会学家称这种过度时间数据,纵向数据。而且,自然,纵向数据是研究的变化非常重要。为了可靠地测量的变化,但是,测量系统本身必须是稳定的。在社会学家奥的斯达德利邓肯的话说,“如果要衡量变化,不改变措施” (Fischer 2011)

不幸的是,许多大数据系统,尤其是业务系统创建并捕获数字轨迹,正在改变所有的时间,我会打电话给漂移的过程。特别是,这些系统主要以三种方式发生变化: 人口漂移 (以谁正在使用他们的变化), 行为漂移 (人们是如何使用它们的变化),以及系统的漂移 (系统本身的变化)。漂移的三个来源意味着在数字跟踪数据的任何图案可以通过在世界上的一个重要的变化引起的,或者它可以通过某种形式的漂移引起的。

漂人口的第一源漂移是谁在使用该系统,并且这改变了在长的时间尺度和短的时间尺度。例如,从2008年至今的人们对社会化媒体的平均年龄有所增加。除了这些长期趋势,在任何时刻使用系统的人而异。例如,2012年美国总统大选期间,写了妇女的鸣叫关于政治比例从日常波动(Diaz et al. 2016) 。因此,什么可能似乎是Twitter的诗句的情绪变化实际上可能只是在谁是随时变化交谈。

除了在谁正在使用的系统的变化,也有改变了系统的使用方式。例如,在占据在伊斯坦布尔公园隔子抗议,土耳其在2013年示威者改变其使用#标签作为抗议演变。下面是Zeynep相识Tufekci如何(2014)中描述的漂移,这是她能够检测,因为她在Twitter上和地面观测行为:

“发生了什么事是,一旦抗议成为占主导地位的故事,大量的人。 。 。使用#标签,除了提醒大家注意一个新现象停止。 。 。虽然抗议活动持续,甚至加剧,井号标签偃旗息鼓。访谈揭示了两个方面的原因。首先,一旦每个人都知道的话题,这个标签是一次多余和浪费的字符限制的Twitter平台上。二,主题标签被视为只为吸引关注特定主题,而不是谈论它是有用的。“

因此,谁是通过分析与抗议活动有关的主题标签鸣叫学习抗议研究者将不得不因为这种行为漂移发生了什么事的扭曲感。例如,他们可能会认为,抗议活动的讨论长期下降实际上减少了。

第三种漂移是系统的漂移。在这种情况下,它是在不改变人或他们的行为改变,但系统本身发生变化。例如,随着时间的推移Facebook已经在状态更新的长度增加了限制。因此,状态更新的任何纵向研究会极易造成这种变化的文物。系统漂移是密切相关的所谓的算法混杂的问题,这是我们现在转向。