2.3.2.5算法上混淆

行为中找到的数据是不自然的,它是由系统的工程目标驱动。

虽然很多发现数据源无反应,因为人们不知道他们的数据被记录(第2.3.1.3),研究者不应考虑这些在线系统的行为是“自然发生的”或“纯”。在现实中,该记录的行为是高度工程化的诱导特异性行为,如点击广告或发布内容的数字系统。该系统设计的目标可以引进模式划分成数据的方式被称为算法混杂 。算法混杂相对未知的社会科学家,但它是其中小心数据科学家的主要问题。而且,不像其他的一些问题,数字轨迹,算法混杂在很大程度上是不可见的。

算法混杂的一个比较简单的例子是,在Facebook上有大约20位朋友一个异常高的用户数量的事实(Ugander et al. 2011)科学家没有Facebook的工作方式无疑会产生如何20是某种神奇的社会许多许多故事任何理解这个数据分析。然而,Ugander和他的同事们产生数据的过程相当了解,他们知道,Facebook的鼓励与Facebook连接数人直到他们达到20位朋友结交更多的朋友。虽然Ugander和他的同事不说这个的文件,这个政策大概是被Facebook以鼓励新用户变得更加积极创建。如果不知道这个政策的存在,但是,它很容易得出从数据中得出错误的结论。换言之,大约20位朋友的高得惊人数量的人告诉我们比人类行为的更多关于Facebook。

不到哪里算法混杂产生了离奇的结果进行仔细研究人员可能会进一步调查,有在线时系统的设计者都知道社会理论的出现算法混杂的一个更棘手的版本,然后烘烤这些理论进入工作这个前面的例子更有害他们的系统。社会学家称这种表演性 :当理论在他们带给世界更与理论线这样的方式改变世界。在表演算法混杂的情况下,数据的该死性质可能是不可见的。

由表演性创建的图案的一个例子是在在线社交网络传递性。在20世纪70年代和80年代,研究人员多次发现,如果你是爱丽丝的朋友和你是朋友与Bob,那么Alice和Bob更容易成为朋友与对方两个以上随机选择的人。而且,这非常相同的方式在Facebook上的社交图发现(Ugander et al. 2011)因此,人们可能会认为友谊在Facebook上的图案复制友谊离线模式,至少在传递的条款。然而,传递在Facebook的社交图的幅度部分是由算法混杂驱动。也就是说,Facebook的数据科学家知道传递的实证研究和理论研究,然后烤入的Facebook是如何工作的。 Facebook有一个“您可能认识”的功能,建议新的朋友,称Facebook决定谁建议你的是传递一种方式。也就是说,Facebook是更可能建议你成为朋友的朋友啦。因此,此功能在Facebook的社交图谱提高传递的效果;换句话说,传递的理论将世界与理论的预测线(Healy 2015)因此,当大数据源似乎重现社会理论的预言,我们必须肯定的是,理论本身没有烤成系统是如何工作的。

而不是大数据来源思想为观察人们在自然环境中,一个更恰当的比喻是观察人们在赌场。赌场是高度工程化的目的在于促使某些行为的环境,并且研究人员也休想在赌场的行为将提供一个无拘无束的窗户进入人类的行为。当然,我们可以学习一些关于人类行为学的人在赌场,其实赌场可能是一个理想的环境,为研究饮酒和风险之间的关系的喜好,但如果我们忽略了该数据是在一个赌场正在创建我们可能得出了一些不好的结论。

不幸的是,处理算法混杂是特别困难的,因为在线系统的很多功能都是专有的,记录不完整,且不断变化。例如,我将在本章后面解释,算法混杂是谷歌流感趋势(第2.4.2节)的逐步击穿一个可能的解释,但这种说法很难评估,因为谷歌的搜索的内部工作原理算法是专有的。算法混杂的动态特性是系统漂移的一种形式。算法混杂意味着我们应谨慎看待任何索赔人的行为来自一个单一的数字系统,无论多么大。