2.3.2.6

大数据源可装载的垃圾和垃圾邮件。

一些研究人员认为,大数据的来源,尤其是那些来自在线资源,是质朴的,因为它们自动采集。事实上,谁与大数据源工作的人知道,他们经常 。也就是说,他们常常包括不反映感兴趣的研究人员实际行动的数据。许多社会科学家已经熟悉清洗大型社会调查数据,但清洗的大数据源的原因有两个比较困难的过程:1)他们没有研究人员为研究人员和2)的研究人员创建一般有怎样的了解少他们创建的。

脏数字跟踪数据的危险是由返回和他的同事'所示(2010)的情绪反应9月11日的袭击事件2001年研究人员通常研究使用收集到几个月甚至几年的回顾性资料悲惨事件响应的研究。但是,返回和他的同事发现了一个永远在线的数字轨迹-的时间戳源,自动记录的信息从85000美国寻呼机,这使研究人员,研究一个更精细的时间表情绪反应。背部和他的同事通过与(1)悲伤的单词的百分比编码寻呼机消息的情感内容创建9月11日的一分钟按一分钟情感时间表(比如,哭泣,悲伤),(2)焦虑(如:担心,恐惧),和(3)怒(例如,恨,关键)。他们发现,悲伤和焦虑宽幅震荡,全天没有一个强势格局,但是,有一个显着增加愤怒全天。这项研究似乎永远在线的数据源电力的精彩插图:用标准方法就不可能有意外的事件立即作出反应如此高分辨率的时间表。

仅仅一年后,然而,辛西娅拍卖行(2011)看了一下数据更仔细。她发现是由一个单一的寻呼机产生的大量的所谓愤怒的消息,并且他们都是相同的。以下是这些所谓的消息生气说:

“重新启动NT机器[名]在柜[名]在[地点]:CRITICAL:[日期和时间]”

因为它们包括了词“关键”,其一般可以表示愤怒但在这种情况下,不这些消息进行标记生气。删除此单个自动呼叫器生成的消息完全消除了在愤怒的日子(图2.2)的过程中明显增加。换句话说,主要结果Back, Küfner, and Egloff (2010)是寻呼机的神器。这个例子说明,比较复杂,凌乱的数据相对简单的分析已去严重错误的可能性。

图2.2:愤怒的趋势估计比2001年9月11日,基于美国85000寻呼机过程(返回,Küfner和Egloff 2010;拍卖行2011;返回,Küfner和Egloff 2011)。最初,后退Küfner和Egloff(2010)报告在一天增加的愤怒的图案。机柜在[位置]重新启动NT机器[名] [名]:CRITICAL:[日期和时间]然而,大多数这些明显气愤的消息被反复发出以下消息一个寻呼机产生。与此消息删除,愤怒明显增加消失(拍卖行2011;返回,Küfner,和2011年Egloff)。该图是图1B的在拍卖行(2011年)的再现。

图2.2:愤怒的趋势估计在2001年9月11日,根据美国85000寻呼机过程(Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011)最初, Back, Küfner, and Egloff (2010)报道全天增加的愤怒的图案。 “重新启动NT机器[名]在柜[名]在[地点]:CRITICAL:[日期和时间]”不过,这些明显的愤怒的消息是由一个单一的寻呼机反复发出以下消息产生。与此消息删除,愤怒明显增加消失(Pury 2011; Back, Küfner, and Egloff 2011)该图是图1B的在再现Pury (2011)

而创建无意-如从一个嘈杂的脏数据寻呼机可以通过合理仔细研究来检测,也有吸引故意垃圾邮件发送者一些在线系统。这些垃圾邮件发送者主动产生假数据,和经常利润非常努力上进,以保持他们的垃圾邮件掩盖。例如,在Twitter上的政治活动似乎至少包括某些相当先进的垃圾邮件,因此一些政治原因故意使其看起来更受欢迎比他们实际是(Ratkiewicz et al. 2011)研究人员使用数据可能包含故意垃圾邮件面临说服他们的观众,他们已经检测到并删除垃圾邮件相关的挑战。

最后,什么被认为是肮脏的数据可以在很大程度上取决于你的研究问题微妙的方式。例如,通过自动漫游创造了许多编辑维基百科(Geiger 2014) 。如果你有兴趣在维基百科的生态环境,那么这些机器人是非常重要的。但是,如果你有兴趣在人类如何帮助维基百科,这些机器人做这些编辑应排除在外。

最好的方法,以避免被愚弄脏数据,以了解您的数据创建执行简单的探索性分析,如制作简单散点图。