2.3.9肮脏

大数据源可装载的垃圾和垃圾邮件。

一些研究人员认为,大数据源,特别是在线资源,是纯净的,因为它们是自动收集的。实际上,使用大数据源的人都知道他们经常很脏 。也就是说,它们经常包含不反映研究人员感兴趣的实际行为的数据。大多数社会科学家已经熟悉清理大规模社会调查数据的过程,但清理大数据源似乎更加困难。我认为这种困难的最终根源是许多这些大数据源从未打算用于研究,因此它们不会以便于数据清理的方式收集,存储和记录。

Back and同事(2010)对2001年9月11日攻击的情绪反应的研究说明了脏数字跟踪数据的危险性,我在本章前面已经简要地提到了这一点。研究人员通常使用数月甚至数年收集的回顾性数据研究对悲剧事件的反应。但是,Back和同事们发现了一个永远存在的数字痕迹来源 - 来自85,000个美国寻呼机的带时间戳,自动录制的信息 - 这使他们能够在更精细的时间尺度上研究情绪反应。他们通过对与(1)悲伤(例如,“哭泣”和“悲伤”),(2)焦虑相关的词的百分比编码寻呼机消息的情感内容,创建了9月11日的每分钟情感时间线(例如,“担心”和“恐惧”),以及(3)愤怒(例如,“讨厌”和“批评”)。他们发现悲伤和焦虑在一整天都没有强烈的模式波动,但整天都有惊人的愤怒增加。这项研究似乎是对永远在线数据源的强大功能的一个很好的例证:如果使用传统的数据源,就不可能获得对意外事件立即响应的高分辨率时间线。

然而就在一年之后,Cynthia Pury (2011)更仔细地研究了这些数据。她发现大量的所谓愤怒信息是由一个寻呼机产生的,而且它们都是相同的。以下是那些所谓的愤怒信息所说的:

“重新启动NT机器[名]在柜[名]在[地点]:CRITICAL:[日期和时间]”

这些消息被标记为愤怒,因为它们包括“重要”一词,这通常表示愤怒,但在这种情况下不会。删除这个单一自动寻呼机生成的消息完全消除了一天中愤怒的明显增加(图2.4)。换句话说, Back, Küfner, and Egloff (2010)的主要结果是一个寻呼机的工件。正如这个例子所示,对相对复杂和混乱的数据进行相对简单的分析有可能严重错误。

图2.4:基于85,000名美国寻呼机的2001年9月11日期间愤怒的估计趋势(Back,Küfner和Egloff 2010,2011; Pury 2011)。最初,Back,Küfner和Egloff(2010)报告了一整天都在增加愤怒的模式。但是,大多数这些看似生气的消息都是由一个寻呼机生成的,该寻呼机重复发出以下消息:在[位置]的柜[名称]中重新启动NT机器[名称]:重要:[日期和时间]。随着这条消息被删除,愤怒的明显增加消失了(Pury 2011; Back,Küfner和Egloff 2011)。改编自Pury(2011),图1b。

图2.4:基于85,000名美国寻呼机的2001年9月11日期间愤怒的估计趋势(Back, Küfner, and Egloff 2010, 2011; Pury 2011) 。最初, Back, Küfner, and Egloff (2010)报告了一整天都在增加愤怒的模式。但是,大多数这些看似生气的消息都是由一个寻呼机生成的,该寻呼机重复发出以下消息:“在[位置]的机柜[名称]中重新启动NT机器[名称]:关键:[日期和时间]”。随着这条消息被删除,愤怒的明显增加消失了(Pury 2011; Back, Küfner, and Egloff 2011) 。改编自Pury (2011) ,图1b。

虽然无意中创建的脏数据(例如来自一个嘈杂的寻呼机的数据)可以由一个相当谨慎的研究人员检测到,但也有一些在线系统吸引有意的垃圾邮件发送者。这些垃圾邮件发送者积极地生成虚假数据,并且通常由利润工作激励,非常难以隐藏他们的垃圾邮件。例如,Twitter上的政治活动似乎至少包括一些相当复杂的垃圾邮件,其中一些政治原因被故意制作得比实际更受欢迎(Ratkiewicz et al. 2011) 。不幸的是,删除这些故意的垃圾邮件可能非常困难。

当然,被认为是脏数据的部分可能取决于研究问题。例如,维基百科的许多编辑都是由自动机器人创建的(Geiger 2014) 。如果您对维基百科的生态感兴趣,那么这些机器人创建的编辑很重要。但是如果你对人类对维基百科的贡献感兴趣,那么应该排除机器人创建的编辑。

没有单一的统计技术或方法可以确保您已经充分清理了脏数据。最后,我认为避免被脏数据欺骗的最好方法是尽可能多地了解数据的创建方式。