2.3.10敏感

一些企业和政府掌握的信息是敏感的。

健康保险公司有关于其客户收到的医疗保健的详细信息。这些信息可用于关于健康的重要研究,但如果它公开,它可能会导致情绪伤害(例如,尴尬)或经济损害(例如,失业)。许多其他大数据源也具有敏感信息,这也是它们经常无法访问的部分原因。

不幸的是,确定哪些信息实际上是敏感的(Ohm 2015)是非常棘手的,正如Netflix奖所示。正如我将在第5章中描述的那样,2006年,Netflix发布了近500,000名成员提供的1亿部电影评级,并且公开通话,来自世界各地的人们提交了可以提高Netflix推荐电影能力的算法。在发布数据之前,Netflix删除了任何明显的个人识别信息,例如姓名。但是,在数据发布两周后,Arvind Narayanan和Vitaly Shmatikov (2008)表明,我可以通过第6章中向您展示的技巧了解特定人群的电影评级。即使攻击者可以发现人的电影收视率,这里似乎没有任何敏感。虽然这可能是正确的,但对于数据集中的500,000人中的至少一些人来说,电影评级是敏感的。事实上,为了回应数据的发布和重新识别,一名被关闭的女同性恋者加入了针对Netflix的集体诉讼。以下是该诉讼中表达问题的方式(Singel 2009)

“[M] ovie和评级数据包含......高度个人化和敏感性的信息。该成员的电影数据暴露了Netflix成员的个人兴趣和/或与各种高度个人问题的斗争,包括性行为,精神疾病,从酗酒中恢复,以及乱伦,身体虐待,家庭暴力,通奸和强奸的受害。“

这个例子表明,可能存在某些人认为可能看起来是一个良性数据库的敏感信息。此外,它表明研究人员用来保护敏感数据的主要防御 - 去识别 - 可能以令人惊讶的方式失败。这两个想法在第6章中有更详细的阐述。

关于敏感数据的最后一点是,即使没有造成具体的伤害,在没有人同意的情况下收集它也会引发道德问题。就像看到有人在未经他人同意的情况下洗澡一样,可能会被视为侵犯了该人的隐私,收集敏感信息 - 并且记住决定什么是敏感信息是多么困难 - 未经同意就会产生潜在的隐私问题。我将在第6章回到关于隐私的问题。

总之,大型数据来源,例如政府和商业行政记录,通常不是为了社会研究而创建的。今天,可能明天的大数据来源往往有10个特征。许多通常被认为对研究有利的属性 - 大型,永远在线和非反应性 - 来自数字时代公司和政府的事实,能够以之前无法实现的规模收集数据。许多通常被认为不利于研究的属性 - 不完整,难以接近,无代表性,漂移,算法混乱,难以接近,肮脏和敏感 - 来自研究人员未收集这些数据的事实。到目前为止,我已经一起讨论了政府和商业数据,但两者之间存在一些差异。根据我的经验,政府数据往往不那么具有代表性,在算法上较少混淆,而且漂移较少。另一方面,业务管理记录往往更为开放。了解这10个一般特征是向大数据源学习的有益的第一步。现在我们转向可以使用这些数据的研究策略。