6.6.2了解和管理信息风险

信息风险是在社会研究中最常见的风险;这显着增加;并且它是最难风险理解。

社会数字化时代的研究伦理的第二个挑战是信息的风险 ,从信息披露的潜在危害(Council 2014) 。从个人信息的泄露信息危害可能是经济的(例如,失去工作),社会(如,尴尬),心理(如抑郁症),或者甚至是犯罪(如逮捕,非法行为)。不幸的是,数字化时代的信息增加风险显着,有关于我们的行为只是这么多的信息。而且,信息风险相比,均模拟时代社会研究问题,如物理风险隐患被证明很难理解和管理。看到数字时代如何提高信息的风险,可考虑从纸电子病历的过渡。这两种类型的记录创建风险,但电子记录创建更大的风险,因为在大规模它们可以被发送到未授权方或与其他记录合并。在数字化时代的社会研究者已经运行与信息风险的麻烦,部分原因是他们并不完全了解如何量化和管理。所以,我要提供一个有用的方法来思考信息化的风险,然后我去给你如何管理你的研究信息风险,并发布数据,其他研究人员一些建议。

社会研究降低信息风险的方法之一是数据的“匿名”。 “匿名化”是除去明显的个人识别码,如姓名,地址,以及从数据的电话号码的过程。然而,这种方法是非常有效的少比许多人意识到,这是,其实有着深刻的限制。出于这个原因,每当我描述了“匿名”,我会用引号来提醒你,这个过程会创建匿名的外观,但不是真正的匿名。

“匿名”失败的一个生动的例子来自于90年代末在美国马萨诸塞州(Sweeney 2002)该集团保险委员会(GIC)是一个政府机构,负责购买医疗保险为所有国家工作人员。通过这项工作,在GIC收集了数千名国家工作人员的详细的健康档案。在努力激发更多的方法来改善健康的研究,GIC决定将这些记录发布给研究人员。然而,他们没有分享他们所有的数据;相反,它们通过除去信息,例如姓名和地址“匿名”它。然而,他们离开,他们认为可能是研究人员非常有用,如人口统计信息(邮政编码,出生日期,民族和性别)和医疗信息(访问数据,诊断程序)(图6.4)其他资料(Ohm 2010) 。不幸的是,这种“匿名”不足以保护数据。

图6.4:匿名化是除去明显的识别信息的过程。例如,释放状态职工的医疗保险记录时马萨诸塞州集团保险委员会(GIC)删除名称和地址从文件。我用引号字匿名,因为该方法提供了匿名的外观,而不是实际的匿名。

图6.4:“匿名化”是除去明显的识别信息的过程。例如,释放状态职工的医疗保险记录时马萨诸塞州集团保险委员会(GIC)删除名称和地址从文件。我周围使用单词“匿名”的报价,因为该方法提供了匿名的外观,而不是实际的匿名。

为了说明GIC“匿名”的缺点,Latanya理发师,然后一名研究生在MIT-支付了$ 20,从剑桥市,马萨诸塞州州长威廉焊接的家乡获得投票记录。这些投票纪录,包括信息,如姓名,地址,邮政编码,出生日期和性别。的事实,即医疗数据文件和选举人文件共享字段-邮政编码,出生年月日,和性别意味着理发师可以链接它们。斯威尼知道虚焊的生日是1945年7月31日,和投票记录只包含六个剑桥人的生日。此外,这些六人,只有三个是男性。而且,那些三个人,只有一个共享焊缝的邮政编码。因此,投票数据显示,人在出生日期,性别和邮政编码焊缝的结合医疗数据是威廉虚焊。在本质上,这三件的信息中的数据提供了一个独特指纹给他。利用这个事实,斯威尼能够找到虚焊的医疗记录,并告诉他她的壮举,她给他发了他记录的副本(Ohm 2010)

图6.5:重新idenification匿名数据。 Latanya斯威尼,以便找到州长威廉焊接的医疗记录(2002年斯威尼)联合投票记录的匿名健康档案。

图6.5:重新idenification“匿名”的数据。 Latanya斯威尼,以便找到州长威廉焊接的病历结合投票记录了“匿名”健康记录(Sweeney 2002)

斯威尼的工作说明了去匿名攻击的基本结构-to采用从电脑安全界的一个术语。在这些攻击中,两个数据集,无论是其本身的透露敏感信息,链接,并通过这种联系,敏感信息被暴露。在某些方面该方法是类似的小苏打和醋,这是由自己的安全两种物质,可以组合以产生讨厌的结果的方式。

在回答理发师的工作,以及其它相关工作,研究人员现在一般去除更多的信息,所有的所谓的“个人身份信息”(PII) (Narayanan and Shmatikov 2010)现在-during的过程中“匿名”。此外,许多研究人员意识到某些数据,如医疗记录,财务记录,回答问卷调查,违法问题的行为,可能是过于敏感,甚至后释放“匿名”。不过,我会在下面说明表明,社会研究者需要更近的例子改变他们的想法。作为第一步,明智的做法是假设所有的数据都是潜在的识别和所有的数据都是潜在的敏感。换句话说,而不是想着信息的风险应用于项目的一小部分,我们应该假定它适用,在一定程度上对所有的项目。

这种重新取向的两个方面由Netflix的奖示出。正如在第5章,Netflix公司通过发行近50万会员提供亿电影的收视率,并有一个开放的呼叫,其中来自世界各地的人提出,可以改善Netflix的推荐电影的能力算法。发布数据之前,Netflix的去除任何明显的个人身份信息,如姓名。 Netflix公司还去了一个额外的步骤,并介绍了一些记录轻微扰动(如改变一些收视率从4星级到三星级)。 Netflix公司很快发现,然而,尽管他们的努力,数据都决非是匿名的。

数据公布后短短两周内被释放Narayanan and Shmatikov (2008)表明,它可以了解特定人的电影偏好。诀窍其重新鉴定的攻击类似于斯威尼:两个信息来源,一是合并一起潜在的敏感信息,并没有明显的识别信息和一个包含身份的人。每个这些数据源可以是单独的安全,但是,当它们被组合合并的数据集可以创建信息风险。在Netflix的数据的情况下,这里是如何它可能发生。想象一下,我选择来分享我对动作和喜剧电影和我的同事的想法,但我不想分享我的关于宗教和政治电影的看法。我的同事可以使用,我已经与他们分享发现我在Netflix的数据记录中的信息;我分享的信息可能是一个独一无二的指纹一样,威廉焊接的出生日期,邮政编码和性别。然后,如果他们发现我唯一的指纹数据,他们可以了解所有的电影,包括电影,我选择不分享我的收视率。除了 ​​这种针对性的攻击集中在一个人的, Narayanan and Shmatikov (2008)也表明,它是可能的,由人的个人和电影等级数据合并Netflix的数据做涉及许多的广泛攻击 -酮,一些人都选择张贴在互联网电影数据库(IMDB)。这是独一无二的指纹来一个特定的人,连自己的一套电影的任何信息等级,可以用来识别它们。

即使Netflix的数据可以在任何一个定位或广泛攻击重新鉴定,它仍可能会出现为低风险。毕竟,电影收视率似乎并不很敏感。虽然这可能在一般是真实的,对于一些50万人中的数据集的,电影的评分可能是相当敏感。事实上,在应对反匿名一个女同志密谈女人加入了集体诉讼对Netflix的。这里的问题是如何在他们的诉讼表示(Singel 2009)

“[M] OVIE及评级数据包含了更高度的个人性和敏感性[原文]的信息。会员的电影数据暴露了Netflix的会员的个人兴趣和/或斗争与各种高度个人化的问题,包括性生活,精神疾病,酗酒恢复和受害从乱伦,身体上的虐待,家庭暴力,通奸,强奸“。

Netflix的奖数据去说明匿名双方所有的数据可能是辨认的,所有的数据都是潜在的敏感。在这一点上,你可能会认为这仅适用于宣称是关于人的数据。出人意料的是,事实并非如此。为了应对信息法要求的自由,纽约市政府在纽约发布每一个乘坐出租车的记录在2013年,包括皮卡和第2章下车时间,地点和车费金额(回忆一下, Farber (2015)用这个数据来检验劳动经济学重大理论)。虽然关于出租车出行这一数据似乎良性的,因为它似乎并没有被有关人员的信息,安东尼Tockar意识到这个出租车数据实际上包含很多关于人的潜在敏感信息。为了说明这一点,他看着所有行程开始于江湖浪子俱乐部,大型板带新午夜早上6点,然后在纽约的俱乐部之间发现他们的落客地点。这种搜索发现,在一些人谁频繁的骗子俱乐部地址的精髓-列表(Tockar 2014) 。这是很难想象,市政府心目中这个时候公布的数据。事实上,同样的技术可以用来找出谁在全市医疗诊所,政府大楼或宗教机构访问任何地方的人的家庭地址。

这两种情况,Netflix的奖和纽约市的出租车数据显示,比较熟练的人未能正确估计,他们发布的数据信息的风险,而这些案件决不是唯一的(Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016)此外,在许多情况下,有问题的数据仍然在线免费提供,指示以往撤消数据释放的难度。总的来说,这些例子,以及在计算机科学中有关隐私,导致一个重要的结论的研究。研究人员假设所有的数据可能是可识别的,所有数据是潜在的敏感。

不幸的是,没有简单的解决办法,所有的数据是潜在的可识别的,并且所有数据是潜在的敏感的事实。然而,为了减少信息风险,而你正在使用数据的一种方法是创建并遵循数据保护计划 。该计划将减少您的数据会泄漏,如果泄漏发生在某种程度上会降低危害的机会。数据保护计划的细节,比如哪些加密形式使用,会随时间而改变,但英国数据服务很有帮助组织了数据保护计划的内容分为5类,他们称之为5保险箱 :安全工程,安全的人,安全设置,安全数据和安全输出(见表6.2) (Desai, Ritchie, and Welpton 2016)五个保险柜没有单独提供完美的保护。但是,它们一起构成了一套功能强大,可以降低信息风险因素。

表6.2:5保险箱设计和执行数据保护计划的原则(Desai, Ritchie, and Welpton 2016)
安全 行动
安全项目 限制项目数据到那些伦理
安全人员 访问限制谁可以与数据是否可信的人(例如,人们经历了道德培训)
数据安全 数据被去识别和聚集尽可能
安全设置 数据被存储在具有适当的物理(如上锁的房间)和软件(如口令保护,加密)保护电脑
安全输出 研究成果进行审查,以防止意外侵犯隐私

此外,当您使用它保护您的数据,一步一个脚印的研究过程,其中信息的风险尤为突出与其他研究人员的数据共享。科学家之间的数据共享是科学事业的核心价值,知识大大设施的进步。下面是下议院英国房子是如何描述的数据共享的重要性:

如果研究人员复制,核实和建立在那些文献报道的结果“获得的数据是根本。推定必须是,除非有一个强有力的理由,否则,数据应充分披露,并公布于众。在这个原则,在所有公共资助的研究有关的可能,数据应当广泛并自由地使用制作行。“ (Molloy 2011)

然而,与其他研究人员共享您的数据,你可能会增加风险信息到您的参与者。因此,它可能看起来谁愿意分享他们的数据或要求分享他们的研究数据都面临着根本性的紧张关系。一方面,他们有一个道德义务,分享他们与其他科学家的数据,特别是如果原来的研究是公费。然而,在同一时间,研究人员有道德义务,以尽量减少,尽可能地,信息风险及其与会者。

幸运的是,这种困境并不像看起来那么严重。认为数据没有数据共享一个连续共享释放忘记 ,在数据为“匿名”和张贴任何人访问(图6.6),这很重要。这两种极端的立场有风险和收益。也就是说,它是不会自动不共享您的数据是最道德的事情;这种方法消除了社会许多潜在的好处。回到品味,领带和时间,前面的章节中讨论的一个例子,对数据发布论点,即只注重击伤害,忽视可能带来的好处过于片面;当我有关的不确定性(6.6.4节)面对决策提供建议,我将描述这种片面的,过度保护方法的问题更详细的下文。

图6.6:数据发布策略可沿连续下跌。在这里你应该是沿着这个连续取决于数据的具体细节。在这种情况下,第三方审核可以帮助你决定​​的风险在你的案件的适当平衡和效益。

图6.6:数据发布策略可沿连续下跌。在这里你应该是沿着这个连续取决于数据的具体细节。在这种情况下,第三方审核可以帮助你决定​​的风险在你的案件的适当平衡和效益。

此外,在这两种极端情况之间的是什么,我会叫,其中数据与谁符合一定的标准,谁同意遵守一定的规则约束的人共享一个围墙花园的方式(例如,从IRB监督和数据保护计划) 。这围墙花园的方式提供了许多版本的好处和风险较小忘记。当然,一个围墙花园的方式产生了许多问题,谁应该有机会,什么条件下,能持续多久,谁应保持和警察围墙花园等,但这些都不是不可克服的。事实上,目前已经到位,研究人员可以使用,现在,如政治和社会研究的密歇根大学的校际联盟的数据归档工作的围墙花园。

所以,从您的研究数据,其中应该就没有共享,围墙的花园连续,并释放忘记?这取决于你的数据的详细内容;研究人员必须为法与公共利益平衡尊重个人,善行,正义和尊重。在评估其他决定适当的平衡研究人员征求意见和伦理委员会的批准,以及数据发布可以是过程的只是一个组成部分。换句话说,虽然有些人认为数据发布作为一个无望的道德困境,我们已经部署系统,以帮助研究人员权衡这类道德困境。

考虑数据共享的最后一个方法是类比。每年汽车负责数千人死亡,但我们并不试图禁止驾驶。事实上,由于驱动使许多美好的事物这样的呼吁,禁止驾驶将是荒谬的。相反,社会则以谁可以驾驶的限制(例如,需要一个一定的年龄,需要先通过一定的测试),以及他们如何能驱动器(例如,在限速)。协会还拥有人执行这些规则(如警察)负责,而我们惩罚谁被发现违反他们的人。这同一种均衡思维该社会适用于调节驱动,也可以应用到数据共享。也就是说,而不是使专制论据支持或反对的数据共享,我觉得最大的好处来自于搞清楚我们如何能够更安全地共享更多的数据。

结束,信息风险急剧增加,这是很难预测和量化。因此,最好是假定所有数据是潜在的可识别的和潜在的敏感。为了降低信息风险,同时做研究,研究人员可以创建并遵循一个数据保护计划。此外,信息风险并不能阻止研究人员与其他科学家共享数据。