信息風險是社會研究中最常見的風險;它急劇增加;這是最難理解的風險。
數字時代研究面臨的第二個道德挑戰是信息風險 ,即信息披露可能造成的損害(National Research Council 2014) 。來自個人信息披露的信息傷害可能是經濟的(例如,失去工作),社交(例如,尷尬),心理(例如,抑鬱),或甚至是犯罪(例如,因非法行為而被捕)。不幸的是,數字時代顯著增加了信息風險 - 關於我們的行為的信息非常多。與模擬年齡社會研究中存在的風險(如物理風險)相比,信息風險已被證明非常難以理解和管理。
社會研究降低信息風險的方法之一是數據的“匿名”。 “匿名化”是除去明顯的個人識別碼,如姓名,地址,以及從數據的電話號碼的過程。然而,這種方法是非常有效的少比許多人意識到,這是,其實有著深刻的限制。出於這個原因,每當我描述了“匿名”,我會用引號來提醒你,這個過程會創建匿名的外觀,但不是真正的匿名。
“匿名化”失敗的一個生動例子來自20世紀90年代末的馬薩諸塞州(Sweeney 2002) 。集團保險委員會(GIC)是一個政府機構,負責為所有州僱員購買健康保險。通過這項工作,GIC收集了數千名州員工的詳細健康記錄。為了促進研究,GIC決定將這些記錄發布給研究人員。但是,他們沒有分享他們的所有數據;相反,他們通過刪除名稱和地址等信息來“匿名化”這些數據。然而,他們留下了他們認為可能對研究人員有用的其他信息,如人口統計信息(郵政編碼,出生日期,種族和性別)和醫療信息(訪問數據,診斷,程序)(圖6.4) (Ohm 2010) 。不幸的是,這種“匿名化”不足以保護數據。
為了說明GIC“匿名化”的缺點,當時麻省理工學院的研究生Latanya Sweeney花了20美元從馬薩諸塞州州長威爾遜·韋爾德的家鄉劍橋市獲得投票記錄。這些投票記錄包括姓名,地址,郵政編碼,出生日期和性別等信息。醫療數據文件和選民文件共享字段 - 郵政編碼,出生日期和性別 - 這意味著Sweeney可以鏈接它們。斯威尼知道韋爾的生日是1945年7月31日,而那個生日那天,劍橋的投票記錄只包括六個人。此外,在這六個人中,只有三個是男性。而且,在這三個人中,只有一個人共享了Weld的郵政編碼。因此,投票數據顯示,Weld將出生日期,性別和郵政編碼相結合的醫療數據中的任何人都是William Weld。實質上,這三條信息在數據中為他提供了獨特的指紋 。利用這個事實,斯威尼能夠找到韋爾德的醫療記錄,並告訴他她的壯舉,她給他寄了一份他的記錄(Ohm 2010) 。
Sweeney的工作說明了重新識別攻擊的基本結構 - 採用計算機安全社區的術語。在這些攻擊中,兩個數據集(它們本身都不顯示敏感信息)是相互關聯的,並且通過這種聯繫,敏感信息被暴露出來。
為了回應斯威尼的工作以及其他相關工作,研究人員現在通常會刪除更多信息 - 所有所謂的“個人識別信息”(PII) (Narayanan and Shmatikov 2010)在“匿名化”過程中。此外,許多研究人員現在意識到某些數據 - 例如醫療記錄,財務記錄,關於非法行為的調查問題的答案 - 即使在“匿名化”之後也可能過於敏感而無法釋放。但是,我要提供的例子表明社會研究人員需要改變他們的想法。作為第一步,明智的做法是假設所有數據都是可識別的,並且所有數據都具有潛在的敏感性。換句話說,我們應該假設它在某種程度上適用於所有項目,而不是認為信息風險適用於一小部分項目。
Netflix獎項說明了這種重新定位的兩個方面。如第5章所述,Netflix發布了近500,000名成員提供的1億部電影評級,並且公開呼叫,來自世界各地的人們提交的算法可以提高Netflix推薦電影的能力。在發布數據之前,Netflix刪除了任何明顯的個人識別信息,例如姓名。他們還採取了額外步驟,並在一些記錄中引入了輕微的擾動(例如,將一些評級從4星改為3星)。然而,他們很快發現,儘管他們付出了努力,但這些數據仍然不是匿名的。
數據發布僅兩週後,Arvind Narayanan和Vitaly Shmatikov (2008)表明,有可能了解特定人群的電影偏好。他們重新識別攻擊的伎倆類似於Sweeney's:將兩個信息源合併在一起,一個具有潛在的敏感信息,沒有明顯的識別信息,另一個包含人的身份。這些數據源中的每一個都可以是單獨安全的,但是當它們組合時,合併的數據集可能產生信息風險。對於Netflix數據,這裡是如何發生的。想像一下,我選擇與同事分享我對動作和喜劇電影的看法,但我不想分享我對宗教和政治電影的看法。我的同事可以使用我與他們分享的信息在Netflix數據中查找我的記錄;我分享的信息可能是一個獨特的指紋,就像William Weld的出生日期,郵政編碼和性別一樣。然後,如果他們在數據中找到我唯一的指紋,他們就可以了解我對所有電影的評分,包括我選擇不分享的電影。除了針對單個人的這種針對性攻擊之外 ,Narayanan和Shmatikov還表明,通過將Netflix數據與某些人選擇的個人和電影評級數據合併,可以進行廣泛的攻擊 - 涉及許多人 -在互聯網電影數據庫(IMDb)上發布。很簡單,任何作為特定人的唯一指紋的信息 - 甚至是他們的電影評級集 - 都可以用來識別它們。
即使可以在目標攻擊或廣泛攻擊中重新識別Netflix數據,它仍然可能看起來風險較低。畢竟,電影收視率似乎不是很敏感。雖然這可能是正確的,但對於數據集中的500,000人中的一些人來說,電影評級可能非常敏感。事實上,為了回應重新識別,一名被關閉的女同性戀者加入了針對Netflix的集體訴訟。以下是他們在訴訟中表達問題的方式(Singel 2009) :
“[M] ovie和評級數據包含......高度個人化和敏感性的信息。該成員的電影數據暴露了Netflix成員的個人興趣和/或與各種高度個人問題的鬥爭,包括性行為,精神疾病,從酗酒中恢復,以及亂倫,身體虐待,家庭暴力,通姦和強奸的受害。“
重新識別Netflix Prize數據表明所有數據都是可識別的,並且所有數據都具有潛在的敏感性。此時,您可能認為這僅適用於聲稱與人有關的數據。令人驚訝的是,事實並非如此。根據“信息自由法”的要求,紐約市政府公佈了2013年紐約每一次出租車的記錄,包括上下車時間,地點和票價金額(從第2章回顧Farber (2015)使用類似的數據來測試勞動經濟學中的重要理論。這些關於出租車旅行的數據似乎是良性的,因為它們似乎並沒有提供有關人員的信息,但Anthony Tockar意識到這個出租車數據集實際上包含了許多關於人的潛在敏感信息。為了說明這一點,他看了所有從紐約的Hustler俱樂部開始的旅行 - 午夜到早上6點之間,然後找到他們的下車地點。這個搜索實質上揭示了一些經常光顧Hustler俱樂部(Tockar 2014)人的地址。很難想像市政府在發布數據時會想到這一點。事實上,這種相同的技術可用於查找訪問城市任何地方的人的家庭住址 - 醫療診所,政府大樓或宗教機構。
Netflix獎和紐約市出租車數據的這兩個案例表明,相對技術人員無法正確估計他們發布的數據中的信息風險 - 這些案例絕不是獨一無二的(Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) 。此外,在許多這樣的情況下,有問題的數據仍然可以在線免費獲得,這表明難以撤消數據釋放。總的來說,這些例子 - 以及關於隱私的計算機科學研究 - 得出了一個重要的結論。研究人員應該假設所有數據都是可識別的,所有數據都可能具有敏感性。
不幸的是,沒有簡單的解決方案可以確定所有數據都是可識別的,並且所有數據都具有潛在的敏感性。但是,在處理數據時降低信息風險的一種方法是創建並遵循數據保護計劃 。該計劃將減少您的數據洩漏的可能性,並且如果以某種方式發生洩漏,將減少損害。數據保護計劃的具體細節,例如使用哪種加密形式,將隨著時間的推移而改變,但英國數據服務有助於將數據保護計劃的要素分為五個類別,他們稱之為五個保險櫃 :安全項目,安全人員,安全設置,安全數據和安全輸出(表6.2) (Desai, Ritchie, and Welpton 2016) 。五個保險箱中沒有一個單獨提供完美的保護。但它們共同形成了一系列有力的因素,可以降低信息風險。
安全 | 行動 |
---|---|
安全的項目 | 將包含數據的項目限制為符合道德標準的項目 |
安全的人 | 訪問僅限於可以信任數據的人(例如,經過道德培訓的人) |
安全數據 | 數據在可能的範圍內被去除識別和匯總 |
安全設置 | 數據存儲在具有適當物理(例如,鎖定房間)和軟件(例如,密碼保護,加密)保護的計算機中 |
安全輸出 | 審查研究成果以防止意外隱私洩露 |
除了在使用數據時保護數據,信息風險特別突出的研究過程中的一個步驟是與其他研究人員共享數據。科學家之間的數據共享是科學努力的核心價值,它極大地促進了知識的進步。以下是英國下議院如何描述數據共享的重要性(Molloy 2011) :
“如果研究人員要復制,驗證和建立文獻中報導的結果,那麼獲取數據是至關重要的。推定必須是,除非有充分理由,否則數據應全面披露並公之於眾。“
然而,通過與其他研究人員共享您的數據,您可能會增加參與者的信息風險。因此,數據共享似乎在與其他科學家共享數據的義務與盡量減少參與者的信息風險的義務之間產生了根本的緊張關係。幸運的是,這種困境並不像看上去那麼嚴重。相反,最好將數據共享視為一個連續統一體,連續統一體上的每個點都為社會提供了不同的利益組合,為參與者帶來了風險(圖6.6)。
在一個極端情況下,您可以與任何人共享您的數據,從而最大限度地降低參與者的風險,同時最大限度地減少社會收益。在另一個極端,您可以釋放並忘記 ,數據被“匿名化”並發布給每個人。相對於不發布數據,釋放和遺忘為社會帶來更高的利益,並為參與者帶來更高的風險。在這兩種極端情況之間是一系列混合動力車,包括我稱之為圍牆花園的方式。根據這種方法,數據與符合某些標準且同意受某些規則約束的人共享(例如,IRB和數據保護計劃的監督)。有圍牆的花園方法提供了釋放和遺忘的許多好處,風險較小。當然,這種方法會產生許多問題 - 誰應該有權進入,在什麼條件下,多長時間,誰應該支付維護和監管圍牆花園等等 - 但這些都不是不可克服的。事實上,研究人員現在可以使用有圍牆的花園,例如密歇根大學政治和社會研究大學聯合會的數據檔案。
那麼,你的研究數據應該放在哪裡不分享,圍牆花園,釋放和遺忘?這取決於您的數據的細節:研究人員必須平衡尊重人,尊重,正義,尊重法律和公共利益。從這個角度來看,數據共享不是一個獨特的道德難題;這只是研究的眾多方面之一,研究人員必須找到適當的倫理平衡。
一些批評者普遍反對數據共享,因為在我看來,他們專注於風險 - 這無疑是真實的 - 並且忽視了它的好處。因此,為了鼓勵關注風險和收益,我想提供一個類比。每年,汽車造成數千人死亡,但我們並不試圖禁止駕駛。事實上,禁止駕駛的呼籲是荒謬的,因為駕駛可以帶來許多美妙的事物。相反,社會限制誰可以駕駛(例如,需要成為特定年齡並通過某些測試)以及他們如何駕駛(例如,在速度限制下)。社會也有負責執行這些規則的人(例如,警察),並且我們懲罰那些被逮捕的人。社會適用於調節駕駛的這種平衡思維也可以應用於數據共享。也就是說,我認為通過關注如何降低風險並增加數據共享帶來的好處,我們將取得最大的進步,而不是對數據共享進行絕對論支持。
總之,信息風險急劇增加,很難預測和量化。因此,最好假設所有數據都是可識別的並且可能是敏感的。為了在研究過程中降低信息風險,研究人員可以創建並遵循數據保護計劃。此外,信息風險並不妨礙研究人員與其他科學家共享數據。