2.3.10敏感

一些企業和政府掌握的信息是敏感的。

健康保險公司有關於其客戶收到的醫療保健的詳細信息。這些信息可用於關於健康的重要研究,但如果它公開,它可能會導致情緒傷害(例如,尷尬)或經濟損害(例如,失業)。許多其他大數據源也具有敏感信息,這也是它們經常無法訪問的部分原因。

不幸的是,確定哪些信息實際上是敏感的(Ohm 2015)是非常棘手的,正如Netflix獎所示。正如我將在第5章中描述的那樣,2006年,Netflix發布了近500,000名成員提供的1億部電影評級,並且公開通話,來自世界各地的人們提交了可以提高Netflix推薦電影能力的算法。在發布數據之前,Netflix刪除了任何明顯的個人識別信息,例如姓名。但是,在數據發布兩週後,Arvind Narayanan和Vitaly Shmatikov (2008)表明,我可以通過第6章中向您展示的技巧了解特定人群的電影評級。即使攻擊者可以發現人的電影收視率,這裡似乎沒有任何敏感。雖然這可能是正確的,但對於數據集中的500,000人中的至少一些人來說,電影評級是敏感的。事實上,為了回應數據的發布和重新識別,一名被關閉的女同性戀者加入了針對Netflix的集體訴訟。以下是該訴訟中表達問題的方式(Singel 2009)

“[M] ovie和評級數據包含......高度個人化和敏感性的信息。該成員的電影數據暴露了Netflix成員的個人興趣和/或與各種高度個人問題的鬥爭,包括性行為,精神疾病,從酗酒中恢復,以及亂倫,身體虐待,家庭暴力,通姦和強奸的受害。“

這個例子表明,可能存在某些人認為可能看起來是一個良性數據庫的敏感信息。此外,它表明研究人員用來保護敏感數據的主要防禦 - 去識別 - 可能以令人驚訝的方式失敗。這兩個想法在第6章中有更詳細的闡述。

關於敏感數據的最後一點是,即使沒有造成具體的傷害,在沒有人同意的情況下收集它也會引發道德問題。就像看到有人在未經他人同意的情況下洗澡一樣,可能會被視為侵犯了該人的隱私,收集敏感信息 - 並且記住決定什麼是敏感信息是多麼困難 - 未經同意就會產生潛在的隱私問題。我將在第6章回到關於隱私的問題。

總之,大型數據來源,例如政府和商業行政記錄,通常不是為了社會研究而創建的。今天,可能明天的大數據來源往往有10個特徵。許多通常被認為對研究有利的屬性 - 大型,永遠在線和非反應性 - 來自數字時代公司和政府的事實,能夠以之前無法實現的規模收集數據。許多通常被認為不利於研究的屬性 - 不完整,難以接近,無代表性,漂移,算法混亂,難以接近,骯髒和敏感 - 來自研究人員未收集這些數據的事實。到目前為止,我已經一起討論了政府和商業數據,但兩者之間存在一些差異。根據我的經驗,政府數據往往不那麼具有代表性,在算法上較少混淆,而且漂移較少。另一方面,業務管理記錄往往更為開放。了解這10個一般特徵是向大數據源學習的有益的第一步。現在我們轉向可以使用這些數據的研究策略。