Rủi ro thông tin là nguy cơ phổ biến nhất trong nghiên cứu xã hội; nó đã tăng lên đáng kể; và nó là rủi ro khó hiểu.
Thách thức đạo đức thứ hai để nghiên cứu kỹ thuật số độ tuổi sinh xã hội là nguy cơ thông tin, khả năng gây hại từ việc tiết lộ thông tin (Council 2014) . tác hại thông tin từ việc tiết lộ thông tin cá nhân có thể là kinh tế (ví dụ như, mất việc làm), xã hội (ví dụ, bối rối), tâm lý (ví dụ như trầm cảm), hoặc thậm chí hình sự (ví dụ, bị bắt vì hành vi bất hợp pháp). Thật không may, các đại kỹ thuật số làm tăng rủi ro thông tin đáng kể, đó chỉ là quá nhiều thông tin về hành vi của chúng tôi. Và, nguy cơ thông tin đã tỏ ra rất khó hiểu và quản lý so với rủi ro mà là mối quan tâm trong nghiên cứu xã hội tuổi tương tự, chẳng hạn như nguy cơ vật lý. Để xem cách các đại kỹ thuật số làm tăng nguy cơ thông tin, hãy xem xét việc chuyển đổi từ giấy để hồ sơ y tế điện tử. Cả hai loại hồ sơ tạo ra rủi ro, nhưng các hồ sơ điện tử tạo ra rủi ro lớn hơn nhiều bởi vì ở một quy mô lớn họ có thể truyền sang bên trái phép hoặc sáp nhập với các hồ sơ khác. các nhà nghiên cứu xã hội trong thời đại kỹ thuật số đã chạy vào rắc rối với rủi ro thông tin, một phần vì họ không hoàn toàn hiểu được làm thế nào để xác định số lượng và quản lý nó. Vì vậy, tôi sẽ cung cấp một cách hữu ích để suy nghĩ về nguy cơ thông tin, và sau đó tôi sẽ cung cấp cho bạn một số lời khuyên để làm thế nào để quản lý rủi ro thông tin trong nghiên cứu của bạn và thả dữ liệu để các nhà nghiên cứu khác.
Một cách mà các nhà nghiên cứu xã hội làm giảm nguy cơ thông tin là "nặc danh" của dữ liệu. "Ẩn danh" là quá trình loại bỏ định danh cá nhân rõ ràng như tên, địa chỉ, và số điện thoại từ dữ liệu. Tuy nhiên, phương pháp này là rất ít hiệu quả hơn nhiều người nhận ra, và nó là, trên thực tế, sâu sắc và căn bản hạn chế. Vì lý do đó, bất cứ khi nào tôi mô tả "nặc danh", tôi sẽ sử dụng dấu ngoặc kép để nhắc nhở bạn rằng quá trình này tạo ra sự xuất hiện của vô danh nhưng không giấu sự thật.
Một ví dụ sinh động về sự thất bại của "nặc danh" đến từ những năm cuối thập niên 1990 tại Massachusetts (Sweeney 2002) . Ủy ban Insurance Group (GIC) là một cơ quan chính phủ chịu trách nhiệm mua bảo hiểm y tế cho tất cả các nhân viên nhà nước. Thông qua công việc này, GIC thu thập hồ sơ sức khỏe chi tiết về hàng ngàn nhân viên nhà nước. Trong một nỗ lực để thúc đẩy nghiên cứu về những cách để cải thiện sức khỏe, GIC quyết định phát hành những hồ sơ này để nghiên cứu. Tuy nhiên, họ không chia sẻ tất cả các dữ liệu của họ; đúng hơn, họ "ẩn danh" nó bằng cách loại bỏ các thông tin như tên và địa chỉ. Tuy nhiên, họ lại các thông tin khác mà họ nghĩ có thể có ích cho các nhà nghiên cứu như thông tin cá nhân (mã zip, ngày sinh, dân tộc, và quan hệ tình dục) và các thông tin y tế (dữ liệu truy cập, chẩn đoán, thủ tục) (hình 6.4) (Ohm 2010) . Thật không may, điều này "nặc danh" là không đủ để bảo vệ dữ liệu.
Để minh họa cho những thiếu sót của GIC "nặc danh", Latanya Sweeney-sau đó là một sinh viên đại học tại MIT trả 20 $ để có được hồ sơ bầu cử từ thành phố Cambridge, quê hương của Thống đốc bang Massachusetts William Weld. Những hồ sơ bỏ phiếu bao gồm các thông tin như tên, địa chỉ, mã zip, ngày tháng năm sinh và giới tính. Thực tế là các tập tin dữ liệu y tế và các lĩnh vực mã-file zip cử tri chia sẻ, ngày sinh, và tình dục có nghĩa là Sweeney có thể liên kết chúng. Sweeney biết rằng sinh nhật Weld là 31 tháng 7 năm 1945, và hồ sơ bầu cử chỉ bao gồm sáu người trong Cambridge với sinh nhật mà. Hơn nữa, những sáu người, chỉ có ba người là nam giới. Và, những ba người đàn ông, chỉ có một chia sẻ mã zip Weld của. Do đó, các dữ liệu bỏ phiếu cho thấy rằng bất cứ ai trong các dữ liệu y tế với sự kết hợp của ngày tháng năm sinh, giới tính, và mã zip Weld là William Weld. Về bản chất, đây là ba mẩu thông tin được cung cấp một dấu vân tay độc đáo với anh ta trong dữ liệu. Sử dụng thực tế này, Sweeney đã có thể xác định vị trí hồ sơ y tế của mối hàn, và thông báo cho ông về chiến công của mình, cô gửi cho anh một bản sao hồ sơ của mình (Ohm 2010) .
Việc Sweeney minh họa cho cấu trúc cơ bản của các cuộc tấn công de-nặc danh -để áp dụng một thuật ngữ từ cộng đồng bảo mật máy tính. Trong các cuộc tấn công, hai bộ dữ liệu, không phải trong đó tự nó tiết lộ thông tin nhạy cảm, được liên kết và thông qua mối liên kết này, các thông tin nhạy cảm được tiếp xúc. Trong một số cách quá trình này cũng tương tự như cách mà baking soda và giấm, hai chất này chắc chắn mình an toàn, có thể được kết hợp để tạo ra một kết quả khó chịu.
Để đối phó với công việc Sweeney, và công việc khác có liên quan, các nhà nghiên cứu hiện nay thường bỏ nhiều thông tin hơn-tất cả cái gọi là "thông tin cá Xác định" (PII) (Narayanan and Shmatikov 2010) -during quá trình "ẩn danh." Hơn nữa, nhiều nhà nghiên cứu tại nhận ra rằng một số dữ liệu như hồ sơ y tế, hồ sơ tài chính, câu trả lời cho câu hỏi khảo sát về hành vi bất hợp pháp, có lẽ là quá nhạy cảm để phát hành ngay cả sau khi "ẩn danh." Tuy nhiên, nhiều ví dụ gần đây mà tôi sẽ mô tả dưới đây chỉ ra rằng các nhà nghiên cứu xã hội cần thay đổi suy nghĩ của họ. Như là một bước đầu tiên, nó là khôn ngoan để giả định rằng tất cả các dữ liệu có khả năng nhận diện và tất cả các dữ liệu nhạy cảm. Nói cách khác, thay vì nghĩ rằng nguy cơ thông tin áp dụng cho một nhóm nhỏ các dự án, chúng ta nên cho rằng nó được áp dụng đến một mức độ nào để tất cả các dự án.
Cả hai khía cạnh này tái định hướng được minh họa bởi giải thưởng Netflix. Như đã mô tả ở Chương 5, Netflix phát hành 100 triệu xếp hạng phim được cung cấp bởi gần 500.000 thành viên, và đã có một cuộc gọi mở nơi mọi người từ khắp nơi trên thế giới gửi các thuật toán mà có thể cải thiện khả năng của Netflix để giới thiệu phim. Trước khi phát hành dữ liệu, Netflix loại bỏ bất cứ thông tin rõ ràng là nhận dạng cá nhân, chẳng hạn như tên. Netflix cũng đã đi thêm một bước và giới thiệu các nhiễu loạn nhẹ ở một số các hồ sơ (ví dụ, thay đổi một số đánh giá từ 4 sao đến 3 sao). Netflix đã sớm phát hiện, tuy nhiên, bất chấp những nỗ lực của họ, dữ liệu là do không có nghĩa ẩn danh.
Chỉ hai tuần sau khi dữ liệu đã được phát hành Narayanan and Shmatikov (2008) đã chỉ ra rằng nó đã có thể tìm hiểu về sở thích của bộ phim những người cụ thể. Bí quyết để tấn công lại nhận dạng của họ là tương tự như của Sweeney: kết hợp với nhau hai nguồn thông tin, một trong những thông tin nhạy cảm và không có thông tin rõ ràng là xác định và một trong đó có bản sắc của người dân. Mỗi nguồn dữ liệu có thể được an toàn cá nhân, nhưng khi chúng được kết hợp các số liệu sáp nhập có thể tạo ra nguy cơ thông tin. Trong trường hợp dữ liệu Netflix, đây là làm thế nào nó có thể xảy ra. Hãy tưởng tượng rằng tôi chọn để chia sẻ những suy nghĩ của tôi về hành động và phim hài với đồng nghiệp của tôi, nhưng tôi không muốn chia sẻ quan điểm của tôi về phim tôn giáo và chính trị. Đồng nghiệp của tôi có thể sử dụng những thông tin mà tôi đã chia sẻ với họ để tìm hồ sơ của tôi trong các dữ liệu Netflix; những thông tin mà tôi chia sẻ có thể là một dấu vân tay độc đáo giống như ngày William Weld của năm sinh, mã vùng, và quan hệ tình dục. Sau đó, nếu họ tìm thấy dấu vân tay độc đáo của tôi trong dữ liệu, họ có thể học xếp hạng của tôi về tất cả các bộ phim, bao gồm phim mà tôi chọn không chia sẻ. Ngoài loại tấn công này nhắm mục tiêu tập trung vào một người duy nhất, Narayanan and Shmatikov (2008) cũng cho thấy rằng nó đã có thể làm một -one tấn công rộng liên quan đến nhiều người, bằng cách kết hợp các dữ liệu Netflix với dữ liệu đánh giá cá nhân và bộ phim mà một số người đã được lựa chọn để đăng tải trên Internet Movie Database (IMDb). Bất kỳ thông tin đó là dấu vân tay độc đáo cho một người, thậm chí cụ thể thiết lập của bộ phim xếp hạng-có thể được sử dụng để nhận dạng chúng.
Mặc dù các dữ liệu Netflix có thể được tái xác định trong hoặc là một cuộc tấn công nhắm mục tiêu hoặc rộng, nó vẫn có thể xuất hiện được rủi ro thấp. Sau khi tất cả, xếp hạng phim dường như không phải là rất nhạy cảm. Trong khi đó có thể là đúng nói chung, đối với một số trong số 500.000 người trong tập dữ liệu, đánh giá phim có thể là khá nhạy cảm. Trong thực tế, để đáp ứng với de-nặc danh một người phụ nữ đồng tính nữ closeted tham gia một bộ đồ đẳng cấp hành động chống lại Netflix. Đây là cách các vấn đề đã được bày tỏ trong vụ kiện của họ (Singel 2009) :
"[M] ovie và đánh giá dữ liệu chứa thông tin có tính chất rất nhiều cá nhân và nhạy cảm [sic]. dữ liệu phim của thành viên cho thấy lợi ích cá nhân thành viên của Netflix và / hoặc đấu tranh với nhiều vấn đề rất cá nhân, bao gồm cả tình dục, bệnh tâm thần, phục hồi nghiện rượu, và nạn nhân từ loạn luân, bị bạo hành, bạo lực gia đình, ngoại tình, và hãm hiếp. "
Các de-nặc danh của dữ liệu giải Netflix minh họa cả rằng tất cả các dữ liệu là khả năng nhận biết và rằng tất cả các dữ liệu nhạy cảm. Tại thời điểm này, bạn có thể nghĩ rằng điều này chỉ áp dụng cho dữ liệu mà nội dung là về con người. Đáng ngạc nhiên, đó không phải là trường hợp. Để đáp lại Tự do yêu cầu Luật Thông tin, Chính quyền Thành phố New York phát hành hồ sơ của mỗi xe taxi ở New York vào năm 2013, bao gồm cả đón và thả ra lần, địa điểm và số lượng vé (nhớ lại từ chương 2 mà Farber (2015) sử dụng dữ liệu này để kiểm tra lý thuyết quan trọng trong kinh tế lao động). Mặc dù dữ liệu này về các chuyến đi taxi có vẻ lành tính bởi vì nó dường như không có thông tin về con người, Anthony Tockar nhận ra rằng dữ liệu xe taxi này thực sự chứa đựng rất nhiều thông tin nhạy cảm về con người. Để minh họa, ông nhìn tất cả các chuyến đi bắt đầu tại The Hustler Club-câu lạc bộ dải lớn ở New York giữa nửa đêm đến 6 giờ sáng và sau đó tìm thấy địa điểm thả-off của họ. Tìm kiếm này tiết lộ, trong bản chất, một danh sách các địa chỉ của một số người thường xuyên The Hustler Club (Tockar 2014) . Thật khó có thể tưởng tượng rằng chính quyền thành phố đã có điều này trong tâm trí khi nó được phát hành dữ liệu. Trong thực tế, kỹ thuật này có thể được sử dụng để tìm địa chỉ nhà của những người ghé thăm nơi nào trong-một thành phố trung tâm y tế, một tòa nhà chính phủ, hoặc một tổ chức tôn giáo.
Hai trường hợp-giải Netflix và thành phố New York taxi dữ liệu cho thấy rằng những người tương đối lành nghề đã thất bại để ước tính một cách chính xác các nguy cơ thông tin trong dữ liệu mà họ phát hành, và những trường hợp này là do không có nghĩa độc đáo (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Hơn nữa, trong nhiều trường hợp, dữ liệu có vấn đề là vẫn còn tự do có sẵn trực tuyến, cho thấy sự khó khăn của từng hoàn tác một bản phát hành dữ liệu. Nói chung các ví dụ này, cũng như nghiên cứu trong khoa học máy tính về sự riêng tư, dẫn đến một kết luận quan trọng. Các nhà nghiên cứu nên giả định rằng tất cả các dữ liệu có khả năng nhận diện và tất cả các dữ liệu nhạy cảm.
Thật không may, không có giải pháp đơn giản để thực tế là tất cả các dữ liệu có khả năng nhận diện và tất cả các dữ liệu nhạy cảm. Tuy nhiên, có một cách để giảm thiểu rủi ro thông tin trong khi bạn đang làm việc với dữ liệu là để tạo ra và thực hiện theo một kế hoạch bảo vệ dữ liệu. Kế hoạch này sẽ làm giảm cơ hội rằng dữ liệu của bạn sẽ bị rò rỉ và sẽ làm giảm tác hại nếu rò rỉ bằng cách nào đó xảy ra. Các chi tiết cụ thể của kế hoạch bảo vệ dữ liệu, chẳng hạn như những hình thức mã hóa để sử dụng, sẽ thay đổi theo thời gian, nhưng các dịch vụ dữ liệu Anh helpfully tổ chức các yếu tố của một kế hoạch bảo vệ dữ liệu thành 5 loại mà họ gọi là 5 két: các dự án an toàn, mọi người an toàn , cài đặt an toàn, an toàn dữ liệu, và kết quả đầu ra an toàn (Bảng 6.2) (Desai, Ritchie, and Welpton 2016) . Không ai trong số năm két cá nhân cung cấp bảo vệ hoàn hảo. Nhưng, họ cùng nhau tạo thành một tập hợp mạnh mẽ của các yếu tố có thể làm giảm nguy cơ thông tin.
an toàn | Hoạt động |
---|---|
các dự án an toàn | hạn chế các dự án với các dữ liệu để những người có đạo đức |
mọi người an toàn | truy cập bị hạn chế những người có thể được tin cậy với các dữ liệu (ví dụ như, người đã qua đào tạo về đạo đức) |
dữ liệu an toàn | dữ liệu là de-xác định và tổng hợp đến mức có thể |
cài đặt an toàn | dữ liệu được lưu trữ trong máy tính với vật lý thích hợp (ví dụ, khóa phòng) và phần mềm (ví dụ bảo vệ mật khẩu, mã hóa) bảo vệ |
đầu ra an toàn | kết quả nghiên cứu được xem xét để tránh vô tình vi phạm quyền riêng tư |
Ngoài việc bảo vệ dữ liệu của bạn trong khi bạn đang sử dụng nó, một bước trong quá trình nghiên cứu, nơi có nguy cơ thông tin là đặc biệt quan trọng là chia sẻ dữ liệu với các nhà nghiên cứu khác. chia sẻ dữ liệu giữa các nhà khoa học là một giá trị cốt lõi của sự nỗ lực khoa học, và nó rất có cơ sở sự tiến bộ của kiến thức. Dưới đây là cách viện Anh Commons mô tả tầm quan trọng của việc chia sẻ dữ liệu:
"Truy cập dữ liệu là cơ bản nếu các nhà nghiên cứu là để tái sản xuất, kiểm tra và xây dựng trên kết quả được báo cáo trong y văn. Các giả định phải được điều đó, trừ khi có một lý do mạnh mẽ khác, dữ liệu sẽ được tiết lộ đầy đủ và công bố công khai. Phù hợp với nguyên tắc này, nếu có thể, dữ liệu liên quan đến tất cả các nghiên cứu công khai tài trợ phải được thực hiện rộng rãi và tự do. " (Molloy 2011)
Tuy nhiên, bằng cách chia sẻ dữ liệu với các nhà nghiên cứu khác, bạn có thể làm tăng nguy cơ thông tin để tham gia của bạn. Do đó, nó có vẻ là các nhà nghiên cứu, những người muốn chia sẻ của họ dữ liệu hoặc được yêu cầu chia sẻ của họ dữ liệu đang phải đối mặt với một sự căng thẳng cơ bản. Một mặt họ có một nghĩa vụ đạo đức để chia sẻ dữ liệu của họ với các nhà khoa học khác, đặc biệt là nếu các nghiên cứu ban đầu được chính phủ tài trợ. Tuy nhiên, cùng lúc đó, các nhà nghiên cứu có một nghĩa vụ đạo đức để giảm thiểu, càng nhiều càng tốt, nguy cơ thông tin cho người tham gia của họ.
May mắn thay, tiến thoái lưỡng nan này là không nghiêm trọng như nó xuất hiện. Điều quan trọng là phải suy nghĩ dữ liệu chia sẻ cùng một sự liên tục từ không chia sẻ dữ liệu để phát hành và quên, nơi dữ liệu được "ẩn danh" và gửi cho bất cứ ai truy cập (Hình 6.6). Cả hai thái độ cực đoan có rủi ro và lợi ích. Nghĩa là, nó không phải là tự động điều đạo đức nhất để không chia sẻ dữ liệu của bạn; cách tiếp cận này giúp loại bỏ rất nhiều lợi ích tiềm năng cho xã hội. Quay trở lại với vị giác, Ties, và thời gian, ví dụ thảo luận ở chương trước, lập luận chống lại phát hành dữ liệu mà chỉ tập trung vào tác hại có thể và bỏ qua những lợi ích có thể là quá phiến diện; Tôi sẽ mô tả các vấn đề với cách tiếp cận một chiều, quá bảo vệ này chi tiết hơn ở dưới đây khi tôi cung cấp lời khuyên về việc ra quyết định khi đối mặt với sự không chắc chắn (mục 6.6.4).
Hơn nữa, ở giữa hai trường hợp cực đoan là những gì tôi sẽ gọi một cách tiếp cận khu vườn có tường bao quanh, nơi dữ liệu được chia sẻ với những người đáp ứng các tiêu chí nhất định và đồng ý bị ràng buộc bởi các quy tắc nhất định (ví dụ, giám sát từ một IRB và một kế hoạch bảo vệ dữ liệu) . cách tiếp cận khu vườn có tường bao quanh này cung cấp nhiều lợi ích của việc phát hành và quên ít rủi ro hơn. Tất nhiên, một cách tiếp cận khu vườn có tường bao quanh tạo ra nhiều câu hỏi, ai sẽ có quyền truy cập, trong điều kiện những gì, trong bao lâu, ai sẽ trả tiền để duy trì và cảnh sát khu vườn có tường bao quanh, vv-nhưng đây không phải là không thể vượt qua. Trong thực tế, có được đã làm việc khu vườn có tường bao quanh ở nơi đó các nhà nghiên cứu có thể sử dụng ngay bây giờ, chẳng hạn như lưu trữ dữ liệu của Hiệp hội liên trường đại học Chính trị và Xã hội nghiên cứu tại Đại học Michigan.
Vì vậy, mà nên các dữ liệu từ các nghiên cứu của bạn được trên liên tục không có sự chia sẻ, vườn có tường bao quanh, và giải phóng và quên? Nó phụ thuộc vào các chi tiết của dữ liệu của bạn; các nhà nghiên cứu phải cân bằng giữa Tôn trọng người, beneficence, Tư pháp, và tôn trọng luật pháp và lợi ích cộng đồng. Khi đánh giá cân bằng thích hợp cho các quyết định khác các nhà nghiên cứu tìm những lời khuyên và phê duyệt IRBs, và phát hành dữ liệu có thể được chỉ là một phần của quá trình đó. Nói cách khác, mặc dù một số người cho rằng phát hành dữ liệu như là một bãi lầy đạo đức vô vọng, chúng tôi đã có hệ thống tại chỗ để giúp các nhà nghiên cứu cân bằng các loại tình huống khó xử đạo đức.
Một trong những cách thức để suy nghĩ về việc chia sẻ dữ liệu là bằng cách tương tự. Mỗi chiếc xe năm chịu trách nhiệm cho hàng ngàn người chết, nhưng chúng tôi không cố gắng để cấm lái xe. Trong thực tế, như một lời kêu gọi cấm lái xe sẽ là vô lý vì lái xe cho phép nhiều điều tuyệt vời. Thay vào đó, xã hội đặt hạn chế về những người có thể lái xe (ví dụ, cần phải có một độ tuổi nhất định, cần phải vượt qua các bài kiểm tra nhất định) và làm thế nào họ có thể lái xe (ví dụ, dưới giới hạn tốc độ). Xã hội cũng có những người có nhiệm vụ thực thi các quy định này (ví dụ, cảnh sát), và chúng tôi trừng phạt những người vi phạm bắt chúng. Điều này cùng một loại suy nghĩ cân bằng mà xã hội áp dụng cho điều lái xe cũng có thể được áp dụng cho việc chia sẻ dữ liệu. Đó là, thay vì làm cho lập luận có tính tuyệt đối hay chống lại việc chia sẻ dữ liệu, tôi nghĩ rằng những lợi ích lớn nhất sẽ đến từ việc tìm hiểu làm thế nào chúng ta có thể chia sẻ dữ liệu một cách an toàn hơn.
Để kết luận, nguy cơ thông tin đã tăng lên đáng kể, và nó là rất khó để dự đoán và định lượng. Do đó, tốt nhất là để giả định rằng tất cả các dữ liệu là khả năng nhận biết và nhạy cảm. Để giảm nguy cơ thông tin trong khi làm nghiên cứu, các nhà nghiên cứu có thể tạo và làm theo một kế hoạch bảo vệ dữ liệu. Hơn nữa, nguy cơ thông tin không ngăn cản các nhà nghiên cứu từ việc chia sẻ dữ liệu với các nhà khoa học khác.