Rủi ro thông tin là rủi ro phổ biến nhất trong nghiên cứu xã hội; nó đã tăng lên đáng kể; và đó là rủi ro khó hiểu nhất.
Thách thức đạo đức thứ hai đối với nghiên cứu độ tuổi kỹ thuật số là rủi ro thông tin , khả năng gây hại từ việc tiết lộ thông tin (National Research Council 2014) . Tác hại thông tin từ việc tiết lộ thông tin cá nhân có thể là kinh tế (ví dụ, mất việc), xã hội (ví dụ, xấu hổ), tâm lý (ví dụ, trầm cảm), hoặc thậm chí phạm tội (ví dụ, bắt giữ hành vi bất hợp pháp). Thật không may, thời đại kỹ thuật số làm tăng đáng kể nguy cơ thông tin — chỉ có rất nhiều thông tin về hành vi của chúng tôi. Và rủi ro thông tin đã được chứng minh là rất khó hiểu và quản lý so với những rủi ro là mối quan tâm trong nghiên cứu xã hội tương tự như tuổi tác, chẳng hạn như rủi ro về thể chất.
Một cách mà các nhà nghiên cứu xã hội làm giảm nguy cơ thông tin là "nặc danh" của dữ liệu. "Ẩn danh" là quá trình loại bỏ định danh cá nhân rõ ràng như tên, địa chỉ, và số điện thoại từ dữ liệu. Tuy nhiên, phương pháp này là rất ít hiệu quả hơn nhiều người nhận ra, và nó là, trên thực tế, sâu sắc và căn bản hạn chế. Vì lý do đó, bất cứ khi nào tôi mô tả "nặc danh", tôi sẽ sử dụng dấu ngoặc kép để nhắc nhở bạn rằng quá trình này tạo ra sự xuất hiện của vô danh nhưng không giấu sự thật.
Một ví dụ sinh động về sự thất bại của “ẩn danh” xuất phát từ cuối những năm 1990 tại Massachusetts (Sweeney 2002) . Ủy ban bảo hiểm nhóm (GIC) là cơ quan chính phủ chịu trách nhiệm mua bảo hiểm y tế cho tất cả nhân viên nhà nước. Thông qua công việc này, GIC đã thu thập hồ sơ y tế chi tiết về hàng ngàn nhân viên nhà nước. Trong một nỗ lực để thúc đẩy nghiên cứu, GIC quyết định phát hành các hồ sơ này cho các nhà nghiên cứu. Tuy nhiên, họ không chia sẻ tất cả dữ liệu của họ; thay vào đó, chúng "ẩn danh" những dữ liệu này bằng cách xóa thông tin như tên và địa chỉ. Tuy nhiên, họ để lại những thông tin khác mà họ nghĩ có thể hữu ích cho các nhà nghiên cứu như thông tin nhân khẩu học (mã zip, ngày sinh, dân tộc và giới tính) và thông tin y tế (xem dữ liệu, chẩn đoán, thủ tục) (hình 6.4) (Ohm 2010) . Thật không may, "ẩn danh" này không đủ để bảo vệ dữ liệu.
Để minh họa cho những thiếu sót của "ẩn danh" GIC, Latanya Sweeney — sau đó là sinh viên cao học tại MIT - đã trả 20 đô la để có được hồ sơ bỏ phiếu từ thành phố Cambridge, quê hương của thống đốc bang Massachusetts William Weld. Các hồ sơ biểu quyết này bao gồm thông tin như tên, địa chỉ, mã zip, ngày sinh và giới tính. Thực tế là tệp dữ liệu y tế và tệp cử tri chia sẻ các trường — mã zip, ngày sinh và giới tính — có nghĩa là Sweeney có thể liên kết chúng. Sweeney biết rằng sinh nhật của Weld là ngày 31 tháng 7 năm 1945, và các hồ sơ biểu quyết chỉ bao gồm sáu người ở Cambridge với sinh nhật đó. Hơn nữa, trong sáu người đó, chỉ có ba người là nam. Và, trong ba người đàn ông đó, chỉ có một người chia sẻ mã zip của Weld. Do đó, dữ liệu biểu quyết cho thấy rằng bất kỳ ai trong dữ liệu y tế có sự kết hợp ngày sinh, giới tính và mã zip của Weld là William Weld. Về bản chất, ba mẩu thông tin này cung cấp một dấu vân tay duy nhất cho anh ta trong dữ liệu. Sử dụng thực tế này, Sweeney đã có thể xác định hồ sơ y tế của Weld, và, để thông báo cho anh về kỳ tích của cô, cô gửi cho anh một bản sao hồ sơ của anh (Ohm 2010) .
Công việc của Sweeney minh họa cấu trúc cơ bản của các cuộc tấn công tái xác định — để chấp nhận một thuật ngữ từ cộng đồng bảo mật máy tính. Trong các cuộc tấn công này, hai tập hợp dữ liệu, không ai trong số đó tự tiết lộ thông tin nhạy cảm, được liên kết và thông qua liên kết này, thông tin nhạy cảm được phơi bày.
Để đáp ứng với công việc của Sweeney, và các công việc liên quan khác, các nhà nghiên cứu ngày nay thường loại bỏ nhiều thông tin hơn - tất cả được gọi là "thông tin nhận diện cá nhân" (PII) (Narayanan and Shmatikov 2010) quá trình "ẩn danh". bây giờ nhận ra rằng một số dữ liệu nhất định - chẳng hạn như hồ sơ y tế, hồ sơ tài chính, câu trả lời cho các câu hỏi khảo sát về hành vi bất hợp pháp - có lẽ quá nhạy cảm để phát hành ngay cả sau khi ẩn danh. để thay đổi suy nghĩ của họ. Bước đầu tiên, bạn nên giả định rằng tất cả dữ liệu đều có khả năng nhận dạng được và tất cả dữ liệu đều có khả năng nhạy cảm. Nói cách khác, thay vì nghĩ rằng rủi ro thông tin áp dụng cho một nhóm nhỏ các dự án, chúng ta nên giả định rằng nó áp dụng - ở một mức độ nào đó - cho tất cả các dự án.
Cả hai khía cạnh của sự định hướng lại này được minh họa bằng Giải thưởng Netflix. Như đã mô tả ở chương 5, Netflix đã phát hành 100 triệu phim được cung cấp bởi gần 500.000 thành viên và có cuộc gọi mở nơi mọi người từ khắp nơi trên thế giới gửi các thuật toán có thể cải thiện khả năng giới thiệu phim của Netflix. Trước khi phát hành dữ liệu, Netflix đã xóa mọi thông tin nhận dạng cá nhân rõ ràng, chẳng hạn như tên. Họ cũng đã đi một bước thêm và giới thiệu sự nhiễu loạn nhẹ trong một số hồ sơ (ví dụ, thay đổi một số xếp hạng từ 4 sao đến 3 sao). Tuy nhiên, họ sớm phát hiện ra rằng mặc dù nỗ lực của họ, dữ liệu vẫn không có nghĩa là vô danh.
Chỉ hai tuần sau khi dữ liệu được phát hành, Arvind Narayanan và Vitaly Shmatikov (2008) cho thấy rằng nó có thể tìm hiểu về sở thích phim của người cụ thể. Bí quyết tấn công tái xác định của họ tương tự như của Sweeney: hợp nhất hai nguồn thông tin, một với thông tin nhạy cảm và không rõ ràng là thông tin nhận dạng và thông tin chứa đựng danh tính của mọi người. Mỗi nguồn dữ liệu này có thể được an toàn riêng, nhưng khi chúng được kết hợp, tập dữ liệu đã hợp nhất có thể tạo ra rủi ro thông tin. Trong trường hợp của dữ liệu Netflix, dưới đây là cách nó có thể xảy ra. Hãy tưởng tượng rằng tôi chọn chia sẻ suy nghĩ của mình về hành động và phim hài với các đồng nghiệp của tôi, nhưng tôi không muốn chia sẻ ý kiến của tôi về phim tôn giáo và chính trị. Đồng nghiệp của tôi có thể sử dụng thông tin mà tôi đã chia sẻ với họ để tìm hồ sơ của tôi trong dữ liệu Netflix; thông tin mà tôi chia sẻ có thể là dấu vân tay duy nhất giống như ngày sinh, mã zip và giới tính của William Weld. Sau đó, nếu họ tìm thấy dấu vân tay duy nhất của tôi trong dữ liệu, họ có thể tìm hiểu xếp hạng của tôi về tất cả các bộ phim, bao gồm cả những bộ phim mà tôi chọn không chia sẻ. Ngoài loại tấn công nhắm mục tiêu này tập trung vào một người, Narayanan và Shmatikov cũng cho thấy có thể thực hiện một cuộc tấn công rộng - một người liên quan đến nhiều người - bằng cách hợp nhất dữ liệu Netflix với dữ liệu cá nhân và phim mà một số người đã chọn để đăng trên Internet Movie Database (IMDb). Rất đơn giản, bất kỳ thông tin nào là dấu vân tay duy nhất cho một người cụ thể — thậm chí cả bộ xếp hạng phim của họ — có thể được sử dụng để nhận dạng chúng.
Mặc dù dữ liệu Netflix có thể được xác định lại trong một cuộc tấn công nhắm mục tiêu hoặc rộng, nhưng nó vẫn có thể có vẻ có rủi ro thấp. Sau khi tất cả, xếp hạng phim không có vẻ rất nhạy cảm. Mặc dù điều đó có thể đúng, nhưng đối với một số 500.000 người trong tập dữ liệu, xếp hạng phim có thể khá nhạy cảm. Trong thực tế, để đáp ứng với việc tái xác định, một người phụ nữ đồng tính nữ đóng cửa đã tham gia một bộ đồ lớp hành động chống lại Netflix. Đây là cách vấn đề được thể hiện trong vụ kiện của họ (Singel 2009) :
“[M] dữ liệu xếp hạng và buồng trứng chứa thông tin về bản chất rất cá nhân và nhạy cảm. Dữ liệu phim của thành viên cho thấy mối quan tâm cá nhân của một thành viên Netflix và / hoặc đấu tranh với nhiều vấn đề cá nhân khác nhau, bao gồm tình dục, bệnh tâm thần, phục hồi từ nghiện rượu và nạn nhân từ tội loạn luân, bạo lực, bạo lực gia đình, ngoại tình và hãm hiếp. ”
Việc xác định lại dữ liệu giải thưởng Netflix minh họa cả rằng tất cả dữ liệu đều có khả năng nhận dạng được và tất cả dữ liệu đều có khả năng nhạy cảm. Tại thời điểm này, bạn có thể nghĩ rằng điều này chỉ áp dụng cho dữ liệu có ý định về con người. Đáng ngạc nhiên, đó không phải là trường hợp. Để đáp lại yêu cầu của Luật Tự do Thông tin, Chính quyền Thành phố New York đã phát hành hồ sơ của mỗi chuyến đi taxi ở New York vào năm 2013, bao gồm cả thời gian đón và trả khách, số tiền và số tiền vé (gọi lại từ chương 2 mà Farber (2015) sử dụng dữ liệu tương tự để kiểm tra các lý thuyết quan trọng trong kinh tế lao động). Những dữ liệu về các chuyến đi taxi có vẻ lành tính bởi vì họ dường như không cung cấp thông tin về mọi người, nhưng Anthony Tockar nhận ra rằng tập dữ liệu taxi này chứa rất nhiều thông tin nhạy cảm về con người. Để minh họa, ông đã xem xét tất cả các chuyến đi bắt đầu từ Câu lạc bộ Hustler — một câu lạc bộ rộng lớn ở New York — từ nửa đêm đến 6 giờ sáng và sau đó tìm thấy các địa điểm thả khách của họ. Tìm kiếm này được tiết lộ — về bản chất - một danh sách các địa chỉ của một số người thường xuyên lui tới Câu lạc bộ Hustler (Tockar 2014) . Thật khó để tưởng tượng rằng chính quyền thành phố đã có điều này trong tâm trí khi nó phát hành dữ liệu. Trong thực tế, kỹ thuật tương tự này có thể được sử dụng để tìm địa chỉ nhà của những người đến bất cứ nơi nào trong thành phố - một phòng khám y tế, một tòa nhà chính phủ, hoặc một tổ chức tôn giáo.
Hai trường hợp của giải Netflix và dữ liệu taxi thành phố New York cho thấy những người tương đối có kỹ năng không thể ước tính chính xác rủi ro thông tin trong dữ liệu mà họ phát hành — và những trường hợp này không có nghĩa là duy nhất (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Hơn nữa, trong nhiều trường hợp như vậy, dữ liệu có vấn đề vẫn sẵn có tự do trực tuyến, cho thấy sự khó khăn của việc xóa bỏ dữ liệu. Nói chung, những ví dụ này — cũng như nghiên cứu về khoa học máy tính về quyền riêng tư — dẫn đến một kết luận quan trọng. Các nhà nghiên cứu nên giả định rằng tất cả dữ liệu đều có khả năng nhận dạng được và tất cả dữ liệu đều có khả năng nhạy cảm.
Thật không may, không có giải pháp đơn giản nào cho sự thật là tất cả dữ liệu đều có khả năng nhận dạng được và tất cả dữ liệu đều có khả năng nhạy cảm. Tuy nhiên, một cách để giảm rủi ro thông tin trong khi bạn đang làm việc với dữ liệu là tạo và tuân theo một kế hoạch bảo vệ dữ liệu . Kế hoạch này sẽ làm giảm cơ hội dữ liệu của bạn sẽ bị rò rỉ và sẽ làm giảm tác hại nếu rò rỉ bằng cách nào đó xảy ra. Các chi tiết cụ thể về kế hoạch bảo vệ dữ liệu, chẳng hạn như hình thức mã hóa để sử dụng, sẽ thay đổi theo thời gian, nhưng Dịch vụ dữ liệu của Anh giúp tổ chức một cách hữu ích các yếu tố của kế hoạch bảo vệ dữ liệu thành năm loại mà họ gọi là năm két an toàn , cài đặt an toàn, dữ liệu an toàn và đầu ra an toàn (bảng 6.2) (Desai, Ritchie, and Welpton 2016) . Không ai trong số năm két cá nhân cung cấp bảo vệ hoàn hảo. Nhưng cùng nhau chúng tạo thành một tập hợp các yếu tố mạnh có thể làm giảm nguy cơ thông tin.
An toàn | Hoạt động |
---|---|
Dự án an toàn | Giới hạn dự án với dữ liệu cho những người có đạo đức |
Người an toàn | Quyền truy cập bị hạn chế đối với những người có thể được tin cậy với dữ liệu (ví dụ: những người đã trải qua đào tạo về đạo đức) |
Dữ liệu an toàn | Dữ liệu không xác định và được tổng hợp đến mức có thể |
Cài đặt an toàn | Dữ liệu được lưu trữ trong các máy tính có tính năng vật lý thích hợp (ví dụ, phòng bị khóa) và phần mềm (ví dụ: bảo vệ bằng mật khẩu, mã hóa) |
Đầu ra an toàn | Đầu ra nghiên cứu được xem xét để ngăn chặn vi phạm quyền riêng tư vô tình |
Ngoài việc bảo vệ dữ liệu của bạn trong khi bạn đang sử dụng chúng, một bước trong quá trình nghiên cứu, nơi rủi ro thông tin đặc biệt nổi bật là chia sẻ dữ liệu với các nhà nghiên cứu khác. Chia sẻ dữ liệu giữa các nhà khoa học là một giá trị cốt lõi của nỗ lực khoa học, và nó tạo điều kiện thuận lợi cho sự tiến bộ của tri thức. Đây là cách mà Hạ viện Vương quốc Anh đã mô tả tầm quan trọng của việc chia sẻ dữ liệu (Molloy 2011) :
“Truy cập dữ liệu là cơ bản nếu các nhà nghiên cứu tái tạo, xác minh và xây dựng trên các kết quả được báo cáo trong tài liệu. Giả định phải là, trừ khi có một lý do mạnh mẽ khác, dữ liệu phải được tiết lộ đầy đủ và công bố công khai. ”
Tuy nhiên, bằng cách chia sẻ dữ liệu của bạn với một nhà nghiên cứu khác, bạn có thể làm tăng nguy cơ thông tin cho những người tham gia của bạn. Do đó, có vẻ như việc chia sẻ dữ liệu tạo ra một sự căng thẳng cơ bản giữa nghĩa vụ chia sẻ dữ liệu với các nhà khoa học khác và nghĩa vụ giảm thiểu rủi ro thông tin cho người tham gia. May mắn thay, tiến thoái lưỡng nan này không nghiêm trọng như nó xuất hiện. Thay vào đó, tốt hơn là suy nghĩ về chia sẻ dữ liệu khi rơi xuống liên tục, với mỗi điểm liên tục cung cấp một kết hợp khác nhau về lợi ích cho xã hội và rủi ro cho người tham gia (hình 6.6).
Ở một mức độ cực đoan, bạn có thể chia sẻ dữ liệu của mình mà không ai có thể giảm thiểu rủi ro cho người tham gia mà còn giảm thiểu lợi ích cho xã hội. Ở thái cực khác, bạn có thể phát hành và quên , nơi dữ liệu được "ẩn danh" và được đăng cho mọi người. Tương đối không phát hành dữ liệu, phát hành và quên cung cấp cả lợi ích cao hơn cho xã hội và rủi ro cao hơn cho người tham gia. Giữa hai trường hợp cực đoan này là một loạt các giống lai, bao gồm cả những gì tôi sẽ gọi là phương pháp tiếp cận vườn có tường bao quanh . Theo cách tiếp cận này, dữ liệu được chia sẻ với những người đáp ứng các tiêu chí nhất định và đồng ý bị ràng buộc bởi các quy tắc nhất định (ví dụ, giám sát từ IRB và kế hoạch bảo vệ dữ liệu). Cách tiếp cận vườn có tường bao quanh cung cấp nhiều lợi ích của việc giải phóng và quên đi ít rủi ro hơn. Tất nhiên, cách tiếp cận như vậy tạo ra nhiều câu hỏi - ai sẽ có quyền truy cập, trong điều kiện nào, và trong bao lâu, ai phải trả tiền để duy trì và cảnh sát khu vườn có tường bao quanh, vv — nhưng đây không phải là không thể vượt qua. Trên thực tế, đã có những khu vườn có tường bao quanh để các nhà nghiên cứu có thể sử dụng ngay bây giờ, chẳng hạn như kho lưu trữ dữ liệu của Hiệp hội liên trường đại học về nghiên cứu chính trị và xã hội tại Đại học Michigan.
Vậy, dữ liệu từ nghiên cứu của bạn sẽ ở đâu trong sự liên tục không chia sẻ, vườn có tường bao quanh, và giải phóng và quên đi? Điều này phụ thuộc vào các chi tiết của dữ liệu của bạn: các nhà nghiên cứu phải cân bằng Tôn trọng người, lợi ích, công lý và tôn trọng pháp luật và lợi ích công cộng. Nhìn từ quan điểm này, chia sẻ dữ liệu không phải là một câu hỏi hóc búa về đạo đức đặc biệt; nó chỉ là một trong nhiều khía cạnh của nghiên cứu mà trong đó các nhà nghiên cứu phải tìm một sự cân bằng đạo đức phù hợp.
Một số nhà phê bình nói chung phản đối việc chia sẻ dữ liệu bởi vì, theo ý kiến của tôi, họ đang tập trung vào những rủi ro của nó - điều chắc chắn là thật - và bỏ qua những lợi ích của nó. Vì vậy, để khuyến khích tập trung vào cả rủi ro và lợi ích, tôi muốn đưa ra một sự tương tự. Hàng năm, xe hơi chịu trách nhiệm cho hàng ngàn người chết, nhưng chúng tôi không cố gắng cấm lái xe. Trong thực tế, một cuộc gọi để cấm lái xe sẽ là vô lý bởi vì lái xe cho phép nhiều điều tuyệt vời. Thay vào đó, xã hội đặt những hạn chế về những người có thể lái xe (ví dụ, sự cần thiết phải là một độ tuổi nhất định và đã vượt qua các bài kiểm tra nhất định) và làm thế nào họ có thể lái xe (ví dụ, theo giới hạn tốc độ). Xã hội cũng có những người được giao nhiệm vụ thực thi các quy tắc này (ví dụ, cảnh sát), và chúng tôi trừng phạt những người bị bắt vi phạm chúng. Cùng một loại suy nghĩ cân bằng mà xã hội áp dụng để điều chỉnh lái xe cũng có thể được áp dụng để chia sẻ dữ liệu. Đó là, thay vì làm cho các lập luận tuyệt đối cho hoặc chống lại chia sẻ dữ liệu, tôi nghĩ chúng ta sẽ đạt được tiến bộ nhất bằng cách tập trung vào cách chúng ta có thể giảm rủi ro và tăng lợi ích từ việc chia sẻ dữ liệu.
Để kết luận, nguy cơ thông tin đã tăng lên đáng kể, và rất khó dự đoán và định lượng. Do đó, tốt nhất là giả định rằng tất cả dữ liệu đều có khả năng nhận dạng và có khả năng nhạy cảm. Để giảm nguy cơ thông tin trong khi thực hiện nghiên cứu, các nhà nghiên cứu có thể tạo và tuân theo một kế hoạch bảo vệ dữ liệu. Hơn nữa, rủi ro thông tin không ngăn cản các nhà nghiên cứu chia sẻ dữ liệu với các nhà khoa học khác.