Một số thông tin mà các công ty và chính phủ có là nhạy cảm.
Các công ty bảo hiểm y tế có thông tin chi tiết về dịch vụ chăm sóc y tế mà khách hàng của họ nhận được. Thông tin này có thể được sử dụng cho các nghiên cứu quan trọng về sức khỏe, nhưng nếu nó trở thành công khai, nó có thể dẫn đến tổn hại tình cảm (ví dụ, xấu hổ) hoặc tổn hại kinh tế (ví dụ, mất việc làm). Nhiều nguồn dữ liệu lớn khác cũng có thông tin nhạy cảm , đó là một phần lý do tại sao chúng thường không thể truy cập được.
Thật không may, nó trở nên khá phức tạp để quyết định thông tin nào thực sự nhạy cảm (Ohm 2015) , như được minh họa bằng Giải thưởng Netflix. Như tôi sẽ mô tả trong chương 5, năm 2007 Netflix phát hành 100 triệu bộ phim được cung cấp bởi gần 500.000 thành viên và có cuộc gọi mở nơi mọi người từ khắp nơi trên thế giới gửi các thuật toán có thể cải thiện khả năng giới thiệu phim của Netflix. Trước khi phát hành dữ liệu, Netflix đã xóa mọi thông tin nhận dạng cá nhân rõ ràng, chẳng hạn như tên. Nhưng, chỉ hai tuần sau khi dữ liệu được phát hành, Arvind Narayanan và Vitaly Shmatikov (2008) đã cho thấy rằng có thể tìm hiểu về xếp hạng phim của một người nào đó bằng cách sử dụng một mẹo mà tôi sẽ chỉ cho bạn trong chương 6. Mặc dù kẻ tấn công có thể khám phá xếp hạng phim của người đó, vẫn không có vẻ gì nhạy cảm ở đây. Mặc dù điều đó có thể đúng, nhưng ít nhất một số trong số 500.000 người trong tập dữ liệu, xếp hạng phim rất nhạy cảm. Trong thực tế, để đáp ứng với việc phát hành và tái xác định dữ liệu, một người phụ nữ đồng tính nữ đóng cửa đã tham gia một bộ đồ lớp hành động chống lại Netflix. Đây là cách vấn đề được thể hiện trong vụ kiện này (Singel 2009) :
“[M] dữ liệu xếp hạng và buồng trứng chứa thông tin về bản chất rất cá nhân và nhạy cảm. Dữ liệu phim của thành viên cho thấy mối quan tâm cá nhân của một thành viên Netflix và / hoặc đấu tranh với nhiều vấn đề cá nhân khác nhau, bao gồm tình dục, bệnh tâm thần, phục hồi từ nghiện rượu và nạn nhân từ tội loạn luân, bạo lực, bạo lực gia đình, ngoại tình và hãm hiếp. ”
Ví dụ này cho thấy rằng có thể có thông tin mà một số người coi là nhạy cảm bên trong những gì có thể xuất hiện là một cơ sở dữ liệu lành tính. Hơn nữa, nó cho thấy rằng một quốc phòng chính mà các nhà nghiên cứu sử dụng để bảo vệ dữ liệu nhạy cảm-de-xác định-có thể thất bại trong những cách đáng ngạc nhiên. Hai ý tưởng này được phát triển chi tiết hơn trong chương 6.
Điều cuối cùng cần lưu ý về dữ liệu nhạy cảm là thu thập dữ liệu mà không có sự đồng ý của mọi người làm nảy sinh các câu hỏi về đạo đức, ngay cả khi không gây hại cụ thể nào. Giống như xem ai đó đang tắm mà không có sự đồng ý của họ có thể bị coi là vi phạm quyền riêng tư của người đó, thu thập thông tin nhạy cảm — và nhớ khó có thể quyết định điều gì nhạy cảm mà không có sự đồng ý. Tôi sẽ trả lời các câu hỏi về quyền riêng tư trong chương 6.
Tóm lại, các nguồn dữ liệu lớn, chẳng hạn như chính phủ và hồ sơ hành chính kinh doanh, thường không được tạo ra cho mục đích nghiên cứu xã hội. Các nguồn dữ liệu lớn của ngày hôm nay, và có thể ngày mai, có xu hướng có 10 đặc điểm. Nhiều thuộc tính thường được coi là tốt cho nghiên cứu - lớn, luôn luôn và không phản ứng - xuất phát từ thực tế ở các công ty và các chính phủ kỹ thuật số có thể thu thập dữ liệu ở quy mô không thể thực hiện trước đó. Và nhiều thuộc tính thường được xem là xấu cho nghiên cứu - không đầy đủ, không thể tiếp cận, không đại diện, trôi dạt, khó hiểu về mặt thuật toán, không thể tiếp cận, bẩn thỉu và nhạy cảm - xuất phát từ thực tế là các nhà nghiên cứu không thu thập dữ liệu này. Cho đến nay, tôi đã nói về chính phủ và dữ liệu kinh doanh với nhau, nhưng có một số khác biệt giữa hai người. Theo kinh nghiệm của tôi, dữ liệu của chính phủ có xu hướng kém minh bạch, ít bị thuật toán hơn và ít trôi dạt hơn. Một mặt khác, hồ sơ hành chính kinh doanh có xu hướng luôn luôn hơn. Hiểu được 10 đặc điểm chung này là một bước đầu tiên hữu ích trong việc học hỏi từ các nguồn dữ liệu lớn. Và bây giờ chúng ta chuyển sang chiến lược nghiên cứu chúng ta có thể sử dụng với dữ liệu này.