Một số thông tin mà các công ty và chính phủ có là nhạy cảm.
các công ty bảo hiểm y tế đã chi tiết thông tin về các dịch vụ chăm sóc y tế được khách hàng của họ. Thông tin này có thể được sử dụng cho nghiên cứu quan trọng về sức khỏe, nhưng nếu nó trở thành công nó có thể dẫn đến tổn hại tình cảm (ví dụ, bối rối) và tác hại kinh tế (ví dụ như, mất việc làm). Viễn từ biệt, nhiều nguồn dữ liệu lớn có thông tin đó là nhạy cảm. Bản chất nhạy cảm của thông tin này là một phần của lý do mà các nguồn dữ liệu lớn thường không thể tiếp cận (mô tả ở trên).
Một cách mà các nhà nghiên cứu đã cố gắng để đối phó với tình trạng này là để de-xác định các bộ dữ liệu có thông tin nhạy cảm. Nhưng, như tôi sẽ hiển thị chi tiết trong Chương 6 (đạo đức) phương pháp này hạn chế nghiêm trọng trong cách mà không được đánh giá cao bởi cả các nhà khoa học xã hội và các nhà khoa học dữ liệu.
Trong kết luận, các nguồn dữ liệu lớn của ngày hôm nay (và ngày mai) thường có mười đặc điểm. Nhiều người trong số các thuộc tính-lớn tốt, luôn luôn-on, và nonreactive-đi từ thực tế trong các công ty đại kỹ thuật số và các chính phủ có thể thu thập dữ liệu ở quy mô đó là không thể trước đó. Và, rất nhiều các tính xấu-không đầy đủ, không thể tiếp cận không đại diện,, trôi, thuật toán xấu hổ, không thể tiếp cận, dơ bẩn, và nhạy cảm, đến từ thực tế là các dữ liệu không được thu thập bởi các nhà nghiên cứu cho các nhà nghiên cứu. Hiểu được những đặc điểm này là một bước cần thiết đầu tiên để học hỏi từ các dữ liệu lớn. Và, bây giờ chúng ta chuyển sang nghiên cứu chiến lược chúng ta có thể sử dụng với các dữ liệu này.