2.3.2.7敏感

一些企業和政府掌握的信息是敏感的。

健康保險公司有詳細的了解他們的客戶收到的醫療信息。這些信息可用於有關健康的重要研究,但如果東窗事發它可能會導致情緒上的傷害(如尷尬)和經濟損害(就業例如,損失)。遠離鮮明,許多大的數據源必須是敏感信息。此信息的敏感性是那麼大的數據來源是望洋興嘆 (如上所述)的部分原因。

研究者試圖處理這種情況的一種方式是具有敏感信息去識別數據集。但是,正如我將在第6章(倫理學)這個方法是在沒有廣泛既有社會科學家和科學家的數據讚賞的方式嚴重限制的細節展現。

總之,今天(明天)的大數據來源一般有十大特點。在數字時代,許多企業的良好性能,大,永遠在線,並且不反應,來自於事實,政府是能夠在一個規模,這是以前沒有的收集數據。而且,很多不好的性質不完全,交通不便,不​​具有代表性的,漂流,算法混淆,人跡罕至,臟兮兮的,敏感的,來自該數據沒有被研究人員研究人員收集的事實。了解這些特點是必要的第一步,從大數據中學習。而且,現在我們轉向研究,我們可以用這個數據使用策略。