一些企业和政府掌握的信息是敏感的。
健康保险公司有详细的了解他们的客户收到的医疗信息。这些信息可用于有关健康的重要研究,但如果东窗事发它可能会导致情绪上的伤害(如尴尬)和经济损害(就业例如,损失)。远离鲜明,许多大的数据源必须是敏感信息。此信息的敏感性是那么大的数据来源是望洋兴叹 (如上所述)的部分原因。
研究者试图处理这种情况的一种方式是具有敏感信息去识别数据集。但是,正如我将在第6章(伦理学)这个方法是在没有广泛既有社会科学家和科学家的数据赞赏的方式严重限制的细节展现。
总之,今天(明天)的大数据来源一般有十大特点。在数字时代,许多企业的良好性能,大,永远在线,并且不反应,来自于事实,政府是能够在一个规模,这是以前没有的收集数据。而且,很多不好的性质不完全,交通不便,不具有代表性的,漂流,算法混淆,人迹罕至,脏兮兮的,敏感的,来自该数据没有被研究人员研究人员收集的事实。了解这些特点是必要的第一步,从大数据中学习。而且,现在我们转向研究,我们可以用这个数据使用策略。