2.3.2.7敏感

企業や政府が持っている情報の一部は敏感です。

健康保険会社は、顧客によって受信された医療に関する詳細な情報を持っています。この情報は、健康についての重要な研究のために使用することができたが、それが公共になった場合には、潜在的に感情的な害(例えば、恥ずかし)と経済的損害(雇用の例えば、損失)につながる可能性があります。ファー独特の、多くのビッグデータ・ソースからの機密である情報を持っています。この情報の機密性は、ビッグデータのソースは、多くの場合、(前述の) アクセス不能であることを理由の一部です。

研究者はこのような状況に対処しようとする一つの方法は、機密情報を持っている脱識別データセットです。しかし、私は第6章(倫理)真剣に広く社会科学者とデータ科学者の両方によって理解されていない方法で制限され、このアプローチで詳細に表示されますように。

結論として、今日(明日)のビッグデータ・ソースは、一般的に10の特性を持っています。常時オン、良好な特性ビッグの多くは、およびデジタル時代の企業や政府における事実から非反応性-来ては、これまで不可能であったスケールでデータを収集することができます。そして、悪い性質不完全、アクセス不能、非代表の多くは、漂流、アルゴリズム汚い、アクセスできない、混乱、およびデータは研究者のための研究者によって収集されないという事実から機密-来ます。これらの特性を理解することは、ビッグデータからの学習に必要な最初のステップです。そして、今、私たちは、このデータで使用できる戦略を検索するに回します。