Certaines des informations que les entreprises et les gouvernements ont est sensible.
les compagnies d'assurance de santé ont des informations détaillées sur les soins médicaux reçus par leurs clients. Cette information pourrait être utilisée pour des recherches importantes sur la santé, mais si elle est devenue publique, il pourrait potentiellement conduire à un préjudice émotionnel (par exemple, l'embarras) et un préjudice économique (par exemple, la perte d'emploi). Loin de nombreuses sources de données distinctes, grandes ont des informations qui est sensible. Le caractère sensible de cette information fait partie de la raison pour laquelle les sources de données grandes sont souvent inaccessibles (décrit ci - dessus).
Une façon que les chercheurs tentent de faire face à cette situation est de dé-identifier les ensembles de données qui ont des informations sensibles. Mais, comme je le montrerai en détail au chapitre 6 (éthique), cette approche sérieusement limitée par des moyens qui ne sont pas très appréciés par les spécialistes des sciences sociales et scientifiques de données.
En conclusion, les sources de données grands d'aujourd'hui (et de demain) ont généralement dix caractéristiques. Beaucoup de bonnes propriétés-grandes, toujours-sur, et non réactifs-viennent du fait dans les entreprises de l'ère numérique et les gouvernements sont en mesure de recueillir des données à une échelle qui n'a pas été possible auparavant. Et, beaucoup de, inaccessible, non représentatif de mauvaises propriétés-incomplètes, à la dérive, algorithmiquement confondu, inaccessible, sale et sensible à venir du fait que les données ne sont pas collectées par les chercheurs pour les chercheurs. Comprendre ces caractéristiques sont une première étape nécessaire à l'apprentissage des grandes données. Et maintenant nous nous tournons vers des stratégies que nous pouvons utiliser ces données de recherche.