Algunhas das informacións que as empresas e os gobernos teñen é sensible.
compañías de seguros de saúde obter información precisa sobre os coidados médicos recibidos polos seus clientes. Esta información podería ser usada para investigacións importantes sobre a saúde, pero se fixo público que podería potencialmente levar a danos emocionais (por exemplo, vergonza) e prexuízos económicos (por exemplo, perda de emprego). Lonxe de moitas fontes de datos grandes distintivas ten información que é sensible. A natureza sensible desta información é parte da razón que as fontes de datos grandes son moitas veces inaccesibles (descrito anteriormente).
Un xeito que os investigadores tratan xestionar esta situación é de-identificar conxuntos de datos que posúen información sensibles. Pero, como vou amosar en detalle no capítulo 6 (Ética), esta visión seriamente limitado de formas que non son amplamente apreciado por ambos os científicos sociais e científicos de datos.
En conclusión, as fontes de datos grandes de hoxe (e mañá) xeralmente teñen dez características. Moitas das boas propiedades de grandes, sempre-en, e non reactivas-vir do feito nas empresas era dixital e os gobernos son capaces de recoller datos nunha escala que non era posible anteriormente. E, dos malos propiedades incompleta, inaccesible non representativa ,, á deriva, mediante algoritmos confundidos, inaccesible, sucio e sensible ao vir do feito de que os datos non son recollidos por investigadores para os investigadores. Comprender esas características son un primeiro paso necesario para a aprendizaxe a partir de datos grandes. E, agora nos volvemos para buscar estratexias que podemos usar con estes datos.