Algumas das informações que as empresas e os governos têm é sensível.
companhias de seguros de saúde obter informações precisas sobre os cuidados médicos recebidos pelos seus clientes. Esta informação poderia ser usada para pesquisas importantes sobre a saúde, mas se tornou público que poderia potencialmente levar a danos emocionais (eg, embaraço) e prejuízos económicos (por exemplo, perda de emprego). Longe de, muitas fontes de dados grandes distintivas tem informação que é sensível. A natureza sensível desta informação é parte da razão que as fontes de dados grandes são muitas vezes inacessíveis (descrito acima).
Uma maneira que os investigadores tentam lidar com esta situação é de-identificar conjuntos de dados que possuem informações sensíveis. Mas, como vou mostrar em detalhes no Capítulo 6 (Ética), esta abordagem seriamente limitado de maneiras que não são amplamente apreciados por ambos os cientistas sociais e cientistas de dados.
Em conclusão, as fontes de dados grandes de hoje (e amanhã) geralmente têm dez características. Muitas das boas propriedades de grandes, sempre-em, e não reactivas-vir do fato nas empresas era digital e os governos são capazes de coletar dados em uma escala que não era possível anteriormente. E, muitos dos maus propriedades incompleta, inacessível não representativa,, à deriva, através de algoritmos confundidos, inacessível, sujo e sensível ao vir do fato de que os dados não são coletados por pesquisadores para os investigadores. Compreender essas características são um primeiro passo necessário para a aprendizagem a partir de dados grandes. E, agora nos voltamos para pesquisar estratégias que podemos usar com esses dados.