Niektóre informacje, że firmy i rządy jest wrażliwy.
towarzystwa ubezpieczeń zdrowotnych zostały szczegółowe informacje na temat opieki medycznej otrzymanej przez swoich klientów. Informacje te mogą być wykorzystywane do ważnych badań na temat zdrowia, ale jeśli to stała się publiczna mogłaby potencjalnie prowadzić do szkód emocjonalnych (np zakłopotanie) i strat gospodarczych (np utraty zatrudnienia). Daleko od charakterystycznych, wiele dużych źródeł danych posiada informacje, które są wrażliwe. Szczególny charakter tej informacji jest jednym z powodów, że duże źródła danych są często niedostępne (opisane powyżej).
Jednym ze sposobów, że naukowcy próbują poradzić sobie z tą sytuacją jest de-identyfikować zbiory danych, które posiadają poufne informacje. Ale, jak pokażę szczegółowo w rozdziale 6 (etyki) Takie podejście poważnie ograniczone w taki sposób, że nie są doceniane zarówno przez badaczy społecznych i naukowców danych.
Podsumowując, wielkie źródła danych (dziś i jutro) na ogół mają dziesięć cech. Wiele dobrych właściwościach-big, zawsze włączony i niereaktywne kto z faktu w cyfrowych firmy wiekowych i rządy są w stanie gromadzić dane na skalę nie było to możliwe wcześniej. I wiele złych właściwości-niekompletnego niedostępnej, braku przedstawiciela, drifting, algorytmicznie uwikłane, niedostępne, brudne, i wrażliwy, pochodzą z faktu, że dane nie są zbierane przez naukowców dla naukowców. Zrozumienie tych cech są niezbędnym pierwszym krokiem do uczenia się od dużych danych. A teraz przechodzimy do badania strategii możemy używać z tymi danymi.