Неке од информација које компаније и владе имају осетљив.
Здравственог осигурања компаније су детаљне информације о медицинском негом добили од својих клијената. Ова информација се може користити за важан истраживања о здрављу, али ако је постала јавна потенцијално могло довести до емотивне штете (нпр, стида) и економске штете (нпр, губитак посла). Далеко од препознатљивих, много великих извора података имају информацију да је осетљив. Осетљива природа ових информација је део разлога што велики извори података су често недоступни (горе описано).
Један од начина да истраживачи покушавају да се баве овој ситуацији је да се де-идентификују скупова података који имају осетљиве информације. Али, као што ћу показати у детаље у Поглављу 6 (Етичког) овог приступа озбиљно ограничена на начин да се не увиђа обе друштвених научника и научника података.
У закључку, велики извори података за данас (и сутра) обично имају десет карактеристике. Многи од добрих особина-БИГ, увек на, и нонреацтиве-произлазе из чињенице у дигиталном добу компанија и владе могу да прикупљају податке на скали која претходно није било могуће. И, многи од лоших својства-непотпуне, неприступачан, не-представник, Дрифтинг, алгоритмички збуњен, неприступачан, прљав, а осетљиви-произлазе из чињенице да се подаци не прикупљају од стране истраживача за истраживаче. Разумевање ове карактеристике су неопходан први корак у учењу од великих података. А, сада смо окренути истраживању стратегије се могу користити са овим подацима.