Некои од информациите дека компаниите и владите треба е чувствителна.
Здравствени осигурителни компании имаат детални информации за медицинска нега примени од страна на нивните клиенти. Оваа информација може да се користи за важни истражувања за здравјето, но ако тоа стана јавно тоа би можело да доведе до емотивна повреда (на пример, срам) и економска штета (на пример, губење на работното место). Далеку од карактеристични, многу големи извори на податоци да имаат информации дека е чувствителна. Чувствителната природа на овие податоци е дел од причината дека големите извори на податоци, често се недостапни (опишани погоре).
Еден начин на кој истражувачите се обидуваат да се справи со оваа ситуација е да се де-се идентификуваат бази на податоци кои имаат чувствителна информација. Но, како што ќе се покаже во детали во Поглавје 6 (етика) овој пристап сериозно ограничен на начини кои не се широко прифатена од страна на двете научници од општествените науки и научни податоци.
Во заклучок, големите извори на податоци од денес (и утре) обично имаат десет карактеристики. Многу од добрите својства-голема, секогаш на, и nonreactive-доаѓаат од фактот во дигиталната ера компании и влади се во можност да се соберат податоци на ниво што не беше можно претходно. И, многу од лошите особини-нецелосни, недостапни, нерепрезентативен, лебдат, алгоритамски збунет, недостапни, валкани, и чувствителни-доаѓаат од фактот дека податоците не се собираат од страна на истражувачите за истражувачите. Разбирањето на овие карактеристики се неопходен прв чекор за учење од големи податоци. И, сега ќе се сврти кон истражување стратегии може да се користат со овие податоци.