Neke od informacija koje tvrtke i vlade je osjetljiva.
Zdravlje osiguravajuće tvrtke su detaljne informacije o zdravstvenoj skrbi koju je primio svoje kupce. Ova informacija može se koristiti za važnih istraživanja o zdravlju, ali ako je postala javna potencijalno može dovesti do emocionalne štete (primjerice, sramota) i gospodarske štete (npr, gubitak zaposlenja). Daleko od prepoznatljivim i mnogih velikih izvora podataka ima podatke koji su osjetljivi. Osjetljive prirode informacija je dio razloga da je veliki izvori podataka su često nedostupni (gore opisano).
Jedan od načina da istraživači pokušavaju se nositi s ovom situacijom je da se de-identificiraju skup podataka koji imaju osjetljive podatke. Ali, kao što ću pokazati u poglavlju 6. (etiku) ovog pristupa ozbiljno ograničena na načine koji nisu široko cijenjen od strane obje društvenih znanstvenika i podatkovnih znanstvenika.
U zaključku, veliki izvori podataka od danas (i sutra) u pravilu imaju deset svojstava. Mnogi od dobrih svojstava Big, uvijek na, i da ne reagira-dolaze iz činjenice u digitalnom dobu tvrtke i vlade su u mogućnosti prikupljati podatke na skali koja nije bilo moguće ranije. I, mnogi od loših svojstava-nepotpunih, nedostupan, ne-zastupnik, splavarenja, algoritamski smesti, nedostupna, prljav i osjetljiv-dolaze iz činjenice da se podaci ne prikupljaju od strane istraživača za istraživače. Razumijevanje ove karakteristike su nužan prvi korak u učenju od velikih podataka. A, sad se okrećemo za istraživanje strategije možemo koristiti s ovim podacima.