Nekatere informacije, ki imajo podjetja in vlade, je občutljiv.
Zdravstvene zavarovalnice so podrobne informacije o zdravstveni oskrbi, ki jih svojim strankam prejeli. Ti podatki se lahko uporabijo za pomembne raziskave o zdravju, ampak, če je postala javna bi to lahko privedlo do čustvene škode (npr zadrege) in gospodarsko škodo (na primer, izguba zaposlitve). Daleč od značilnih, mnogih velikih podatkovnih virov imajo informacije, ki so občutljive. Občutljivosti teh podatkov je del razloga, da so veliki viri podatkov pogosto nedostopna (opisano zgoraj).
Eden od načinov, da raziskovalci poskušali reševanje te situacije je, da de-prepoznavanje nabori podatkov, ki imajo občutljive podatke. Ampak, kot bom pokazal podrobnosti v poglavju 6 (etiko) ta pristop resno omejena na načine, ki niso zelo cenijo tako družboslovci in podatkovnih znanstveniki.
Skratka, veliki podatkovni viri danes (in jutri), imajo na splošno deset značilnosti. Veliko dobrih lastnosti-velike, vedno-na, in nereaktiven, izvira iz dejstva, v digitalni dobi, podjetja in vlade so sposobni za zbiranje podatkov na lestvici, da ni bilo mogoče prej. In mnogi od slabih lastnosti-nepopolno, nedostopni, ki niso zastopnika, z visečimi, algoritmom osramočen, nedostopna, umazana, in občutljiva, izvira iz dejstva, da se podatki ne zbirajo raziskovalci za raziskovalce. Razumevanje te značilnosti so nujen prvi korak za učenje iz velikih podatkov. In sedaj obrnemo k raziskovanju strategij se lahko uporabljajo s temi podatki.