Neke od informacija koje kompanije i vlade imaju osjetljiva.
Zdravstveno osiguranje kompanije su detaljne informacije o medicinsku njegu primio svojih kupaca. Ova informacija se može koristiti za važno istraživanje o zdravlju, ali ako je postala javnost može potencijalno dovesti do emocionalne štete (npr sramotu) i ekonomske štete (npr gubitak zaposlenja). Daleko od prepoznatljiv, mnogo velikih izvora podataka imaju informaciju da je osjetljiv. Osjetljiva priroda tih informacija je jedan od razloga da se veliki izvori podataka su često nedostupni (gore opisano).
Jedan od načina da istraživači pokušavaju da se bave ovoj situaciji je da se de-identificirati skupova podataka koji imaju osjetljive informacije. Ali, kao što ću pokazati u poglavlju 6 (etike) ovog pristupa ozbiljno ograničena na načine koji nisu široko cijenjen od strane društvenih nauka i naučnici podataka.
U zaključku, velika izvora podataka danas (i sutra) uglavnom imaju deset karakteristike. Mnogi od dobrih osobina-veliki, uvijek-na, i nonreactive-dolaze iz činjenice u digitalnom dobu kompanija i vlada su u mogućnosti da se prikupe podaci na skali to nije bilo moguće ranije. I, mnogi od loših osobina-nepotpune, nepristupačan, non-zastupnik, Drifting, algoritamski zbunjen, nepristupačan, prljav, i osjetljivih-dolazi iz činjenice da su podaci se ne prikupljaju od strane istraživača za istraživače. Razumijevanje ove karakteristike su neophodan prvi korak u učenju od velikih podataka. A, sada se okrećemo istraživačkih strategija možemo koristiti sa ovim podacima.