Dalis informacijos, kad įmonės ir vyriausybės turi yra jautrus.
Sveikatos draudimo bendrovės išsamią informaciją apie jų klientai gautų medicinos priežiūrą. Ši informacija gali būti naudojama svarbius tyrimus apie sveikatos, bet jei jis tapo vieši jis potencialiai gali sukelti emocinės žalos (pavyzdžiui, sumišimą) ir ekonominę žalą (pavyzdžiui, darbo praradimo). Toli nuo savitas, daugelio didelių duomenų šaltinių yra informacijos, kuri yra jautri. Jautri prigimtis šios informacijos yra dalis priežasties, kad dideli duomenų šaltiniai dažnai yra neprieinami (aprašyta aukščiau).
Vienas iš būdų, kad mokslininkai bando susidoroti su šia situacija yra de-identifikuoja duomenų rinkiniai, kurie turi jautrią informaciją. Bet, kaip aš jums parodysiu, išsamiai 6 skyriuje (Etikos) Šis požiūris labai ribotas būdais, kurie nėra plačiai vertinama tiek sociologų ir duomenų mokslininkai.
Taigi, didelis duomenų šaltiniai šiandien (ir rytoj) paprastai turi dešimt savybes. Daugelis gerų savybių-didelis, visada įjungtas, ir nereaguoja atėjai iš tiesų skaitmeninio amžiaus įmonių ir vyriausybės gali rinkti duomenis masto, kad nebuvo įmanoma anksčiau. Ir daugelis blogų savybių-neišsami, nepasiekiamo, ne atstovo, dreifuojančias, algoritmą priblokšti, neprieinama, purvinas, ir jautrus, kilę iš to, kad duomenys nėra surinkta mokslininkų mokslininkams. Suprasti šios savybės yra pirmas būtinas žingsnis siekiant mokytis iš didelių duomenų. Ir dabar mes kreipiamės į mokslinių tyrimų strategijas galime naudoti su šiais duomenimis.