Osa teavet, et ettevõtted ja valitsused on tundlik.
Tervis kindlustusfirmad on üksikasjalikku teavet poolt saadud meditsiinilise abi oma klientidele. See teave võib kasutada tähtis uurimusi tervist, kuid kui ta sai avaliku see võib viia emotsionaalse kahju (nt häbi) ja majanduslik kahju (nt töökoha kaotus). Kaugel iseloomulik, paljud suured andmeallikate on teavet, mis on tundlik. Tundlikkuse tõttu see teave on osa põhjus, et suur andmeallikate sageli kättesaamatud (eespool kirjeldatud).
Üks võimalus, et teadlased püüavad selle olukorra lahendamiseks on de-identifitseerida andmekogud, mis on tundlikud andmed. Aga nagu ma näitan täpsemalt peatükis 6 (eetika) selline lähenemine tõsiselt piiratud viisil, mis ei ole laialdaselt hinnatud nii ühiskonnateadlased ja andmete teadlased.
Kokkuvõttes, suur andmeallikate täna (ja homme) on tavaliselt kümme omadused. Paljud head omadused-suur, alati-ja nonreactive-faktist, digitaalajastul ettevõtted ja valitsused on võimalik koguda andmeid skaala, mis ei olnud võimalik varem. Ja paljud halvad omadused-puudulik, ligipääsmatuks, mitte-esindaja, triivõngejadade, algoritmide segas, ligipääsmatuks, määrdunud ja tundlik-faktist, et andmeid ei koguta teadlastel teadlased. Mõistmise need omadused on vajalik esimene samm õppimise suur andmed. Ja nüüd me pöördume teadusuuringute strateegia, saame kasutada seda andmete.