Některé z informací, které podniky a vlády je citlivý.
Zdravotní pojišťovny mít podrobné informace o zdravotní péči obdržel své zákazníky. Tyto informace by mohly být použity na významném výzkumném o zdraví, ale pokud se dostala na veřejnost, že by mohla vést k citové újmy (např rozpaky) a ekonomickými škodami (například ztráta zaměstnání). Daleko od výrazný, mnoho velkých datových zdrojů mají informace, které jsou citlivé. Citlivá povaha těchto informací je jedním z důvodů, že velké datové zdroje jsou často nedostupné (viz výše).
Jedním ze způsobů, že výzkumníci pokoušejí řešit tuto situaci je de-identifikovat datové soubory, které mají důvěrné informace. Ale, jak ukážu podrobněji v kapitole 6 (etika) Tento přístup vážně omezena způsoby, které nejsou široce oceňována jak sociology a datových vědců.
Závěrem lze říci, velké datové zdroje dnes (a zítřka) obecně mají deset vlastnosti. Mnoho dobrých vlastností-velké, vždy k dispozici, a nereaktivních přijde ze skutečnosti, v digitálním věku firmy a vlády jsou schopny shromažďovat data v měřítku, které nebylo možné dříve. A mnoho z špatných vlastností-neúplné, nepřístupné, nereprezentativní, unášená, algoritmicky zahanben, nepřístupné, špinavý, a citlivá přijde ze skutečnosti, že data nejsou shromažďují výzkumní pracovníci pro výzkumné pracovníky. Pochopení tyto vlastnosti jsou nezbytným prvním krokem k učení od velkých dat. A teď se zaměříme na výzkum strategie, můžeme použít s těmito daty.