Part de la informació que les empreses i els governs tenen és sensible.
Les companyies d'assegurances han detallat la informació sobre l'atenció mèdica rebuda pels seus clients. Aquesta informació podria ser utilitzada per a la recerca important sobre la salut, però si es fes públic que potencialment podria conduir a un dany emocional (per exemple, la vergonya) i un dany econòmic (per exemple, la pèrdua d'ocupació). Lluny de fonts de dades, molts grans distintius tenir informació que és sensible. La naturalesa sensible d'aquesta informació és part de la raó per la qual les grans fonts de dades són sovint inaccessibles (descrit anteriorment).
Una manera en què els investigadors intenten fer front a aquesta situació és de-identificar conjunts de dades que contenen informació sensible. Però, com mostraré en detall en el capítol 6 (Ètica) aquest enfocament limitat seriosament en formes que no són molt apreciats pels científics socials i científics de dades.
En conclusió, les grans fonts de dades d'avui (i demà) generalment tenen deu característiques. Moltes de les bones propietats de grans i sense interrupcions, i no reactius, provenen del fet en les empreses de l'era digitals i els governs són capaços de recollir dades a una escala que no era possible anteriorment. I, moltes de les males propietats-incompleta, no representativa inaccessible ,, a la deriva, de forma algorítmica confós, inaccessible, brut, i sensible a venir del fet que les dades no són recollits pels investigadors per a investigadors. La comprensió d'aquestes característiques són un primer pas necessari per aprendre de grans volums de dades. I, ara ens tornem a les estratègies que podem utilitzar amb aquestes dades la investigació.