Nogle af de oplysninger, som virksomheder og regeringer har, er følsomme.
Sundhed forsikringsselskaber har detaljerede oplysninger om pleje af modtagerne, deres kunder. Denne information kan bruges til vigtige forskning om sundhed, men hvis det blev offentligt, det kunne potentielt føre til følelsesmæssig skade (f.eks forlegenhed) og økonomiske skader (fx tab af beskæftigelse). Langt fra karakteristiske, mange store datakilder har oplysninger, der er følsomme. Den følsomme karakter af disse oplysninger er en del af grunden til, at store datakilder er ofte utilgængelige (beskrevet ovenfor).
En måde at forskere forsøger at håndtere denne situation er at de-identificere datasæt, der har følsomme oplysninger. Men, som jeg vil vise i detaljer i kapitel 6 (Etik) denne tilgang alvorligt begrænset på måder, der ikke er almindeligt værdsat af både samfundsforskere og data videnskabsfolk.
Afslutningsvis de store datakilder i dag (og i morgen) har generelt ti karakteristika. Mange af de gode egenskaber-store, altid-on, og ikke-reaktive-kommer fra det faktum i den digitale tidsalder virksomheder og regeringer er i stand til at indsamle data på en skala, der ikke var muligt tidligere. Og mange af de dårlige egenskaber-ufuldstændige, utilgængelige, ikke-repræsentant, og som driver, algoritmisk forvirret, utilgængelige, beskidt, og følsom-kommer fra det faktum, at data ikke indsamles af forskere for forskere. Forståelse af disse karakteristika er et nødvendigt første skridt til at lære fra store data. Og, nu vende vi til forskning strategier, vi kan bruge med disse data.