Noe av informasjonen som selskaper og regjeringer har er sensitive.
Helse forsikringsselskaper har detaljert informasjon om medisinsk behandling mottatt av sine kunder. Denne informasjonen kan brukes til viktig forskning om helse, men hvis det ble offentlig det potensielt kan føre til følelsesmessig skade (f.eks forlegenhet) og økonomisk skade (for eksempel tap av arbeid). Langt fra karakteristiske, mange store datakilder har informasjon som er sensitiv. Sensitiv karakter av denne informasjonen er en del av grunnen til at store datakilder er ofte utilgjengelige (beskrevet ovenfor).
En måte som forskerne forsøke å håndtere denne situasjonen er å de-identifisere datasett som har sensitiv informasjon. Men, som jeg vil vise i detalj i kapittel 6 (Etikk) denne tilnærmingen alvorlig begrenset på måter som ikke er allment verdsatt av både samfunnsvitere og dataforskere.
I konklusjonen, de store datakilder i dag (og i morgen) generelt har ti egenskaper. Mange av de gode egenskapene-store, alltid-på, og ikke-reaktive-kommer fra det faktum i den digitale tidsalder selskaper og regjeringer er i stand til å samle inn data på en skala som ikke var mulig tidligere. Og mange av de dårlige egenskapene-ufullstendige, utilgjengelige, ikke-representativ, Drifting, algoritmer til skamme, utilgjengelige, skitne og sensitiv-kommer fra det faktum at dataene ikke blir hentet av forskere for forskere. Forstå disse egenskapene er et nødvendig første skritt for å lære av store data. Og nå slår vi til forskning strategier vi kan bruke med disse dataene.