Unele dintre informațiile pe care companiile și guvernele au este sensibil.
companiile de asigurări de sănătate au informații detaliate cu privire la îngrijirile medicale primite de către clienții lor. Această informație ar putea fi utilizate pentru cercetare importante cu privire la sănătate, dar dacă ar deveni publice ar putea conduce la prejudicii emoționale (de exemplu, jena) și daune economice (de exemplu, pierderea de locuri de muncă). Departe de mai multe surse de date distincte, mari au informații care sunt sensibile. Caracterul sensibil al acestor informații face parte din motivul pentru care sursele de date mari sunt adesea inaccesibile (descris mai sus).
O modalitate prin care cercetătorii încearcă să se ocupe de această situație este de a de-a identifica seturi de date, care au informații sensibile. Dar, așa cum voi arăta în detaliu în capitolul 6 (etică), această abordare limitată în mod serios în moduri care nu sunt foarte apreciate de atat oameni de stiinta sociale si oameni de stiinta de date.
In concluzie, cele mai mari surse de date de azi (și de mâine), au, în general, zece caracteristici. Multe dintre bune proprietăți mari, mereu-on, și nonreactive-provin din faptul în companiile de vârstă digitale și guvernele sunt în măsură să colecteze date de la o scară care nu a fost posibil anterior. Si, multe dintre rele proprietăți incomplete, inaccesibile, nereprezentativ, plutească algoritmic, încurcată, inaccesibile, murdar, și sensibile provin din faptul că datele nu sunt colectate de către cercetători pentru cercetători. Înțelegerea acestor caracteristici sunt un prim pas necesar pentru a învăța de la date mari. Și, acum ne întoarcem la cercetare strategiile pe care le putem utiliza cu aceste date.