Daļa no informācijas, kas uzņēmumiem un valdībām ir ir jutīgs.
Veselības apdrošināšanas kompānijas ir detalizēta informācija par medicīnisko aprūpi, ko saviem klientiem saņēma. Šī informācija var tikt izmantota, lai svarīgu pētījumu par veselību, bet, ja tas kļuva publiski tas varētu potenciāli radīt emocionālo kaitējumu (piemēram, apmulsums) un ekonomisko kaitējumu (piemēram, darba zaudēšanas). Tālu no atšķirīgu, daudziem lieliem datu avotiem ir informācija, kas ir jutīga. Delikātumu šī informācija ir daļa no iemesla dēļ, ka lielie datu avoti bieži vien nepieejami (aprakstīts iepriekš).
Viens no veidiem, ka pētnieki mēģina tikt galā ar šo situāciju, ir de-identificētu datu kopas, kas ir jutīga informācija. Bet, kā es jums parādīs sīki 6. nodaļā (ētikas) Šī pieeja nopietni ierobežota tādā veidā, kas nav plaši novērtē gan sociālie zinātnieki un datu zinātniekiem.
Noslēgumā, lielie datu avoti šodien (un rīt) parasti ir desmit īpašības. Daudzi no labām īpašībām-lieliem, vienmēr-on, un nonreactive-nāk no fakta, digitālajā laikmetā uzņēmumu un valdības spēj vākt datus mērogā, kas nebija iespējams iepriekš. Un daudzi no sliktas īpašības-nepilnīgu, nepieejami, nav pārstāvja, dreifējošas, algoritmiski sagrāvusi, nepieejami, netīrs, un jutīga, nāk no tā, ka dati netiek vākti pētnieki pētniekiem. Izpratne šīs īpašības ir pirmais nepieciešamais solis, lai mācīties no lielajiem datiem. Un tagad mēs pievērsties pētniecības stratēģijas mēs varam izmantot ar šiem datiem.