Neke od informacija koje tvrtke i vlade je osjetljiva.
Zdravstvena društva imaju detaljne informacije o medicinskoj skrbi koju primaju njihovi klijenti. Ove informacije mogu se koristiti za važna istraživanja o zdravlju, ali ako bi postala javna, mogla bi dovesti do emocionalne štete (npr. Neugodnosti) ili ekonomske štete (npr. Gubitak zaposlenosti). Mnogi drugi veliki izvori podataka također imaju osjetljive podatke , što je dio razloga zašto su često nedostupni.
Nažalost, ispada da je vrlo teško za odlučivanje o tome koji su podaci zapravo osjetljivi (Ohm 2015) , što je ilustrirano nagradom Netflix. Kao što ću opisati u 5. poglavlju, 2006. Netflix je objavio 100 milijuna filmskih ocjena koje je pružalo gotovo 500.000 članova i otvorilo se poziv gdje su ljudi iz cijelog svijeta podnijeli algoritme koji bi mogli poboljšati sposobnost Netflixove da preporučuje filmove. Prije objavljivanja podataka, Netflix je uklonio sve vidljive podatke koji osobno identificiraju, kao što su imena. No, samo dva tjedna nakon objavljivanja podataka, Arvind Narayanan i Vitaly Shmatikov (2008) pokazali su da je moguće saznati više o određenim filmskim ocjenama ljudi pomoću trikova koji ću vam pokazati u poglavlju 6. Iako napadač može otkriti osobne filmske ocjene, ovdje još uvijek ne postoji ništa osjetljivo. Iako bi to moglo biti općenito istina, za barem neke od 500.000 ljudi u skupu podataka, ocjene filmova su bile osjetljive. Zapravo, kao odgovor na oslobađanje i ponovno prepoznavanje podataka, lezbijska žena povezana je s klasičnim tužbama protiv Netflixa. Evo kako je problem bio izražen u ovoj parnici (Singel 2009) :
"[M] ovie i podaci o ocjeni sadrže podatke ... vrlo osobne i osjetljive prirode. Filmski podaci članova otkrivaju osobni interes i / ili borbe članova Netflixa s raznim osobnim pitanjima, uključujući seksualnost, duševnu bolest, oporavak od alkoholizma i žrtvovanje od incesta, fizičkog zlostavljanja, obiteljskog nasilja, preljuba i silovanja. "
Ovaj primjer pokazuje da postoje informacije koje neki ljudi smatraju osjetljivima unutar onoga što bi moglo biti benigna baza podataka. Nadalje, to pokazuje da glavna obrana koju istraživači koriste za zaštitu osjetljivih podataka - de-identifikacija - mogu uspjeti na iznenađujuće način. Ove dvije ideje se detaljnije razvijaju u 6. poglavlju.
Posljednja stvar koju treba imati na umu o osjetljivim podacima jest da je prikupljanje podataka bez pristanka ljudi podigne etička pitanja, čak i ako nije uzrokovana nikakva specifična šteta. Mnogo je poput promatranja da netko uzima tuš bez pristanka može se smatrati kršenjem privatnosti te osobe, prikupljajući osjetljive informacije - i zapamtite kako je teško odlučiti što je osjetljivo - bez pristanka stvara potencijalne probleme vezane uz privatnost. Vratit ću se na pitanja o privatnosti u 6. poglavlju.
Zaključno, veliki izvori podataka, poput vladinih i poslovnih administrativnih zapisa, općenito nisu stvoreni u svrhu društvenog istraživanja. Veliki izvori podataka danas, a vjerojatno sutra, imaju 10 karakteristika. Mnoga svojstva koja se općenito smatraju dobrim za istraživanje - velike, uvijek uključene i neaktivne - dolaze iz činjenice da u digitalnom dobu tvrtke i vlade mogu prikupljati podatke u mjerilu koja nije bila moguća prije. I mnoga svojstva koja se općenito smatraju lošima za istraživanje - nepotpuni, nedostupni, nereprezentativni, pomični, algoritamski zbunjeni, nedostupni, prljavi i osjetljivi - dolaze iz činjenice da ti podaci nisu prikupljeni od strane istraživača za istraživače. Dosad sam razgovarao o vladinim i poslovnim podacima, ali postoje razlike između njih. Po mom iskustvu, podaci vlade imaju tendenciju da budu manje reprezentativni, manje algoritamski zbunjeni, a manje plutaju. S druge strane, poslovni administrativni zapisi imaju tendenciju da budu uvijek prisutni. Razumijevanje tih 10 općih karakteristika koristan je prvi korak prema učenju iz velikih izvora podataka. I sada se okrećemo strategijama istraživanja koje možemo koristiti s tim podacima.