Neke od informacija koje kompanije i vlade imaju osjetljiva.
Kompanije za zdravstveno osiguranje imaju detaljne informacije o medicinskoj negi koju primaju njihovi korisnici. Ove informacije mogu se koristiti za važna istraživanja o zdravlju, ali ako bi postala javna, to bi potencijalno mogla dovesti do emocionalne štete (npr. Sramote) ili ekonomske štete (npr. Gubitak zaposlenosti). Mnogi drugi veliki izvori podataka imaju i informacije koje su osjetljive , što je dio razloga zbog čega su često nedostupni.
Nažalost, ispada da je prilično teško odlučiti koje informacije su osetljive (Ohm 2015) , kao što je ilustrovano nagradom Netflix. Kao što ću opisati u 5. poglavlju, 2006. godine Netflix je objavio 100 miliona filmskih rejtinga koje je obezbedilo skoro 500.000 članova i otvoreno je poziv na kojem su ljudi iz celog sveta podneli algoritme koji bi poboljšali sposobnost Netflixa da preporučuje filmove. Pre nego što je objavio podatke, Netflix je uklonio sve očigledne lične identifikacije, kao što su imena. Ali, samo dve nedelje nakon što su podaci pušteni, Arvind Narayanan i Vitaly Shmatikov (2008) su pokazali da je moguće naučiti o određenim ljudskim ocenama filma koristeći trik koji ću vam pokazati u poglavlju 6. Iako napadač može otkriti Ocene filma osobe, i dalje izgleda da ovde nije ništa osjetljivo. Iako to može biti istinito uopšteno, za najmanje neke od 500.000 ljudi u skupu podataka, rejtingi filma su osetljivi. Zapravo, u odgovoru na objavljivanje i ponovno identifikaciju podataka, jedna lezbijka se pridružila tužbama protiv Netflix-a. Evo kako je problem iskazan u ovoj tužbi (Singel 2009) :
"Ovi i podaci o rejtingu sadrže informacije o ... vrlo ličnoj i osetljivoj prirodi. Podaci o članovima filma otkrivaju lični interes članova Netflix-a i / ili se bore sa različitim veoma ličnim problemima, uključujući seksualnost, mentalne bolesti, oporavak od alkohola i viktimizaciju od incesta, fizičkog zlostavljanja, nasilja u porodici, preljube i silovanja. "
Ovaj primjer pokazuje da može postojati informacija koje neki ljudi smatraju osjetljivim unutar onoga što bi moglo izgledati kao benigna baza podataka. Štaviše, to pokazuje da glavna odbrana koju istraživači koriste za zaštitu osjetljivih podataka - de-identifikacija - može iznenaditi na iznenađujuće načine. Ove dve ideje razvijene su detaljnije u poglavlju 6.
Konačna stvar koju treba imati na umu o osjetljivim podacima je to što je prikupljanje bez pristanka ljudi pokreće etička pitanja, čak i ako nije izazvana nikakva specifična šteta. Slično kao gledanje nekoga ko se tušira bez njihovog pristanka može se smatrati kršenjem privatnosti te osobe, prikupljanjem osjetljivih informacija - i sjećati se koliko je teško odlučiti šta je osjetljivo - bez saglasnosti stvara potencijalna pitanja vezana za privatnost. Vratiću se na pitanja o privatnosti u poglavlju 6.
U zaključku, veliki izvori podataka, kao što su državna i poslovna administrativna evidencija, uglavnom nisu stvoreni u svrhu socijalnog istraživanja. Veliki izvori podataka danas, i verovatno sutra, imaju tendenciju da imaju 10 karakteristika. Mnoga od osobina koja se generalno smatraju dobrim za istraživanje - velika, uvek i neaktivna - dolaze iz činjenice u kompanijama digitalnog doba i vlade su u stanju da prikupljaju podatke na skali koja ranije nije bila moguće. I mnoga svojstva koja se generalno smatraju loša za istraživanja - nepotpuna, nepristupačna, nepredstavljiva, drifting, algoritamski zbunjena, nepristupačna, prljava i osetljiva - dolaze iz činjenice da ovi podaci nisu prikupili istraživači za istraživače. Do sada sam razgovarao o vladinim i poslovnim podacima zajedno, ali postoje razlike između njih. Po mom iskustvu, vladini podaci imaju tendenciju da budu manje nereprezentativni, manje algoritamski konfuzni, a manje drifting. S druge strane, poslovni administrativni zapisi imaju tendenciju da budu uvek prisutniji. Razumijevanje ovih 10 opštih karakteristika je dobar prvi korak ka učenju iz velikih izvora podataka. A sada se okrenemo istraživačkim strategijama koje možemo koristiti sa ovim podacima.