Nekatere informacije, ki imajo podjetja in vlade, je občutljiv.
Zdravstvene zavarovalnice imajo podrobne informacije o zdravstveni oskrbi, ki jih prejmejo njihove stranke. Te informacije se lahko uporabijo za pomembne raziskave o zdravju, vendar če bi postala javna, bi lahko povzročila čustveno škodo (npr. Zadrego) ali gospodarsko škodo (npr. Izgubo zaposlitve). Veliko drugih velikih podatkovnih virov ima tudi občutljive informacije , kar je del razloga, zakaj so pogosto nedostopne.
Na žalost se zdi precej težavno, da se odloči, katere informacije so dejansko občutljive (Ohm 2015) , kot je prikazano v nagradi Netflix. Kot bom opisal v 5. poglavju, je Netflix v letu 2006 izdal 100 milijonov filmskih ocen, ki jih je zagotovilo skoraj 500.000 članov, in so odprli klic, kjer so ljudje iz celega sveta predložili algoritme, ki bi lahko izboljšali sposobnost Netflixa, da priporoči filme. Pred objavo podatkov je Netflix odstranil očitne osebne podatke, na primer imena. Ampak, samo dva tedna po izdaji podatkov, sta Arvind Narayanan in Vitaly Shmatikov (2008) pokazala, da se je mogoče naučiti o ocenah filmov določenih ljudi z uporabo trika, ki vam ga bom pokazal v poglavju 6. Čeprav napadalec lahko odkrije ocene filmov osebe, še vedno ni nič občutljivega tukaj. Čeprav je to res tako na splošno, so bile vsaj nekatere od 500.000 ljudi v naboru podatkov občutljive. Pravzaprav je v odgovor na sproščanje in ponovno identifikacijo podatkov lezbična ženska, ki se je pridružila tožbi proti Netflixu, pridružila tožbi. Evo kako je bila ta težava izražena v tej tožbi (Singel 2009) :
"Ovie in bonitetni podatki vsebujejo informacije ... zelo osebne in občutljive narave. Članski filmski podatki razkrivajo osebni interes člana Netflixa in / ali se bori z različnimi zelo osebnimi vprašanji, vključno s spolnostjo, duševnimi boleznimi, okrevanjem od alkoholizma in viktimizacijo zaradi incesta, telesne zlorabe, nasilja v družini, prešuštva in posilstva.
Ta primer kaže, da obstajajo informacije, ki jih nekateri ljudje menijo, da so občutljive znotraj tistega, kar se morda zdi prijazna baza podatkov. Poleg tega kaže, da lahko glavna obramba, ki jo raziskovalci uporabljajo za zaščito občutljivih podatkov-de-identifikacije, ne more presenetiti. Ti dve ideji sta podrobneje razvita v poglavju 6.
Končna stvar, ki mora upoštevati občutljive podatke, je, da je zbiranje brez privolitve ljudi postavlja etična vprašanja, čeprav ni povzročena nobena posebna škoda. Podobno kot gledanje nekoga, ki se tušira brez njihovega soglasja, se lahko šteje za kršitev zasebnosti te osebe, zbiranje občutljivih podatkov - in se spomnite, kako težko je lahko odločiti, kaj je občutljivo - brez privolitve ustvarja morebitne skrbi glede zasebnosti. Vrnil se bom na vprašanja o zasebnosti v 6. poglavju.
Skratka, veliki viri podatkov, kot so vladna in poslovna administrativna evidenca, običajno niso ustvarjeni za namene socialnih raziskav. Veliki viri podatkov danes in verjetno jutri imajo 10 značilnosti. Veliko lastnosti, ki se na splošno štejejo za dobre za raziskave - velike, vedno in neaktivne - izhajajo iz dejstva v družbah digitalne dobe in vlade lahko zbirajo podatke na lestvici, ki prej ni bila mogoča. In mnoge lastnosti, ki se na splošno štejejo za slabe za raziskovalno-nepopolne, nedostopne, nepredstavljive, viseče, algoritmično zmedene, nedostopne, umazane in občutljive, izhajajo iz dejstva, da ti podatki niso zbirali raziskovalci za raziskovalce. Doslej sem govoril o vladnih in poslovnih podatkih skupaj, vendar obstajajo razlike med obema. Po mojih izkušnjah vladni podatki kažejo, da so manj nestandardni, manj algoritmično zmedeni in manj viseče. Po drugi strani pa so poslovni administrativni zapisi vedno večji. Razumevanje teh 10 splošnih značilnosti je koristen prvi korak k učenju iz velikih virov podatkov. In zdaj se obrnemo k raziskovalnim strategijam, ki jih lahko uporabimo s temi podatki.