Osa teavet, et ettevõtted ja valitsused on tundlik.
Ravikindlustusseltsidel on üksikasjalikku teavet oma klientide arstiabi kohta. Seda teavet saab kasutada oluliste teadusuuringute jaoks tervise kohta, kuid kui see muutub avalikkusele, võib see põhjustada emotsionaalset kahju (nt piinlikkust) või majanduslikku kahju (nt töökoha kaotus). Paljudel teistel suurtel andmeallikatel on ka tundlik teave, mis on osa sellest, miks nad on sageli kättesaamatud.
Kahjuks osutub üsna raskeks otsustada, milline teave on tegelikult tundlik (Ohm 2015) , nagu näitas Netflixi auhind. Nagu ma peatükis 5 kirjeldan, andis Netflix 2006. aastal välja 100 miljonit filmiturust, mida andsid peaaegu 500 000 liiget ja kellel oli avatud kõne, kus inimesed üle kogu maailma esitasid algoritme, mis võiksid parandada Netflixi võime soovitada filme. Enne andmete avaldamist eemaldas Netflix igasuguse ilmse isikliku tuvastamise teabe, näiteks nimed. Kuid just kaks nädalat pärast andmete avaldamist Arvind Narayanan ja Vitali Shmatikov (2008) näitasid, et konkreetsete inimeste filmitüübide kohta oli võimalik õppida trikkidest, mida ma näitan sulle 6. peatükis. Isegi kui ründaja võiks avastada inimese filmi hinnanguid, ei näi siinkohal ikkagi tundlikku olevat. Kuigi see võib olla tõsi üldiselt, oli vähemalt mõned 500 000 inimest andmestikus filmi hinnangud tundlikud. Vastuseks andmete vabastamisele ja uuesti identifitseerimisele ühendati suletud lesbi naine Netflixi vastu suunatud klassikohtuasjaga. Siin on probleem selles kohtuasjas (Singel 2009) :
"[M] ovie ja reitinguandmed sisaldavad teavet ... väga isikliku ja tundliku olemusega. Liige'i filmiandmed pakuvad Netflixi liikme isiklikku huvi ja / või võidelda mitmesuguste väga isiklike küsimustega, sealhulgas seksuaalsuse, vaimuhaiguse, alkoholismist taastumise ja vangistusega vangistusest, füüsilisest kuritarvitamisest, koduvägivallast, abielurikkumisest ja vägistamisest. "
See näide näitab, et mõned inimesed leiavad teavet, mis võib tunduda olevat healoomuline andmebaas, tundliku sisuga. Lisaks näitab see, et peamine kaitse, mida teadlased kasutavad tundlike andmete identifitseerimise kaitsmiseks, võivad ebaõnnestuda üllataval viisil. Need kaks ideed on üksikasjalikumalt välja toodud 6. peatükis.
Lõpptundlikkusandmete meeles pidamiseks on see, et selle kogumine ilma inimeste nõusolekuta tõstatab eetilisi küsimusi isegi siis, kui ei tekitata mingit konkreetset kahju. Nagu näevad, et keegi võtab dušit ilma nende nõusolekuta, võib lugeda selle isiku privaatsust, koguda tundlikku teavet, ja pidage meeles, kui raske on otsustada, mis on tundlik - ilma nõusolekuta loob potentsiaalseid privaatsusega seotud probleeme. Ma pöördun 6. peatükis privaatsuse küsimuste juurde.
Kokkuvõttes ei anta sotsiaalsete uuringute eesmärgil üldiselt suuri andmeallikaid, näiteks valitsuse ja äriregistreid. Täna ja tõenäoliselt homme on suurte andmeallikate puhul tavaliselt 10 omadust. Paljud omadused, mida üldiselt peetakse teadusuuringuteks kasulikuks, on suured, pidevad ja mitteraktiivsed, tulenevad digitaalajastul olevatest ettevõtetest ja valitsustest, on võimelised koguma andmeid sellises ulatuses, mis ei olnud varem võimalik. Paljud omadused, mida üldiselt peetakse halvaks teadusuuringuteks - puudulikud, ligipääsmatud, mittesepresentatiivsed, triivitavad, algoritmiliselt segased, ligipääsmatud, määrdunud ja tundlikud, tulenevad asjaolust, et teadlased ei kogunud neid andmeid teadlaste poolt. Seni olen rääkinud valitsuse ja äriandmete koos, kuid nende vahel on mõningaid erinevusi. Minu kogemuse kohaselt on valitsuse andmed vähem repressiivsed, vähem algoritmiliselt segased ja vähem triivivad. Teisest küljest on äriregistri haldustoimingud enam-vähem püsivad. Nende 10 üldise karakteristiku mõistmine on kasulik esimese sammuna suurte andmeallikate õppimisel. Nüüd pöördume uurimisstrateegiate poole, mida saaksime nende andmetega kasutada.