Guon fan de ynformaasje dat bedriuwen en oerheden hawwe is gefoelich.
Soarchfersekerders hawwe detaillearre ynformaasje oer de medyske soarch dy't troch harren klanten ûntfongen binne. Dizze ynformaasje soe brûkt wurde foar wichtige ûndersiken oer sûnens, mar as it iepenbier waard, koe it materiaal liede ta emosjoneel skea (bygelyks peinlikens) of ekonomyske skea (bygelyks ferlies fan wurkgelegenheid). In protte oare grutte gegevensboarnen hawwe ek ynformaasje dy't gefoelich is , dy't diel is fan 'e reden wêrom't se faak net tagonklik binne.
Spitigernôch docht bliken út te wêzen dat it gefoel dat ynformaasje is feilich (Ohm 2015) , lykas it yllustrearre is troch de Netflix-priis. As ik yn haadstik 5 beskriuwende, yn 2006 publisearre Netflix 100 miljoen filmferzjes dy't troch hast 500.000 leden ferletten en hiene in iepen dialooch, dêr't minsken út 'e hiele wrâld algoritmen yntsjinje dy't Netflix's fermogen ferbetterje om films oan te jaan. Foardat de gegevens frijlitten wurde, fuorthet Netflix elke lienende persoanlik identifisearjende ynformaasje, lykas nammen. Mar, just twa wiken nei't de gegevens útbrocht waarden Arvind Narayanan en Vitaly Shmatikov (2008) joech sjen dat it mooglik wie om te learen oer spesifike minsken fan filmbehearders mei in trok dat ik jo yn haadstik 6 sjen litte. Sawol in oanfal koe in ûntdekker fine Persoanlike filmferienings, is der noch altyd net wat gefoelich te wêzen. Hoewol dat wier yn 't algemien wier wêze soe, yn elts gefal fan guon fan' e 500.000 minsken yn 'e dataset, filmferienings wiene gefoelich. Yn feite, yn antwurd op 'e frijlitting en werwêzichheid fan' e gegevens, kaam in sliepkeamde lesbefamylje yn 'e klasse-aksjepakket tsjin Netflix. Hjir is hoe't it probleem útdroegen waard yn dit beslút (Singel 2009) :
"[M] ovie en ratinggegevens befetsje ynformaasje fan in ... tige persoanlik en gefoelich aard. De filmgegevens fan 'e lidferbannen befetsje in persoanlike belang fan Netflix-leden en / of kampioenskippen mei ferskate heech persoanlike problemen, lykas seksualiteit, mentale sykte, weroping fan alkoholisme, en victimisaasje fan ynzest, fysike misbrûk, húslik geweld, adultering en ferkrêfting. "
Dit foarbyld lit sjen dat der ynformaasje kin wêze dat guon minsken gefoelich binnen beskôgje dat wat in goede databank wêze kin. Fierder lit it sjen dat in wichtige definsje dy't ûndersikers brûke om sensitive data-de-identifikaasje te beskermjen - kinne ferrassende manieren mislearre. Dizze twa ideeën wurde ferdield yn haadstik 6.
It definitive ding om te hâlden oer gefoelige gegevens is dat it sammeljen sûnder minsken ynstinkt etale fragen, sels as gjin spesifike skeal feroarsake wurdt. In protte lykas it sjen fan ien dy't in dûsjen sûnder har ynstimming kin wêze as in ferwûning fan 'e privacy, it sammeljen fan gefoelige ynformaasje en te betinken hoe hurdens it kin wêze om te bepalen wat it gefoelich is - sûnder ynstimming makket potensjaal privacy. Ik sil weromgean op fragen oer privacy yn haadstik 6.
By einsluten binne grutte gegevensboarnen, lykas regearing en bedriuw bestjoeren, allinich net makke foar it doel fan sosjale ûndersyk. De grutte gegevensboarnen fan hjoed, en wierskynlik moarn, meie tenei hawwe 10 skaaimerken. In soad fan 'e eigenskippen dy't algemien beskôge wurde as goed foar ûndersyk - grut, altyd, en net reaktyf - komme út it feit dat yn' e digitale leeftyd bedriuwen en regearingen kinne gegevens sammelje op in skaal dy't net earder mooglik wie. En in protte fan 'e eigenskippen dy't algemien beskôge wurde foar minne ferklearring, ûnfoldwaande, ûntagonklik, net-represintatyf, driftend, algoritmysk konfronteare, ûntagonklik, smoarch en gefoelich - komme út dat de gegevens net sammele binne troch ûndersikers foar ûndersikers. Oant no ta haw ik oer reden en bedriuwsgegevens gear west, mar der binne wat ferskillen tusken beide. Yn myn erfaringen binne ryksgegevens minder net represintatyf, minder algoritmysk konfusearre, en minder driftend. Ien fan 'e oare hân, bedriuw bestjoeren fan bedriuwen binne meast altyd. Understanding fan dizze 10 algemiene skaaimerken is in nuttige earste stap foar it learen fan grutte data boarnen. En no wikselje wy nei ûndersyksstrategyen dy't wy mei dizze gegevens brûke kinne.