İnformasiya təhlükəsizliyi ictimai araşdırmada ən çox rast gəlinən riskdir; dramatik şəkildə artmışdır; və anlamaq ən çətin riskdir.
Rəqəmsal yaş tədqiqatının ikinci etik problemi informasiya təhlükəsizliyi , məlumatların açıqlanmasından zərərin potensialıdır (National Research Council 2014) . Şəxsi məlumatların açıqlanmasından informasiya zərəri iqtisadi (məsələn, işi itirmək), sosial (məsələn, xəcalət), psixoloji (məsələn, depressiya), hətta cinayət (məsələn, qanunsuz davranışlar üçün həbs) ola bilər. Təəssüf ki, rəqəmsal yaş informasiya riskini dramatik şəkildə artırır - bizim davranışlarımız haqqında daha çox məlumat var. İnformasiya təhlükəsi, fiziki risk kimi analoji dövr sosial tədqiqatlardakı narahatlıqlar ilə müqayisədə, anlamaq və idarə etmək çox çətin olduğunu sübut etmişdir.
Sosial tədqiqatçılar informasiya riskini azaltmaq bir yolu məlumatların "anonymization" dir. "Anonymization" Belə adı, ünvanı və məlumatlar telefon nömrəsi kimi aydın şəxsi tanımlayıcıları aradan qaldırılması prosesi. Lakin dərin və əsaslı məhdud, bu yanaşma bir çox insanlar dərk daha az effektiv və əslində, var. Mən təsvir zaman bu proses anonimlik görünüşünü deyil, əsl anonimlik yaradır Bu səbəbdən, "anonymization," Mən sizə xatırlatmaq üçün dırnaq istifadə edəcəyik.
"Anonimləşdirmənin" uğursuzluğunun parlaq nümunəsi 1990-cı illərin sonlarından Massachusettsə (Sweeney 2002) . Qrup Sığorta Komissiyası (GIC) bütün dövlət işçiləri üçün tibbi sığortanın satın alınması üçün məsul olan dövlət orqanıdır. Bu iş sayəsində GIC minlərlə dövlət işçiləri haqqında ətraflı məlumatlar topladı. Tədqiqatın təşviq edilməsi məqsədilə GİK bu qeydləri tədqiqatçılara buraxmaq qərarına gəldi. Lakin, bütün məlumatlarını paylaşmadılar; əksinə, adları və ünvanı kimi məlumatları aradan qaldıraraq bu məlumatları "anonimləşdirirlər". Lakin, demoqrafik məlumatlar (poçt kodu, doğum tarixi, etnik və cinsiyyət) və tibbi məlumatlar (ziyarət məlumatları, diaqnoz, prosedur) (rəqəm 6.4) (Ohm 2010) kimi tədqiqatçılar üçün yararlı ola biləcək digər məlumatları buraxdılar. Təəssüf ki, bu "anonimasiya" məlumatları qorumaq üçün kifayət deyil.
GIC-in "anonimləşdirilməsi" nin çatışmazlıqlarını təsvir etmək üçün, Latitiya Sweeney, sonra MIT-in məzunu bir tələbə, 20 yaşı olan Massachusetts ştatının qubernatoru Uilyam Weldin Cambridge şəhərindən səsvermə qeydlərini əldə etmək üçün 20 dollar ödəyib. Bu səsvermə qeydlərində ad, ünvan, poçt kodu, doğum tarixi və cinsi kimi məlumatlar yer almışdır. Tibbi data faylının və seçici faylının sahələri paylaşdıqları faktı - poçt kodu, doğum tarixi və cinsi əlaqə Sweeney onları bağlaya bilərdi. Sweeney, Weld'in doğum gününün 31 iyul 1945-ci il olduğunu bilirdi və səsvermə qeydlərində Cambridgedəki ad günündə yalnız altı adam vardı. Bundan əlavə, bu altı nəfərdən yalnız üçü kişi idi. Və bu üç adamdan yalnız Weld'in poçt kodunu paylaşdılar. Beləliklə, səsvermə məlumatları Weld'ın doğum tarixi, cinsiyyəti və poçt kodunun birləşməsi ilə tibbi məlumatların hər birinin William Weld olduğunu göstərdi. Əslində, bu üç ədəd məlumat, məlumatlara ona bir barmaq izi vermişdi. Bu həqiqəti istifadə edərək, Sweeney Weld'in tibbi qeydlərini tapdı və onun mərdliklərini məlumatlandırmaq üçün ona qeydlərinin bir kopyasını göndərdi (Ohm 2010) .
Sweeney'nin işi, yenidən tanımlama hücumlarının əsas strukturunu göstərir - kompüter təhlükəsizlik ictimaiyyətindən bir müddət qəbul etmək. Bu hücumlarda iki məlumat dəsti özü tərəfindən həssas məlumatları ortaya qoyur və bu əlaqə vasitəsilə həssas məlumatlar ortaya çıxır.
Sweeney'in işinə və digər əlaqəli işlərə cavab olaraq, tədqiqatçılar, ümumiyyətlə, daha çox məlumatları - "şəxsən müəyyən edən məlumatlar" (PII) (Narayanan and Shmatikov 2010) - "anonimləşdirmə" prosesini həyata (Narayanan and Shmatikov 2010) . Bundan əlavə, bir çox tədqiqatçı indi anonimləşmədən sonra belə tibbi qeydlər, maliyyə qeydləri, qeyri-qanuni davranışlarla bağlı sorğu suallarına cavab verən bəzi məlumatların ehtimal ki, çox həssas olduğunu dərk edirlər. Ancaq mənə təqdim olunan nümunələr sosial tədqiqatçılara onların düşüncələrini dəyişdirmək. Birinci addım olaraq bütün məlumatların potensial olaraq müəyyən edilə biləcəyini və bütün məlumatların potensial həssas olduğunu fərz etməli olur. Başqa sözlə, məlumat riskinin layihələrin kiçik bir hissəsinə tətbiq olmasını düşünməzdən əvvəl, bunun bir qədər dərəcədə - bütün layihələrə aid olduğunu düşünməlisiz.
Bu istiqamətləndirməin hər iki tərəfi Netflix Mükafatı ilə təsvir olunur. Fəsil 5-də təsvir edildiyi kimi, Netflix təxminən 500.000 üzv tərəfindən 100 milyon film reytinqi yayımladı və bütün dünyada insanların Netflix'in filmləri təklif edə biləcəyi alqoritmlər təqdim etdiyini açıq bir çağırış etdi. Məlumatları buraxmadan əvvəl, Netflix adlar kimi hər hansı bir şəxsin şəxsiyyətini müəyyən edən məlumatları qaldırdı. Onlar da əlavə addım atdılar və bir sıra qeydlərdə (məsələn, 4 ulduzdan 3 ulduza qədər bəzi qiymətlərin dəyişdirilməsi) bir az narahatçılığa səbəb oldu. Tezliklə, onların səylərinə baxmayaraq, məlumatlar hələ də anonim deyildi.
Məlumatların verildikdən iki həftə sonra Arvind Narayanan və Vitaly Shmatikov (2008) xüsusi insanların film seçimlərini öyrənmək mümkün olduğunu göstərdi. Yenidən tanımlama hücumuna hiylə qurma, Sweeney ilə eyni idi: potensial həssas məlumatları və açıq-aşkar bir məlumatı və bir kimsənin şəxsiyyətini ehtiva edən bir məlumatı birləşdirərək iki məlumat mənbəyini birləşdirin. Bu məlumat mənbələrinin hər biri ayrı-ayrılıqda təhlükəsiz ola bilər, lakin birləşdirildikdə, birləşdirilmiş verilənlər bazası məlumat riskini yarada bilər. Netflix məlumatları vəziyyətində, burada necə ola bilər. Təsəvvür edin ki, mən həmkarlarımla fəaliyyət və komediya filmləri haqqında düşüncələrimi paylaşıram, amma dini və siyasi filmlər barədə fikirlərimi bölüşməyi üstün tuturam. Mənim əməkdaşlar Netflix məlumatlarımdakı qeydlərimi tapmaq üçün onlarla birgə istifadə etdiyim məlumatları istifadə edə bilərlər; paylaşdığım məlumatlar, William Weld'ın doğum tarixi, poçt kodu və cinsi kimi unikal parmak izi ola bilər. Daha sonra, məlumatlarımda mənim barmaq izimini tapdılarsa, mənim paylaşdığım filmləri də daxil olmaqla, bütün filmlər haqqında qiymətləndirmələrimi öyrənə bilərdi. Narayanan və Shmatikov, tək bir adamın diqqətini cəlb edən bu cür hədəflənmiş hücumdan əlavə, Netflix məlumatlarını bir sıra insanların seçdiyi şəxsi və film reytinq məlumatları ilə birləşdirərək geniş bir hücum etmək mümkün olduğunu göstərdi Internet Movie Database (IMDb) nəşr etmək. Çox təəssüf ki, müəyyən bir insana, hətta onların film reytinqlərinə aid olan bir barmaq izi olan hər hansı bir məlumat onları müəyyən etmək üçün istifadə edilə bilər.
Netflix məlumatları targeted və ya geniş bir hücumda yenidən təsbit edilə bilsə də, hələ də aşağı risk ola bilər. Axı filmlərin reytinqləri çox həssas görünmür. Bu ümumi ola bilər, baxmayaraq ki, verilənlər bazasında 500.000 nəfərdən birinin film reytinqləri olduqca həssas ola bilər. Əslində, təkrar müəyyənləşdirilməsinə cavab olaraq, bağlanmış bir lesbian qadın Netflix əleyhinə bir sinif hərəkətinə qatılıb. Problemin onların iddiasında necə ifadə edildi (Singel 2009) :
"[M] ovie və reytinq məlumatları ... yüksək şəxsi və həssas təbiət haqqında məlumatları ehtiva edir. Üzvünün film məlumatları, Netflix üzvünün fərdi maraqlarını və / və ya cinsəllik, ruhi xəstəlik, alkoqolizmdən qurtuluş və əngəldən, fiziki istismardan, ailədə zorakılıqdan, zinaçılıqdan və təcavüzdən qurban verən müxtəlif şəxsi məsələlərlə mübarizə edir. "
Netflix Mükafatı məlumatlarının yenidən təyin edilməsi həm də bütün məlumatların potensial olaraq müəyyən edilə biləcəyini və bütün məlumatların potensial həssas olduğunu göstərir. Bu nöqtədə, bunun yalnız insanlarla əlaqəli olan məlumatlara aid olduğunu düşünə bilərsiniz. Təəccüblü deyil ki, belə deyil. İnformasiya azadlığı haqqında qanun tələbinə cavab olaraq Nyu-York şəhər hökuməti, 2013-ci ildə Nyu-Yorkda hər bir taksi sürüşünün qeydlərini, məsələn, alma və düşmə vaxtlarını, yerləri və gediş Farber (2015) əmək iqtisadiyyatında əhəmiyyətli nəzəriyyələri test etmək üçün oxşar məlumatlardan istifadə etmişdir). Taksi taksiləri haqqında bu məlumatlar yaxşı görünə bilər, çünki insanlar haqqında məlumat vermirlər, lakin Anthony Tockar bu taksi məlumat qrupunun həqiqətən insanlar haqqında çox sayda potensial həssas məlumatı olduğunu anladı. Misal üçün, o, gecə yarısı və 6 am arasında Nyu-Yorkda yerləşən Hustler Klubundan başlayan bütün səfərlərə baxdı və sonra onların açılan yerlərini tapdı. Bu axtarışda, əslində, Hustler Club (Tockar 2014) olan bəzi insanların ünvanlarının siyahısı göstərilir. Təsəvvür etmək çətindir ki, şəhər hökuməti bunu məlumatları yayarkən nəzərə aldı. Əslində, eyni texnika şəhərdəki hər hansı bir yeri ziyarət edən insanların ev ünvanlarını tapmaq üçün istifadə edilə bilər - bir tibb klinikası, hökumət binası və ya dini qurum.
Netflix mükafatı və Nyu-York şəhərindəki taksi məlumatlarının bu iki hadisəsi göstərir ki, nisbətən qabiliyyətli şəxslər azad olduqları məlumatlarda məlumat riskini düzgün qiymətləndirə bilməyəcəklər - və bu hallar heç bir halda unikaldır (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Bundan əlavə, bir çox bu cür hallarda problemli məlumatlar hələ də sərbəst olaraq internetdə mövcuddur və məlumat azadlığının qarşısını almağa çətinlik çəkir. Kollektiv olaraq, bu nümunələr, eləcə də gizlilik haqqında kompüter elmində araşdırmalar mühüm bir nəticəyə gətirib çıxarır. Tədqiqatçılar bütün məlumatların potensial olaraq müəyyən edilə biləcəyini və bütün məlumatların potensial həssas olduğunu düşünməlidir.
Təəssüf ki, bütün məlumatların potensial olaraq müəyyən edilə biləcəyi və bütün məlumatların potensial həssas olduğu faktlara sadə bir həll yoxdur. Lakin məlumatlarla işləyərkən məlumat riskini azaltmanın bir yolu məlumatların qorunması planını yaratmaq və izləməkdir. Bu plan, məlumatlarınızın sızması və bir sızıntı baş verdiyi təqdirdə zərərin azalmasına imkan verəcək. Məlumatların şifrələmə forması kimi məlumat qorunma planlarının xüsusiyyətləri vaxt keçdikcə dəyişəcək, lakin Böyük Britaniya Məlumat Xidmətləri məlumatların qorunması planının elementlərini beş kassa adlandırdıqları beş kateqoriyaya faydalı şəkildə təşkil edir: təhlükəsiz layihələr, təhlükəsiz insanlar , təhlükəsiz parametrlər, təhlükəsiz məlumatlar və təhlükəsiz nəticələr (Cədvəl 6.2) (Desai, Ritchie, and Welpton 2016) . Beş kasadan heç biri fərdi şəkildə mükəmməl bir qoruma təmin etməz. Amma informasiya riskini azaltmaq üçün güclü bir sıra amillər meydana gətirirlər.
Təhlükəsiz | Fəaliyyət |
---|---|
Təhlükəsiz layihələr | Layihə ilə məlumatları etik qaydalara məhdudlaşdırır |
Təhlükəsiz insanlar | Access məlumatlara etibar edə bilən insanlar (məsələn, etik təhsili keçmiş insanlar) ilə məhdudlaşır. |
Təhlükəsiz məlumatlar | Mümkün olan məlumatlar dəqiqləşdirilmiş və birləşdirilmişdir |
Təhlükəsiz parametrlər | Data müvafiq fiziki (məsələn, kilidli otaq) və proqram təminatı (məsələn, parol qorunması, şifrəli) ilə kompüterlərdə saxlanılır |
Təhlükəsiz çıxış | Təsadüfi şəxsi pozuntuların qarşısını almaq üçün tədqiqat nəticələri nəzərdən keçirilir |
Onlardan istifadə edərkən məlumatlarınızı qoruyan əlavə məlumat riskinin xüsusilə vacib olduğu tədqiqat prosesində bir addım digər tədqiqatçılarla məlumat mübadiləsidir. Elm adamları arasında məlumat mübadiləsi elmi cəhətdən əsas bir dəyərdir və bu, biliklərin inkişafına çox kömək edir. Böyük Britaniyanın Commons Komitəsi məlumatların bölüşdürülməsinin əhəmiyyətini (Molloy 2011) :
"Araşdırmacılar ədəbiyyatda göstərilən nəticələrə görə, reproduk, yoxlamaq və qurmaq üçün məlumatların əldə edilməsi əsasdır. Müraciət, əksinə, güclü bir səbəb olmadığı təqdirdə, məlumatların tam açıqlanması və ictimaiyyətə çatdırılmalıdır ".
Halbuki, məlumatlarınızı başqa bir tədqiqatçı ilə bölüşməklə, iştirakçılarınız üçün informasiya riskini artırmaq ola bilər. Beləliklə, məlumatların paylaşılması digər alimlərlə məlumat paylaşma öhdəliyi və iştirakçılara məlumat riskini minimuma endirmə öhdəliyi arasında əsas bir gərginlik yaradır. Xoşbəxtlikdən bu dilemma göründüyü qədər ağır deyil. Əksinə, cəmiyyətə müxtəlif cür fayda verən və iştirakçılara qarşı təhlükə yaradan bu kontekstdə hər bir nöqtə ilə məlumatların bölüşdürülməsi barədə düşünmək daha yaxşıdır (Şəkil 6.6).
Bir ifrat olaraq, məlumatlarınızı iştirakçıları üçün minimuma endirən, həm də cəmiyyətə qazancları minimuma endirən heç kəslə paylaşa bilərsiniz. Digər həddindən artıq, siz məlumatların "anonim" olduğu və hər kəs üçün yerləşdirildiyi yerləri sərbəst buraxa və unuta bilərsiniz. Məlumatların azad edilməsinə nisbətən, sərbəst buraxmaq və unutma cəmiyyətə daha yüksək faydalar və iştirakçılara daha yüksək risk təklif edir. Bu iki ifrat hallarda arasında bir duvarlı bağ yanaşma zəng edəcəyik nə, o cümlədən hibridləri bir sıra var. Bu yanaşmada məlumatlar müəyyən meyarlara cavab verən və müəyyən qaydalara (məsələn, İRB-dən nəzarət və məlumatların qorunması planı) bağlı olduqlarını qəbul edən insanlar ilə paylaşılır. Divar bağı yanaşması sərbəstliyin bir çox faydasını təmin edir və daha az risklə unutur. Əlbəttə, bu cür yanaşma bir çox sual yaradır - kimin hansı şəraitdə, hansı şəraitdə, nə vaxt, kimə ödəməli, divar bağçasına və s. Polislərə ödəməsi lazımdır? - amma bunlar başa düşülə bilməz. Əslində, tədqiqatçılar indi Michigan Universitetində Siyasət və Sosial Araşdırmalar üzrə Universitetlərarası Konsorsiumun məlumat arşivi kimi istifadə edə biləcəyi yerlərdə artıq işləyən duvarlı bağlar var.
Beləliklə, tədqiqatınızın məlumatları bölüşdürmə, duvarlı bağ, və buraxma prosesinin davamlılığında necə olmalıdır? Bu məlumatların detallarına asılıdır: tədqiqatçılar şəxslərə qarşı hörmət, xeyirxahlıq, ədalət, hüquq və ictimai maraqlara hörmət etməlidir. Bu baxımdan baxıldığında, məlumat paylaşımı fərqli bir etik quruluş deyil; tədqiqatçıların müvafiq etik balansı tapması lazım olan tədqiqatların bir çox aspektlərindən biridir.
Bəzi tənqidçilər ümumiyyətlə məlumatların paylaşılmasına qarşı çıxırlar, çünki, məncə, onlar risklərinə yönəldilmişdir - bu, şübhəsiz ki, realdır və onun faydalarını görmürlər. Beləliklə, həm risklərə, həm də faydalara diqqət yönəltmək üçün bir analoji təklif etmək istərdim. Hər il minlərlə ölüm, miniklər məsuliyyət daşıyır amma sürücülük qadağan etməyə çalışmırıq. Əslində, sürücülük qadağan edilməsi çağırışı absurd olardı, çünki sürüş çox gözəl şeylərə imkan verir. Əksinə, cəmiyyət (məsələn, müəyyən bir yaş olmalı və müəyyən testləri keçmişdir) və onların necə hərəkət edə biləcəyi ilə məhdudiyyətlər qoyur (məsələn, sürət həddi altında). Cəmiyyətin də bu qaydaları tətbiq etməklə məsuliyyət daşıyan insanlar var (məsələn, polis) və biz onları pozan insanları cəzalandırırıq. Cəmiyyətin tənzimləyici sürücülük üçün tətbiq etdiyi eyni cür balanslaşdırılmış düşüncə də məlumatların paylaşılmasına tətbiq edilə bilər. Yəni data mübadiləsi üçün və ya əleyhinə mütləq dəlilləri etmək əvəzinə, riskləri azaltmağı və məlumatların paylaşılmasının faydalarını necə artırdığımıza diqqət yetirərək ən çox inkişafı təmin edəcəyik.
Sonuçlandırmaq üçün informasiya riskinin kəskin artması və proqnozlaşdırmaq və ölçmək çox çətindir. Buna görə də bütün məlumatların potensial olaraq müəyyən edilə biləcəyi və potensial həssas olduğunu fərz etməliyik. Tədqiqat apararkən informasiya riskini azaltmaq üçün tədqiqatçılar bir məlumatların qorunması planını yarada və izləyə bilərlər. Bundan əlavə, informasiya riski tədqiqatçıların digər alimlərlə məlumatların paylaşılmasına maneə törədir.