İnformasiya risk sosial tədqiqat ən ümumi risk; dramatik artmışdır; və bunu anlamaq çətin risk edir.
Sosial yaş digital tədqiqat üçün ikinci etik problem informasiya risk, informasiyanın açıqlanması olan zərər üçün potensial var (Council 2014) . şəxsi informasiyanın açıqlanması olan informasiya zərər iqtisadi ola bilər (məsələn, iş itirmək), sosial (məsələn, xəcalət), psixoloji (məsələn, depressiya), və ya hətta cinayət (məsələn, qanunsuz davranış həbs). Təəssüf ki, digital yaş informasiya risk dramatik-oradakı davranış haqqında yalnız çox daha çox məlumat artırır. Və informasiya risk belə fiziki risk kimi analog yaş sosial tədqiqat narahatlıq idi riskləri ilə müqayisədə anlamaq və idarə etmək üçün çox çətin sübut etmişdir. digital yaş informasiya riskini artırır necə, elektron tibbi kayıtları kağız keçid hesab edir. qeydlər iki növ risk yaratmaq, lakin kütləvi miqyasda onlar icazəsiz tərəfə ötürülən bilər və ya digər qeydlər ilə birləşdi çünki elektron qeydləri daha çox risk yaradır. onlar tam kəmiyyətini və onu idarə etmək üçün necə başa düşmədim, çünki digital yaş Sosial tədqiqatçılar artıq hissəsində, informasiya riski ilə narahatlıq daxil var. Belə ki, mən informasiya risk düşünmək yararlı bir yol təklif gedirəm və sonra sizin tədqiqat informasiya riskini idarə etmək üçün necə və digər tədqiqatçılar üçün məlumat azad bəzi məsləhətlər vermək gedirəm.
Sosial tədqiqatçılar informasiya riskini azaltmaq bir yolu məlumatların "anonymization" dir. "Anonymization" Belə adı, ünvanı və məlumatlar telefon nömrəsi kimi aydın şəxsi tanımlayıcıları aradan qaldırılması prosesi. Lakin dərin və əsaslı məhdud, bu yanaşma bir çox insanlar dərk daha az effektiv və əslində, var. Mən təsvir zaman bu proses anonimlik görünüşünü deyil, əsl anonimlik yaradır Bu səbəbdən, "anonymization," Mən sizə xatırlatmaq üçün dırnaq istifadə edəcəyik.
"Anonymization" uğursuzluq bir parlaq nümunəsidir Massachusetts mərhum 1990-cı gəlir (Sweeney 2002) . Group Insurance Komissiyası (GIC) bütün dövlət işçiləri üçün tibbi sığorta alınması üçün məsul bir dövlət qurumu idi. bu iş vasitəsilə, GIC dövlət qulluqçularının minlərlə haqqında ətraflı sağlamlıq uçotunun toplayıb. sağlamlıq yaxşılaşdırılması yolları haqqında araşdırma stimul məqsədilə, GIC tədqiqatçılar bu qeydlər tahliyesine qərar verdi. Lakin onlar məlumatın bütün bölüşmək etməyib Əksinə, belə adı və ünvanı informasiya aradan qaldırılması ilə "anonim". Lakin, onlar belə demoqrafik məlumat (poçt indeksi, doğum tarixi, etnik və cinsi) və tibbi məlumat (səfər data, diaqnostika, prosedur) (Şəkil 6.4) kimi tədqiqatçılar üçün faydalı ola bilər düşündüm ki, digər məlumatlar sol (Ohm 2010) . Təəssüf ki, bu "anonymization" data qorumaq üçün kifayət deyil.
GIC "anonymization" əskiklərini göstərmək üçün, Latanya Sweeney-sonra Cambridge, Massachusetts qubernatoru William Weld məmləkəti şəhərindən səsvermə qeydlər əldə etmək $ 20 MIT ödənişli bir aspirantı. Bu səs qeydləri belə adı, ünvan, poçt indeksi, doğum tarixi və gender kimi məlumat daxildir. Bu faktdır ki, tibbi data file və seçici fayl ortaq sahələri-poçt indeksi, doğum tarixi, və cinsi nəzərdə Sweeney onlara keçid bilər. Sweeney WELD ad günü 31 iyul 1945-ci il idi ki, bilirdi və səsvermə qeydlər bu ad ilə Cambridge yalnız altı nəfər daxildir. Bundan əlavə, bu altı adam, yalnız üç kişi idi. Və bu üç kişi, yalnız bir qaynaq nin poçt kodu paylaşdı. Belə ki, səsvermə data doğum tarixi, cinsi, və saxlayın kodu Qaynaq nin birləşməsi ilə tibbi məlumatların hər kəs William Weld olduğunu göstərdi. Əslində, bu məlumatlar üç ədəd məlumatlara ona unikal barmaq təmin edir. Bu faktı istifadə edərək, Sweeney qaynaq tibbi qeydlər tapmaq üçün, və onun feat ona məlumat bacardı, o, ona qeydlər surətini poçt (Ohm 2010) .
Sweeney iş kompüter təhlükəsizlik icma bir müddət qəbul To de-anonymization hücumların əsas strukturu göstərir. Bu hücumlar, iki data dəstləri, nə özü olan, həssas məlumat göstərir bağlıdır və bu əlaqələr vasitəsilə həssas informasiya məruz qalır. Bəzi hallarda bu proses soda və sirkə, özləri tərəfindən təhlükəsiz iki maddələr çörəkçilik, murdar nəticəsini istehsal birləşdirilə bilər yol kimi.
Sweeney iş, və digər iş cavab olaraq, tədqiqatçılar indi ümumiyyətlə daha çox məlumat bütün qondarma "kişisel informasiya" (PII) aradan qaldırılması (Narayanan and Shmatikov 2010) prosesi -Zamanı "anonymization". Daha sonra bir çox tədqiqatçılar indi müəyyən data-tibbi qeydlər, maliyyə uçotunun, qanunsuz haqqında suallar sorğu cavab kimi sonra azad yəqin ki, çox həssas davranış-ki, həyata "anonymization." Lakin mən aşağıda təsvir sosial tədqiqatçılar lazımdır ki, göstərir lazımdır daha son nümunələri onların düşüncə dəyişir. İlk addım kimi, bütün data potensial müəyyən edilə və bütün data potensial həssas olduğunu güman müdrik edir. Başqa sözlə, bu informasiya risk düşünərək layihələrin kiçik bir alt aiddir daha çox, biz tətbiq etmək ki, bəzi bütün layihələr göstərir-to götürməlidir.
Bu yenidən oriyentasiya həm aspektləri Netflix mükafatı ilə təsvir olunur. Fəsil 5-də göstərildiyi kimi, Netflix demək olar ki, 500,000 üzvləri tərəfindən verilən 100 milyon film ratings azad və bütün dünyada insanlar film gəlir Netflix qabiliyyətini yaxşılaşdırılması bilər alqoritmlər təqdim açıq zəng idi. məlumat azad əvvəl, Netflix kimi adlar hər hansı bir açıq-aydın şəxsən-müəyyən məlumat qaldırıldı. Netflix də əlavə addım getdi və (məsələn, 3 ulduz 4 ulduz bəzi ratings dəyişən) yazan bəzi kiçik tedirginlikler təqdim etdi. Netflix tezliklə Lakin, onların səylərinə baxmayaraq, data heç idi ki, anonim deməkdir aşkar.
Data sonra Yalnız iki həftə sərbəst buraxıldı Narayanan and Shmatikov (2008) xüsusi xalq kinosu üstünlükləri haqqında məlumat mümkün olduğunu göstərdi. Onların yenidən şəxsiyyət hücum oyun Sweeney nin oxşar idi: potensial həssas informasiya və heç bir açıq-aydın müəyyən məlumat və insanların şəxsiyyətini ehtiva biri ilə birlikdə iki məlumat mənbələri, bir birləşməsi. bu məlumat mənbələri hər fərdi təhlükəsiz ola bilər, lakin onlar birlikdə zaman birləşmiş verilənlər bazasının informasiya risk yarada bilərsiniz. Netflix məlumatların halda, burada ola bilər necə. Mən əməkdaşları ilə fəaliyyət və komediya film haqqında fikirlərimi bölüşmək üçün seçin ki, amma dini və siyasi film haqqında fikrimi bölüşmək tercih düşünün. Mənim əməkdaşları I Netflix data mənim qeydlər tapmaq üçün onlarla paylaştım informasiya istifadə edə bilər; Mən bölüşmək məlumat yalnız William qaynaq doğum tarixi, poçt indeksi, və cinsi kimi unikal barmaq izi ola bilər. onlar məlumatın mənim unikal barmaq izi tapmaq əgər, onlar bölüşmək üçün seçə filmləri daxil olmaqla, bütün film, haqqında ratings öyrənmək bilər. Bir şəxs diqqət hədəf hücum bu cür əlavə, Narayanan and Shmatikov (2008) də şəxsi və film reytinq məlumatları ilə Netflix data birləşməsi-insanların çox cəlb geniş hücum -Bir etmək mümkün olduğunu göstərdi ki, bəzi insanlar Internet Movie Database (IMDb) göndərmək üçün seçmişik. film xüsusi bir şəxs hətta set unikal barmaq izi hər hansı məlumat ratings-edə, onları müəyyən etmək üçün istifadə edilə bilər.
Netflix data ya targeted və ya geniş hücum yenidən müəyyən edilə bilər baxmayaraq, hələ də aşağı risk görünür bilər. Bütün sonra, film ratings çox həssas görünmür. ki, ümumiyyətlə doğru ola bilər baxmayaraq, verilənlər bazasının 500.000 nəfər bəzi film ratings olduqca həssas ola bilər. Əslində, de-anonymization cavab olaraq closeted lesbian qadın Netflix qarşı sinfi fəaliyyət kostyum qatıldı. Burada problem onların iddia ifadə edildi necə (Singel 2009) :
"[M] ovie və reytinq data daha çox şəxsi və həssas təbiəti [sic] məlumat var. üzv film data cinsəllik, ruhi xəstəlik, alkoqolizm bərpa və zərər ensest olan fiziki sui-istifadə, məişət zorakılığı, zina və zorlama daxil olmaqla, müxtəlif yüksək şəxsi məsələləri ilə Netflix üzvünün şəxsi maraq və / və ya mübarizə ifşa. "
Netflix mükafatı məlumatların de-anonymization bütün data potensial müəyyən edilə, həm də ki, bütün məlumatlar potensial həssas olduğunu göstərir. Bu nöqtədə, bu yalnız həmin insanlar haqqında olmaq iddiasında məlumatlara aiddir ki, ola bilər. Təəccüblü, bu belə deyil. İnformasiya Law sorğusunun Azadlıq cavab olaraq, New York City Government alma, o cümlədən 2013-ci ildə Nyu-Yorkda hər taksi ride qeydlər azad ki, Fəsil 2 dəfə, yerleri, və siçan məbləğlər (geri yuxulamaq Farber (2015) əmək iqtisadiyyat mühüm nəzəriyyələri) test üçün bu məlumatları istifadə olunur. Bu insanlar haqqında məlumat görünür deyil, çünki taksi səfərlər haqqında Bu data benign görünə bilər, baxmayaraq ki, Anthony Tockar bu taksi verilənlər bazasının həqiqətən insanlar haqqında potensial həssas məlumat çox olan ki, həyata keçirilir. göstərmək üçün, o gecə yarısı və 6am arasında York-New in Hustler Club-a böyük zolaq klub öz drop-off yerlərdə tapıldı başlayan bütün səfərlər baxdı. Bu axtarış ortaya-in Hustler Club tez-tez bəzi insanların ünvanları mahiyyəti-siyahısı (Tockar 2014) . Bu data azad zaman şəhər hökumət mind bu idi ki, təsəvvür etmək çətindir. Əslində, bu texnika şəhər-tibbi klinika, hökumət binası və ya dini təşkilat hər hansı bir yer ziyarət insanların ev ünvanlarını tapmaq üçün istifadə edilə bilər.
Heç bir unikal deməkdir Bu iki hallar-Netflix mükafatı və nisbətən ixtisaslı insanlar doğru onlar azad data informasiya riskini qiymətləndirmək üçün uğursuz New York City taksi data-show, və bu hallarda (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Bundan başqa, bu hallarda bir çox problemli data heç bir məlumat azad məhvi çətinlik ifadə hələ online sərbəst mövcuddur. Kollektiv bu nümunələr, eləcə də mühüm nəticəyə gizlilik potensial haqqında informatika tədqiqat. Tədqiqatçılar bütün data potensial müəyyən edilə və bütün data potensial həssas olduğunu güman edilməlidir.
Təəssüf ki, bütün data potensial müəyyən edilə və bütün data potensial həssas olması üçün heç bir sadə həlli var. Lakin, data ilə iş zamanı məlumat riskini azaltmaq üçün bir yol yaratmaq və məlumatların qorunması plan riayət etməkdir. Bu plan sizin data sızma və baş birtəhər baş əgər zərər azalacaq imkan azalır edəcək. Şifrələmə forması istifadə belə olan kimi məlumatların qorunması planları xüsusiyyətləri, zamanla dəyişəcək, lakin Böyük Britaniya Data Services helpfully onlar 5 seyflər zəng 5 kateqoriyalara bir veri qorunması planının elementləri təşkil edir: Təhlükəsiz layihələr, təhlükəsiz insanların , təhlükəsiz parametrləri, təhlükəsiz məlumat və təhlükəsiz nəticələr (Cədvəl 6.2) (Desai, Ritchie, and Welpton 2016) . Beş seyflər None fərdi mükəmməl qoruma təmin edir. Amma birlikdə onlar informasiya riskini azalda bilər amillər güclü bir set yaratmaq.
təhlükəsiz | fəaliyyət |
---|---|
Safe layihələr | etik olan data layihələr məhdudlaşdırır |
Safe nəfər | giriş məlumatları ilə etibarlı ola bilər insanların məhdudlaşdırılır (məsələn, insanlar məruz etik təlim) |
Safe data | data-de müəyyən və mümkün qədər toplandığında |
Safe parametrləri | data (məsələn, parol qorunması, şifreli) mühafizəsi müvafiq (məsələn, kilidli otaq) fiziki və proqram təminatı ilə kompüter saxlanılır |
Safe çıxış | tədqiqat çıxış təsadüfən gizlilik pozuntuların qarşısını almaq üçün nəzərdən |
siz onu istifadə zamanı məlumatların qorunması ilə yanaşı, informasiya risk xüsusilə qabarıq tədqiqat prosesində bir addım digər tədqiqatçılar ilə data mübadiləsi edir. alimlər arasında Data mübadiləsi elmi səy əsas dəyəri və bilik bu, çox obyektləri inkişaf. Burada Commons Böyük Britaniya House data mübadiləsi əhəmiyyətini təsvir necə:
tədqiqatçılar, yeniden yoxlamaq və ədəbiyyat hesabat nəticələrinə qurmaq əgər "data Access əsas amillərdir. ehtimal güclü səbəb başqa olmadıqca, data tam açıqlanır və ictimaiyyətə təqdim etmək lazımdır ki, olmalıdır. Bütün açıq maliyyələşdirilən tədqiqat ilə bağlı mümkün data geniş və sərbəst mövcud edilməlidir bu prinsipi, uyğun olaraq ". (Molloy 2011)
Lakin, başqa bir tədqiqatçı ilə data mübadiləsi, sizin iştirakçılara informasiya riski artır bilər. Belə ki, onların bölüşmək istədiyiniz məlumatları və ya onların bölüşmək üçün tələb olunur tədqiqatçılar data-bir fundamental gərginlik qarşı-qarşıya olduğunu görünə bilər. Bir tərəfdən, onlar orijinal tədqiqat açıq maliyyələşdirilir, xüsusilə də əgər, digər alimlər ilə məlumatları bölüşmək üçün etik öhdəliyi var. Lakin, eyni zamanda, tədqiqatçılar, mümkün qədər minimuma endirmək üçün etik öhdəliyi var, onların iştirakçılara məlumat risk.
Xoşbəxtlikdən, bu dilemma göründüyü kimi ağır deyil. Bu azad və data "anonim" və daxil olmaq üçün hər kəs üçün yerləşdirilir harada unutmaq heç bir məlumat mübadiləsi bir davamlı boyunca mübadiləsi data (Şəkil 6.6) düşünmək vacibdir. Bu ifrat vəzifələrin həm də riskləri və faydaları var. Bu avtomatik olaraq sizin data bölüşmək üçün ən etik bir şey deyil, deyil; Belə bir yanaşma cəmiyyətə çox potensial faydaları aradan qaldırır. Geri dadın üçün Ties və Time, əvvəllər fəsildə müzakirə nümunə, yalnız mümkün zərər diqqət və mümkün faydaları ignore data azad qarşı arqumentlər hədsiz birtərəfli var; Mən qeyri-müəyyənlik (Bölmə 6.6.4) qarşısında qərarların qəbul edilməsi haqqında məsləhətlər təklif zaman aşağıda daha ətraflı bu birtərəfli, hədsiz qoruyucu yanaşma ilə problem təsvir edəcəyik.
Bundan əlavə, bu iki ekstremal hallarda arasında I data müəyyən meyarlara cavab və müəyyən qaydalara riayət etməyə razı olan insanların ilə ortaq bir duvarlı bağ yanaşma adlı lazımdır nə (məsələn, bir IRB olan nəzarət və məlumatların qorunması planları) . Bu divarlı bağ yanaşma azad faydaları çox təmin edir və daha az risk ilə unudurlar. Əlbəttə ki, bir duvarlı bağ yanaşma bir çox suallar-çıxışı olmalıdır, nə şərtlər altında, necə uzun, saxlamaq və duvarlı bağ polisə ödəməlidir kim s lakin bu aşılmaz deyil yaradır. Əslində, artıq tədqiqatçılar belə Miçiqan Universitetinin Siyasi və Sosial Araşdırmalar Inter-universitet konsorsiumunun data arxiv kimi, indi istifadə edə bilərsiniz yerdə duvarlı bağları var çalışır.
Belə ki, sizin iş data heç bir paylaşım, divarlı bağ davamlı olacaq və azad və unutmaq lazımdır? Bu məlumatların detallarına asılıdır; tədqiqatçılar Hüquq və ictimai maraqları şəxslər mərhəmət, ədalət üçün hörmət və hörmət dengelemek lazımdır. digər qərarlar üçün müvafiq balansın qiymətləndirən zaman tədqiqatçılar məsləhət və IRBs təsdiq axtarmaq və məlumat şərhi edən prosesin yalnız bir hissəsi ola bilər. bəzi insanlar ümidsiz etik bataqlıq kimi data azad hesab baxmayaraq Başqa sözlə, biz artıq tədqiqatçılar etik dilemmalar bu cür balans kömək etmək üçün sistemi.
data mübadiləsi düşünmək üçün bir final yol analogiya edir. Hər il avtomobil ölüm bir mövcud cüt üçün məsuliyyət daşıyır, lakin biz sürücülük qadağan cəhd etməyin. sürücülük çox gözəl şeylər imkan verir, çünki Əslində, sürücülük qadağan belə bir zəng absurd olardı. Əksinə, cəmiyyət idarə edə bilər məhdudiyyətlər qoyur (məsələn, müəyyən bir yaş olmaq lazımdır, müəyyən testlər keçmişdir lazımdır) və onlar (sürət həddi altında, məsələn) idarə edə bilərsiniz necə. Cəmiyyət də bu qaydaları (məsələn, polis) tətbiq həvalə nəfər var və biz onları pozan ovlanır xalqını cəzalandırmaq. cəmiyyət sürücülük tənzimləyən aiddir balanslı düşüncə Bu eyni cür də data mübadiləsi tətbiq oluna bilər. Bu olduqca və ya veri paylaşımı qarşı absolutist arqumentlər edilməsi daha mən ən böyük fayda daha çox təhlükəsiz daha çox məlumat bölüşmək bilər necə figuring gələcək hesab edir.
Bağlamaq, informasiya risk kəskin artıb və bu, proqnozlaşdırmaq və hesablamaq çox çətindir. Buna görə də, bütün data potensial identifikasiya edilə bilən potensial həssas olduğunu güman etmək yaxşı deyil. araşdırma edərkən informasiya riskini azaltmaq üçün, tədqiqatçılar yaratmaq və məlumatların qorunması plan edin. Əlavə informasiya risk digər alimlər ilə məlumat mübadiləsi tədqiqatçılar mane olmur.