Rreziku informativ është rreziku më i zakonshëm në hulumtimin social; ajo është rritur në mënyrë dramatike; dhe është rreziku më i vështirë për t'u kuptuar.
Sfida e dytë etike për hulumtimin e moshës digjitale është rreziku informativ , potencial për dëm nga zbulimi i informacionit (National Research Council 2014) . Dëmet informative nga zbulimi i informacionit personal mund të jenë ekonomike (p.sh. humbja e një pune), sociale (p.sh. siklet), psikologjike (p.sh. depresioni), madje edhe kriminale (p.sh. arrestimi për sjellje të paligjshme). Për fat të keq, mosha digjitale rrit rrezikun informativ në mënyrë dramatike - ka vetëm shumë më shumë informacion rreth sjelljes sonë. Dhe rreziku informativ është provuar shumë i vështirë për t'u kuptuar dhe menaxhuar krahasuar me rreziqet që kanë qenë shqetësime në kërkimin shoqëror të moshës analoge, siç është rreziku fizik.
Një mënyrë që studiuesit sociale të ulur rrezikun informative është "anonimitetin" e të dhënave. "Anonimitetin" është procesi i heqjes identifikues dukshme personale të tilla si emrin, adresën, dhe numrin e telefonit nga të dhënat. Megjithatë, kjo qasje është shumë më pak efektive se sa shumë njerëz e kuptojnë, dhe kjo është, në fakt, thellë dhe krejtësisht të kufizuara. Për këtë arsye, sa herë që unë përshkruaj "anonymization," unë do të përdorni thonjëza për të ju kujtoj se ky proces krijon pamjen e anonimitetit, por nuk e anonimitetit vërtetë.
Një shembull i gjallë i dështimit të "anonimizimit" vjen nga fundi i viteve 1990 në Massachusetts (Sweeney 2002) . Komisioni i Sigurimeve të Grupit (GIC) ishte një agjenci qeveritare përgjegjëse për blerjen e sigurimeve shëndetësore për të gjithë punonjësit e shtetit. Nëpërmjet kësaj pune, GIC mblodhi të dhëna të detajuara shëndetësore për mijëra punonjës shtetërorë. Në një përpjekje për të nxitur kërkimet, GIC vendosi t'i lirojë këto dokumente shkencëtarëve. Megjithatë, ata nuk i kanë ndarë të gjitha të dhënat e tyre; përkundrazi, ata "anonimizuan" këto të dhëna duke hequr informacione të tilla si emrat dhe adresat. Megjithatë, ata lënë informacione të tjera që ata mendonin se do të ishin të dobishme për kërkuesit si informacioni demografik (kodi postar, data e lindjes, përkatësia etnike dhe gjinia) dhe informacioni mjekësor (vizita e të dhënave, diagnoza, procedura) (Figura 6.4) (Ohm 2010) . Për fat të keq, ky "anonimizim" nuk ishte i mjaftueshëm për të mbrojtur të dhënat.
Për të ilustruar të metat e "anonimizimit" të GIC, Latania Sweeney-pastaj një student i diplomuar në MIT-i pagoi $ 20 për të marrë të dhënat e votimit nga qyteti i Kembrixhit, vendlindja e guvernatorit të Masaçusetsit William Weld. Këto regjistrime votimi përfshinin informacione të tilla si emri, adresa, kodi postar, data e lindjes dhe gjinia. Fakti që dosja e të dhënave mjekësore dhe dosja e votuesve ndanë fushat - kodin postar, datën e lindjes dhe seksin - nënkuptonte që Sweeney mund t'i lidhë ato. Sweeney e dinte se ditëlindja e Weld ishte 31 korrik 1945, dhe regjistrimet e votimit përfshinin vetëm gjashtë vetë në Kembrixh me atë ditëlindje. Për më tepër, nga këta gjashtë persona, vetëm tre ishin meshkuj. Dhe, nga këta tre burra, vetëm një kod i përbashkët i saldimit. Kështu, të dhënat e votimit treguan se kushdo në të dhënat mjekësore me kombinimin e Weld-it të datës së lindjes, gjinisë dhe kodit postar ishte William Weld. Në thelb, këto tri pjesë të informacionit i dhanë atij një gjurmë gishtash unike në të dhënat. Duke përdorur këtë fakt, Sweeney ishte në gjendje të gjente shënimet mjekësore të Weld dhe, për ta informuar atë për veprën e saj, i dërgoi një kopje të të dhënave të tij (Ohm 2010) .
Puna e Sweeney-it ilustron strukturën themelore të sulmeve të riidentifikimit - të miratojë një term nga komuniteti i sigurisë kompjuterike. Në këto sulme, dy grupe të të dhënave, të cilat asnjëra prej tyre nuk zbulojnë informacione të ndjeshme, janë të lidhura, dhe përmes kësaj lidhjeje ekspozohen informacione të ndjeshme.
Në përgjigje të punës së Sweeney dhe të punës tjetër, hulumtuesit tani në përgjithësi largojnë shumë më tepër informacione - të gjitha të ashtuquajturat "informacion identifikues personal" (PII) (Narayanan and Shmatikov 2010) gjatë procesit të "anonimizimit". tani kuptojnë se të dhëna të caktuara - siç janë shënimet mjekësore, të dhënat financiare, përgjigjet në pyetjet e anketës për sjelljen e paligjshme - ndoshta janë shumë të ndjeshme për lirimin edhe pas "anonimizimit". Megjithatë, shembujt që po jap do të sugjerojnë që studiuesit socialë duhet për të ndryshuar mendimin e tyre. Si hap i parë, është e mençur të supozohet se të gjitha të dhënat janë potencialisht të identifikueshme dhe të gjitha të dhënat janë potencialisht të ndjeshme. Me fjalë të tjera, në vend që të mendojmë se rreziku informativ zbatohet për një pjesë të vogël të projekteve, duhet të supozojmë se ai aplikohet - deri në një farë mase - për të gjitha projektet.
Të dy aspektet e këtij riorientimi ilustrohen nga Çmimi Netflix. Siç përshkruhet në kapitullin 5, Netflix lëshoi 100 milionë ratings film të siguruara nga pothuajse 500,000 anëtarë dhe kishte një telefonatë të hapur ku njerëzit nga e gjithë bota paraqitnin algoritme që mund të përmirësonin aftësinë e Netflix për të rekomanduar filma. Para lëshimit të të dhënave, Netflix hoqi çdo informacion identifikimi të dukshëm personal, siç janë emrat. Ata gjithashtu shkuan një hap shtesë dhe paraqitën shqetësime të lehta në disa të dhëna (p.sh., ndryshimi i disa vlerësimeve nga 4 yje në 3 yje). Megjithatë, shumë shpejt zbuluan se pavarësisht përpjekjeve të tyre, të dhënat nuk ishin akoma anonime.
Vetëm dy javë pas publikimit të të dhënave, Arvind Narayanan dhe Vitaly Shmatikov (2008) treguan se ishte e mundur të mësohej për preferencat e filmave të njerëzve të caktuar. Mashtrimi i sulmit të tyre të ri-identifikimit ishte i ngjashëm me Sweeney-in: bashkoni dy burime informacioni, një me informacione potencialisht të ndjeshme dhe pa ndonjë informacion identifikimi të dukshëm dhe një që përmban identitetet e njerëzve. Secila prej këtyre burimeve të të dhënave mund të jetë individualisht e sigurt, por kur ato të kombinohen, grupi i të dhënave i bashkuar mund të krijojë rrezik informativ. Në rastin e të dhënave Netflix, këtu është se si mund të ndodhë. Imagjinoni që unë zgjedh të ndaj mendimet e mia rreth filmave të veprimit dhe komedisë me bashkëpunëtorët e mi, por që unë nuk preferoj të ndaj mendimin tim për filma fetarë dhe politikë. Bashkëpunëtorët e mi mund të përdorin informacionin që kam ndarë me ta për të gjetur shënimet e mia në të dhënat Netflix; informacioni që ndaj unë mund të jetë një gjurmë gishtash unike, ashtu si data e lindjes së William Weld, kodi postar dhe seksi. Pastaj, në qoftë se ata gjetën gishtin tim unik në të dhënat, ata mund të mësonin vlerësimet e mia për të gjitha filmat, duke përfshirë filma që nuk zgjedh për të ndarë. Përveç këtij sulmi në shënjestër të një personi të vetëm, Narayanan dhe Shmatikov gjithashtu treguan se ishte e mundur të bënte një sulm të gjerë - një që përfshinte shumë njerëz - duke bashkuar të dhënat Netflix me të dhënat e vlerësimit personal dhe filmi që disa njerëz kanë zgjedhur për të postuar në Internet Movie Database (IMDb). Thjesht, çdo informacion që është një gjurmë gishtash unike për një person të caktuar - madje edhe grupi i tyre i filmave - mund të përdoret për t'i identifikuar ato.
Megjithëse të dhënat Netflix mund të ri-identifikohen ose në një sulm të shënjestruar ose të gjerë, ai ende mund të duket të jetë i ulët rreziku. Në fund të fundit, ratings film nuk duket shumë e ndjeshme. Ndërsa kjo mund të jetë e vërtetë në përgjithësi, për disa nga 500,000 njerëz në grupin e të dhënave, ratings film mund të jenë mjaft të ndjeshme. Në fakt, në përgjigje të ri-identifikimit, një grua lezbike e mbyllur u bashkua me një padi në klasë kundër Netflix. Ja se si u shpreh problemi në padinë e tyre (Singel 2009) :
"Të dhënat dhe të dhënat e vlerësimit përmbajnë informacion të një natyre ... shumë personale dhe të ndjeshme. Të dhënat e filmit të anëtarit ekspozojnë interesin personal të një anëtari Netflix dhe / ose ballafaqohen me çështje të ndryshme personale, duke përfshirë seksualitetin, sëmundjet mendore, shërimin nga alkoolizmi dhe viktimizimin nga incesti, abuzimi fizik, dhuna në familje, kurorëshkelja dhe përdhunimi.
Ri-identifikimi i të dhënave të Çmimit Netflix ilustron të dyja se të gjitha të dhënat janë potencialisht të identifikueshme dhe se të gjitha të dhënat janë potencialisht të ndjeshme. Në këtë pikë, mund të mendoni se kjo vlen vetëm për të dhënat që pretendojnë të jenë rreth njerëzve. Çuditërisht, ky nuk është rasti. Në përgjigje të një kërkese për Ligjin për Lirinë e Informacionit, qeveria e Qytetit të Nju Jorkut publikoi të dhënat për çdo udhëtim me taksi në Nju Jork në vitin 2013, duke përfshirë marrjen dhe zbritjen e kohës, lokacioneve dhe shumave të biletave (kujton kapitullin 2 se Farber (2015) përdorën të dhëna të ngjashme për të provuar teoritë e rëndësishme në ekonominë e punës). Këto të dhëna për udhëtimet e taksive mund të duken të mira sepse nuk duket se japin informacion për njerëzit, por Anthony Tockar kuptoi që ky grup i taksi përmbante shumë informacione potencialisht të ndjeshme për njerëzit. Për të ilustruar, ai shikoi të gjitha udhëtimet duke filluar në Hustler Club-një klub i madh stripash në Nju Jork - mes mesnatë dhe 6 të mëngjesit dhe më pas gjetën vendet e tyre të braktisjes. Ky kërkim zbuloi-në thelb-një listë të adresave të disa njerëzve që frekuentonin Hustler Club (Tockar 2014) . Është e vështirë të imagjinohet se qeveria e qytetit e kishte këtë në mendje kur liroi të dhënat. Në të vërtetë, kjo teknikë e njëjtë mund të përdoret për të gjetur adresat në shtëpi të njerëzve që vizitojnë çdo vend në qytet - një klinikë mjekësore, një ndërtesë qeveritare ose një institucion fetar.
Këto dy raste të çmimit Netflix dhe të taksave të qytetit të Nju Jorkut tregojnë se njerëzit relativisht të kualifikuar mund të dështojnë në vlerësimin e saktë të rrezikut informues në të dhënat që ato lëshojnë - dhe këto raste nuk janë aspak unike (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Për më tepër, në shumë raste të tilla, të dhënat problematike janë ende të lira në internet, duke treguar vështirësinë e zhdukjes së të dhënave. Kolektivisht, këta shembuj - si dhe hulumtimi në shkencat kompjuterike rreth privatësisë - çojnë në një përfundim të rëndësishëm. Studiuesit duhet të supozojnë se të gjitha të dhënat janë potencialisht të identifikueshme dhe të gjitha të dhënat janë potencialisht të ndjeshme.
Për fat të keq, nuk ka zgjidhje të thjeshtë për faktet se të gjitha të dhënat janë potencialisht të identifikueshme dhe se të gjitha të dhënat janë potencialisht të ndjeshme. Megjithatë, një mënyrë për të zvogëluar rrezikun informativ ndërsa jeni duke punuar me të dhënat është krijimi dhe ndjekja e një plani për mbrojtjen e të dhënave . Ky plan do të zvogëlojë mundësinë që të dhënat tuaja të rrjedhin dhe do të ulin dëmin nëse një rrjedhje ndodh disi. Specifikimet e planeve të mbrojtjes së të dhënave, të tilla si forma e enkriptimit të përdorimit, do të ndryshojnë me kalimin e kohës, por Shërbimet e të Dhënave në Mbretërinë e Bashkuar ndihmojnë në organizimin e elementeve të një plani të mbrojtjes së të dhënave në pesë kategori që quajnë pesë kasaforta : projekte të sigurta, njerëz të sigurt , konfigurime të sigurta, të dhëna të sigurta dhe rezultate të sigurta (tabela 6.2) (Desai, Ritchie, and Welpton 2016) . Asnjëra nga pesë kasaforta nuk ofrojnë mbrojtje të përkryer. Por së bashku ata formojnë një grup të fuqishëm faktorësh që mund të zvogëlojnë rrezikun informativ.
i sigurt | veprim |
---|---|
Projekte të sigurta | Kufizon projekte me të dhëna për ato që janë etike |
Njerëz të sigurt | Qasja është e kufizuar për njerëzit që mund të besohen me të dhëna (p.sh., njerëzit që kanë pësuar trajnime etike) |
Të dhëna të sigurta | Të dhënat identifikohen dhe grumbullohen në shkallën e mundshme |
Cilësime të sigurta | Të dhënat ruhen në kompjuterë me mbrojtje të duhur fizike (p.sh. dhomë të mbyllur) dhe softuer (p.sh., mbrojtje me fjalëkalim, koduar) |
Prodhimi i sigurt | Rezultati i hulumtimit shqyrtohet për të parandaluar shkeljet aksidentale të privatësisë |
Përveç mbrojtjes së të dhënave tuaja gjatë kohës që i përdorni, një hap në procesin e hulumtimit ku rreziku informativ është veçanërisht i dukshëm është ndarja e të dhënave me hulumtuesit e tjerë. Shkëmbimi i të dhënave midis shkencëtarëve është një vlerë thelbësore e përpjekjes shkencore dhe lehtëson në masë të madhe përparimin e njohurive. Ja se si Shtëpia e Brendshme e Mbretërisë së Bashkuar përshkroi rëndësinë e shkëmbimit të të dhënave (Molloy 2011) :
"Qasja në të dhëna është thelbësore nëse hulumtuesit duhet të riprodhojnë, verifikojnë dhe ndërtojnë rezultatet që raportohen në literaturë. Supozimi duhet të jetë që, nëse nuk ka ndonjë arsye tjetër të fortë, të dhënat duhet të zbulohen plotësisht dhe të bëhen publike. "
Megjithatë, duke i ndarë të dhënat tuaja me një studiues tjetër, mund të rrisni rrezik informativ për pjesëmarrësit tuaj. Kështu, mund të duket se shkëmbimi i të dhënave krijon një tension themelor ndërmjet detyrimit për të ndarë të dhëna me shkencëtarët e tjerë dhe detyrimin për të minimizuar rrezikun informues për pjesëmarrësit. Për fat të mirë, kjo dilemë nuk është aq e rëndë sa duket. Përkundrazi, është më mirë të mendojmë për ndarjen e të dhënave si një rënie përgjatë një vazhdimësie, me çdo pikë në atë vazhdimësi që siguron një përzierje të ndryshme të përfitimeve ndaj shoqërisë dhe rrezik për pjesëmarrësit (figura 6.6).
Në një ekstrem, ju mund t'i ndani të dhënat tuaja me askënd, gjë që minimizon rrezikun për pjesëmarrësit, por gjithashtu minimizon fitimet për shoqërinë. Në ekstremin tjetër, ju mund të lëshoni dhe harroni , ku të dhënat janë "anonime" dhe postuar për të gjithë. Lidhur me mos lëshimin e të dhënave, lirimi dhe harimi ofron dy përfitime më të larta për shoqërinë dhe rrezik më të lartë për pjesëmarrësit. Midis këtyre dy rasteve ekstreme janë një sërë hibridesh, duke përfshirë atë që unë do të quaj një qasje të rrethuar me mur . Sipas kësaj qasje, të dhënat ndahen me njerëz që përmbushin kritere të caktuara dhe të cilët bien dakord të jenë të detyruar nga rregulla të caktuara (p.sh., mbikëqyrja nga një IRB dhe një plan për mbrojtjen e të dhënave). Qasja në kopsht me mure siguron shumë nga përfitimet e lirimit dhe harron me më pak rrezik. Natyrisht, një qasje e tillë krijon shumë pyetje - kush duhet të ketë qasje, në çfarë kushtesh, dhe për sa kohë, kush duhet të paguajë për të ruajtur dhe policuar kopshtin e rrethuar me mure, etj., Por këto nuk janë të pakapërcyeshme. Në fakt, tashmë ekzistojnë kopshte me mure që hulumtuesit mund t'i përdorin tani, siç është arkivi i të dhënave i Konzorciumit Inter-universitar për Kërkime Politike dhe Sociale në Universitetin e Miçiganit.
Pra, ku duhet që të dhënat nga studimi juaj të jenë në vazhdimësinë e ndarjes së një kopshti të rrethuar me mure dhe të lirojnë e të harrojnë? Kjo varet nga detajet e të dhënave tuaja: studiuesit duhet të balancojnë respektin për personat, bamirësinë, drejtësinë dhe respektin për ligjin dhe interesin publik. Shikuar nga kjo perspektivë, ndarja e të dhënave nuk është një rebus i dallueshëm etik; ajo është vetëm një nga shumë aspekte të hulumtimit në të cilin kërkuesit duhet të gjejnë një ekuilibër të duhur etik.
Disa kritikë në përgjithësi kundërshtojnë shkëmbimin e të dhënave, sepse, sipas mendimit tim, ato janë të përqendruara në rreziqet e saj - të cilat padyshim janë reale - dhe injorojnë përfitimet e saj. Pra, për të inkurajuar përqendrimin në të dy rreziqet dhe përfitimet, do të doja të ofroj analogji. Çdo vit, makinat janë përgjegjëse për mijëra vdekje, por ne nuk përpiqemi të ndalojmë ngasjen. Në fakt, një thirrje për ndalimin e makinës do të ishte absurde sepse ngasja mundëson shumë gjëra të mrekullueshme. Përkundrazi, shoqëria vendos kufizime se kush mund të përzënë (p.sh., duhet të jetë një moshë e caktuar dhe të ketë kaluar teste të caktuara) dhe se si ata mund të përzënë (p.sh., nën kufirin e shpejtësisë). Shoqëria gjithashtu ka njerëz të ngarkuar me zbatimin e këtyre rregullave (p.sh., policia) dhe ne ndëshkojmë njerëzit që janë kapur duke i shkelur ato. Ky lloj i njëjtë i të menduarit të ekuilibruar që shoqëria zbaton për rregullimin e makinës gjithashtu mund të zbatohet për ndarjen e të dhënave. Kjo është, në vend që të bëj argumente absolutiste për ose kundër ndarjes së të dhënave, mendoj se ne do të bëjmë përparim më të madh duke u fokusuar në mënyrën se si mund t'i zvoglimmë rreziqet dhe të rrisim përfitimet nga ndarja e të dhënave.
Për të përfunduar, rreziku informativ është rritur në mënyrë dramatike dhe është shumë e vështirë të parashikohet dhe të kuantifikohet. Prandaj, është mirë të supozojmë se të gjitha të dhënat janë potencialisht të identifikueshme dhe potencialisht të ndjeshme. Për të zvogëluar rrezikun informativ gjatë kryerjes së hulumtimeve, hulumtuesit mund të krijojnë dhe ndjekin një plan për mbrojtjen e të dhënave. Për më tepër, rreziku informativ nuk i pengon kërkuesit që të ndajnë të dhëna me shkencëtarë të tjerë.