Upplýsingaleg áhætta er algengasta áhættan í félagslegum rannsóknum; það hefur aukist verulega; og það er erfiðasta áhættan að skilja.
Annað siðferðileg áskorun fyrir rannsóknir á stafrænni aldri er upplýsingaáhætta , möguleiki á skaða vegna upplýsingaskyldu (National Research Council 2014) . Upplýsingaskemmdir frá birtingu persónuupplýsinga gætu verið efnahagsleg (td að missa vinnu), félagsleg (td vandræði), sálfræðileg (td þunglyndi), eða jafnvel glæpamaður (td handtekinn fyrir ólöglega hegðun). Því miður eykur stafræn aldur upplýsandi áhættu verulega - það er bara svo mikið af upplýsingum um hegðun okkar. Og upplýsingaáhætta hefur reynst mjög erfitt að skilja og stjórna samanborið við áhættu sem var áhyggjuefni í hliðsjón af félagslegum rannsóknum, svo sem líkamlegri áhættu.
Ein leið til að félagsleg vísindamenn minnka upplýsingagildi áhættu er "anonymization" gagna. "Anonymization" felst í því að fjarlægja augljós persónuauðkenni svo sem nafn, heimilisfang og símanúmer úr gögnum. Þó þessi aðferð er miklu minni árangri en margir gera sér grein fyrir, og það er, í raun, djúpt og grundvallaratriðum takmörkuð. Af þeirri ástæðu, þegar ég lýsa "anonymization," Ég ætla að nota gæsalappir til að minna þig á að þetta ferli skapar útliti nafnleynd en ekki satt nafnleynd.
A skær dæmi um bilun "anonymization" kemur frá seint 1990 í Massachusetts (Sweeney 2002) . The Group Insurance Commission (GIC) var ríkisstofnun sem ber ábyrgð á að kaupa sjúkratryggingar fyrir alla starfsmenn ríkisins. Með þessu starfi safnað GIC ítarlegum sjúkraskrám um þúsundir starfsmanna ríkisins. Til að hvetja til rannsókna ákvað GIC að sleppa þessum gögnum til vísindamanna. Hins vegar deila þeir ekki öllum gögnum þeirra; frekar, "anonymized" þau gögn með því að fjarlægja upplýsingar eins og nöfn og heimilisföng. Hins vegar skildu þeir aðrar upplýsingar sem þeir töldu geta verið gagnlegar fyrir vísindamenn eins og lýðfræðilegar upplýsingar (póstnúmer, fæðingardag, þjóðerni og kynlíf) og læknisfræðilegar upplýsingar (heimsóknargögn, greining, aðferð) (mynd 6.4) (Ohm 2010) . Því miður var þetta "nafnlaus" ekki nóg til að vernda gögnin.
Til að lýsa göllunum GIC "nafnlausingu", Latanya Sweeney-þá útskrifaðist námsmaður í MIT-greiddi $ 20 til að afla atkvæðagreiðslna úr borginni Cambridge, heimabæ Massachusetts Governor William Weld. Þessar atkvæðagreiðslur innihéldu upplýsingar eins og nafn, heimilisfang, póstnúmer, fæðingardag og kyn. Sú staðreynd að skrár læknisfræðinnar og kjósandaskráin deildu reiti-póstnúmer, fæðingardag og kynlíf-þýddi að Sweeney gæti tengt þá. Sweeney vissi að afmæli Weld var 31. júlí 1945 og atkvæðagreiðslur innihéldu aðeins sex manns í Cambridge með þeirri afmæli. Frekari, af þeim sex manns, voru aðeins þrír karlmenn. Og af þessum þremur mönnum, sendi aðeins einn deildarnúmer Welds. Þannig sýndu atkvæðagögnin að einhver í læknisfræðilegum gögnum með samsetningu Weld á fæðingardag, kyn og póstnúmer var William Weld. Í grundvallaratriðum veittu þessar þrjár upplýsingar upplýsingar einstakt fingrafar til hans í gögnum. Using this staðreynd, Sweeney var fær um að finna skrár Weld's, og að tilkynna honum af feat hennar, sendi hún honum afrit af skrám sínum (Ohm 2010) .
Verk Sweeney er sýnir undirstöðu uppbyggingu aftur kennsl árásir -til að samþykkja orð frá tölvu öryggi samfélagsins. Í þessum árásum eru tveir gagnasettir, sem hvorki af sjálfu sér viðkvæmar upplýsingar, tengdir, og með þessum tengslum eru viðkvæmar upplýsingar óvarðar.
Til að bregðast við Sweeneys verki og öðrum skyldum störfum, fjarlægja vísindamenn nú almennt miklu meiri upplýsingar - allar svokölluðu "persónuskilríkar upplýsingar" (PII) (Narayanan and Shmatikov 2010) - meðan á "nafnlausingu" stendur. átta sig nú á því að tiltekin gögn, svo sem læknisskýrslur, fjárskýrslur, svör við könnunarspurningum um ólöglegan hegðun, eru líklega of viðkvæm fyrir að gefa út, jafnvel eftir "nafnlausingu". Hins vegar eru dæmurnar sem ég ætla að gefa til kynna að félagsvísindamenn þurfi að breyta hugsun sinni. Sem fyrsta skrefið er skynsamlegt að gera ráð fyrir að öll gögn séu hugsanlega auðkennd og öll gögn geta verið viðkvæm. Með öðrum orðum, frekar en að hugsa um að upplýsingaáhætta eigi við um litla undirhóp verkefna, ættum við að gera ráð fyrir að það gildir, að einhverju leyti, fyrir öll verkefni.
Báðar hliðar þessa endurskipunar eru sýndar af Netflix-verðlaununum. Eins og lýst er í kafla 5, gaf Netflix út 100 milljón kvikmyndatölur hjá næstum 500.000 meðlimum og hafði opið símtal þar sem fólk frá öllum heimshornum sendi reiknirit sem gæti bætt Netflix getu til að mæla með kvikmyndum. Áður en gögnin voru sleppt Netflix engar augljós persónugreinanlegar upplýsingar, svo sem nöfn. Þeir fóru líka í aukalega skref og kynndu smá truflanir í sumum skrám (td að breyta sumum einkunnir úr 4 stjörnur í 3 stjörnur). Þeir uppgötvuðu þó fljótlega að þrátt fyrir viðleitni þeirra voru gögnin engu að síður nafnlaus.
Bara tvær vikur eftir að gögnin voru gefin út sýndu Arvind Narayanan og Vitaly Shmatikov (2008) að hægt væri að læra um kvikmyndastillingar tiltekinna fólks. The bragð til að endurgreina árás þeirra var svipað og Sweeney er: sameina saman tvær upplýsingar, einn með hugsanlega viðkvæmar upplýsingar og ekki augljóslega að finna upplýsingar og eitt sem inniheldur persónuskilríki fólks. Hver þessara gagnaheimilda kann að vera einstaklingsbundin, en þegar þau eru sameinuð getur sameinað gagnasett skapað upplýsingaáhættu. Þegar um er að ræða Netflix gögnin, þá er það hvernig það gæti gerst. Ímyndaðu þér að ég velji að deila hugsunum mínum um aðgerð og kvikmyndum með samstarfsfólki mínum, en ég vil frekar ekki deila skoðunum mínum um trúarleg og pólitísk kvikmyndir. Samstarfsmenn mínir gætu notað þær upplýsingar sem ég hef deilt með þeim til að finna færslur mínar í Netflix gögnum; þær upplýsingar sem ég deili gæti verið einstakt fingrafar eins og William Weld er fæðingardagur, póstnúmer og kynlíf. Þá, ef þeir fundu einstaka fingrafarið mitt í gögnum, gætu þeir lært einkunnarnar mínar um allar kvikmyndir, þar á meðal kvikmyndir sem ég kýs að deila ekki. Til viðbótar við þessa tegund af markvissum árásum sem einbeittu sér að einum einstaklingi sýndu Narayanan og Shmatikov einnig að hægt væri að gera víðtæka árás , þar með talið margir - með því að sameina Netflix gögnin með persónulegum og kvikmyndagögnum sem sumir hafa valið að setja inn á Internet Movie Database (IMDb). Einfaldlega er hægt að nota allar upplýsingar sem eru einstaka fingrafar til ákveðins manns, jafnvel þó að þær séu settar á kvikmyndatölur, til að auðkenna þau.
Jafnvel þótt Netflix gögnin geti verið endurkennt í annaðhvort markviss eða víðtæk árás, virðist það enn vera lágt áhætta. Eftir allt saman virðist kvikmyndatölur ekki mjög viðkvæm. Þó að þetta gæti verið satt almennt, fyrir suma 500.000 manna í gagnapakkanum, gæti kvikmyndatölur verið mjög viðkvæm. Í raun og veru, til að bregðast við endurgreiningunni, kom klæddur lesbísk kona í klaskupróf gegn Netflix. Hér er hvernig vandamálið var sett fram í málsókn sinni (Singel 2009) :
"[M] ovie og einkunnargögn innihalda upplýsingar um ... mjög persónulega og viðkvæma eðli. Þátttakendur í kvikmyndum félagsins afhjúpa persónulegan áhuga Netflix og / eða baráttu með ýmsum mjög persónulegum málum, þar með talið kynhneigð, geðsjúkdóma, bata frá áfengissýki og fórnarlömb vegna skaðlegra misnotkana, líkamlega ofbeldis, heimilisofbeldi, hórdómur og hórdóm. "
Endurkenning á Netflix-verðlaginu sýnir bæði að öll gögn séu hugsanlega auðkennd og að öll gögn séu hugsanlega viðkvæm. Á þessum tímapunkti gætir þú hugsað að þetta gildir aðeins um gögn sem eiga að vera um fólk. Furðu, það er ekki raunin. Til að bregðast við beiðni um frelsi upplýsingalaga gaf ríkisstjórnir New York út skrár yfir hverja leigubílaferð í New York árið 2013, þar með talin afhendingar- og brottfarartímabil, staðsetningar og fargjaldshlutfall (minnast frá 2. kafla sem Farber (2015) notað svipaðar upplýsingar til að prófa mikilvægar kenningar í vinnuaflsfræði). Þessar upplýsingar um leigubíla gætu virst góðkynja vegna þess að þeir virðast ekki veita upplýsingar um fólk, en Anthony Tockar áttaði sig á því að þessi leiga gagnasafns innihélt reyndar fullt af hugsanlega viðkvæmum upplýsingum um fólk. Til að sýna hann horfði á allar ferðir sem byrjaði í Hustler Club-stórri Strip Club í New York-á milli miðnætti og kl. 6 og þá funduðu brottfararstaðir þeirra. Þessi leit leiddi í ljós-lista yfir heimilisföng sumra manna sem heimsóttu Hustler Club (Tockar 2014) . Það er erfitt að ímynda sér að borgarstjórnin hefði þetta í huga þegar það gaf út gögnin. Reyndar er hægt að nota sömu tækni til að finna heimilisföng fólks sem heimsækir einhvern stað í borginni, læknismeðferð, ríkisstjórn eða trúarstofnun.
Þessar tvær tilfelli af Netflix-verðlaununum og New York City leigubílaupplýsingum sýna að tiltölulega hæfileikaríkir menn geta mistekist að meta réttar upplýsingar í upplýsingunum sem þeir gefa út - og þessi mál eru alls ekki einstök (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Enn fremur er í vandræðum slíkra vandamála ennþá frjálslega laus á netinu, sem gefur til kynna að erfitt sé að losna við gagnaútgáfu. Samanlagt, þessi dæmi - sem og rannsóknir á tölvunarfræði um einkalíf - leiða til mikilvægrar niðurstöðu. Vísindamenn ættu að gera ráð fyrir að öll gögn séu hugsanlega auðkennd og öll gögn geta verið viðkvæm.
Því miður er ekki einföld lausn á staðreyndum að öll gögn séu hugsanlega auðkennd og að öll gögn séu hugsanlega viðkvæm. Ein leið til að draga úr upplýsandi áhættu meðan þú vinnur með gögnum er að búa til og fylgja gagnaverndaráætlun . Þessi áætlun mun draga úr líkurnar á að gögnin þín leki og muni draga úr skaða ef leka kemur einhvern veginn fram. Sértæk gögn um verndun áætlana, svo sem hvaða dulkóðun sem á að nota, mun breytast með tímanum en bresku gagnaþjónustan skipuleggur gagnlega áherslur gagnaverndaráætlunar í fimm flokka sem þeir kalla á fimm öryggishólf : örugg verkefni, örugg fólk , öruggar stillingar, örugg gögn og örugg framleiðsla (tafla 6.2) (Desai, Ritchie, and Welpton 2016) . Ekkert af fimm öryggishólfunum á sér stað fullkomlega vernd. En saman myndast þau af öflugum þáttum sem geta dregið úr upplýsingaáhættu.
Öruggt | Aðgerð |
---|---|
Örugg verkefni | Takmarkar verkefni með gögnum til þeirra sem eru siðferðilegar |
Öruggt fólk | Aðgangur er takmarkaður við fólk sem er treyst á gögnum (td fólk sem hefur gengið í siðferðisþjálfun) |
Örugg gögn | Gögn eru de-greind og samanlagt að því marki sem hægt er |
Öruggar stillingar | Gögn eru geymd í tölvum með viðeigandi líkamlega (td læst herbergi) og hugbúnað (td lykilorð vernd, dulkóðuð) vernd |
Örugg framleiðsla | Rannsóknarframleiðsla er endurskoðuð til að koma í veg fyrir brot á persónuvernd fyrir slysni |
Auk þess að vernda gögnin þín meðan þú ert að nota þau, er eitt skref í rannsóknarferlinu þar sem upplýsingaáhætta er sérstaklega mikilvægt að deila gögnum með öðrum vísindamönnum. Gögnamiðlun meðal vísindamanna er kjarnagildi vísindalegra viðleitna og auðveldar það mjög framfarir þekkingar. Hér er hvernig í Bretlandi House of Commons lýst mikilvægi gagna hlutdeildar (Molloy 2011) :
"Aðgangur að gögnum er grundvallaratriði ef vísindamenn eru að endurskapa, sannreyna og byggja á niðurstöðum sem greint er frá í bókmenntum. Forsendan verður að vera að, nema það sé sterk ástæða annars, ætti að birta gögn að fullu og gera það aðgengilegt öllum. "
Samt, með því að deila gögnunum þínum með öðrum rannsóknum geturðu aukið upplýsingaáhættu fyrir þátttakendur þína. Þannig kann að virðast að samnýting gagna skapar grundvallar spennu milli skyldu að miðla gögnum við aðra vísindamenn og skyldu til að lágmarka upplýsingaáhættu fyrir þátttakendur. Sem betur fer er þetta vandamál ekki eins alvarlegt og það virðist. Í staðinn er betra að hugsa um samnýtingu gagna sem falla eftir samfellu, með hverju stigi á því samfellu sem gefur mismunandi blöndu af samfélagslegum ávinningi og áhættu fyrir þátttakendur (mynd 6.6).
Að lokum er hægt að deila upplýsingum þínum með enginn, sem dregur úr áhættu fyrir þátttakendur en einnig dregur úr hagnað samfélagsins. Í hinum öfgaminu geturðu sleppt og gleymt , þar sem gögn eru "nafnlaus" og birt fyrir alla. Í samanburði við ekki að gefa út gögn, sleppa og gleyma býður bæði meiri ávinning fyrir samfélagið og meiri áhættu fyrir þátttakendur. Á milli þessara tveggja erfiðustu tilfella eru ýmsar blendingar, þar með talin það sem ég hringi í í Walled Garden nálgun. Samkvæmt þessari aðferð eru gögn samnýtt með fólki sem uppfyllir ákveðnar viðmiðanir og sem samþykkir að vera bundinn af ákveðnum reglum (td eftirlit með IRB og verndaráætlun). The Walled Garden nálgun veitir mörgum af ávinningi af losun og gleyma með minni áhættu. Auðvitað skapar slík nálgun margar spurningar - hver ætti að hafa aðgang, undir hvaða skilyrðum og hversu lengi, hver ætti að borga til að viðhalda og lögregla veggvegginn garðinn osfrv. En þetta eru ekki óyfirstíganlegar. Reyndar eru nú þegar vinnandi veggjagarðar á sínum stað, sem vísindamenn geta notað núna, svo sem gagnageymslu Inter-háskólahópsins um stjórnmála- og félagsleg rannsóknir við háskólann í Michigan.
Svo, hvar ætti gögnin úr námi þínu að vera á samfellu án samnýtingar, úthverðar garðar og sleppa og gleyma? Þetta fer eftir upplýsingum um gögnin þín: Rannsakendur verða að bera saman virðingu fyrir einstaklingum, góðvild, réttlæti og virðingu fyrir lögum og almannahagsmunum. Skoðað af þessu sjónarhorni er gagnaflutningur ekki sérstakt siðferðislegt áróður; Það er bara ein af mörgum þáttum rannsókna þar sem vísindamenn þurfa að finna viðeigandi siðferðilega jafnvægi.
Sumir gagnrýnendur eru almennt andvígir gagnadeild vegna þess að þeir eru að einbeita sér að áhættum sínum - sem eru án efa alvöru - og hunsa kosti þess. Svo, til að hvetja áherslu á bæði áhættu og ávinning, vil ég bjóða upp á hliðstæðu. Á hverju ári eru bílar ábyrgir fyrir þúsundum dauðsfalla, en við reynum ekki að banna akstur. Í staðreynd, kalla til að banna akstur væri fáránlegt vegna þess að akstur gerir margar dásamlegar hluti. Frekar setur samfélagið takmarkanir á hverjir geta keyrt (td þörf á að vera ákveðinn aldur og að standast ákveðnar prófanir) og hvernig þeir geta drifið (td undir hámarkshraða). Samfélagið hefur einnig fólk sem hefur það verkefni að framfylgja þessum reglum (td lögreglu) og við refsa fólki sem er veiddur brjóta gegn þeim. Sama konar jafnvægi sem samfélagið á við um að stjórna akstri er einnig hægt að nota til að deila gögnum. Það er frekar en að gera algerlega rök fyrir eða gegn gagnaflutningi, ég held að við munum ná sem bestum árangri með því að einblína á hvernig við getum dregið úr áhættunni og aukið ávinninginn af gögnum deilingar.
Að lokum hefur upplýsingaáhætta aukist verulega og það er mjög erfitt að spá fyrir um og mæla. Því er best að gera ráð fyrir að öll gögn séu hugsanlega auðkennd og hugsanlega viðkvæm. Til að draga úr upplýsandi áhættu meðan á rannsóknum stendur geta vísindamenn búið til og fylgst með gagnaverndaráætlun. Ennfremur kemur upplýsingaáhætta ekki í veg fyrir að vísindamenn geti sent gögn með öðrum vísindamönnum.