Мэдээллийн эрсдэл бол нийгмийн судалгааны хамгийн түгээмэл эрсдэл юм. Энэ нь эрс өссөн; Энэ нь ойлгох хамгийн хэцүү зүйл.
Дижитал-насны судалгаанд зориулсан ёс зүйн хоёрдахь асуудал бол мэдээллийн эрсдэл бөгөөд мэдээлэл задруулахаас үүдсэн хор хөнөөлийн магадлал (National Research Council 2014) . Хувийн мэдээллийг задруулахаас үүдэлтэй мэдээллийн хор хөнөөл нь эдийн засаг (жишээ нь, ажил хаялт), нийгмийн (жишээ нь, ичгүүр), сэтгэл зүйн (жишээ нь, сэтгэл гутрал), эсвэл бүр гэмт хэрэгт (жишээ нь, хууль бус зан үйлдэл баривчлах гэх мэт) байж болно. Харамсалтай нь тоон мэдээлэл нь мэдээллийн эрсдлийг ихээхэн нэмэгдүүлдэг бөгөөд бидний зан төлвийн талаархи илүү их мэдээлэл байдаг. Мэдээллийн эрсдэл нь физик эрсдлийн зэрэг аналоги үеийн нийгмийн судалгаанд хамаатай эрсдэлтэй харьцуулахад ойлгох, удирдахад маш хэцүү байдаг.
Нийгмийн судлаачид мэдээллийн эрсдэлийг бууруулах нэг арга зам нь мэдээлэл "anonymization" юм. "Anonymization" гэх нэр, хаяг, өгөгдлийг нь утасны дугаар гэх мэт тодорхой хувийн таних арилгах үйл явц юм. Гэсэн хэдий ч энэ арга нь гүн ба үндсээр нь хязгаарлагдмал, олон хүн ойлгож хамаагүй бага үр дүнтэй байдаг бөгөөд энэ нь үнэндээ юм. Тиймээс, би тайлбарлах үед "anonymization," Би хашилтанд та нарт сануулах энэ үйл явц нь үнэн нууцлалыг нэрээ харагдах биш харин бий болгодог бас хэрэглэж болно.
"Нэрийг үл таних" бүтэлгүйтэл гэдэг тод жишээ нь Массачусетс муж улс дахь 1990-ээд оны сүүлээс ирсэн (Sweeney 2002) . Групп Даатгалын Комисс нь Глобал Даатгалын Комисс юм. Энэхүү ажлын үр дүнд ГЗХ нь төрийн албан хаагчдын эрүүл мэндийн дэлгэрэнгүй мэдээллийг цуглуулсан. Судалгаа хөнгөвчлөхийн тулд ГМС нь эдгээр баримтыг судлаачид гаргахаар шийдсэн. Гэсэн хэдий ч тэд өөрсдийн бүх мэдээллийг хуваалцаагүй; Харин эдгээр нэр, хаяг гэх мэт мэдээллийг хасч эдгээр "нэрийг нь" нэрлэдэг. Гэсэн хэдий ч хүн ам зүйн мэдээлэл (зип код, төрсөн он сар өдөр, үндэс угсаа, хүйс), эмнэлгийн мэдээлэл (өгөгдөл, оношлогоо, процедур) (Зураг 6.4) зэрэг судлаачдын хувьд хэрэгтэй гэж үзсэн бусад мэдээлэл орхигдсон (Зураг 6.4 (Ohm 2010) . Харамсалтай нь энэхүү "нууцлал" нь өгөгдлийг хамгаалахад хангалтгүй юм.
GIC-ийн "нэрээ нууцлах" дутагдалыг тайлбарлахын тулд MIT-д 20 долларын цалинтай оюутнууд Массачусетс мужийн захирагч William Weld-ийн Кэмбриж хотоос санал хураалтын дүн бүртгэлийг олж авахаар бэлтгэжээ. Эдгээр санал хураалтын бүртгэл нь нэр, хаяг, зип код, төрсөн огноо, хүйс гэх мэт мэдээллийг оруулсан. Эмнэлгийн өгөгдлийн файл болон сонгогчийн файлын төрлүүд-кодын код, төрсөн он сар өдөр, хүйс зэргийг хуваалцсан нь Sweeney тэднийг холбож болох юм. Свини 1945 оны долдугаар сарын 31-нд төрсөн өдрийн мэндийг мэддэг байсан бөгөөд санал хураалтын баримтууд нь Кембридж дээр төрсөн зургаан хүний дотор байсан юм. Үүнээс гадна зургаан хүний 3 нь эрэгтэй байв. Мөн эдгээр гурван хүний зөвхөн ганцхан Weld-ийн zip кодыг хуваалцсан. Тиймээс, санал асуулгын дата нь Weld-ийн төрсөн огноо, хүйс, зип кодтой хослуулсан эмнэлгийн өгөгдөлд хэн ч байсан гэдгийг William Weld тэмдэглэсэн байна. Үнэн чанартаа, эдгээр гурван төрлийн мэдээлэл нь өгөгдөлд өөртөө хурууны хээг өгсөн байна. Энэ баримтыг ашиглан Sweeney Weld-ийн эмнэлгийн бүртгэлийг олж чадсан бөгөөд түүний амжилтанд хүрсэн тухайгаа мэдэгдэж, түүндээ түүний бичлэгийн хуулбарыг илгээсэн (Ohm 2010) .
Sweeney-ийн ажил нь дахин таних довтолгооны үндсэн бүтцийг харуулж байна. Эдгээр халдлагад хоёр өгөгдлийн олонлог байдаг бөгөөд эдгээр нь эмзэг мэдээлэл илэрдэг, хоорондоо холбоотой, энэ холбоосоор эмзэг мэдээлэл илэрдэг.
Свинейгийн ажил болон бусад холбогдох ажлуудын хариуд эрдэмтэд "нэрийг нууцлах" процессын дагуу "биечлэн танин мэдэх мэдээлэл" (PII) (Narayanan and Shmatikov 2010) илүү ихийг устгаж байна. Үүнээс гадна олон судлаач Одоо эрүүл мэндийн бүртгэл, санхүүгийн бүртгэл, хууль бус зан авирын талаархи судалгааны асуултын хариулт гэх мэт тодорхой мэдээлэл нь "нэрээ нууцалсан" дараа ч суллахад хэтэрхий эмзэг байна гэдгийг ойлгож болно. Гэхдээ би энэ талаархи нийгмийн жишээ судлаачид тэдний бодлыг өөрчлөх. Эхний алхам болгож, энэ нь бүх өгөгдөл болзошгүй тодорхойлж байдаг бөгөөд бүх өгөгдөл болзошгүй мэдрэмтгий байдаг гэж үзэх нь ухаалаг хэрэг юм. Єєрєєр хэлбэл, мэдээллийн эрсдэл нь тєсєл багатай тєсєлд хамаатай гэж їздэгээс биш, бїх тєслїїдэд тодорхой хэмжээгээр хамаарах болно гэж бид тооцох ёстой.
Энэ чиг хандлагын аль алиныг Netflix шагналын аргаар харуулсан болно. 5-р бүлэгт өгүүлсэнчлэн, Netflix 500,000 гишүүний өгсөн 100 сая киноны үнэлгээг гаргасан ба дэлхий даяар байгаа хүмүүс Netflix-ийн киног санал болгох чадварыг сайжруулах алгоритмийг илгээсэн нээлттэй дуудлагатай байсан. Өгөгдлийг гаргахаасаа өмнө Netflix нэрийг таних гэх мэт мэдэгдэж буй мэдээллийг устгасан. Тэд бас нэмэлт алхам хийж, зарим рекордуудад бага зэрэг саад учруулсан. (Жишээлбэл, 4 одоос 3 одоос зарим рейтингийг өөрчлөх). Гэсэн хэдий ч, тэдний хүчин чармайлтыг үл харгалзан мэдээлэл нь үл мэдэгдэх нэрээр үлдсэнийг удалгүй олж тогтоосон байна.
Өгөгдөл гаргасны дараа ердөө хоёрхон долоо хоногийн дараа Arvind Narayanan болон Виталий Шматиков (2008) тодорхой хүмүүсийн киноны сонирхлыг судлах боломжтой гэдгийг харуулсан. Тэднийг дахин таних довтолгоо руу шилжих нь Sweeney-ийнхтэй адил юм: мэдээллийн хоёр эх үүсвэрийг нэгтгэх, магадгүй эмзэг мэдээллийг агуулсан, мэдээллийн шинжийг тодорхойлдоггүй, хүмүүсийн хувийн шинж чанарыг агуулдаггүй. Эдгээр мэдээллийн эх үүсвэр бүр нь тусдаа аюулгүй байж болох боловч тэдгээрийг нэгтгэх үед нийлмэл өгөгдлийн сан нь мэдээллийн эрсдэл үүсгэдэг. Netflix өгөгдөлийн хувьд энэ нь хэрхэн болж болох вэ. Би хамтран ажиллагсадтайгаа кино, киноны хошин шогийн талаар бодлоо хуваалцахаар сонгосон гэж бодож байгаа ч шашны болон улс төрийн киноны талаарх миний бодлыг хуваалцахыг хүсэхгүй байна. Хамтран ажиллагсад миний Netflix өгөгдөл дэх миний бүртгэлийг олохын тулд тэдэнтэй хуваалцсан мэдээллээ ашиглах боломжтой; Миний хуваалцсан мэдээллүүд нь William Weld-ийн төрсөн он сар өдөр, зип код, хүйс зэрэг өвөрмөц хурууны хээ юм. Дараа нь, тэд миний өгөгдөлд хурууны хээ оролдлого олсон бол тэд миний кинонууд, миний хуваалцахаар сонгосон кинонуудын талаар рейтинг мэдэх боломжтой. Үүнээс гадна Narayanan, Shmatikov гэх мэт нэг зорилтот халдлагаас гадна олон хүнийг хамарсан өргөн халдлага хийх боломжтой гэж үзсэн нь Netflix-ийн өгөгдлийг нэгтгэсэн хувийн болон киноны рейтингийн мэдээллийг ашиглан зарим хүмүүсийн сонгосон Интернетийн киноны мэдээллийн сан (IMDb) дээр байршуулах. Зүгээр л тодорхой этгээдэд, тэр ч байтугай кино рейтингийн багц хурууны хээ нь аливаа мэдээллийг олж авахад ашиглаж болно.
Хэдийгээр Netflix-ийн өгөгдлийг зорилтот эсвэл өргөн цар хүрээтэй халдлагад дахин тодорхойлох боломжтой ч эрсдэл багатай хэвээр байж магадгүй юм. Эцсийн эцэст киноны рейтинг маш мэдрэмтгий байдаггүй. Энэ нь мэдээллийн сан дахь 500,000 хүний зарим нь үнэн байж болох ч киноны рейтинг мэдрэмтгий байж магадгүй юм. Үнэнийг танихын тулд лесбиян эмэгтэй Netflix-ийн эсрэг ангийн арга хэмжээний нэхэмжлэлд орсон. Асуудлыг тэдний шүүх ажиллагаанд хэрхэн тусгасан бэ (Singel 2009) :
"[M] ovie болон рейтингийн өгөгдөл нь хувийн болон мэдрэмтгий шинж чанартай холбоотой мэдээллийг агуулдаг. Гишүүний киноны өгөгдөл нь Netflix-ийн хувийн сонирхол, бэлгийн харьцаа, сэтгэцийн өвчин, архидан согтуурахаас сэргийлж, бэлгийн хүчирхийлэл, хүчирхийлэл, хүчирхийлэл, гэр бүлийн хүчирхийлэл, завхайрал, хүчирхийлэл зэрэг хувийн чанартай асуудлуудтай тулгарч байдаг.
Netflix шагналын өгөгдлийг дахин тодорхойлох нь бүх өгөгдөл нь тодорхойлогдож болзошгүй бөгөөд бүх өгөгдөл нь эмзэг байж болзошгүйг харуулж байна. Энэ үед хүмүүс зөвхөн хүмүүсийн талаархи өгөгдөлд л хамаарна гэж бодож магадгүй. Гайхалтай нь энэ нь тийм биш юм. Мэдээллийн эрх чөлөөний тухай хуулийн хүсэлтийн дагуу Нью-Йорк хотын засаг захиргаа 2013 онд Нью-Йорк хотод таксигаар явган зорчигчдын бүртгэлийг гаргасан бөгөөд үүнд пикап, цаг хугацаа, байршил, үнэ Farber (2015) 2-р бүлэгт эргэн санах Farber (2015) хөдөлмөрийн эдийн засгийн чухал онолын онолыг шалгахын тулд ижил төстэй өгөгдлийг ашигласан). Таксины аялал жуулчлалын талаарх эдгээр мэдээлэл нь хүмүүсийг мэдээллээр хангадаггүй мэт харагдуулдаг, гэхдээ Антонио Токарар энэ таксины өгөгдлийн сан нь хүмүүсийг бодвол маш эмзэг мэдээлэл агуулж байгааг ойлгосон. Үүний хариуд тэрээр Нью-Йоркийн томоохон зурвасын клубын Хастлер клубээс эхлээд шөнө дундын оройн 6 цаг хүртэлх бүх аялалыг харсан. Энэхүү хайлт нь Хаслерийн клубт зочлон ирдэг зарим хүмүүсийн хаяг (Tockar 2014) мөн чанарыг илчилсэн юм. Хотын захиргаа энэ мэдээллийг гаргасныхаа дараа үүнийг бодсон гэж төсөөлөхөд хэцүү байдаг. Үнэндээ энэ аргыг хотын эмнэлэг, засгийн газрын барилга, шашны институтын аль ч газарт очдог хүмүүсийн хаягуудыг олоход ашиглаж болно.
Netflix Prize болон Нью Йорк Хотын такситай холбоотой хоёр тохиолдол нь харьцангуй чадварлаг хүмүүс задардаг өгөгдөлдөө мэдээллийн эрсдэлийг зөв тооцоолоогүй байж болох бөгөөд эдгээр тохиолдлууд өвөрмөц бус (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Цаашлаад иймэрхүү бэрхшээлтэй асуудлууд нь онлайнаар чөлөөтэй байх боломжтой тул өгөгдөл гаргахгүй байх бэрхшээлийг харуулж байна. Эдгээр жишээнүүд, түүнчлэн хувийн нууцлалын тухай компьютерийн шинжлэх ухааны судалгаа нь чухал дүгнэлтийг хүргэж байна. Судлаачид бүх өгөгдөл болзошгүй тодорхойлж байдаг бөгөөд бүх өгөгдөл болзошгүй мэдрэмтгий байдаг гэж байх ёстой.
Харамсалтай нь, бүх өгөгдөл нь магадгүй тодорхойлогдож болох бөгөөд бүх өгөгдөл мэдрэмтгий байж болзошгүй баримтуудад хялбар шийдэл байдаггүй. Гэсэн хэдий ч та өгөгдөлтэй ажиллах явцад мэдээллийн эрсдэлийг бууруулах нэг арга зам бол өгөгдөл хамгаалах төлөвлөгөө боловсруулах , дагах явдал юм. Энэ төлөвлөгөө нь таны өгөгдөл алдагдах магадлалыг бууруулж, алдагдсан тохиолдолд ямар нэгэн хор хөнөөл учруулах болно. Өгөгдөл хамгаалах төлөвлөгөөний онцлог, жишээ нь ямар шифрлэлтийн хэлбэр нь цаг хугацааны явцад өөрчлөгдөж болох боловч Их Британий өгөгдлийн үйлчилгээ нь өгөгдлийг хамгаалах төлөвлөгөөний элементүүдийг таван аюулгүй байдлыг хангахад чиглэсэн дараах таван төрөлд зохион байгуулагддаг: аюулгүй төслүүд, аюулгүй хүмүүс , аюулгүй байдлын тохиргоо, аюулгүй өгөгдөл, аюулгүй гаралт (хүснэгт 6.2) (Desai, Ritchie, and Welpton 2016) . Таван Сейфийн аль нь ч төгс хамгаалахгүй. Гэхдээ тэд хамтдаа мэдээллийн эрсдэлийг бууруулж чадах хүчирхэг багц хүчин зүйлсийг бий болгодог.
Аюулгүй | Үйлдэл |
---|---|
Аюулгүй төслүүд | Төсөлтэй холбоотой өгөгдлүүдийг ёс зүйтэй хүмүүстэй хязгаарлах |
Аюулгүй хүмүүс | Өгөгдөлд итгэх боломжтой хүмүүст хандалт хийх нь хязгаарлагдмал (тухайлбал, ёс зүйн сургалтанд хамрагдсан хүмүүс) |
Аюулгүй өгөгдөл | Өгөгдлийг боломжийн хэрээр тодорхойлж, нэгтгэсэн байна |
Аюулгүй тохиргоо | Өгөгдлийг зохих физик (жишээ нь, цоожтой өрөө), програм хангамж (нууц үг хамгаалах, шифрлэсэн) хамгаалагдсан компьютерт хадгална |
Аюулгүй бүтээгдэхүүн | Судалгааны үр дүнг хянаж, санамсаргүй тохиолдлоор зөрчигдөхөөс урьдчилан сэргийлэх |
Тэдгээрийг ашиглаж байх явцад таны өгөгдлийг хамгаалахын зэрэгцээ мэдээллийн эрсдлийн онц чухал тал нь бусад судлаачидтай өгөгдөл солилцох явдал юм. Эрдэмтдийн хооронд мэдээлэл солилцох нь шинжлэх ухааны хүчин чармайлтын үндсэн үнэ цэнэ бөгөөд мэдлэгийг хөгжүүлэхэд маш ихээр тусалдаг. Их Британий Сангийн яам мэдээллийн солилцооны ач холбогдлыг тодорхойлсон (Molloy 2011) :
"Судлаачид бүтээлийг хэвлэн нийтлэх, баталгаажуулах, хэвлэн нийтлэхэд гарсан үр дүнд тулгуурлан өгөгдөлд нэвтрэх нь суурь юм. Таамаглал нь өөрөөр хэлбэл хүчтэй шалтгаан байхгүй бол өгөгдлийг бүрэн нийтэлж, нийтэд нээлттэй байлгах ёстой "гэжээ.
Гэсэн хэдий ч таны өгөгдлийг өөр нэг судлаачтай хуваалцах замаар таны оролцогчид мэдээллийн эрсдэлийг нэмэгдүүлж болзошгүй. Тиймээс мэдээлэл солилцох нь бусад эрдэмтэдтэй өгөгдлөө хуваалцах үүрэг, оролцогчдод мэдээллийн эрсдлийг багасгах үүрэг хариуцлагын хоорондын үндсэн хурцадмал байдлыг үүсгэдэг мэт санагдаж болох юм. Аз болоход, энэ нь хүндрэлтэй мэт харагдахгүй байсан. Харин өгөгдөл солилцох нь тасралтгүй үргэлжлэх явцад гарч буй өгөөжийн талаар бодож үзэх нь илүү дээр бөгөөд энэ нь үргэлжлүүлэн нийгэмд үзүүлж буй ашиг тус, оролцогчдод учрах эрсдлийг өөр өөрөөр олгож байгаа цэг бүр дээр бодох нь зүйтэй юм (Зураг 6.6).
Гэсэн хэдий ч та өөрийн мэдээллийг хэн ч үгүй хуваалцаж болох бөгөөд энэ нь оролцогчдод учрах эрсдлийг багасган нийгэмд хүртэх боломжийг багасгадаг. Нөгөө талаас, өгөгдөл нь "нэргүй хүн" -ийг хаанаас чөлөөлж, мартах боломжтой. Өгөгдөл гаргахгүй байх, суллах болон мартахын тулд нийгэмд өндөр ашиг тусыг өгч, оролцогчдод илүү их эрсдэл өгдөг. Эдгээр хоёр онцгой тохиолдлын хооронд гибридийн олон янз байдал байдаг бөгөөд үүнд би цэцэрлэгийн аргыг хэрэглэдэг. Энэ аргын дагуу өгөгдлийг тодорхой шалгууртай нийцсэн хүмүүстэй хуваалцаж, тодорхой дүрмээр зохицуулахаар тохиролцсон хүмүүс (жишээ нь, IRB-ийн хяналт, өгөгдөл хамгаалах төлөвлөгөө). Хананы цэцэрлэгт хандах хандлага нь сул талыг олон хувилбараар хангаж, бага эрсдэлийг мартаж чаддаг. Мэдээжийн хэрэг, ийм арга барил нь ямар нөхцөлд, ямар нөхцөл байдалд, хэн хэр удаан хангаж, хана цэцэрлэгийг цагдан сэргийлэх, цагдаад төлөх ёстой вэ гэсэн олон асуултыг бий болгодог. Гэхдээ эдгээр нь даван туулах боломжгүй зүйл биш юм. Мичиганы Их Сургуулийн Олон Улсын Консерциумын Улс төрийн болон Нийгмийн Судалгааны Институтын мэдээллийн архив зэрэг яг одоо ашиглагдаж байгаа ханатай цэцэрлэгүүд ажиллаж байна.
Тэгэхээр, таны судалж буй өгөгдлүүд хуваалцах, ханатай цэцэрлэгийг үргэлжлүүлэх, суллах, мартах талаар хаана байх ёстой вэ? Энэ нь таны өгөгдлийн дэлгэрэнгүй мэдээлэлээс хамаарна: судлаачид хууль, олон нийтийн ашиг сонирхол, хүндэтгэх, шударга ёс, хүндэтгэхийг хүндэтгэх ёстой. Энэхүү үзэл баримтлалаас харахад мэдээлэл солилцох нь ёс зүйн онцгой шинжтэй биш юм. Энэ нь судлаачдын зохих ёс суртахууны тэнцвэрийг олохын тулд судалгааны олон талын нэг л зүйл юм.
Зарим шүүмжлэгчид ерөнхийдөө өгөгдөл хуваахтай зөрчилддөг учраас миний бодлоор тэд эрсдэлдээ төвлөрдөг бөгөөд энэ нь эргэлзээгүй бодит бөгөөд түүний ач холбогдлыг үл тоомсорлодог. Тиймээс, эрсдэл, үр өгөөж хоёуланг нь анхаарахын тулд би адил төсөөллийг санал болгохыг хүсч байна. Жил бүр олон мянган машин жолоодож байгаа ч бид машин жолоодохыг хориглодоггүй. Үнэндээ жолоодлогыг хориглох дуудлага нь олон гайхамшигтай зүйлсийг жолоодоход хүргэдэг учир утгагүй юм. Харин нийгмийн зүгээс хэн жолоодох талаар хязгаарлалт тавьдаг (жишээ нь, тодорхой нас байх шаардлагатай, тодорхой сорилтыг давж гарсан байх ёстой), хэрхэн жолоодох вэ (жишээлбэл, хурдны хязгаарын хүрээнд). Нийгэмд эдгээр дүрмийг (жишээ нь, цагдаа) мөрдүүлэх үүрэг хүлээдэг хүмүүс байдаг бөгөөд тэднийг зөрчсөн хүмүүсийг шийтгэдэг. Нийтийн жолоодлогыг зохицуулах талаархи нийгмийн тэнцвэртэй үзэл бодлыг мөн адил өгөгдөл солилцоход ашиглаж болно. Өөрөөр хэлбэл, өгөгдөл солилцохын тулд үнэмлэхүй аргументуудыг гаргахын оронд эрсдлийг бууруулж, өгөгдлийг хуваалцах үр өгөөжийг хэрхэн нэмэгдүүлэх талаар анхаарлаа хандуулах нь хамгийн их ахиц дэвшил гаргах болно гэж би бодож байна.
Дүгнэж хэлэхэд, мэдээллийн эрсдэл эрс өсч, таамаглаж, тоо бодох нь маш хэцүү байдаг. Тиймээс, бүх өгөгдлүүд нь магадгүй тодорхойлогдож болзошгүй, мэдрэмтгий байх боломжтой гэж үздэг. Судалгаа хийх явцад мэдээллийн эрсдэлийг бууруулахын тулд судлаачид өгөгдөл хамгаалах төлөвлөгөөг боловсруулж мөрдөж болно. Цаашилбал, мэдээллийн эрсдэл нь судлаачид бусад эрдэмтэдтэй өгөгдлийг хуваалцахыг хориглодоггүй.