ហានិភ័យព័ត៌មានគឺជាហានិភ័យទូទៅបំផុតនៅក្នុងការស្រាវជ្រាវសង្គម។ វាបានកើនឡើងយ៉ាងខ្លាំង។ ហើយវាជាការលំបាកបំផុតក្នុងការយល់។
បញ្ហាប្រឈមផ្នែកសីលធម៌ទីពីរសម្រាប់ការស្រាវជ្រាវតាមឌីជីថលគឺជា ហានិភ័យព័ត៌មាន ដែលជាសក្តានុពលសម្រាប់គ្រោះថ្នាក់ពីការបង្ហាញព័ត៌មាន (National Research Council 2014) ។ ផលប៉ះពាល់ព័ត៌មានពីការបញ្ចេញព័ត៌មានផ្ទាល់ខ្លួនអាចជាសេដ្ឋកិច្ច (ឧ។ បាត់បង់ការងារ) សង្គម (ឧទាហរណ៍ភាពអាម៉ាស់) ផ្លូវចិត្ត (ឧ។ ជំងឺធ្លាក់ទឹកចិត្ត) ឬសូម្បីតែឧក្រិដ្ឋកម្ម (ឧ។ ការចាប់ខ្លួនចំពោះអាកប្បកិរិយាខុសច្បាប់) ។ ជាអកុសលយុគសម័យឌីជីថលបង្កើនហានិភ័យព័ត៌មានយ៉ាងច្រើន - មានព័ត៌មានច្រើនអំពីឥរិយាបថរបស់យើង។ និងហានិភ័យព័ត៌មានបានបង្ហាញឱ្យឃើញនូវការពិបាកក្នុងការយល់ដឹងនិងគ្រប់គ្រងបើប្រៀបធៀបទៅនឹងហានិភ័យដែលជាកង្វល់ក្នុងការស្រាវជ្រាវសង្គមដែលមានអាយុស្រឡាងដូចជាហានិភ័យរាងកាយ។
វិធីមួយដែលក្រុមអ្នកស្រាវជ្រាវសង្គមបន្ថយហានិភ័យក្រៅផ្លូវការគឺ "អនាមិក" នៃទិន្នន័យ។ "អនាមិក" គឺជាដំណើរការនៃការយកចេញអត្តសញ្ញាណផ្ទាល់ខ្លួនជាក់ស្តែងដូចជាឈ្មោះអាសយដ្ឋាននិងលេខទូរស័ព្ទពីទិន្នន័យនេះ។ ទោះជាយ៉ាងណាវិធីសាស្រ្តនេះគឺមានច្រើនតិចមានប្រសិទ្ធភាពជាងដែលមនុស្សជាច្រើនបានដឹងហើយវាគឺជាការពិត, យ៉ាងជ្រាលជ្រៅនិងបានកំណត់ជាមូលដ្ឋាន។ សម្រាប់ហេតុផលនោះ, នៅពេលណាដែលខ្ញុំបានរៀបរាប់អំពី "ការអនាមិកថា: «ខ្ញុំនឹងប្រើសញ្ញាសម្រង់ដើម្បីរំលឹកអ្នកថាដំណើរការនេះនឹងបង្កើតរូបរាងសុំមិនបញ្ចេញឈ្មោះប៉ុន្តែមិនបានសុំមិនបញ្ចេញឈ្មោះពិត។
ឧទាហរណ៍ដ៏រស់រវើកមួយនៃការបរាជ័យនៃការ "អនាមិក" បានមកពីចុងទសវត្សឆ្នាំ 1990 នៅម៉ាសាឈូសេត (Sweeney 2002) ។ គណៈកម្មការធានារ៉ាប់រងក្រុម (GIC) គឺជាភ្នាក់ងាររបស់រដ្ឋាភិបាលដែលទទួលខុសត្រូវក្នុងការទិញធានារ៉ាប់រងសុខភាពសម្រាប់បុគ្គលិករដ្ឋទាំងអស់។ តាមរយៈការងារនេះ GIC បានប្រមូលកំណត់ត្រាសុខភាពលម្អិតអំពីបុគ្គលិករដ្ឋរាប់ពាន់នាក់។ ក្នុងកិច្ចខិតខំប្រឹងប្រែងដើម្បីជំរុញការស្រាវជ្រាវអង្គការ GIC បានសម្រេចចិត្តបញ្ចេញកំណត់ត្រាទាំងនេះដល់អ្នកស្រាវជ្រាវ។ ទោះយ៉ាងណាក៏ដោយពួកគេមិនបានចែករំលែកទិន្នន័យរបស់ពួកគេទាំងអស់ទេ។ ផ្ទុយទៅវិញពួកគេបាន "ធ្វើអនាមិក" ទិន្នន័យទាំងនេះដោយការយកព័ត៌មានដូចជាឈ្មោះនិងអាសយដ្ឋាន។ ទោះជាយ៉ាងណាក៏ដោយពួកគេបានទុកព័ត៌មានផ្សេងទៀតដែលពួកគេគិតថាអាចមានប្រយោជន៍សម្រាប់អ្នកស្រាវជ្រាវដូចជាព័ត៌មានប្រជាសាស្ត្រ (លេខកូដតំបន់ថ្ងៃខែឆ្នាំកំណើតជាតិសាសន៍និងការរួមភេទ) និងពត៌មានវេជ្ជសាស្រ្ត (ទិន្នន័យមើលការធ្វើរោគវិនិច្ឆ័យនិងនីតិវិធី) (រូបភាព 6.4) (Ohm 2010) ។ ជាអកុសលភាពអនាមិកនេះមិនគ្រប់គ្រាន់ដើម្បីការពារទិន្នន័យទេ។
ដើម្បីបង្ហាញអំពីភាពខ្វះខាតរបស់ GIC "ភាពអនាមិក" Latanya Sweeney ដែលជានិស្សិតបញ្ចប់ការសិក្សានៅ MIT បង់ប្រាក់ 20 ដុល្លារដើម្បីទទួលបានកំណត់ត្រាបោះឆ្នោតពីទីក្រុង Cambridge ដែលជាស្រុកកំណើតរបស់អភិបាលរដ្ឋ Massachusetts លោក William Weld ។ កំណត់ត្រាបោះឆ្នោតទាំងនេះរួមមានព័ត៌មានដូចជាឈ្មោះអាសយដ្ឋានលេខកូដប្រៃសណីយ៍ថ្ងៃខែឆ្នាំកំណើតនិងភេទ។ ការពិតដែលថាឯកសារទិន្នន័យសុខាភិបាលនិងឯកសារអ្នកបោះឆ្នោតបានចែកចាយលេខកូដប្រៃសណីយ៍ថ្ងៃខែឆ្នាំកំណើតនិងការរួមភេទមានន័យថា Sweeney អាចភ្ជាប់ពួកគេបាន។ Sweeney បានដឹងថាខួបកំណើតរបស់លោក Weld គឺថ្ងៃទី 31 ខែកក្កដាឆ្នាំ 1945 ហើយកំណត់ត្រាបោះឆ្នោតរាប់បញ្ចូលទាំងមនុស្ស 6 នាក់នៅខេមប្រ៊ីជជាមួយថ្ងៃខួបកំណើតនោះ។ លើសពីនេះទៅទៀតក្នុងចំណោមមនុស្ស 6 នាក់នោះមានតែបុរស 3 នាក់ប៉ុណ្ណោះ។ ហើយក្នុងចំណោមបុរសទាំងបីនោះមានតែលេខមួយតែប៉ុណ្ណោះដែលបានចែករំលែកលេខកូដតំបន់របស់វ៉ែល។ ដូច្នេះទិន្នន័យបោះឆ្នោតបានបង្ហាញថានរណាម្នាក់នៅក្នុងទិន្នន័យសុខាភិបាលដែលរួមបញ្ចូលថ្ងៃកំណើតភេទនិងលេខកូដប្រៃសណីយ៍វ៉ែលគឺវីលៀមវ៉េល។ ជាទូទៅព័ត៌មានទាំងបីនេះផ្តល់នូវ ស្នាមម្រាមដៃតែមួយគត់ ទៅគាត់នៅក្នុងទិន្នន័យ។ ដោយប្រើការពិតនេះ Sweeney អាចរកមើលកំណត់ត្រាវេជ្ជសាស្រ្តរបស់ Weld ហើយដើម្បីប្រាប់គាត់អំពីភាពជោគជ័យរបស់គាត់គាត់បានផ្ញើរសំបុត្រមួយច្បាប់ទៅគាត់ (Ohm 2010) ។
ការងាររបស់ Sweeney បានបង្ហាញពីរចនាសម្ព័ន្ធមូលដ្ឋាននៃ ការវាយប្រហារឡើងវិញ - ដើម្បីទទួលយកពាក្យពីសហគមន៍សន្តិសុខកុំព្យូទ័រ។ នៅក្នុងការវាយប្រហារទាំងនេះសំណុំទិន្នន័យពីរមិនត្រូវបានផ្សារភ្ជាប់គ្នាទេហើយតាមរយៈការភ្ជាប់នេះព័ត៌មានរសើបត្រូវបានបង្ហាញ។
ជាការឆ្លើយតបទៅនឹងការងាររបស់ Sweeney និងការងារដែលពាក់ព័ន្ធដទៃទៀតអ្នកស្រាវជ្រាវជាទូទៅបានដកចេញនូវព័ត៌មានជាច្រើនទៀតដែលហៅថា "ព័ត៌មានអត្តសញ្ញាណផ្ទាល់ខ្លួន" (PII) (Narayanan and Shmatikov 2010) នៅពេលដែលដំណើរការអនាមិក។ ឥឡូវនេះដឹងថាទិន្នន័យមួយចំនួនដូចជាកំណត់ត្រាវេជ្ជសាស្រ្តកំណត់ត្រាហិរញ្ញវត្ថុចម្លើយចំពោះសំណួរស្ទង់មតិអំពីឥរិយាបថខុសច្បាប់ទំនងជាឆាប់ពេកក្នុងការដោះលែងទោះបីជា "អនាមិក" ក៏ដោយ។ យ៉ាងណាក៏ដោយឧទាហរណ៏ដែលខ្ញុំចង់ផ្តល់ឱ្យយោបល់ថាអ្នកស្រាវជ្រាវសង្គមត្រូវការ ដើម្បីផ្លាស់ប្តូរគំនិតរបស់ពួកគេ។ ជាជំហ៊ានដំបូងវាជាការប្រុងប្រយ័ត្នក្នុងការសន្មតថាទិន្នន័យទាំងអស់ អាច កំណត់អត្តសញ្ញាណ សក្តានុពល ហើយទិន្នន័យទាំងអស់គឺ មាន ភាពរសើប។ ម៉្យាងវិញទៀតជាជាងគិតថាហានិភ័យនៃព័ត៌មានត្រូវបានអនុវត្តចំពោះគម្រោងតូចៗនៃគម្រោងយើងគួរតែសន្មត់ថាវាអនុវត្ត - ទៅកម្រិតខ្លះទៅគ្រប់គម្រោងទាំងអស់។
ទិដ្ឋភាពទាំងពីរនៃការបង្វែរទិសនេះត្រូវបានបង្ហាញដោយរង្វាន់ Netflix ។ ដូចដែលបានរៀបរាប់នៅក្នុងជំពូកទី 5 ក្រុមហ៊ុន Netflix បានបញ្ចេញការផ្តល់ចំណាត់ថ្នាក់ភាពយន្តចំនួន 100 លានដែលផ្តល់ដោយសមាជិកជិត 500.000 នាក់ហើយមានការបើកចំហរដែលមនុស្សពីទូទាំងពិភពលោកបានដាក់ស្នើក្បួនដោះស្រាយដែលអាចបង្កើនសមត្ថភាពរបស់ក្រុមហ៊ុន Netflix ក្នុងការផ្ដល់អនុសាសន៍ភាពយន្ត។ មុនពេលចេញផ្សាយទិន្នន័យក្រុមហ៊ុន Netflix បានលុបព័ត៌មានកំណត់អត្តសញ្ញាណជាលក្ខណៈបុគ្គលដូចជាឈ្មោះ។ ពួកគេក៏បានបោះជំហានបន្ថែមនិងណែនាំពីភាពវិវឌ្ឍន៍បន្តិចបន្តួចនៅក្នុងកំណត់ត្រាមួយចំនួន (ឧទាហរណ៍ការផ្លាស់ប្តូរចំណាត់ថ្នាក់មួយចំនួនពីផ្កាយ 4 ទៅផ្កាយ 3) ។ ទោះយ៉ាងណាក៏ដោយមិនយូរប៉ុន្មានពួកគេបានរកឃើញថាទោះជាមានការខិតខំប្រឹងប្រែងយ៉ាងណាក៏ដោយក៏ទិន្នន័យទាំងនោះនៅតែគ្មានអនាមិក។
គ្រាន់តែពីរសប្តាហ៍បន្ទាប់ពីទិន្នន័យបានចេញផ្សាយ Arvind Narayanan និង Vitaly Shmatikov (2008) បានបង្ហាញថាវាអាចទៅរួចក្នុងការរៀនអំពីចំណង់ចំណូលចិត្តរបស់មនុស្សជាក់លាក់។ ល្បិចកលចំពោះការវាយប្រហារអត្តសញ្ញាណឡើងវិញរបស់ពួកគេគឺស្រដៀងគ្នាទៅនឹង Sweeney: ច្របាច់បញ្ចូលគ្នានូវប្រភពព័ត៌មានពីរដែលមានព័ត៌មានរសើបនិងមិនមានការកំណត់អត្តសញ្ញាណនិងអត្តសញ្ញាណរបស់មនុស្ស។ ប្រភពទិន្នន័យទាំងនេះនីមួយៗអាចមានសុវត្ថិភាពជាលក្ខណៈបុគ្គលប៉ុន្តែនៅពេលដែលពួកគេបញ្ចូលគ្នាសំណុំទិន្នន័យសំណុំទិន្នន័យអាចបង្កើតហានិភ័យព័ត៌មាន។ នៅក្នុងករណីនៃទិន្នន័យក្រុមហ៊ុន Netflix Inc, នេះជារបៀបដែលវាអាចកើតឡើង។ សូមស្រមៃថាខ្ញុំជ្រើសរើសចែករំលែកគំនិតរបស់ខ្ញុំអំពីសកម្មភាពនិងរឿងកំប្លែងជាមួយមិត្តរួមការងាររបស់ខ្ញុំប៉ុន្តែខ្ញុំមិនចង់ចែករំលែកគំនិតរបស់ខ្ញុំអំពីរឿងនយោបាយនិងនយោបាយទេ។ មិត្តរួមការងាររបស់ខ្ញុំអាចប្រើព័ត៌មានដែលខ្ញុំបានចែករំលែកជាមួយពួកគេដើម្បីស្វែងរកកំណត់ត្រារបស់ខ្ញុំនៅក្នុងទិន្នន័យក្រុម Netflix ។ ព័ត៌មានដែលខ្ញុំចែករំលែកអាចជាស្នាមម្រាមដៃតែមួយគត់ដូចជាថ្ងៃខែឆ្នាំកំណើតលេខកូដហ្ស៊ីបនិងការរួមភេទរបស់វីលៀមវ៉េល។ បន្ទាប់មកប្រសិនបើពួកគេរកឃើញស្នាមម្រាមដៃរបស់ខ្ញុំនៅក្នុងទិន្នន័យពួកគេអាចរៀនពីចំណាត់ថ្នាក់របស់ខ្ញុំអំពីខ្សែភាពយន្តទាំងអស់រួមទាំងភាពយន្តដែលខ្ញុំជ្រើសរើសមិនចែករំលែក។ ក្រៅពី ការវាយប្រហារគោលដៅនេះដែល ផ្តោតលើមនុស្សតែម្នាក់ Narayanan និង Shmatikov ក៏បានបង្ហាញផងដែរថាវាអាចធ្វើឱ្យមាន ការវាយប្រហារយ៉ាងទូលំទូលាយ - ដែលពាក់ព័ន្ធនឹងមនុស្សជាច្រើនដោយការរួមបញ្ចូលទិន្នន័យ Netflix ដោយទិន្នន័យផ្ទាល់ខ្លួននិងភាពយន្តដែលមនុស្សមួយចំនួនបានជ្រើសរើស។ ដើម្បីបង្ហោះនៅលើមូលដ្ឋានទិន្នន័យភាពយន្តអ៊ីនធឺណិត (IMDb) ។ ជាធម្មតាពត៌មានដែលជាស្នាមម្រាមដៃតែមួយគត់ចំពោះមនុស្សជាក់លាក់ - សូម្បីតែសំណុំឈុតនៃភាពយន្ដ - អាចត្រូវបានប្រើដើម្បីកំណត់អត្តសញ្ញាណពួកគេ។
ទោះបីជាទិន្នន័យ Netflix អាចត្រូវបានកំណត់ឡើងវិញនៅក្នុងការវាយប្រហារជាគោលដៅឬទូលំទូលាយក៏ដោយវានៅតែអាចនឹងមានហានិភ័យទាប។ យ៉ាងណាមិញការផ្តល់ចំណាត់ថ្នាក់ខ្សែភាពយន្តហាក់ដូចជាមិនសូវដឹងខ្លួនទេ។ ខណៈពេលដែលវាអាចជាការពិតជាទូទៅសម្រាប់មនុស្សប្រមាណ 500.000 នាក់នៅក្នុងសំណុំទិន្នន័យនេះការផ្តល់ចំណាត់ថ្នាក់ខ្សែភាពយន្តប្រហែលជាមានភាពរសើបខ្លាំង។ ជាការពិតក្នុងការឆ្លើយតបទៅនឹងការកំណត់អត្តសញ្ញាណជាថ្មីស្ត្រីស្រលាញ់ស្ត្រីម្នាក់បានចូលរួមក្នុងសំណុំរឿងប្តឹងក្រុមហ៊ុន Netflix ។ នេះជារបៀបដែលបញ្ហាត្រូវបានបង្ហាញនៅក្នុងពាក្យបណ្តឹងរបស់ពួកគេ (Singel 2009) :
"[M] ovie និងចំណាត់ថ្នាក់ទិន្នន័យមានផ្ទុកព័ត៌មាននៃលក្ខណៈផ្ទាល់ខ្លួននិងរសើបខ្ពស់។ ទិន្នន័យខ្សែភាពយន្តរបស់សមាជិកបង្ហាញពីការចាប់អារម្មណ៍ផ្ទាល់ខ្លួនរបស់សមាជិកក្រុម Netflix និងការតស៊ូជាមួយបញ្ហាផ្ទាល់ខ្លួនជាច្រើនរួមទាំងបញ្ហាផ្លូវភេទជំងឺផ្លូវចិត្តការជាសះស្បើយពីគ្រឿងស្រវឹងនិងការរងគ្រោះពីការរួមភេទការរំលោភបំពានលើរាងកាយអំពើហិង្សាក្នុងគ្រួសារអំពើផិតក្បត់និងការរំលោភ។
ការកំណត់អត្តសញ្ញាណឡើងវិញនៃទិន្នន័យ Netflix Prize បានបង្ហាញទាំងទិន្នន័យទាំងអស់អាចកំណត់អត្តសញ្ញាណសក្តានុពលហើយទិន្នន័យទាំងអស់គឺមានភាពរសើប។ នៅចំណុចនេះអ្នកអាចគិតថានេះអនុវត្តតែលើទិន្នន័យដែលអះអាងថាជាមនុស្ស។ គួរឱ្យភ្ញាក់ផ្អើល, នោះមិនមែនជាករណី។ នៅក្នុងការឆ្លើយតបទៅនឹងសំណើរសុំច្បាប់ស្តីពីព័ត៌មានអំពីសេរីភាពនៃការស្នើសុំច្បាប់រដ្ឋាភិបាលក្រុងញូវយ៉កបានចេញផ្សាយកំណត់ត្រានៃការជិះតាក់ស៊ីទាំងអស់នៅទីក្រុងញូវយ៉កក្នុងឆ្នាំ 2013 រួមទាំងការប្រមូលនិងបោះបង់ចោលពេលវេលាទីកន្លែងនិងថ្លៃឈ្នួល (ហៅត្រឡប់មកវិញពីជំពូក 2 ថា Farber (2015) បានប្រើទិន្នន័យស្រដៀងគ្នាដើម្បីសាកល្បងទ្រឹស្តីសំខាន់ៗក្នុងសេដ្ឋកិច្ចការងារ។ ទិន្នន័យទាំងនេះអំពីការធ្វើដំណើរតាក់ស៊ីអាចមើលទៅដូចជាមិនមានព័ត៌មានផ្តល់ព័ត៌មានអំពីមនុស្សប៉ុន្តែលោក Anthony Tockar បានដឹងថាទិន្នន័យតាក់ស៊ីនេះពិតជាមានផ្ទុកព័ត៌មានរសើបច្រើនអំពីមនុស្ស។ ជាឧទាហរណ៍គាត់បានមើលការធ្វើដំណើរទាំងអស់ដែលចាប់ផ្ដើមនៅក្លឹប Hustler ដែលជាក្លឹបរាត្រីដ៏ធំមួយនៅទីក្រុងញូវយ៉កនៅចន្លោះកណ្តាលអធ្រាត្រនិងម៉ោង 6 ព្រឹកហើយក្រោយមកគាត់បានរកឃើញទីតាំងបោះចោល។ ការស្វែងរកនេះបានបង្ហាញពីសារៈសំខាន់ - បញ្ជីអាសយដ្ឋាននៃមនុស្សមួយចំនួនដែលបានទៅលេងក្លឹប Hustler (Tockar 2014) ។ វាពិបាកនឹងស្រមៃថារដ្ឋាភិបាលក្រុងនេះមានគំនិតនេះនៅពេលវាចេញផ្សាយទិន្នន័យ។ តាមពិតបច្ចេកទេសនេះអាចត្រូវបានប្រើដើម្បីរកអាសយដ្ឋានផ្ទះរបស់មនុស្សដែលទៅលេងកន្លែងណាមួយនៅក្នុងទីក្រុង - គ្លីនិកពេទ្យអគាររដ្ឋាភិបាលឬស្ថាប័នសាសនា។
ករណីទាំងពីរនៃរង្វាន់ Netflix និងទិន្នន័យតាក់ស៊ីទីក្រុងញូវយ៉កបង្ហាញថាមនុស្សដែលមានជំនាញអាចបរាជ័យក្នុងការប៉ាន់ប្រមាណនូវហានិភ័យព័ត៌មានក្នុងទិន្នន័យដែលពួកគេបានបញ្ចេញ - ហើយករណីទាំងនេះគឺមិនមានតែមួយទេ (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) ។ លើសពីនេះទៅទៀតក្នុងករណីជាច្រើនទិន្នន័យដែលមានបញ្ហានៅតែអាចរកបានដោយស្វ័យប្រវត្តិនៅលើអ៊ីនធឺរណែតដែលបង្ហាញពីភាពលំបាកនៃការមិនដំណើរការទិន្នន័យ។ ជារួមឧទាហរណ៍ទាំងនេះ - ក៏ដូចជាការស្រាវជ្រាវនៅក្នុងវិទ្យាសាស្រ្តកុំព្យូទ័រអំពីភាពឯកជន - នាំឱ្យមានការសន្និដ្ឋានដ៏សំខាន់។ ក្រុមអ្នកស្រាវជ្រាវគួរសន្មត់ថាទិន្នន័យទាំងអស់គឺមានសក្តានុពលដែលអាចកំណត់អត្តសញ្ញាណនិងទិន្នន័យទាំងអស់គឺប្រកាន់អក្សរតូចធំមានសក្តានុពល។
ជាអកុសលមិនមានដំណោះស្រាយសាមញ្ញចំពោះការពិតដែលទិន្នន័យទាំងអស់អាចកំណត់អត្តសញ្ញាណសក្តានុពលនិងទិន្នន័យទាំងអស់មានភាពរសើប។ ទោះយ៉ាងណាវិធីមួយដើម្បីកាត់បន្ថយហានិភ័យព័ត៌មាននៅពេលអ្នកកំពុងធ្វើការជាមួយទិន្នន័យគឺដើម្បីបង្កើតនិងអនុវត្តតាម ផែនការការពារទិន្នន័យ ។ ផែនការនេះនឹងកាត់បន្ថយឱកាសដែលទិន្នន័យរបស់អ្នកនឹងលេចធ្លាយហើយនឹងបន្ថយគ្រោះថ្នាក់ប្រសិនបើការលេចធ្លាយកើតឡើងដូចម្ដេច។ ជាក់លាក់នៃផែនការការពារទិន្នន័យដូចជាទំរង់នៃការអ៊ិនគ្រីបដើម្បីប្រើនឹងផ្លាស់ប្តូរពេលវេលាប៉ុន្តែសេវាកម្មទិន្នន័យចក្រភពអង់គ្លេសរៀបចំធាតុផ្សំនៃផែនការការពារទិន្នន័យជាប្រាំប្រភេទដែលពួកគេហៅថា សុវត្ថិភាពចំនួនប្រាំ : គម្រោងមានសុវត្ថិភាពមនុស្សសុវត្ថិភាព , ការកំណត់សុវតិភាព, ទិន្នន័យសុវតិភាពនិងលទ្ធផលសុវត្ថិភាព (តារាងទី 6.2) (Desai, Ritchie, and Welpton 2016) ។ គ្មានប្រអប់សុវត្ថិភាពចំនួន 5 ផ្តល់ជូននូវការការពារដ៏ល្អឥតខ្ចោះ។ ប៉ុន្តែជាមួយគ្នាពួកគេបង្កើតបានជាកត្តាដែលមានអនុភាពដែលអាចបន្ថយហានិភ័យនៃព័ត៌មាន។
សុវត្ថិភាព | សកម្មភាព |
---|---|
គម្រោងសុវត្ថិភាព | កំណត់គម្រោងជាមួយទិន្នន័យទៅអ្នកដែលមានសីលធម៌ |
មនុស្សដែលមានសុវត្ថិភាព | ការចូលប្រើត្រូវបានដាក់កម្រិតចំពោះមនុស្សដែលអាចទុកចិត្តបានជាមួយទិន្នន័យ (ឧទាហរណ៍អ្នកដែលបានទទួលការបណ្តុះបណ្តាលសីលធម៌) |
ទិន្នន័យសុវត្ថិភាព | ទិន្នន័យត្រូវបានកំណត់អត្តសញ្ញាណនិងប្រមូលផ្តុំទៅតាមទំហំដែលអាចធ្វើទៅបាន |
ការកំណត់សុវត្ថិភាព | ទិន្នន័យត្រូវបានរក្សាទុកនៅក្នុងកុំព្យូទ័រដែលមានលក្ខណៈសមរម្យ (ឧទាហរណ៍បន្ទប់សោរ) និងកម្មវិធី (ឧទាហរណ៍ការការពារពាក្យសម្ងាត់ដែលបានអ៊ិនគ្រីប) |
លទ្ធផលសុវត្ថិភាព | លទ្ធផលស្រាវជ្រាវត្រូវបានពិនិត្យឡើងវិញដើម្បីទប់ស្កាត់ការរំលោភបំពានសិទ្ធិឯកជនដោយចៃដន្យ |
បន្ថែមពីលើការការពារទិន្នន័យរបស់អ្នកខណៈពេលដែលអ្នកកំពុងប្រើវាជំហានមួយក្នុងដំណើរការស្រាវជ្រាវដែលជាហានិភ័យនៃព័ត៌មានជាពិសេសគឺការចែករំលែកទិន្នន័យជាមួយអ្នកស្រាវជ្រាវដទៃទៀត។ ការចែករំលែកទិន្នន័យក្នុងចំនោមអ្នកវិទ្យាសាស្ត្រគឺជាតម្លៃស្នូលនៃកិច្ចខិតខំប្រឹងប្រែងខាងវិទ្យាសាស្ត្រហើយវាជួយសម្រួលដល់ការជឿនលឿន។ នេះជារបៀបដែលសភាអង់គ្លេសបានពណ៌នាអំពីសារៈសំខាន់នៃការចែករំលែកទិន្នន័យ (Molloy 2011) :
"ការទទួលបានទិន្នន័យគឺមានសារៈសំខាន់ណាស់ប្រសិនបើអ្នកស្រាវជ្រាវចង់បង្កើតឡើងវិញផ្ទៀងផ្ទាត់និងបង្កើតលទ្ធផលដែលត្រូវបានរាយការណ៍នៅក្នុងអក្សរសិល្ប៍។ ការសន្មតថាត្រូវតែមានលុះត្រាតែមានហេតុផលរឹងមាំបើមិនដូច្នេះទេទិន្នន័យគួរតែត្រូវបានបង្ហាញយ៉ាងពេញលេញនិងអាចរកបានជាសាធារណៈ។ "
ប៉ុន្តែដោយការចែករំលែកទិន្នន័យរបស់អ្នកជាមួយអ្នកស្រាវជ្រាវម្នាក់ផ្សេងទៀតអ្នកអាចនឹងបង្កើនហានិភ័យនៃព័ត៌មានដល់អ្នកចូលរួមរបស់អ្នក។ ដូច្នេះវាហាក់ដូចជាការចែករំលែកទិន្នន័យបង្កើតភាពតានតឹងជាមូលដ្ឋានរវាងកាតព្វកិច្ចចែករំលែកទិន្នន័យជាមួយអ្នកវិទ្យាសាស្ត្រដទៃទៀតនិងកាតព្វកិច្ចដើម្បីកាត់បន្ថយហានិភ័យព័ត៌មានដល់អ្នកចូលរួម។ ជាសំណាងល្អបញ្ហាទ្វេគ្រោះនេះមិនធ្ងន់ធ្ងរដូចដែលវាលេចឡើងទេ។ ផ្ទុយទៅវិញវាជាការប្រសើរជាងក្នុងការគិតអំពីការបែងចែកទិន្នន័យដែលជាការធ្លាក់ចុះតាមចរន្តដោយចំណុចនីមួយៗនៅលើការបន្តដែលផ្តល់នូវផលប្រយោជន៍ផ្សេងគ្នាដល់សង្គមនិងហានិភ័យដល់អ្នកចូលរួម (រូបភាព 6.6) ។
នៅចំណុចមួយខ្លាំងអ្នកអាចចែករំលែកទិន្នន័យរបស់អ្នកដោយគ្មាននរណាម្នាក់ដែលកាត់បន្ថយហានិភ័យដល់អ្នកចូលរួមប៉ុន្តែកាត់បន្ថយការកើនឡើងដល់សង្គម។ នៅចុងបញ្ចប់ផ្សេងទៀតអ្នកអាច ដោះលែងហើយបំភ្លេចបាន ដែលជាកន្លែងទិន្នន័យត្រូវបានគេដាក់ឈ្មោះថា "អនាមិក" ហើយត្រូវបានបង្ហោះសម្រាប់អ្នកគ្រប់គ្នា។ ទាក់ទងនឹងការមិនបញ្ចេញទិន្នន័យការដោះលែងនិងភ្លេចការផ្តល់ជូននូវអត្ថប្រយោជន៍ខ្ពស់ដល់សង្គមនិងហានិភ័យខ្ពស់ដល់អ្នកចូលរួម។ នៅចន្លោះរវាងករណីទាំងពីរនេះគឺជាពូជកូនកាត់ដែលរួមទាំងអ្វីដែលខ្ញុំនឹងហៅថាវិធីសាស្ត្រ ថែរក្សាសួនច្បារ ។ ក្រោមអភិក្រមនេះទិន្នន័យត្រូវបានចែករំលែកជាមួយអ្នកដែលបានបំពេញតាមលក្ខណៈវិនិច្ឆ័យជាក់លាក់ហើយអ្នកដែលយល់ស្របនឹងត្រូវបានចងភ្ជាប់ដោយច្បាប់ជាក់លាក់ (ឧ។ ការត្រួតពិនិត្យពី IRB និងផែនការការពារទិន្នន័យ) ។ វិធីសាស្រ្តសួនច្បារដែលមានជញ្ជាំងផ្តល់អត្ថប្រយោជន៍ជាច្រើននៃការដោះលែងហើយភ្លេចជាមួយនឹងហានិភ័យតិចជាង។ ជាការពិតណាស់វិធីសាស្រ្តបែបនេះបង្កើតបានជាសំណួរជាច្រើន - តើអ្នកណាគួរតែមានលទ្ធភាពទទួលបានក្រោមលក្ខខណ្ឌអ្វីខ្លះនិងរយៈពេលប៉ុន្មានអ្នកដែលត្រូវចំណាយប្រាក់ដើម្បីថែរក្សាហើយប៉ូលីសសួនច្បារជញ្ជាំងល - ប៉ុន្តែទាំងនេះមិនមានភាពជ្រាលជ្រៅឡើយ។ ការពិតមានជញ្ជាំងជញ្ជាំងដែលកំពុងដំណើរការរួចហើយដែលក្រុមអ្នកស្រាវជ្រាវអាចប្រើបាននាពេលបច្ចុប្បន្នដូចជាបណ្ណសារទិន្នន័យនៃសមាគមអន្តរក្រសួងសម្រាប់ការស្រាវជ្រាវផ្នែកនយោបាយនិងសង្គមនៅសាកលវិទ្យាល័យ Michigan ។
ដូច្នេះតើទិន្នន័យពីការសិក្សារបស់អ្នកគួរតែស្ថិតនៅលើការបន្តការចែករំលែកគ្មានសួនច្បារជញ្ជាំងនិងការដោះលែងនិងភ្លេច? នេះអាស្រ័យលើពត៌មានលំអិតនៃទិន្នន័យរបស់អ្នក: អ្នកស្រាវជ្រាវត្រូវមានតុល្យភាពការគោរពចំពោះមនុស្សប្រយោជន៍ការយុត្តិធម៌និងការគោរពច្បាប់និងផលប្រយោជន៍សាធារណៈ។ បានមើលពីទស្សនវិស័យនេះការចែករំលែកទិន្នន័យមិនមែនជារឿងសីលធម៌ប្រកបដោយលក្ខណៈខុសប្លែកគ្នាទេ។ វាគ្រាន់តែជាផ្នែកមួយនៃទិដ្ឋភាពជាច្រើននៃការស្រាវជ្រាវដែលអ្នកស្រាវជ្រាវត្រូវតែរកតុល្យភាពប្រកបដោយសីលធម៌សមស្រប។
អ្នករិះគន់មួយចំនួនត្រូវបានជំទាស់ជាទូទៅចំពោះការចែករំលែកទិន្នន័យពីព្រោះតាមគំនិតរបស់ខ្ញុំពួកគេផ្តោតលើហានិភ័យរបស់វាដែលពិតជាមិនពិតប្រាកដហើយពួកគេមិនអើពើផលប្រយោជន៍របស់វា។ ដូច្នេះដើម្បីជំរុញការយកចិត្តទុកដាក់លើហានិភ័យនិងអត្ថប្រយោជន៍ខ្ញុំសូមផ្តល់នូវភាពស្រដៀងគ្នា។ ជារៀងរាល់ឆ្នាំយានយន្តមានគ្រោះថ្នាក់ដល់មនុស្សរាប់ពាន់នាក់ប៉ុន្តែយើងមិនព្យាយាមហាមឃាត់ការបើកបរនោះទេ។ ការពិតការហៅឱ្យហាមឃាត់ការបើកបរនឹងមិនត្រូវទេព្រោះការបើកបរអាចជួយឱ្យមានរឿងអស្ចារ្យជាច្រើន។ ផ្ទុយទៅវិញសង្គមដាក់កំហិតទៅលើអ្នកដែលអាចបើកបរ (ដូចជាតម្រូវការអាយុជាក់លាក់និងការសាកល្បងជាក់លាក់) និងរបៀបដែលពួកគេអាចបើកបរ (ឧ។ ស្ថិតក្រោមល្បឿន) ។ សង្គមក៏មានមនុស្សដែលមានកាតព្វកិច្ចអនុវត្តច្បាប់ទាំងនេះ (ឧទាហរណ៍ប៉ូលីស) ហើយយើងដាក់ទណ្ឌកម្មដល់អ្នកដែលចាប់បានរំលោភ។ ការគិតដូចគ្នានេះដែលមានតុល្យភាពដែលសង្គមត្រូវអនុវត្តចំពោះការបើកបរនិយតករក៏អាចត្រូវបានអនុវត្តចំពោះការចែករំលែកទិន្នន័យផងដែរ។ នោះមានន័យថាជាជាងធ្វើឱ្យមានអំណះអំណាងដាច់ខាតឬប្រឆាំងនឹងការចែករំលែកទិន្នន័យខ្ញុំគិតថាយើងនឹងធ្វើឱ្យមានវឌ្ឍនភាពច្រើនបំផុតដោយផ្តោតលើរបៀបដែលយើងអាចកាត់បន្ថយហានិភ័យនិងបង្កើនអត្ថប្រយោជន៍ពីការចែករំលែកទិន្នន័យ។
សរុបមកហានិភ័យនៃព័ត៌មានបានកើនឡើងយ៉ាងខ្លាំងហើយវាពិបាកក្នុងការព្យាករណ៍និងបរិមាណ។ ដូច្នេះវាជាការល្អបំផុតដែលសន្មត់ថាទិន្នន័យទាំងអស់អាចកំណត់អត្តសញ្ញាណសក្តានុពលនិងសក្តានុពល។ ដើម្បីកាត់បន្ថយហានិភ័យព័ត៌មាននៅពេលធ្វើការស្រាវជ្រាវអ្នកស្រាវជ្រាវអាចបង្កើតនិងអនុវត្តតាមផែនការការពារទិន្នន័យ។ លើសពីនេះទៅទៀតហានិភ័យនៃព័ត៌មានមិនបង្ការអ្នកស្រាវជ្រាវពីការចែករំលែកទិន្នន័យជាមួយអ្នកវិទ្យាសាស្ត្រដទៃទៀតទេ។