الخطر المعلوماتي هو الخطر الأكثر شيوعًا في البحث الاجتماعي ؛ زادت بشكل كبير. وهو أصعب خطر على الفهم.
التحدي الثاني الأخلاقي للبحث في العصر الرقمي هو خطر المعلومات ، واحتمال الضرر من الكشف عن المعلومات (National Research Council 2014) . أضرار المعلومات من الكشف عن المعلومات الشخصية يمكن أن تكون اقتصادية (على سبيل المثال ، فقدان وظيفة) ، الاجتماعية (على سبيل المثال ، الحرج) ، النفسية (على سبيل المثال ، الاكتئاب) ، أو حتى الجنائية (على سبيل المثال ، الاعتقال لسلوك غير قانوني). لسوء الحظ ، يزيد العصر الرقمي من خطر المعلومات بشكل كبير - هناك الكثير من المعلومات حول سلوكنا. أثبتت المخاطر المعلوماتية أنه من الصعب جدا فهمها وإدارتها مقارنة بالمخاطر التي كانت تهم في البحث الاجتماعي في سن التناظرية ، مثل المخاطر الجسدية.
إحدى الطرق التي تقلل الباحثين الاجتماعيين المخاطر المعلوماتية هي "إخفاء الهوية" من البيانات. "إخفاء هوية" هو عملية إزالة المعرفات الشخصية الواضحة مثل الاسم والعنوان ورقم الهاتف من البيانات. ومع ذلك، فإن هذا النهج هو أقل فعالية بكثير مما يعتقده البعض، وأنه هو، في الواقع، بعمق ومحدودة بشكل أساسي. لهذا السبب، كلما أصف "إخفاء الهوية، وقال" سوف استخدم علامات الاقتباس أن أذكركم بأن هذه العملية يخلق مظهر عدم الكشف عن هويته ولكن ليس عدم الكشف عن هويته الحقيقية.
يأتي مثال حي على فشل "إخفاء الهوية" من أواخر التسعينات في ماساتشوستس (Sweeney 2002) . كانت هيئة التأمين الجماعي (GIC) وكالة حكومية مسؤولة عن شراء التأمين الصحي لجميع موظفي الدولة. من خلال هذا العمل ، جمعت GIC سجلات صحية مفصلة حول الآلاف من موظفي الدولة. في محاولة لتحفيز البحث ، قررت مؤسسة الخليج للاستثمار إصدار هذه السجلات للباحثين. ومع ذلك ، لم يشاركوا جميع بياناتهم ؛ بدلا من ذلك ، "مجهول الهوية" هذه البيانات عن طريق إزالة المعلومات مثل الأسماء والعناوين. ومع ذلك ، فقد تركوا معلومات أخرى يعتقدون أنها قد تكون مفيدة للباحثين مثل المعلومات الديموغرافية (الرمز البريدي وتاريخ الميلاد والعرق والجنس) والمعلومات الطبية (بيانات الزيارة والتشخيص والإجراء) (الشكل 6.4) (Ohm 2010) . للأسف ، هذا "إخفاء الهوية" لم يكن كافياً لحماية البيانات.
لتوضيح عيوب "إخفاء الهوية" GIC ، دفعت لاتانيا سويني - ثم طالبة دراسات عليا في معهد ماساتشوستس للتكنولوجيا - 20 دولارًا للحصول على سجلات التصويت من مدينة كامبردج ، مسقط رأس حاكم ولاية ماساتشوستس ، ويليام ويلد. تضمنت سجلات التصويت هذه معلومات مثل الاسم والعنوان والرمز البريدي وتاريخ الميلاد والجنس. حقيقة أن ملف البيانات الطبية وملف الناخب المشترك - الرمز البريدي وتاريخ الميلاد والجنس - يعني أن سويني قد يربطهم. عرف سويني أن عيد ميلاد ويلد كان 31 يوليو 1945 ، وأن سجلات التصويت شملت ستة أشخاص فقط في كامبريدج في ذلك اليوم. علاوة على ذلك ، من بين هؤلاء الأشخاص الستة ، كان ثلاثة فقط من الذكور. ومن هؤلاء الرجال الثلاثة ، هناك رمز واحد فقط مشترك في Weld. وهكذا ، أظهرت بيانات التصويت أن أي شخص في البيانات الطبية مع مزيج Weld من تاريخ الميلاد ونوع الجنس والرمز البريدي كان William Weld. في جوهرها ، قدمت هذه الأجزاء الثلاثة من المعلومات بصمة فريدة له في البيانات. وباستخدام هذه الحقيقة ، تمكنت سويني من تحديد سجلات ويلد الطبية ، وأبلغته بنسخة منه من سجلاته (Ohm 2010) ، لإبلاغه بإنجازها الفذ.
يوضح عمل سويني البنية الأساسية لهجمات إعادة تحديد الهوية - اعتماد مصطلح من مجتمع أمن الكمبيوتر. في هذه الهجمات ، هناك مجموعتان من البيانات ، لا تكشف أي منهما بحد ذاتها معلومات حساسة ، ويتم ربطها ، ومن خلال هذا الرابط ، يتم كشف معلومات حساسة.
رداً على عمل سويني والأعمال الأخرى ذات الصلة ، يقوم الباحثون الآن بشكل عام بإزالة الكثير من المعلومات - كل ما يسمى بـ "معلومات التعريف الشخصية" (PII) (Narayanan and Shmatikov 2010) - أثناء عملية "إخفاء الهوية". أدرك الآن أن بعض البيانات - مثل السجلات الطبية والسجلات المالية والردود على أسئلة الاستطلاع حول السلوك غير القانوني - ربما تكون حساسة جدًا للإفراج عنها حتى بعد "إخفاء الهوية". ومع ذلك ، فإن الأمثلة التي أوشكت على تقديمها تشير إلى أن الباحثين الاجتماعيين يحتاجون لتغيير تفكيرهم. وكخطوة أولى ، من الحكمة افتراض أن جميع البيانات يمكن تحديدها وأن جميع البيانات قد تكون حساسة. بعبارة أخرى ، بدلاً من التفكير في أن المخاطر المعلوماتية تنطبق على مجموعة فرعية صغيرة من المشاريع ، يجب أن نفترض أنها تنطبق - إلى حد ما - على جميع المشاريع.
يتم توضيح كلا جانبي عملية إعادة التوجيه هذه من خلال جائزة Netflix. كما هو موضح في الفصل 5 ، أصدرت Netflix 100 مليون تقييم فيلم قدمها ما يقرب من 500000 عضو ، وكان لها مكالمة مفتوحة حيث قدم أشخاص من جميع أنحاء العالم خوارزميات قد تحسن من قدرة Netflix على اقتراح الأفلام. قبل إصدار البيانات ، أزال Netflix أي معلومات واضحة لتعريف الشخصية ، مثل الأسماء. كما أنها خطت خطوة إضافية وأدخلت بعض الاضطرابات في بعض السجلات (على سبيل المثال ، تغيير بعض التصنيفات من 4 نجوم إلى 3 نجوم). لكنهم سرعان ما اكتشفوا أنه على الرغم من جهودهم ، فإن البيانات لم تكن مجهولة بأي حال من الأحوال.
بعد أسبوعين فقط من إصدار البيانات ، أظهر أرفيند نارايانان و فيتالي شماتيكوف (2008) أنه من الممكن التعرف على تفضيلات معينة لفيلم الناس. كانت خدعة هجوم إعادة تحديد الهوية مشابهة لـ "سويني": دمج مع مصدرين للمعلومات ، أحدهما يحتوي على معلومات حساسة محتملة ، ولا توجد معلومات محددة بوضوح وواحد يحتوي على هويات الأشخاص. يمكن أن يكون كل مصدر من مصادر البيانات هذه آمنًا بشكل فردي ، ولكن عندما يتم دمجها ، يمكن لمجموعة البيانات المدمجة إنشاء مخاطرة معلوماتية. في حالة بيانات Netflix ، إليك كيفية حدوث ذلك. تخيل أنني اخترت مشاركة أفكاري حول العمل والأفلام الكوميدية مع زملائي في العمل ، لكنني أفضل عدم مشاركة رأيي في الأفلام الدينية والسياسية. يمكن لزملائي استخدام المعلومات التي قمت بمشاركتها معهم للعثور على سجلاتي في بيانات Netflix ؛ المعلومات التي أشاركها يمكن أن تكون بصمة فريدة مثل تاريخ ميلاد وليام ويلد ، والرمز البريدي ، والجنس. وبعد ذلك ، إذا عثروا على بصمة الإصبع الفريدة في البيانات ، يمكنهم معرفة تقييمي حول جميع الأفلام ، بما في ذلك الأفلام التي اخترت عدم مشاركتها. بالإضافة إلى هذا النوع من الهجوم المستهدف الذي يركز على شخص واحد ، أظهر Narayanan و Shmatikov أيضًا أنه من الممكن القيام بهجوم واسع - من خلال إشراك العديد من الأشخاص - من خلال دمج بيانات Netflix مع بيانات التقييم الشخصي والأفلام التي اختارها بعض الأشخاص للنشر على قاعدة بيانات الأفلام على الإنترنت (IMDb). بكل بساطة ، يمكن استخدام أي معلومات بصمة فريدة لشخص معين - حتى مجموعة التقييمات السينمائية الخاصة به - لتحديدها.
على الرغم من أنه يمكن إعادة تعريف بيانات Netflix إما في هجوم مستهدف أو واسع النطاق ، إلا أنها قد تبدو منخفضة المخاطر. بعد كل شيء ، لا تبدو تقييمات الأفلام حساسة للغاية. في حين أن هذا قد يكون صحيحًا بشكل عام ، بالنسبة إلى بعض الأشخاص البالغ عددهم 500000 شخص في مجموعة البيانات ، قد تكون تقييمات الأفلام حساسة للغاية. في الواقع ، رداً على إعادة التعريف ، انضمت امرأة مثلية مغلقة إلى دعوى قضائية ضد نيتفليكس. وإليك كيف تم التعبير عن المشكلة في الدعوى القضائية (Singel 2009) :
"تحتوي بيانات [M] ovie and rating على معلومات ذات طبيعة شخصية وحساسة للغاية. تعرض بيانات الفيلم الخاصة بالعضو اهتمامًا شخصيًا لأحد أعضاء Netflix و / أو تناضل مع العديد من القضايا الشخصية للغاية ، بما في ذلك الجنس ، والأمراض العقلية ، والانتعاش من الإدمان على الكحول ، والإيذاء من سفاح القربى ، والإساءة الجسدية ، والعنف المنزلي ، والزنا ، والاغتصاب. "
يوضح إعادة تعريف بيانات جائزة Netflix كلاهما أن كل البيانات يمكن تحديدها وأنه من المحتمل أن تكون جميع البيانات حساسة. في هذه المرحلة ، قد تعتقد أن هذا ينطبق فقط على البيانات التي تدور حول الأشخاص. المثير للدهشة ، هذا ليس هو الحال. استجابة لطلب قانون حرية المعلومات ، أصدرت حكومة مدينة نيويورك سجلات عن كل سيارة أجرة في نيويورك في عام 2013 ، بما في ذلك أوقات الاستلام والإفلات ، والمواقع ، ومبالغ الأجرة (أذكر من الفصل 2 أن Farber (2015) تستخدم بيانات مماثلة لاختبار النظريات الهامة في اقتصاديات العمل). قد تبدو هذه البيانات حول رحلات سيارات الأجرة حميدة لأنها لا تقدم معلومات عن الأشخاص ، ولكن أنتوني توكار أدرك أن مجموعة بيانات سيارات الأجرة هذه تحتوي على الكثير من المعلومات الحساسة حول الأشخاص. ولتوضيح ذلك ، نظر إلى جميع الرحلات التي بدأت في نادي هاستلر - وهو نادي كبير في نيويورك - بين منتصف الليل والسادسة صباحًا ، ثم وجد أماكن الانسحاب منها. كشف هذا البحث - في جوهره - عن قائمة بعناوين بعض الأشخاص الذين يترددون على نادي (Tockar 2014) . من الصعب أن نتخيل أن حكومة المدينة أخذت ذلك في الاعتبار عندما أصدرت البيانات. في الواقع ، يمكن استخدام هذا الأسلوب نفسه للعثور على عناوين المنزل للأشخاص الذين يزورون أي مكان في المدينة - عيادة طبية أو مبنى حكومي أو مؤسسة دينية.
توضح هاتان الحالتان من جائزة Netflix وبيانات التاكسي في مدينة نيويورك أن الأشخاص المهرة نسبيًا قد يفشلون في تقدير المخاطر المعلوماتية بشكل صحيح في البيانات التي يطلقونها — وهذه الحالات ليست فريدة على الإطلاق (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . علاوة على ذلك ، في العديد من هذه الحالات ، لا تزال البيانات الإشكالية متاحة عبر الإنترنت ، مما يشير إلى صعوبة التراجع عن إصدار البيانات. بشكل جماعي ، تؤدي هذه الأمثلة - بالإضافة إلى البحث في علوم الكمبيوتر حول الخصوصية - إلى نتيجة مهمة. يجب أن يفترض الباحثون أن جميع البيانات يمكن تحديدها وأن جميع البيانات قد تكون حساسة.
لسوء الحظ ، لا يوجد حل بسيط للحقائق بأن جميع البيانات يمكن تحديدها وأن جميع البيانات قد تكون حساسة. ومع ذلك ، فإن إحدى طرق تقليل مخاطر المعلومات أثناء العمل مع البيانات هي إنشاء خطة حماية البيانات ومتابعتها. ستقلل هذه الخطة من احتمال تسرب بياناتك وستقلل من الضرر في حالة حدوث تسرب بطريقة ما. ستتغير تفاصيل خطط حماية البيانات ، مثل نوع التشفير المستخدم ، بمرور الوقت ، لكن خدمات البيانات في المملكة المتحدة تنظم بعضا من عناصر خطة حماية البيانات إلى خمس فئات يسمونها الخزائن الخمسة : المشاريع الآمنة والأشخاص الآمنون الإعدادات الآمنة والبيانات الآمنة والمخرجات الآمنة (الجدول 6.2) (Desai, Ritchie, and Welpton 2016) . لا توفر أي من الخزائن الخمسة بشكل فردي حماية مثالية. لكنهم يشكلون مجموعة قوية من العوامل التي يمكن أن تقلل من مخاطر المعلومات.
آمنة | عمل |
---|---|
مشاريع آمنة | تحديد المشروعات ذات البيانات إلى البيانات الأخلاقية |
الناس الآمنة | يقتصر الوصول على الأشخاص الذين يمكن الوثوق بهم مع البيانات (على سبيل المثال ، الأشخاص الذين خضعوا للتدريب الأخلاقي) |
البيانات الآمنة | يتم تحديد البيانات وتجميعها إلى أقصى حد ممكن |
الإعدادات الآمنة | يتم تخزين البيانات في أجهزة الكمبيوتر مع المادية المناسبة (على سبيل المثال ، غرفة مقفلة) والبرمجيات (على سبيل المثال حماية كلمة المرور ، مشفرة) الحماية |
الإخراج الآمن | تتم مراجعة نتائج الأبحاث لمنع خروقات الخصوصية غير المقصودة |
بالإضافة إلى حماية بياناتك أثناء استخدامك لها ، فإن خطوة واحدة في عملية البحث حيث تكون المخاطر الإعلامية بارزة بشكل خاص هي مشاركة البيانات مع باحثين آخرين. يعتبر تبادل البيانات بين العلماء قيمة أساسية للمسعى العلمي ، ويسهِّل بشكل كبير تقدم المعرفة. فيما يلي وصف مجلس العموم البريطاني لأهمية تبادل البيانات (Molloy 2011) :
"يعد الوصول إلى البيانات أمرًا أساسيًا إذا كان الباحثون يريدون إعادة إنتاج النتائج التي تم الإبلاغ عنها في الأدبيات والتحقق منها والبناء عليها. يجب أن يكون الافتراض أنه ما لم يكن هناك سبب قوي بخلاف ذلك ، ينبغي الإفصاح عن البيانات بالكامل وإتاحتها للجمهور. "
ومع ذلك ، من خلال مشاركة بياناتك مع باحث آخر ، قد تزيد من المخاطر المعلوماتية على المشاركين. وبالتالي ، قد يبدو أن مشاركة البيانات تخلق توترا أساسيا بين الالتزام بتقاسم البيانات مع علماء آخرين والالتزام بتقليل مخاطر المعلومات إلى المشاركين. لحسن الحظ ، هذه المعضلة ليست قاسية كما تبدو. بدلاً من ذلك ، من الأفضل أن نفكر في مشاركة البيانات على أنها تقع على طول سلسلة متصلة ، مع توفير كل نقطة على هذا التواصل مجموعة مختلفة من الفوائد للمجتمع والمخاطر على المشاركين (الشكل 6.6).
من ناحية واحدة ، يمكنك مشاركة بياناتك مع أي شخص ، مما يقلل من المخاطر على المشاركين ، ولكنه يقلل أيضًا من المكاسب التي تحققت للمجتمع. على الطرف الآخر ، يمكنك إطلاق سراح وننسى ، حيث يتم "مجهول الهوية" البيانات ونشرها للجميع. نسبة إلى عدم الإفراج عن البيانات ، والإفراج عن وننس يقدم كل من فوائد أعلى للمجتمع وأكثر عرضة للمشاركين. بين هاتين الحالتين المتطرفتين هناك مجموعة من الهجينة ، بما في ذلك ما أسميه نهج حديقة مسورة . في إطار هذا النهج ، تتم مشاركة البيانات مع الأشخاص الذين يستوفون معايير معينة والذين يوافقون على الالتزام بقواعد معينة (مثل الإشراف من IRB وخطة حماية البيانات). يوفر نهج الحديقة المسورة العديد من فوائد إطلاق سراح وننسى مع أقل من المخاطر. وبالطبع ، فإن مثل هذا النهج يخلق العديد من الأسئلة - من ينبغي أن يكون لديه إمكانية الوصول ، تحت أي ظروف ، وإلى أي مدى ، من الذي ينبغي عليه أن يدفع مقابل صيانة الحديقة المسورة ومراقبتها ، وما إلى ذلك - ولكن هذه الأمور لا يمكن التغلب عليها. في الواقع ، توجد بالفعل حدائق مسورة تعمل في مكان يمكن للباحثين استخدامه الآن ، مثل أرشيف البيانات الخاص بالكونسورتيوم بين الجامعات للبحوث السياسية والاجتماعية في جامعة ميتشيغان.
إذاً ، أين يجب أن تكون بيانات دراستك على أساس عدم وجود مشاركة ، وحديقة مسورة ، وإطلاق سراحها ونسيانها؟ يعتمد هذا على تفاصيل بياناتك: يجب على الباحثين موازنة الاحترام للأفراد ، والإحسان ، والعدل ، واحترام القانون والمصلحة العامة. من وجهة النظر هذه ، لا يعتبر تبادل البيانات لغزًا أخلاقيًا مميزًا. إنها مجرد واحدة من جوانب البحث العديدة التي يتعين على الباحثين إيجاد توازن أخلاقي مناسب لها.
يعارض بعض النقاد بشكل عام مشاركة البيانات لأنهم ، في رأيي ، يركزون على مخاطرها - التي هي بلا شك حقيقية - ويتجاهلون فوائدها. لذلك ، من أجل تشجيع التركيز على كل من المخاطر والفوائد ، أود تقديم تشبيه. كل عام ، السيارات مسؤولة عن آلاف الوفيات ، لكننا لا نحاول منع القيادة. في الواقع ، فإن الدعوة إلى حظر القيادة ستكون سخيفة لأن القيادة تمكن العديد من الأشياء الرائعة. بدلا من ذلك ، يضع المجتمع قيودًا على من يمكنه القيادة (على سبيل المثال ، الحاجة إلى أن يكون عمرًا معينًا واجتياز اختبارات معينة) وكيف يمكنه القيادة (على سبيل المثال ، تحت الحد الأقصى للسرعة). لدى المجتمع أيضًا أشخاص مكلفون بفرض هذه القواعد (مثل الشرطة) ، ونحن نعاقب الأشخاص الذين يتم ضبطهم منتهكة لهم. هذا النوع نفسه من التفكير المتوازن الذي يطبقه المجتمع على تنظيم القيادة يمكن تطبيقه أيضًا على مشاركة البيانات. بمعنى ، بدلاً من تقديم حجج مطلقة مع أو ضد مشاركة البيانات ، أعتقد أننا سنحقق أكبر قدر من التقدم من خلال التركيز على كيفية تقليل المخاطر وزيادة فوائد مشاركة البيانات.
في الختام ، ازداد الخطر المعلوماتي بشكل كبير ، ومن الصعب التنبؤ به وتحديده كميا. لذلك ، من الأفضل افتراض أن جميع البيانات قابلة للتحديد ويحتمل أن تكون حساسة. لتقليل المخاطر المعلوماتية أثناء إجراء الأبحاث ، يمكن للباحثين إنشاء خطة لحماية البيانات ومتابعتها. علاوة على ذلك ، لا يمنع الخطر المعلوماتي الباحثين من مشاركة البيانات مع علماء آخرين.