خطر المعلومات هو الخطر الأكثر شيوعا في البحوث الاجتماعية. فقد زادت بشكل كبير. وهو أصعب المخاطر لفهم.
التحدي الأخلاقي الثاني لعمر الاجتماعي البحوث الرقمي هو الخطر المعلوماتي، واحتمال الأذى من الكشف عن المعلومات (Council 2014) . الأضرار إعلامية من الكشف عن المعلومات الشخصية يمكن أن تكون اقتصادية (على سبيل المثال، فقدان الوظيفة) والاجتماعية (على سبيل المثال، الحرج) والنفسي (على سبيل المثال، والاكتئاب)، أو حتى مجرم (على سبيل المثال، القبض على السلوك غير المشروع). للأسف، في العصر الرقمي يزيد من مخاطر المعلومات بشكل كبير، هناك فقط الكثير مزيد من المعلومات حول سلوكنا. و، وقد ثبت المخاطر المعلوماتية الصعب جدا فهم وإدارة المخاطر بالمقارنة مع التي كانت المخاوف في البحوث الاجتماعية سن التناظرية، مثل المخاطر المادية. لنرى كيف يزيد من مخاطر العصر الرقمي المعلوماتي، والنظر في الانتقال من الورق إلى السجلات الطبية الإلكترونية. كلا النوعين من سجلات خلق خطر، ولكن السجلات الإلكترونية تخلق مخاطر أكبر بكثير لأنه في نطاق واسع أنها يمكن أن تنتقل إلى طرف غير المصرح به أو دمجها مع غيرها من السجلات. الباحثين الاجتماعيين في العصر الرقمي وواجهت بالفعل في مشاكل مع المخاطر المعلوماتية، وذلك جزئيا بسبب أنهم لم يفهموا تماما كيفية تحديد وإدارتها. لذلك، وانا ذاهب لتقديم وسيلة مفيدة للتفكير في خطر المعلوماتي، ومن ثم أنا ذاهب الى ان نعطيكم بعض النصائح لكيفية إدارة المخاطر المعلوماتية في البحث الخاص بك وفي إصدار بيانات للباحثين آخرين.
إحدى الطرق التي تقلل الباحثين الاجتماعيين المخاطر المعلوماتية هي "إخفاء الهوية" من البيانات. "إخفاء هوية" هو عملية إزالة المعرفات الشخصية الواضحة مثل الاسم والعنوان ورقم الهاتف من البيانات. ومع ذلك، فإن هذا النهج هو أقل فعالية بكثير مما يعتقده البعض، وأنه هو، في الواقع، بعمق ومحدودة بشكل أساسي. لهذا السبب، كلما أصف "إخفاء الهوية، وقال" سوف استخدم علامات الاقتباس أن أذكركم بأن هذه العملية يخلق مظهر عدم الكشف عن هويته ولكن ليس عدم الكشف عن هويته الحقيقية.
وهناك مثال حي على فشل "إخفاء الهوية" يأتي من أواخر 1990s في ماساتشوستس (Sweeney 2002) . كانت هيئة التأمين المجموعة (مؤسسة الخليج للاستثمار) وهي وكالة حكومية مسؤولة عن شراء التأمين الصحي لجميع موظفي الدولة. من خلال هذا العمل، جمعت مؤسسة الخليج للاستثمار السجلات الصحية مفصلة عن الآلاف من موظفي الدولة. في محاولة لتحفيز البحث عن طرق لتحسين الصحة، قررت مؤسسة الخليج للاستثمار لإطلاق هذه السجلات للباحثين. ومع ذلك، فإنها لم تشارك جميع البيانات الخاصة بهم. بدلا من ذلك، أنها "مجهولة المصدر" أنه من خلال إزالة معلومات مثل الاسم والعنوان. ومع ذلك، فإنها تركت غيرها من المعلومات التي ظنوا يمكن أن تكون مفيدة للباحثين مثل المعلومات الديموغرافية (الرمز البريدي، وتاريخ الميلاد، والعرق، والجنس) والمعلومات الطبية (بيانات الزيارة والتشخيص والداخلي) (الشكل 6.4) (Ohm 2010) . للأسف، وكان هذا "إخفاء الهوية" ليست كافية لحماية البيانات.
لتوضيح أوجه القصور في "إخفاء الهوية" مؤسسة الخليج للاستثمار، اتانيا سويني، ثم طالب دراسات عليا في معهد ماساتشوستس للتكنولوجيا دفعت 20 $ للحصول على سجلات التصويت من مدينة كامبريدج، مسقط رأس حاكم ماساتشوستس وليام ويلد. وتضمنت هذه السجلات التصويت المعلومات مثل الاسم والعنوان والرمز البريدي، تاريخ الميلاد، والجنس. حقيقة أن طبي ملف البيانات ورمز حقول البريدي ملف الناخبين مشترك، تاريخ الميلاد، والتي سويني يمكن ربطها-يعني الجنس. عرف سويني أن ميلاده ولد كان 31 يوليو 1945، وتضمنت سجلات التصويت سوى ستة أشخاص في كامبريدج مع أن عيد ميلاد. وعلاوة على ذلك، تلك ستة أشخاص، لم يكن هناك سوى ثلاثة من الذكور. و، من هؤلاء الرجال الثلاثة، وتقاسم الرمز البريدي ولد واحد فقط. وهكذا، أظهرت البيانات أن التصويت أن أحدا في البيانات الطبية مع مزيج ولد من تاريخ الميلاد، الجنس، والرمز البريدي وكان وليام ويلد. في جوهرها، وفرت هذه القطع الثلاث من المعلومات بصمة فريدة من نوعها له في البيانات. باستخدام هذه الحقيقة، كان سويني قادرة على تحديد السجلات الطبية لحام، ووإبلاغه الفذ، وقالت انها بالبريد له نسخة من سجلاته (Ohm 2010) .
يوضح عمل سويني البنية الأساسية من هجمات دي إخفاء الهوية -to تبني مصطلح من المجتمع أمن الكمبيوتر. في هذه الهجمات، ومجموعتين من البيانات، أي من الذي في حد ذاته يكشف عن معلومات حساسة، ترتبط، ومن خلال هذا الربط، تتعرض المعلومات الحساسة. في بعض طرق هذه العملية مشابهة للطريقة التي صودا الخبز والخل، وهما من المواد التي هي بحد ذاتها آمنة، ويمكن الجمع بين لإنتاج نتائج سيئة.
وردا على العمل سويني، والأعمال الأخرى ذات الصلة والباحثين الآن عموما إزالة المزيد من المعلومات للجميع ما يسمى ب "معلومات شخصية" (PII) (Narayanan and Shmatikov 2010) -أثناء عملية "إخفاء الهوية." وعلاوة على ذلك، العديد من الباحثين الآن ندرك أن-مثل بعض البيانات مثل السجلات الطبية، والسجلات المالية، ويجيب على أسئلة حول مسح غير قانوني السلوك هو على الارجح حساسة جدا للافراج حتى بعد "إخفاء الهوية"، ولكن المزيد من الأمثلة الأخيرة أن أنا أصف أدناه أن تحتاج إلى الباحثين الاجتماعيين تغيير طريقة تفكيرهم. كخطوة أولى، فإنه من الحكمة أن نفترض أن جميع البيانات من المحتمل التعرف وجميع البيانات يحتمل أن تكون حساسة. وبعبارة أخرى، بدلا من التفكير هذا الخطر المعلوماتي ينطبق على مجموعة فرعية صغيرة من المشاريع، ونحن يجب أن نفترض أنه ينطبق إلى حد ما لجميع المشاريع.
موضحة الجوانب من هذا إعادة توجيه من قبل جائزة نيتفليكس. كما هو موضح في الفصل 5، صدر نيتفليكس 100 مليون تصنيفات الأفلام التي قدمتها تقريبا 500،000 عضوا، وكان دعوة مفتوحة حيث قدم الناس من جميع أنحاء العالم الخوارزميات التي يمكن أن تحسن قدرة نيتفليكس في أن يوصي الأفلام. قبل إطلاق البيانات، إزالة نيتفليكس أي معلومات الواضح تعريفية شخصية، مثل أسماء. كما ذهب نيتفليكس خطوة إضافية وقدم اضطرابات طفيفة في بعض السجلات (على سبيل المثال، تغيير بعض التصنيفات من 4 النجوم ل3 نجوم). نيتفليكس سرعان ما اكتشفت، مع ذلك، أنه على الرغم من الجهود التي تبذلها، وكانت البيانات بأي حال من الأحوال مجهول.
وأفرج عن اثنين فقط أسابيع بعد بيانات Narayanan and Shmatikov (2008) أظهر أنه كان من الممكن لمعرفة المزيد عن تفضيلات فيلم أشخاص معينين ل. كانت خدعة لهجوم إعادة تعريف الخاصة بهم مماثلة لسويني: دمج معا اثنين من مصادر المعلومات، واحدة مع معلومات قد تكون حساسة وأية معلومات تعريف واضح واحد يحتوي على هوية الناس. كل من هذه المصادر البيانات قد تكون آمنة بشكل فردي، ولكن عندما يتم الجمع بين أنها مجموعة البيانات المدمجة يمكن أن تخلق مخاطر المعلوماتية. في حالة البيانات نيتفليكس، وهنا كيف يمكن أن يحدث. تخيل أن اخترت أن تشاركونني الأفكار حول العمل والأفلام الكوميدية مع زملائي في العمل، ولكن هذا أنا أفضل عدم تشاركونني الرأي حول الأفلام الدينية والسياسية. لي زملاء العمل يمكن أن تستخدم المعلومات التي كنت قد شاركت معهم للبحث عن سجلات بلدي في البيانات نيتفليكس. المعلومات التي تشترك أنا يمكن أن تكون بصمة فريدة من نوعها تماما مثل تاريخ وليام ويلد في الولادة، والرمز البريدي، والجنس. ثم، إذا وجدوا لي بصمة فريدة من نوعها في البيانات، فإنها يمكن أن تتعلم تصنيفات نظري حول كل الأفلام، بما في ذلك الأفلام حيث اخترت عدم المشاركة. وبالإضافة إلى هذا النوع من الهجمات المستهدفة التي تركز على شخص واحد، Narayanan and Shmatikov (2008) أظهر أيضا أنه كان من الممكن القيام -one هجوم واسع يشمل العديد من الناس عن طريق دمج البيانات نيتفليكس مع البيانات تقييم الشخصية والفيلم أن بعض وقد اختار الشعب للنشر في قاعدة بيانات الأفلام على الإنترنت (شجونه). يمكن أن تصنيفات يمكن استخدام أي من المعلومات التي هي بصمة فريدة من نوعها لشخص، وحتى مجموعة من معين من الفيلم لتحديد وضعهم.
على الرغم من أن البيانات نيتفليكس يمكن إعادة تحديد في أي هجوم يستهدف أو واسع، فإنه لا يزال قد تبدو منخفضة المخاطر. بعد كل شيء، وتقييم الفيلم لا يبدو حساسة للغاية. في حين قد يكون صحيحا بشكل عام، لبعض من 500،000 شخص في مجموعة البيانات، قد يكون تصنيف الفيلم على حساس جدا. في الواقع، في استجابة لاجتثاث إخفاء الهوية انضمت امرأة سحاقية اختلى دعوى الطبقة العمل ضد نيتفليكس. وهنا كيف أعرب عن مشكلة في قضيتهم (Singel 2009) :
"[M] ovie وتصنيف البيانات يحتوي على معلومات ذات طابع شخصي أكثر وحساسة للغاية [كذا]. بيانات الفيلم العضو يعرض مصلحة عضوا نيتفليكس الشخصية و / أو صراعات مع مختلف القضايا الشخصية للغاية، بما في ذلك النشاط الجنسي، والأمراض العقلية، التعافي من الإدمان على الكحول، والإيذاء من سفاح المحارم، والاعتداء الجسدي، والعنف المنزلي، والزنا والاغتصاب ".
يوضح دي إخفاء الهوية البيانات جائزة نيتفليكس على حد سواء أن جميع البيانات من المحتمل التعرف وأن جميع البيانات يحتمل أن تكون حساسة. في هذه المرحلة، قد تعتقد أن هذا ينطبق فقط على البيانات التي أن يزعم أن يكون عن الناس. والمثير للدهشة، أن الأمر ليس كذلك. وردا على طلب حرية قانون المعلومات، أصدرت حكومة مدينة نيويورك سجلات كل ركوب سيارة أجرة في نيويورك في عام 2013، بما في ذلك بيك اب وغلبه النعاس الأوقات والمواقع ومبالغ الأجرة (أذكر من الفصل 2 أن Farber (2015) تستخدم هذه البيانات لاختبار النظريات الهامة في اقتصاديات العمل). على الرغم من أن هذه البيانات عن رحلات سيارات الأجرة قد تبدو حميدة لأنه لا يبدو أن المعلومات عن الناس، أدركت أنتوني Tockar أن هذه البينات سيارة أجرة يتضمن في الواقع الكثير من معلومات قد تكون حساسة عن الناس. ولتوضيح ذلك، وقال انه يتطلع في جميع الرحلات ابتداء من الساعة والمزاحم نادي-ناد للتعري كبير في نيويورك بين منتصف الليل و06:00 ثم وجدت مواقع الانزال الخاصة بهم. وكشف في هذا البحث الجوهر-قائمة عناوين بعض الناس الذين يترددون على المزاحم نادي (Tockar 2014) . ومن الصعب أن نتصور أن حكومة المدينة وكان هذا في الاعتبار عندما أصدرت البيانات. في الواقع، يمكن أن تستخدم هذه التقنية نفسها للبحث عن عناوين المنزل من الناس الذين يزورون أي مكان في-مدينة العيادة الطبية، مبنى الحكومة، أو مؤسسة دينية.
هذه حالتين-جائزة Netflix و مدينة نيويورك تاكسي البيانات تظهر أن فشل الأشخاص ذوي المهارات نسبيا لتقدير المخاطر المعلوماتية في البيانات التي نشرت بشكل صحيح، وهذه الحالات هي بأي حال من الأحوال فريد (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . وعلاوة على ذلك، في كثير من هذه الحالات، فإن البيانات إشكالية لا تزال متاحة مجانا على شبكة الإنترنت، مما يدل على صعوبة التراجع عن أي وقت مضى صدور البيانات. بشكل جماعي هذه الأمثلة، فضلا عن البحوث في مجال علوم الكمبيوتر حول خصوصية يؤدي إلى استنتاج هام. يجب على الباحثين يفترضون أن جميع البيانات من المحتمل التعرف وجميع البيانات يحتمل أن تكون حساسة.
للأسف، لا يوجد حل بسيط لحقيقة أن جميع البيانات من المحتمل التعرف وجميع البيانات يحتمل أن تكون حساسة. ومع ذلك، طريقة واحدة للحد من مخاطر المعلومات أثناء العمل مع البيانات هو خلق ومتابعة خطة حماية البيانات. وهذه الخطة يقلل من فرصة أن البيانات الخاصة بك سوف تسرب وسوف تقلل من ضرر في حالة حدوث تسرب بطريقة أو بأخرى. وتفاصيل خطط حماية البيانات، مثل أي شكل من التشفير للاستخدام، تتغير مع مرور الوقت، ولكن في خدمات البيانات في المملكة المتحدة تنظم مفيد عناصر خطة حماية البيانات إلى 5 فئات التي يسمونها 5 خزائن: مشاريع آمنة، والناس آمنة والإعدادات الآمنة، بيانات آمنة، ومخرجات آمنة (الجدول 6.2) (Desai, Ritchie, and Welpton 2016) . لا شيء من خزائن الخمس للفردي حماية مثالية. ولكن، أنها تشكل معا مجموعة قوية من العوامل التي يمكن أن تقلل من خطر المعلوماتي.
آمن | عمل |
---|---|
مشاريع آمنة | يحد المشاريع مع البيانات لتلك التي هي أخلاقية |
الآمنين | يقتصر الوصول إلى الأشخاص الذين يمكن الوثوق بالبيانات (على سبيل المثال، إن بعض الناس قد خضعت التدريب الأخلاقي) |
البيانات الآمنة | ونزع تحديد البيانات وتجميعها إلى أقصى حد ممكن |
إعدادات آمنة | يتم تخزين البيانات في أجهزة الكمبيوتر مع الجسدي المناسب (على سبيل المثال، غرفة مقفلة) وبرنامج (على سبيل المثال، حماية كلمة السر، مشفرة) الحماية |
الانتاج الآمن | تتم مراجعة نتائج البحوث لمنع بطريق الخطأ انتهاكات الخصوصية |
بالإضافة إلى حماية البيانات الخاصة بك بينما كنت تستخدم فيه، خطوة واحدة في عملية البحث حيث المخاطر المعلوماتية هو بارز للغاية هو تبادل البيانات مع باحثين آخرين. تبادل البيانات بين العلماء هو قيمة أساسية من المسعى العلمي، ومرافق بشكل كبير على تقدم المعرفة. وهنا كيف وصف المنازل في المملكة المتحدة العموم على أهمية تبادل البيانات:
"الوصول إلى البيانات أمر أساسي إذا الباحثين لإنتاج والتحقق منها وبناء على النتائج التي تم الإبلاغ عنها في الأدب. يجب أن يكون افتراض أنه ما لم يكن هناك سبب قوي على خلاف ذلك، البيانات يجب أن يتم الكشف عنها بشكل كامل وإتاحتها للجمهور. وتماشيا مع هذا المبدأ، حيث ينبغي بذل الممكنة، البيانات المرتبطة مع جميع البحوث الممولة من القطاع العام على نطاق واسع ومتاح مجانا. " (Molloy 2011)
بعد، عن طريق تبادل البيانات الخاصة بك مع باحث آخر، قد يزيد من خطر المعلوماتي للمشاركين الخاص بك. وبالتالي، قد يبدو أن الباحثين الذين يرغبون في مشاركة بياناتهم أو مطلوبة لتبادل ما لديهم بيانات تواجه التوتر الأساسي. من ناحية لديهم واجب أخلاقي لتبادل البيانات مع علماء آخرين، وخاصة إذا يتم تمويل البحوث الأصلية علنا. ومع ذلك، وفي الوقت نفسه، والباحثين واجب أخلاقي للحد، قدر الإمكان، من مخاطر المعلومات إلى المشاركين فيها.
لحسن الحظ، هذه المعضلة ليست شديدة كما يبدو. من المهم أن نفكر في تبادل على طول سلسلة متصلة من أي تقاسم البيانات لاطلاق سراح وننسى، حيث البيانات "مجهولة الهوية" ونشر على أي شخص للوصول إلى البيانات (الشكل 6.6). كل من هذه المواقف المتطرفة لديهم مخاطر وفوائد. وهذا يعني أنه ليس تلقائيا الشيء الأكثر أخلاقية لعدم مشاركة البيانات الخاصة بك. هذا النهج يلغي العديد من الفوائد المحتملة للمجتمع. العودة إلى تذوق، ربطات عنق، والوقت، مثالا نوقشت في الفصل في وقت سابق، والحجج ضد صدور البيانات التي تركز فقط على الأضرار الممكنة، والتي تتجاهل الفوائد المحتملة هي أكثر من اللازم من جانب واحد؛ أنا أصف المشاكل مع هذا النهج من جانب واحد، واقية بشكل مفرط في المزيد من التفاصيل في الأسفل عندما أقدم المشورة حول اتخاذ القرارات في مواجهة عدم اليقين (القسم 6.6.4).
وعلاوة على ذلك، في ما بين هذه الحالات القصوى اثنين هو ما سوف يسمى نهج الحديقة المسورة حيث يتم تقاسم البيانات مع الناس الذين يستوفون معايير معينة والذين يوافقون على الالتزام بقواعد معينة (على سبيل المثال، مراقبة من الاتحاد الدولي للرجبي وخطط حماية البيانات) . ويوفر هذا النهج حديقة مسورة العديد من الفوائد للإفراج عنهم وننسى مع خطر أقل. وبطبيعة الحال، ويخلق نهجا حديقة مسورة العديد من الأسئلة التي يجب أن تتاح له، تحت أي ظروف، إلى متى، الذي يجب أن تدفع لصيانة وحراسة الحديقة المسورة الخ، ولكن هذه ليست مستعصية على الحل. في الواقع، هناك يعملون بالفعل الحدائق المسورة في المكان الذي يمكن للباحثين استخدام في الوقت الراهن، مثل أرشيف البيانات من اتحاد المشترك بين الجامعة للأبحاث السياسية والاجتماعية في جامعة ميشيغان.
لذلك، حيث أن البيانات من دراستك تكون على استمرارية أي تقاسم، الحديقة المسورة، وتطلق وننسى؟ انها تعتمد على تفاصيل البيانات الخاصة بك. يجب على الباحثين تحقيق التوازن بين احترام الأشخاص، الإحسان والعدالة واحترام القانون والمصلحة العامة. عند تقييم التوازن المناسب لاتخاذ قرارات أخرى يسعى الباحثون المشورة والموافقة على IRBs، وإصدار البيانات يمكن أن يكون مجرد جزء آخر من تلك العملية. وبعبارة أخرى، على الرغم من أن بعض الناس يعتقدون من صدور البيانات كما مستنقع أخلاقي ميؤوس منها، لدينا بالفعل أنظمة لمساعدة الباحثين على تحقيق التوازن بين هذا النوع من المعضلات الأخلاقية.
طريقة واحدة النهائية للتفكير في تبادل البيانات هي عن طريق القياس. كل سيارة العام هي المسؤولة عن الآلاف من القتلى، لكننا لا محاولة لحظر القيادة. في الواقع، فإن مثل هذه الدعوة لحظر القيادة أن يكون سخيفا لأن القيادة تمكن العديد من الأشياء الرائعة. بدلا من ذلك، مجتمع يضع قيودا على الذين يمكن أن تدفع (على سبيل المثال، تحتاج إلى أن يكون سن معينة، تحتاج إلى مرت اختبارات معينة)، وكيف يمكن أن تدفع (على سبيل المثال، في إطار الحد الأقصى للسرعة). له المجتمع أيضا الناس المكلفة تطبيق هذه القواعد (على سبيل المثال، الشرطة)، ونحن معاقبة الأشخاص الذين يتم القبض انتهاكها. نفس هذا النوع من التفكير المتوازن الذي ينطبق على المجتمع لتنظيم القيادة يمكن أن تطبق أيضا على تبادل البيانات. وهذا هو، بدلا من جعل الحجج المطلقة لصالح أو ضد تبادل البيانات، وأعتقد أن أكبر الفوائد تأتي من معرفة كيف يمكننا تبادل المزيد من البيانات بأمان أكبر.
وفي الختام، زادت من مخاطر المعلوماتية بشكل كبير، وأنه من الصعب جدا التنبؤ بها وقياسها كميا. ولذلك، فمن الأفضل أن نفترض أن جميع البيانات من المحتمل التعرف ويحتمل أن تكون حساسة. لتقليل خطر إعلامية أثناء القيام بالبحث، يمكن للباحثين إنشاء ومتابعة خطة حماية البيانات. وعلاوة على ذلك، خطر إعلامية لا يمنع الباحثين من تبادل البيانات مع علماء آخرين.