خطر ابتلا به اطلاعات خطر رایج در تحقیق اجتماعی است؛ آن به طور چشمگیری افزایش یافته است؛ و آن را سخت ترین خطر به درک است.
چالش اخلاقی دوم برای تحقیقات دیجیتال سن اجتماعی خطر اطلاعاتی، بالقوه برای آسیب از افشای اطلاعات است (Council 2014) . مضرات اطلاعات از افشای اطلاعات شخصی می تواند اقتصادی (به عنوان مثال، از دست دادن شغل)، اجتماعی (به عنوان مثال، خجالت)، روانی (به عنوان مثال، افسردگی)، و یا حتی جنایتکار (به عنوان مثال، بازداشت برای رفتار غیر قانونی). متاسفانه، عصر دیجیتال را افزایش می دهد خطر ابتلا به اطلاعات به طور چشمگیری وجود دارد فقط آنقدر اطلاعات بیشتری در مورد رفتار ما. و، خطر اطلاعاتی بسیار دشوار است برای درک و مدیریت ثابت کرده است در مقایسه با خطرات است که نگرانی ها در تحقیقات اجتماعی عصر آنالوگ، مانند خطر فیزیکی بود. برای دیدن چگونگی عصر دیجیتال خطر اطلاعاتی را افزایش می دهد، در نظر گرفتن انتقال از کاغذ به سوابق پزشکی الکترونیکی. هر دو نوع ثبت ایجاد خطر، اما پرونده های الکترونیکی ایجاد خطرات بسیار بیشتر چرا که در یک مقیاس گسترده می توان آنها را به یک حزب غیر مجاز منتقل شده و یا در هم ادغام با دیگر سوابق. محققان اجتماعی در عصر دیجیتال در حال حاضر به دردسر با خطر اطلاعاتی را اجرا کنید، در بخشی به دلیل آنها به طور کامل نمی دانند که چگونه برای تعیین کمیت و مدیریت آن. بنابراین، من قصد دارم به ارائه یک راه مفید در مورد خطر اطلاعاتی فکر می کنم، و سپس من قصد دارم به شما برخی از مشاوره برای نحوه مدیریت خطر اطلاعاتی در پژوهش خود و در انتشار اطلاعات به محققان دیگر به من بدهید.
یکی از راه های است که محققان اجتماعی کاهش خطر ابتلا به اطلاعات "ناشناس" داده است. "ناشناس" روند از بین بردن شناسه شخصی آشکار مانند نام، آدرس، و شماره تلفن از داده است. با این حال، این روش بسیار کمتر موثر تر از بسیاری از مردم متوجه است، و آن است، در واقع، عمیقا و اساسا محدود است. به همین دلیل، هر زمان که من توصیف "ناشناس،" من علامت نقل قول استفاده کنید به شما یادآوری می کنند که این فرایند به ظاهر از گمنامی اما نه کاملا گمنام ایجاد می کند.
یک مثال زنده از شکست "ناشناس" از اواخر 1990s می آید در ماساچوست (Sweeney 2002) . کمیسیون بیمه گروه (GIC) یک سازمان دولتی مسئول برای خرید بیمه درمانی برای تمام کارمندان دولت بود. از طریق این کار، GIC پرونده سلامت دقیق در مورد هزاران نفر از کارکنان دولت جمع آوری شده. در تلاش برای تحریک تحقیق در مورد راه هایی برای بهبود سلامت، GIC تصمیم به انتشار این پرونده به محققان. با این حال، آنها همه از داده های خود را به اشتراک بگذارید. در عوض، آنها با از بین بردن اطلاعاتی مانند نام و آدرس "بی نام" آن. با این حال، آنها اطلاعات دیگری که فکر می کردند می تواند برای محققان مفید باشد مانند اطلاعات دموگرافیک (کد پستی، تاریخ تولد، قومیت و جنسیت) و اطلاعات پزشکی (داده سایت بازدید، تشخیص، روش) (شکل 6.4) به سمت چپ (Ohm 2010) . متاسفانه، این "ناشناس" برای محافظت از داده های کافی نیست.
برای نشان دادن کاستی های GIC "ناشناس"، Latanya سوئینی-پس از آن یک دانشجوی کارشناسی ارشد در MIT-پرداخت 20 $ برای به دست آوردن سوابق رای از شهرستان از کمبریج، زادگاه فرماندار ماساچوست ویلیام جوش. این پرونده رای شامل اطلاعاتی مانند نام، آدرس، کد پستی، تاریخ تولد و جنسیت. واقعیت این است که پرونده پزشکی داده ها و فایل رای دهندگان به اشتراک گذاشته کد پستی زمینه، تاریخ تولد، و جنس بدان معنی است که سوئینی می تواند آنها را لینک کنید. سوئینی می دانستند که تولد جوش ژوئیه 31، 1945، و سوابق رای با تولد تنها شامل شش نفر را در کمبریج. علاوه بر این، از آن شش نفر، تنها سه مرد بودند. و، از آن سه مرد، تنها یک کد پستی جوش را به اشتراک گذاشته. بنابراین، داده های رای نشان داد که هر کسی در داده های پزشکی با ترکیب جوش از تاریخ تولد، جنسیت، و کد پستی ویلیام جوش بود. در اصل، این سه قطعه از اطلاعات اثر انگشت منحصر به فرد او را در داده های ارائه شده. با استفاده از این حقیقت، سوئینی قادر به قرار سوابق پزشکی جوش، و به او اطلاع از شاهکار او بود، او را از طریق پست یک کپی از سوابق خود (Ohm 2010) .
کار سوئینی را نشان می دهد ساختار اصلی حملات د ناشناس، برای اتخاذ یک مدت از جامعه امنیت کامپیوتر است. در این حملات، دو مجموعه داده، نه که به خودی خود نشان می دهد اطلاعات حساس، مرتبط هستند، و از طریق این ارتباط، اطلاعات حساس در معرض است. در مواردی این فرایند شبیه به راه است که جوش شیرین و سرکه، دو ماده که به خودی خود بی خطر هستند، می تواند در ترکیب برای تولید یک نتیجه تند و زننده است.
در واکنش به سوئینی، و دیگر کار مرتبط، محققان در حال حاضر به طور کلی حذف خیلی بیشتر اطلاعات همه به اصطلاح "اطلاعات شخصی" (PII) (Narayanan and Shmatikov 2010) -در روند "ناشناس" علاوه بر این، بسیاری از محققان در حال حاضر متوجه باشید که برخی از داده ها مانند پرونده های پزشکی، سوابق مالی، پاسخ به بررسی سوال در مورد غیر قانونی رفتار است که احتمالا بیش از حد حساس به انتشار حتی پس از "ناشناس" با این حال، نمونه اخیر که من در زیر توصیف نشان می دهد که محققان اجتماعی نیاز به تفکر خود را تغییر دهید. به عنوان اولین گام، عاقلانه است که فرض کنیم که همه اطلاعات به طور بالقوه قابل شناسایی است و تمام اطلاعات حساس است. به عبارت دیگر، به جای فکر که خطر ابتلا به اطلاعاتی در مورد یک زیر مجموعه کوچک از پروژه ها، ما باید فرض کنیم که آن اعمال می شود، به برخی از درجه به همه پروژه ها.
هر دو جنبه از این دوباره جهت توسط جایزه Netflix بکشد نشان داده شده. همانطور که در فصل 5 توضیح داده، Netflix بکشد منتشر 100 میلیون رتبه بندی فیلم های ارائه شده توسط تقریبا 500،000 عضو، و پاسخ باز که در آن مردم از سراسر جهان الگوریتم های که می تواند توانایی Netflix بکشد، توصیه می شود فیلم بهبود را دریافت کرده بود. قبل از انتشار داده ها، Netflix بکشد هر گونه اطلاعات به وضوح شخصا شناسایی، مانند نام حذف خواهند شد. Netflix بکشد نیز یک گام اضافی رفت و آشفتگی جزئی در برخی از سوابق (به عنوان مثال، تغییر برخی از رتبه های 4 ستاره تا 3 ستاره) معرفی شده است. Netflix بکشد به زودی کشف، با این حال، که با وجود تلاش های خود را، با استفاده از نبود معنی ناشناس.
تنها دو هفته پس از داده ها آزاد شدند Narayanan and Shmatikov (2008) نشان داد که ممکن بود به در مورد تنظیمات فیلم برخی از افراد را یاد بگیرند. ترفند برای حمله مجدد شناسایی خود را شبیه به سوئینی بود: با هم ادغام دو منبع اطلاعات، با اطلاعات حساس و هیچ اطلاعات به وضوح شناسایی و یکی است که شامل هویت مردم است. هر یک از این منابع داده ها ممکن است به صورت جداگانه امن، اما زمانی که آنها ترکیب می شوند مجموعه داده ادغام می تواند خطر ابتلا اطلاعاتی ایجاد کنید. در مورد داده Netflix بکشد، در اینجا چگونه می تواند رخ دهد. تصور کنید که من را انتخاب کنید برای به اشتراک گذاشتن افکار من در مورد عمل و فیلم های کمدی با همکاران، اما من ترجیح می دهم برای به اشتراک گذاشتن به نظر من در مورد فیلم های مذهبی و سیاسی نیست. من همکاران می تواند اطلاعاتی را که من با آنها به اشتراک گذاشته ام برای پیدا کردن سوابق من در داده Netflix بکشد استفاده می کنند؛ اطلاعاتی که به اشتراک گذاری می تواند یک اثر انگشت منحصر به فرد درست مثل تاریخ ویلیام جوش تولد، کد پستی، و جنس. سپس، اگر آنها اثر انگشت منحصر به فرد من در پیدا کردن داده ها، آنها می توانند رتبه های من در مورد تمام فیلم، از جمله فیلم که در آن من را انتخاب کنید برای به اشتراک گذاشتن نیست یاد بگیرند. علاوه بر این نوع از حملات هدفمند متمرکز بر یک نفر، Narayanan and Shmatikov (2008) نیز نشان داد که ممکن بود برای انجام یک حمله گسترده نهادند که شامل بسیاری از مردم با ادغام داده Netflix بکشد با داده های رتبه های شخصی و فیلم که برخی از مردم انتخاب کرده اند برای ارسال بر روی پایگاه اینترنتی فیلم (فیلم). هر گونه اطلاعات است که اثر انگشت منحصر به فرد برای یک فرد خاص، حتی مجموعه خود را از فیلم رتبه بندی می توان مورد استفاده برای شناسایی آنها.
حتی اگر داده Netflix بکشد می تواند دوباره مشخص شده در هر یک از مورد حمله قرار داده و یا گسترده، ممکن است هنوز به نظر می رسد کم خطر. پس از همه، رتبه بندی فیلم انجام بسیار حساس به نظر نمی رسد. در حالی که ممکن به طور کلی درست باشد، برای برخی از 500،000 نفر در مجموعه داده ها، رتبه بندی فیلم ممکن است کاملا حساس است. در واقع، در پاسخ به د ناشناس یک زن همجنسگرا پنهان کت و شلوار کلاس اقدام علیه Netflix بکشد پیوست. در اینجا چگونه مشکل در شکایت بیان شد (Singel 2009) :
"[M] ovie و امتیاز داده ها شامل اطلاعات از ماهیت بسیار بیشتر شخصی و حساس [کذا]. اطلاعات فیلم عضو در معرض منافع شخصی عضو Netflix بکشد و / یا مبارزات با مسائل مختلف بسیار شخصی، از جمله تمایلات جنسی، بیماری های روانی، بهبود از اعتیاد به الکل، و قربانی از زنای با محارم، آزار جسمی، خشونت خانگی، زنا و تجاوز به عنف "
د، ناشناس از داده جایزه Netflix بکشد نشان هر دو که تمام داده های به طور بالقوه قابل شناسایی است و این که تمام داده حساس است. در این نقطه، شما ممکن است فکر می کنم که این تنها به داده های که مدعی است در مورد مردم باشد، صادق است. با کمال تعجب، این است که این مورد نیست. در پاسخ به درخواست آزادی قانون اطلاعات، دولت شهر نیویورک سوابق هر سوار تاکسی در نیویورک در سال 2013 منتشر شد، از جمله وانت و رها کردن زمان، مکان، و مقادیر کرایه (یادآوری از فصل 2 که Farber (2015) با استفاده از این داده ها برای تست نظریه های مهم در اقتصاد کار). اگر چه این داده ها در مورد سفر تاکسی ممکن است به نظر می رسد به دلیل خوش خیم به نظر نمی رسد به اطلاعات در مورد مردم، آنتونی Tockar متوجه شدم که این مجموعه داده تاکسی در واقع شامل تعداد زیادی از اطلاعات حساس در مورد مردم است. برای نشان دادن، او در تمام سفرهای نگاه شروع در کلاهبردار باشگاه باشگاه نوار بزرگ در نیویورک-بین نیمه شب و 6:00 و سپس متوجه مکان افت کردن است. این جستجو نشان داد، در اصل، یک لیست از آدرس برخی از افرادی که مکرر کلاهبردار باشگاه (Tockar 2014) . این سخت است تصور کنید که دولت شهرستان این در ذهن داشت که آن را منتشر داده ها. در واقع، این روش های مشابه می تواند برای پیدا کردن آدرس منزل از افرادی که مراجعه هر مکان در شهرستان یک کلینیک پزشکی، یک ساختمان دولتی، یا نهاد مذهبی.
این دو مورد، جایزه Netflix و شهر نیویورک تاکسی داده نشان می دهد که مردم نسبتا ماهر شکست خورده خطر اطلاعاتی در داده ها است که آنها منتشر به درستی برآورد، و این موارد به هیچ وجه منحصر به فرد (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . علاوه بر این، در بسیاری از این موارد، داده ها مشکل ساز است که هنوز هم آزادانه در دسترس آنلاین، نشان می دهد مشکل از همیشه در حال لغو انتشار داده است. در مجموع این نمونه های و همچنین تحقیق در علوم کامپیوتر در مورد حفظ حریم خصوصی منجر به یک نتیجه مهم است. محققان باید فرض کنیم که تمام داده ها به طور بالقوه قابل شناسایی است و تمام اطلاعات حساس است.
متاسفانه، هیچ راه حل ساده برای این واقعیت است که تمام داده ها به طور بالقوه قابل شناسایی است و تمام اطلاعات حساس است. با این حال، یک راه برای کاهش خطر ابتلا به اطلاعات در حالی که شما در حال کار با داده های است که برای ایجاد و طرح حفاظت از داده ها را دنبال کنید. این طرح این شانس که اطلاعات خود را نقص و آسیب را کاهش دهد اگر نشت نحوی رخ می دهد کاهش می یابد. ویژگی های برنامه حفاظت از داده ها، مانند که فرم رمزنگاری برای استفاده، در طول زمان تغییر خواهد کرد، اما خدمات داده UK مفیدی سازماندهی عناصر یک طرح حفاظت از داده ها را به 5 دسته که آنها پاسخ 5 سفس: پروژه های امن، افراد سالم ، تنظیمات امن، امن داده ها و خروجی های امن (جدول 6.2) (Desai, Ritchie, and Welpton 2016) . هیچ یک از پنج سفس صورت جداگانه حفاظت کامل فراهم می کند. اما، با هم یک مجموعه قدرتمند از عواملی که می تواند خطر ابتلا به اطلاعاتی کاهش تشکیل می دهد.
بی خطر | عمل |
---|---|
پروژه های امن | را محدود پروژه با داده به کسانی که اخلاقی |
مردم امن | دسترسی به افرادی که می توان با داده های قابل اعتماد محدود (آموزش اخلاقی به عنوان مثال، مردم قرار گرفته اند) |
داده های امن | داده ها د-شناسایی و جمع آوری تا حد امکان |
تنظیمات امن | داده ها در کامپیوتر با فیزیکی مناسب (به عنوان مثال، اتاق قفل شده است) و نرم افزار (به عنوان مثال، حفاظت از رمز عبور، رمزگذاری شده) برای حمایت های ذخیره شده |
خروجی امن | خروجی پژوهش بررسی شده است برای جلوگیری طور تصادفی نقض حریم خصوصی |
علاوه بر حفاظت از داده های خود را در حالی که شما با استفاده از آن، یک گام در فرآیند تحقیق که در آن خطر ابتلا به اطلاعاتی به خصوص برجسته است به اشتراک گذاری اطلاعات با دیگر محققان است. به اشتراک گذاری داده ها در میان دانشمندان ارزش اصلی از تلاش علمی آن تا حد زیادی امکانات پیشرفت دانش است، و. در اینجا چگونه کاخ بریتانیا عوام اهمیت به اشتراک گذاری داده توصیف شده است:
"دسترسی به داده های اساسی است اگر محققان برای تولید مثل، بررسی و ساخت در نتایج که در منابع مختلف گزارش. فرض باید این باشد که، مگر اینکه دلیل قوی وجود دارد در غیر این صورت، داده ها باید به طور کامل فاش ساخته شده و در دسترس عموم. در راستای این اصل، در صورت امکان، اطلاعات مرتبط با تمام تحقیقات بودجه عمومی باید به طور گسترده و آزادانه در دسترس ساخته شده است. " (Molloy 2011)
با این حال، با به اشتراک گذاشتن اطلاعات خود را با پژوهشگر دیگری، شما ممکن است افزایش خطر ابتلا به اطلاعاتی به شرکت کنندگان خود را. بنابراین، آن را ممکن است به نظر می رسد که محققان که مایل به سهم خود داده و یا مورد نیاز برای به اشتراک گذاشتن آنها داده می شود یک تنش اساسی مواجه است. از یک طرف آنها تعهد اخلاقی برای به اشتراک گذاشتن اطلاعات خود را با سایر دانشمندان، به خصوص اگر تحقیقات اولیه به طور عمومی تامین می شود. با این حال، در همان زمان، محققان تعهد اخلاقی برای به حداقل رساندن، به همان اندازه که ممکن است، خطر ابتلا به اطلاعات به شرکت کنندگان است.
خوشبختانه، این معضل است به شدت به نظر می رسد نیست. این مهم است که از داده های به اشتراک گذاری در امتداد یک پیوستار از هیچ به اشتراک گذاری داده به انتشار و فراموش کرده ام، که در آن داده است "بی نام" شده و برای هر کسی که برای دسترسی به (شکل 6.6) فکر می کنم. هر دو از این مواضع افراطی دارند خطرات و مزایای. این است که، آن است که به طور خودکار چیز اخلاقی ترین داده های خود را برای به اشتراک گذاشتن نیست؛ چنین رویکردی بسیاری از مزایای بالقوه برای جامعه بین می برد. بازگشت به طعم، روابط، و زمان، به عنوان مثال در این فصل مورد بحث، استدلال علیه آزادی داده است که تنها در مضرات ممکن است تمرکز و چشم پوشی فواید احتمالی بیش از حد یک طرفه هستند. من مشکلی با این یک طرفه و رویکرد بیش از حد محافظت در جزئیات بیشتر در زیر توصیف زمانی که من ارائه مشاوره در مورد تصمیم گیری در مواجهه با عدم قطعیت (بخش 6.6.4).
علاوه بر این، در بین این دو موارد شدید است آنچه من یک رویکرد باغ دیواره که در آن داده ها با افرادی که با معیارهای خاصی و کسی که موافقت خود را با قوانین خاص محدود می شود مشترک نامیده می شود (به عنوان مثال، نظارت از IRB و یک برنامه حفاظت از داده ها) . این رویکرد باغ دیواره بسیاری از مزایای انتشار فراهم می کند و فراموش با خطر کمتر. البته، یک رویکرد باغ دیواره ایجاد بسیاری از سوالات که باید دسترسی داشته، تحت چه شرایطی، برای چه مدت، چه کسی باید پرداخت برای حفظ و پلیس باغ دیواره و غیره، اما این غیر قابل عبور نیست. در واقع، وجود دارد در حال حاضر کار باغ دیواره در جایی که محققان می توانند در حال حاضر به عنوان داده ها آرشیو کنسرسیوم بین دانشگاه سیاسی و اجتماعی تحقیقات در دانشگاه میشیگان استفاده کنید.
بنابراین، جایی که باید داده ها را از مطالعه خود را در پیوستاری از هیچ به اشتراک گذاری، باغ دیواره باشد، و آزاد و فراموش کرده ام؟ آن را بر روی جزئیات از داده های شما بستگی دارد. محققان باید احترام به فرد، سود، دادگستری، و احترام به قانون و منافع عمومی تعادل می باشد. هنگام ارزیابی تعادل مناسب برای تصمیم گیری های دیگر محققان به دنبال مشاوره و تصویب IRBs و انتشار داده ها می تواند تنها بخشی دیگری از این روند است. به عبارت دیگر، اگر چه برخی از مردم از انتشار اطلاعات به عنوان یک باتلاق اخلاقی نا امید کننده فکر می کنم، ما در حال حاضر سیستم در محل برای کمک به محققان تعادل این نوع از معضلات اخلاقی است.
یکی از راه های نهایی در مورد به اشتراک گذاری داده فکر می کنم با قیاس. هر اتومبیل سال مسئول مرگ هزاران نفر هستند، اما ما تلاش برای ممنوعیت رانندگی. در واقع، چنین پاسخ به ممنوعیت رانندگی می تواند پوچ به دلیل رانندگی را قادر می سازد بسیاری از چیزهای فوق العاده است. جامعه، محدودیت هایی در که می تواند رانندگی (به عنوان مثال، نیاز به یک سن خاص، نیاز به آزمایش های خاص گذشت) و چگونه آنها می توانند رانندگی (به عنوان مثال، تحت محدودیت سرعت) است. همچنین جامعه است مردم وظیفه با اجرای این قوانین (به عنوان مثال، پلیس)، و ما افرادی که در حال نقض آنها گرفتار مجازات. این همان نوع از تفکر متعادل که جامعه به تنظیم رانندگی اعمال می شود همچنین می توانید به اشتراک گذاری داده ها اعمال شود. این است که، به جای استدلال مطلق یا علیه به اشتراک گذاری داده ها، من فکر می کنم بزرگترین مزایای از بدانند چگونه ما می توانیم اطلاعات بیشتر با خیال راحت به اشتراک بگذارید آمده است.
برای نتیجه گیری، خطر اطلاعاتی به طور چشمگیری افزایش یافته است، و آن را بسیار سخت است برای پیش بینی و تعیین کمیت. بنابراین، بهتر است که فرض کنیم که تمام داده های به طور بالقوه شناسایی و حساس است. برای کاهش خطر اطلاعاتی در حالی که انجام پژوهش، پژوهشگران می توانید ایجاد و طرح حفاظت از داده ها را دنبال کنید. علاوه بر این، خطر اطلاعاتی می کند محققان از به اشتراک گذاری داده با دانشمندان دیگر جلوگیری نمی کند.