סיכון מידע הוא הסיכון השכיח ביותר במחקר חברתי; זה גדל באופן דרמטי; וזה הסיכון הכי קשה להבין.
האתגר האתיקאי השני למחקרי העידן הדיגיטלי הוא סיכון מידע , פוטנציאל הפגיעה בחשיפת המידע (National Research Council 2014) . הפרות מידע מגילוי מידע אישי יכול להיות כלכלי (למשל, לאבד עבודה), חברתית (למשל, מבוכה), פסיכולוגי (למשל, דיכאון), או אפילו פלילי (למשל, מעצר על התנהגות בלתי חוקית). למרבה הצער, העידן הדיגיטלי מגדיל באופן דרמטי את הסיכון האינפורמטיבי - יש רק מידע רב יותר על ההתנהגות שלנו. הסיכון האינפורמטיבי הוכיח את עצמו קשה מאוד להבנה ולניהול בהשוואה לסיכונים שהיו מעורבים במחקר חברתי אנלוגי, כגון סיכון פיזי.
אחת הדרכים שבהן חוקרים חברתיים להקטין את הסיכון הסברה היא "anonymization" של נתונים. "הסתרת זהות" היא התהליך של הסרת פרטים מזהים אישיים ברורים כגון שם, כתובת, ומספר טלפון מהנתונים. עם זאת, גישה זו היא הרבה פחות יעילה ממה שרבים חושבים, וזה, למעשה, עמוק ומהותי מוגבל. מסיבה זו, בכל פעם שאני מתאר "anonymization," אשתמש במרכאות להזכיר לך כי תהליך זה יוצר את המראה של אנונימיות אבל לא אנונימיות אמיתי.
דוגמה חיה לכישלון של "אנונימיזציה" באה בסוף 1990 במסצ'וסטס (Sweeney 2002) . ועדת הביטוח של הקבוצה (GIC) הייתה חברה ממשלתית האחראית לרכישת ביטוח בריאות לכל עובדי המדינה. באמצעות עבודה זו, GIC אסף רשומות בריאות מפורטות על אלפי עובדי המדינה. במאמץ לדרבן את המחקר, החליטה GIC לשחרר רשומות אלה לחוקרים. עם זאת, הם לא שיתפו את כל הנתונים שלהם; במקום זאת, הם "אנונימיים" נתונים אלה על ידי הסרת מידע כגון שמות וכתובות. עם זאת, הם השאירו מידע אחר שלדעתם יכול להיות שימושי עבור חוקרים כגון מידע דמוגרפי (מיקוד, תאריך לידה, מוצא אתני ומין) ומידע רפואי (נתוני ביקור, אבחון, הליך) (איור 6.4) (Ohm 2010) . למרבה הצער, "אנונימיזציה" זה לא היה מספיק כדי להגן על הנתונים.
כדי להדגים את החסרונות של "אנונימיזציה" של GIC, לטניה סוויני, אז סטודנטית לתואר שני ב- MIT, שילמה 20 דולר לרכישת רשומות ההצבעה מהעיר קיימברידג ', עיר הולדתו של מושל מסצ'וסטס וויליאם ולד. רשומות הצבעה אלה כללו מידע כגון שם, כתובת, מיקוד, תאריך לידה ומין. העובדה שקובץ הנתונים הרפואי ותיק הבוחרים משותף לשדות - מיקוד, תאריך לידה ומין - פירושו שסוויני יכול לקשור אותם. סוויני ידע שיום הולדתו של ולד היה ב- 31 ביולי 1945, והרישומים הצביעו רק שישה אנשים בקיימברידג' עם יום ההולדת. יתר על כן, מתוך אותם שישה אנשים, רק שלושה היו גברים. ומבין שלושת האנשים האלה, רק אחד מהם היה שותף למיקוד של ולד. לפיכך, נתוני ההצבעה הראו שכל מי שנמצא בנתונים הרפואיים עם שילוב של תאריך לידה, מין ומיקוד של ולד היה ויליאם ולד. למעשה, אלה שלוש חתיכות של מידע בתנאי טביעת אצבע ייחודית לו בנתונים. באמצעות עובדה זו, סוויני הצליח לאתר רשומות רפואיות של ולד, וכדי להודיע לו על ההישג שלה, שלחה לו עותק של הרשומות שלו (Ohm 2010) .
עבודתו של סוויני מדגימה את המבנה הבסיסי של התקפות זיהוי מחדש - לאמץ מונח מקהילת אבטחת המחשבים. בהתקפות אלה, שני מקבצי נתונים, שאף אחד מהם אינו חושף מידע רגיש, קשור ביניהם, ובאמצעות קישור זה נחשף מידע רגיש.
כתגובה לעבודתו של סוויני ולעבודות קשורות אחרות, החוקרים בדרך כלל מסירים הרבה יותר מידע - כל מה שמכונה "מידע מזהה אישי" (PII) (Narayanan and Shmatikov 2010) - תוך כדי תהליך "אנונימיזציה". כמו כן, חוקרים רבים עכשיו מבינים כי נתונים מסוימים - כגון רשומות רפואיות, רשומות פיננסיות, תשובות לשאלות הסקר על התנהגות בלתי חוקית - הם כנראה רגישים מדי כדי לשחרר אפילו אחרי "אנונימיזציה." עם זאת, הדוגמאות שאני עומד לתת מציע כי חוקרים חברתיים צריכים כדי לשנות את החשיבה שלהם. כצעד ראשון, זה חכם להניח כי כל הנתונים הם פוטנציאל לזיהוי וכל הנתונים הם שעלולים להיות רגישים. במילים אחרות, במקום לחשוב כי סיכון מידע חל על קבוצה קטנה של פרויקטים, יש להניח כי היא חלה - במידה מסוימת - על כל הפרויקטים.
שני ההיבטים של זה reorientation מאוירים על ידי פרס נטפליקס. כמתואר בפרק 5, נטפליקס פרסמה 100 מיליון דירוגים של סרטים שסופקו על ידי כמעט 500,000 חברים, ושיחה פתוחה שבה אנשים מכל רחבי העולם הגישו אלגוריתמים שיכולים לשפר את יכולתה של נטפליקס להמליץ על סרטים. לפני שחרור הנתונים, נטפליקס הסירה כל מידע מזהה ברור, כגון שמות. הם גם צעדו צעד נוסף והכניסו הפרעות קלות בחלק מהרשומות (למשל, שינוי דירוגים מ -4 כוכבים ל -3 כוכבים). עד מהרה גילו, שלמרות מאמציהם, הנתונים עדיין לא היו אנונימיים.
רק שבועיים לאחר פרסום הנתונים, Arvind Narayanan ו- Vitaly Shmatikov (2008) הראו שאפשר ללמוד על העדפות הסרט של אנשים ספציפיים. הטריק לתקוף ההזדהות שלהם היה דומה לזה של סוויני: למזג יחד שני מקורות מידע, אחד עם מידע רגיש פוטנציאלי ואין מידע מזהה ברור אחד המכיל זהויות של אנשים. כל אחד ממקורות הנתונים הללו עשוי להיות בטוח בנפרד, אך כאשר הם משולבים, מערך הנתונים הממוזג עלול ליצור סיכון מידע. במקרה של נתוני Netflix, הנה איך זה יכול לקרות. תארו לעצמכם שאני בוחר לחלוק את המחשבות שלי על פעולה וקומדיה סרטים עם עמיתים לעבודה שלי, אבל אני מעדיף לא לשתף את דעתי על סרטים דתיים ופוליטיים. חברי לעבודה יכולים להשתמש במידע ששיתפתי איתם כדי למצוא את הרשומות שלי בנתוני Netflix; המידע שאני חולק יכול להיות טביעת אצבע ייחודית בדיוק כמו תאריך הלידה של ויליאם ולד, מיקוד, ומין. לאחר מכן, אם הם מצאו את טביעת האצבע הייחודית שלי בנתונים, הם יוכלו ללמוד את הדירוגים שלי על כל הסרטים, כולל סרטים שאני בוחר שלא לשתף. בנוסף לסוג זה של התקפות ממוקדות הממוקדות באדם אחד, נראיאן ושמטיקוב הראו כי ניתן היה לבצע פיגוע רחב - שבו אנשים רבים - על ידי מיזוג נתוני נטפליקס עם נתוני דירוג אישיים וסרטים שבחלק מהאנשים בחרו כדי לפרסם על סרט באינטרנט סרט (IMDb). בפשטות, כל מידע שהוא טביעת אצבע ייחודית לאדם מסוים - אפילו אוסף של דירוגי סרטים - יכול לשמש כדי לזהות אותם.
למרות שניתן לזהות מחדש את הנתונים של Netflix בהתקפה ממוקדת או רחבה, זה עדיין עלול להוות סיכון נמוך. אחרי הכל, דירוגים הסרט לא נראה רגיש מאוד. אמנם זה יכול להיות נכון באופן כללי, עבור חלק 500,000 אנשים במערך, דירוגים הסרט עשוי להיות רגיש למדי. למעשה, בתגובה לזיהוי מחדש, הצטרפה לאשה לסבית בתביעה ייצוגית נגד נטפליקס. כך התבטאה הבעיה בתביעה (Singel 2009) :
"[M] ovie ודירוג הנתונים מכיל מידע של ... אופי אישי ורגיש מאוד. נתוני הסרט של החבר חושפים את האינטרס האישי של חבר ו / או מאבקו של נטפליקס בנושאים שונים מאוד, כולל מיניות, מחלת נפש, התאוששות מאלכוהוליזם וקורבנות מגילוי עריות, התעללות גופנית, אלימות במשפחה, ניאוף ואונס ".
הזיהוי מחדש של נתוני פרס נטפליקס ממחיש הן את העובדה שכל הנתונים ניתנים לזיהוי וכי כל הנתונים הם רגישים. בנקודה זו, אתה עשוי לחשוב שזה חל רק על נתונים שמתיימרים להיות על אנשים. באופן מפתיע, זה לא המקרה. בתגובה לבקשת חוק חופש המידע, פרסמה ממשלת ניו יורק רשומות של כל נסיעה במונית בניו יורק ב -2013, כולל טנדרים וזמני הפסקה, מיקומים וסכומים (נזכר מפרק 2 כי Farber (2015) השתמשו בנתונים דומים לבדיקת תיאוריות חשובות בכלכלת העבודה). נתונים אלה על נסיעות מוניות אולי נראה שפיר, כי הם לא נראים לספק מידע על אנשים, אבל אנתוני טוקאר הבין כי מערך מוניות זה למעשה מכיל הרבה מידע רגיש על אנשים. כדי להמחיש, הוא הסתכל על כל הטיולים שהגיעו למועדון ההאסלר - מועדון חשפנות גדול בניו יורק - בין חצות לשש בבוקר, ואז מצא את מקום הטיפה שלהם. חיפוש זה חשף - במהותה - רשימה של כתובות של כמה אנשים אשר ביקר במועדון (Tockar 2014) . קשה להעלות על הדעת שממשלת העיר חשבה על כך כאשר פרסמה את הנתונים. למעשה, באותה טכניקה ניתן להשתמש כדי למצוא את כתובות הבית של אנשים לבקר בכל מקום בעיר - מרפאה רפואית, בניין ממשלתי, או מוסד דתי.
שני מקרים אלה בפרס נטפליקס ובנתוני המוניות של העיר ניו יורק מראים כי אנשים מיומנים יחסית אינם יכולים להעריך נכונה את הסיכון האינפורמטיבי בנתונים שהם משחררים - והמקרים הללו אינם ייחודיים כלל (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . יתר על כן, במקרים רבים כאלה, הנתונים הבעייתיים עדיין זמינים באופן חופשי באינטרנט, דבר המעיד על הקושי של אי פעם לשחרר נתונים. באופן קולקטיבי, אלה דוגמאות - כמו גם מחקר בתחום מדעי המחשב על פרטיות - להוביל למסקנה חשובה. חוקרים צריכים להניח שכל הנתונים הם פוטנציאל לזיהוי וכל הנתונים הם שעלולים להיות רגישים.
למרבה הצער, אין פתרון פשוט את העובדות כי כל הנתונים הם לזיהוי פוטנציאלי וכי כל הנתונים הם רגישים. עם זאת, אחת הדרכים לצמצם את הסיכון מידע בזמן שאתה עובד עם נתונים היא ליצור ולעקוב אחר תוכנית הגנה על נתונים . תוכנית זו תקטין את הסיכוי שהנתונים שלך ידלו ויפחיתו את הנזק אם דליפה אכן תתרחש. הפרטים של תוכניות להגנת נתונים, כגון צורת ההצפנה לשימוש, ישתנו עם הזמן, אולם שירותי הנתונים בבריטניה מסייעים לארגון האלמנטים של תוכנית להגנת נתונים לחמש קטגוריות שהם מכנים חמש הכספות : פרויקטים בטוחים, אנשים בטוחים , הגדרות בטוח, נתונים בטוחים, ופלט בטוח (טבלה 6.2) (Desai, Ritchie, and Welpton 2016) . אף אחד מחמשת הכספות אינו מספק הגנה מושלמת. אבל יחד הם מהווים קבוצה חזקה של גורמים שיכולים להפחית את הסיכון מידע.
בטוח | פעולה |
---|---|
פרויקטים בטוחים | מגביל פרויקטים עם נתונים לאלה אתיים |
אנשים בטוחים | הגישה מוגבלת לאנשים שניתן לסמוך עליהם בנתונים (למשל, אנשים שעברו הכשרה אתית) |
נתונים בטוחים | הנתונים מזוהים ומוצברים עד כמה שניתן |
הגדרות בטוח | הנתונים מאוחסנים במחשבים עם פיזי מתאים (למשל, חדר נעול) ותוכנות (כגון הגנה על סיסמה, הצפנה) |
פלט בטוח | פלט המחקר נבדק כדי למנוע הפרות פרטיות מקריות |
בנוסף להגנה על הנתונים שלך בזמן שאתה משתמש בהם, צעד אחד בתהליך המחקר שבו סיכון המידע בולט במיוחד הוא שיתוף נתונים עם חוקרים אחרים. שיתוף נתונים בין מדענים הוא ערך הליבה של המאמץ המדעי, והוא מקל מאוד על קידום הידע. כך תיאר בית הנבחרים הבריטי את חשיבות שיתוף הנתונים (Molloy 2011) :
"גישה לנתונים היא בסיסית אם החוקרים צריכים לשחזר, לאמת ולבנות על התוצאות המדווחות בספרות. ההנחה צריכה להיות, שאם אין סיבה חזקה אחרת, יש לחשוף את הנתונים באופן מלא ולהפוך אותם לציבוריים ".
עם זאת, על ידי שיתוף הנתונים שלך עם חוקר אחר, ייתכן שאתה מגדיל את הסיכון האינפורמטיבי למשתתפים שלך. לכן, נראה כי שיתוף הנתונים יוצר מתח בסיסי בין החובה לשתף נתונים עם מדענים אחרים לבין החובה לצמצם את הסיכון האינפורמטיבי למשתתפים. למרבה המזל, הדילמה הזו אינה חמורה כפי שהיא נראית. במקום זאת, עדיף לחשוב על שיתוף נתונים כמתוך רצף, כאשר כל נקודה על הרצף הזה מספקת שילוב שונה של הטבות לחברה וסיכון למשתתפים (איור 6.6).
בקצה אחד, אתה יכול לחלוק את הנתונים שלך עם אף אחד, אשר מזער את הסיכון למשתתפים, אלא גם ממזער את הרווחים לחברה. בקצה השני, אתה יכול לשחרר ולשכוח , שבו הנתונים "אנונימי" ו פורסמה לכולם. יחסית לא לשחרר נתונים, לשחרר ולשכוח מציעה הן יתרונות גבוהים יותר לחברה וסיכון גבוה יותר למשתתפים. בין שני מקרים קיצוניים אלה הם מגוון של מכוניות היברידיות, כולל מה שאני מכנה גישה בגינה חומה . במסגרת גישה זו, הנתונים משותפים עם אנשים שעומדים בקריטריונים מסוימים ומסכימים להיות כפופים לכללים מסוימים (למשל, פיקוח של IRB ותוכנית להגנת נתונים). הגישה בגינה מוקפת חומה מספקת יתרונות רבים של שחרור ולשכוח עם פחות סיכון. כמובן, גישה כזו יוצרת שאלות רבות - מי צריך לקבל גישה, באילו תנאים, וכמה זמן, מי צריך לשלם כדי לשמור על המשטרה בגינה וכו '- אבל אלה לא בלתי עביר. למעשה, יש כבר עובד גנים מוקף במקום שבו חוקרים יכולים להשתמש עכשיו, כגון ארכיון נתונים של הקונסורציום הבין אוניברסיטאי למחקר פוליטי וחברתי באוניברסיטת מישיגן.
אז, איפה הנתונים מן המחקר שלך להיות על רצף של שיתוף, הגן מוקף, ולשחרר ולשכוח? זה תלוי בפרטים של הנתונים שלך: החוקרים חייבים לאזן כבוד לאנשים, תועלת, צדק וכיבוד החוק והאינטרס הציבורי. מנקודת מבט זו, שיתוף הנתונים אינו חידה אתית מובהקת; זה רק אחד ההיבטים הרבים של מחקר שבו החוקרים צריכים למצוא את האיזון המוסרי המתאים.
חלק מהמבקרים מתנגדים בדרך כלל לשיתוף נתונים, משום שלדעתי הם מתמקדים בסיכוניה - שהם ללא ספק ריאליים - ומתעלמים מיתרונותיה. אז, כדי לעודד להתמקד בשני הסיכונים והטבות, אני רוצה להציע אנלוגיה. מדי שנה, מכוניות אחראים על אלפי מקרי מוות, אבל אנחנו לא מנסים לאסור נהיגה. למעשה, קריאה לאסור נהיגה יהיה אבסורדי כי נהיגה מאפשרת דברים נפלאים רבים. במקום זאת, החברה מציבה הגבלות על מי יכול לנהוג (למשל, הצורך להיות בגיל מסוים ועברו בדיקות מסוימות) וכיצד הם יכולים לנהוג (למשל, תחת המהירות המותרת). בחברה יש גם אנשים המוטלים על אכיפת הכללים האלה (למשל, המשטרה), ואנחנו להעניש אנשים שנתפסו להפר אותם. זה סוג של חשיבה מאוזנת כי החברה חל על הרגולציה נהיגה יכול להיות מיושם גם על שיתוף נתונים. כלומר, במקום להפוך טיעונים אבסולוטיסטיים בעד או נגד שיתוף נתונים, אני חושב שאנחנו נעשה את ההתקדמות ביותר על ידי התמקדות כיצד נוכל להפחית את הסיכונים ולהגדיל את היתרונות של שיתוף נתונים.
לסיכום, סיכון המידע גדל באופן דרמטי, וקשה מאוד לחזות ולכמת. לכן, יש להניח כי כל הנתונים הם פוטנציאליים לזיהוי פוטנציאלי. כדי להפחית את הסיכון מידע תוך כדי מחקר, החוקרים יכולים ליצור ולעקוב אחר תוכנית להגנת נתונים. יתר על כן, סיכון מידע אינו מונע מחוקרים לשתף נתונים עם מדענים אחרים.