סיכון המידע הוא הסיכון הנפוץ ביותר במחקר חברתי; זה גדל באופן דרמטי; וזה הסיכון שהכי קשה לי להבין.
האתגר המוסרי השני למחקר דיגיטלי חברתי גיל הוא סיכון מידע, הפוטנציאל לניזק מן הגילוי של מידע (Council 2014) . וניזקי סברה מן הגילוי של מידע אישי יכולים להיות כלכליים (למשל, פיטורים), חברתית (למשל, מבוכה), פסיכולוגי (למשל, דיכאון), או אפילו פלילי (למשל, מעצר על התנהגותם הבלתי חוקית). למרבה הצער, בעידן הדיגיטלי מעלה את הסיכון מידע דרמטי-יש פשוט כל כך הרבה יותר מידע על התנהגותנו. וגם, סיכון מידע הוכיח קשה מאוד להבין ולנהל לעומת סיכונים שהיו חששות במחקר חברתי גיל אנלוגי, כגון סיכון פיזי. כדי לראות איך בעידן הדיגיטלי מעלה את הסיכון מידע, לשקול את המעבר מן הנייר רשומות רפואיות אלקטרוניות. שני הסוגים של רשומות ליצור סיכון, אך רשומים האלקטרוני להוות סכנה הרבה יותר גדולה כי בקנה מידה מסיבי הם יכולים להיות מועברים מי שאינם זכאים לכך או התמזגו עם תעודות אחרות. חוקרים חברתיים בעידן הדיגיטלי כבר להתקל בקשיים עם סיכון מידע, בין שאר משום שהם לא באמת הבינו איך לכמת ולנהל אותו. אז, אני הולך להציע דרך לעזור לחשוב על סיכון מידע, ולאחר מכן אני הולך לתת לך כמה עצות כיצד לנהל את סיכון סברת המחקר שלך בשחרור נתונים לחוקרים אחרים.
אחת הדרכים שבהן חוקרים חברתיים להקטין את הסיכון הסברה היא "anonymization" של נתונים. "הסתרת זהות" היא התהליך של הסרת פרטים מזהים אישיים ברורים כגון שם, כתובת, ומספר טלפון מהנתונים. עם זאת, גישה זו היא הרבה פחות יעילה ממה שרבים חושבים, וזה, למעשה, עמוק ומהותי מוגבל. מסיבה זו, בכל פעם שאני מתאר "anonymization," אשתמש במרכאות להזכיר לך כי תהליך זה יוצר את המראה של אנונימיות אבל לא אנונימיות אמיתי.
דוגמא חיה של כישלון "anonymization" מקורו בסוף 1990 במסצ'וסטס (Sweeney 2002) . נציבות Insurance Group (GIC) הייתה גוף ממשלתי האחראי על רכישת ביטוח בריאות לכל עובדי המדינה. דרך עבודה זו, GIC שנאסף רשומות בריאות מפורטות על אלף עובדי מדינה. במאמץ לדרבן מחקר על דרכים לשפר את הבריאות, GIC החליט לשחרר רשומות אלה לחוקרים. עם זאת, הם לא לשתף את כל הנתונים שלהם; ליתר דיוק, הם "אנונימי" אותו על ידי הסרת מידע כגון שם וכתובת. עם זאת, הם עזבו מידע אחר שחשבו שיוכל להיות שימושי עבור חוקרים כגון מידע דמוגרפי (מיקוד, תאריך לידה, מוצא אתני, ומין) ומידע רפואי (נתוני ביקור, אבחון, הליך) (איור 6.4) (Ohm 2010) . למרבה הצער, זה "anonymization" לא היה מספיק כדי להגן על הנתונים.
כדי להמחיש את החסרונות של "anonymization" GIC, Latanya סוויני-אז סטודנט לתואר שני ב- MIT ששולם 20 $ לרכוש את רשומות ההצבעה מהעיר קיימברידג ', העיר הולדתו של מושל מסצ'וסטס ויליאם וולד. רשומות הצבעה אלה כללו מידע כגון שם, כתובת, מיקוד, תאריך לידה, ומין. העובדה שקובץ הנתונים הרפואי ואת קוד שדות-zip המשותף בוחר קובץ, תאריך לידה, והמין מתכוון לכך סוויני יכול לקשר אותם. סוויני ידע שיום ההולדת של הוולד הייתה 31 ביולי 1945, ועל פי רישומי ההצבעה נכללו בו רק שישה אנשים בקיימברידג קשור ליום הולדת. יתר על כן, של ששת הילדים האלה, רק שלושה מהם היו גברים. וגם, שלושת גברים אלה, רק אחד משותף המיקוד של הוולד. לפיכך, נתוני ההצבעה הראו כי אף אחד הנתונים הרפואיים עם שילוב של והוולד של תאריך לידה, מין, ומיקוד היה ויליאם וולד. בעיקרו של דבר, שיבצע שלושה דברים המידע המופיע טביעת אצבע ייחודית לו בנתונים. השימוש בעובדה זו, סוויני הצליח לאתר הרשום הרפואי של הוולד, ולהודיע לו על ההישג שלה, שהיא שלחה לו עותק של הרשומות שלו (Ohm 2010) .
העבודה של סוויני ממחישה את המבנה הבסיסי של התקפות-anonymization דה -כדי לאמץ מונח מקהילת אבטחת מחשב. בפיגועים אלה שני מאגרים, אף לא אחד מהם בפני עצמו חושף מידע רגיש, מקושרים, ודרך הקשר הזה, נחשף מידע רגיש. במובנים מסוימים, תהליך זה דומה לאופן שבו סודה לשתייה וחומץ, שני חומרים שהם בעצמם בטוחים, יכול להיות משולבים כדי לייצר תוצאה מגעילה.
בתגובת העבודה של סוויני, ולעבוד קשורים אחרים, חוקר כעת להסיר בדרך כלל הרבה יותר מידע כל מה שנקרא "מידע המאפשר זיהוי אישי" (PII) (Narayanan and Shmatikov 2010) -during התהליך של "אנונימיזציה." יתר על כן, חוקרים רבים כעת להבין כי רשומים רפואית-כגון נתונים כמו מסוימים, דוחות כספיים, תשובות סקר שאלות לגבי חוקיים התנהגות-הוא כנראה רגישה מכדי לשחרר גם לאחר "אנונימיזציה." עם זאת, דוגמאות מאוחרות יותר כי אני אתאר להלן עולה כי חוקרים חברתיים צריכים לשנות את החשיבה שלהם. כצעד ראשון, יהיה זה נבון להניח כי כל הנתונים הם פוטנציאל המזוהים כל הנתונים הם שעלול להיות רגישים. במילים אחרות, במקום לחשוב כי הסיכון מידע חל על קבוצה קטנה של פרויקטים, אנחנו צריכים להניח שהוא חל-במידה מסוימת-לכל הפרויקטים.
שני היבטים של מחדש אוריינטציה זו מומחשים על ידי פרס נטפליקס. כפי שתואר בפרק 5, נטפליקס פרסמה 100 מיליון דירוגי סרט שמספקים כמעט 500,000 חברים, והייתה שיחה פתוחה בה אנשים מכל רחבי העולם שהוגשו אלגוריתמים שיכולים לשפר את היכולת של נטפליקס להמליץ סרטים. לפני שחרור הנתונים, נטפליקס הסיר כמובן כל מידע זיהוי אישי, כגון שמות. נטפליקס גם הלך צעד נוסף והציג הפרעות קלות חלק מהרשומות (למשל, שינוי כמה דירוגים מ 4 כוכבי 3 כוכבים). נטפליקס אולם עד מהרה התברר, כי למרות מאמציהם, הנתונים לא היו בשום פנים אנונימיים.
שבועות בלבד לאחר הנתונים שוחררו Narayanan and Shmatikov (2008) הראו כי ניתן היה ללמוד על העדפות הסרט של אנשים ספציפיים. הטריק כדי זיהוי מחדש ההתקפה שלהם היתה דומה סוויני של: יתמזגו שני מקורות מידע, אחד עם מידע רגיש שעלול ולא פרטים מזהים כמובן ואחד המכיל את זהות האנשים. כל מקורות נתונים אלה עשויים להיות בנפרד בטוח, אבל כשהם משולבים במערך הממוזג יכול ליצור סיכון מידע. במקרה של הנתונים נטפליקס, הנה איך זה יכול לקרות. תארו לעצמכם כי אני בוחר לשתף את המחשבות שלי על פעולה סרטי קומדיה עם עמיתים לעבודה שלי, אבל זה אני מעדיף לא לשתף את הדעה שלי על סרטים דתיים ופוליטיים. עמיתים לעבודה שלי יכול להשתמש במידע ששיתפתי איתם כדי לאתר רשומות שלי נתונים נטפליקס; את המידע שאני לשתף יכול להיות טביעת אצבע ייחודית בדיוק כמו תאריך הלידה של ויליאם וולד, מיקוד, ומין. לאחר מכן, אם הם מוצאים את טביעת האצבע הייחודית שלי בנתונים, הם יכולים ללמוד הדרוגים שלי על כל הסרטים, כולל סרטים שבהם אבחר שלא לשתף. בנוסף לסוג זה של פגיעה מכוונת התמקדו אדם יחיד, Narayanan and Shmatikov (2008) הראו גם כי אפשר היה לעשות -One התקפה רחבה מעורבים הרבה אנשים-ידי מיזוג הנתונים נטפליקס עם נתוני דירוג אישי הסרט שחלק אנשים בחרו לכתוב על במסד הנתונים הקולנועיים (IMDb). כל מידע הזה הוא טביעת אצבע ייחודית לאדם-אפילו ספציפי שלהם סט של סרט דירוגים יכול לשמש כדי לזהות אותם.
למרות נתוני נטפליקס ניתנים מחדש מזוהים או באמצעות פגיעה מכוונת או רחב, זה עדיין עלול להיראות סיכון נמוך. אחרי הכל, דירוגי סרט לא נראו מאוד רגישים. אמנם זה עשוי להיות נכון באופן כללי, עבור חלק 500,000 אנשי הנתונים, דירוגי סרטים יכולים להיות די רגישים. למעשה, בתגובה-anonymization דה אישה לסבית בארון הצטרף תובענה ייצוגית נגד נטפליקס. הנה כמה הבעיה באה לידי ביטוי בתביעה (Singel 2009) :
"[ז] ovie ודירוג הנתונים מכיל מידע בעל אופי אישי ורגיש יותר מאד [כך במקור]. הנתונים הסרט של חבר חושפת עניין אישי של חבר נטפליקס ו / או מאבקים עם בעיות אישיות מאוד שונים, כולל מיניות, מחלות נפש, ההתאוששות מן אלכוהוליזם, וקורבנות מן גילוי עריות, התעללות פיזית, אלימות במשפחה, ניאוף, ואונס. "
הדה-אנונימיזציה של נתוני פרס נטפליקס מדגימה גם שכל הנתונים הם פוטנציאל מזוהה שכל הנתונים יהיו שעלול להיות רגישים. בשלב זה, אתה עשוי לחשוב כי זה חל רק על נתונים המתיימרים להיות על אנשים. באופן מפתיע, כי זה לא המקרה. בתשובה חופש בקשת חוק חופש המידע, ממשלת ניו יורק פרסמה תיעוד של כל נסיעה במונית בניו יורק בשנת 2013, כולל לטנדר להשיל פעמים, מיקומים, וכמויות הנסיעה (כזכור מתוך פרק 2 כי Farber (2015) השתמש בנתונים אלה כדי לבחון את התיאוריות חשובות כלכלת עבודה). למרות נתונים אלה על נסיעות במונית אולי נראה שפיר כי זה לא נראה להיות מידע על אנשים, אנתוני Tockar הבין במערך מונית זו למעשה הכיל המון מידע רגיש שעלול על אנשים. כדי להמחיש, הוא הביט כל הנסיעה מתחיל ב אדי פלסון מועדון-מועדון חשפנות גדול בניו יורק-בין חצות 6 בבוקר ואז נמצא במקומות ירידה- off שלהם. החיפוש הזה גילה שהוא במהותו-רשימה של כתובות של כמה אנשים לפקוד את מועדון Hustler (Tockar 2014) . קשה לדמיין כי ממשלת העיר היה זה בחשבון כאשר פרסמה את הנתונים. למעשה, באותה טכניקה זו יכולה לשמש כדי למצוא את כתובות המגורים של אנשים שמבקרים במקום כלשהו בעיר-מרפאת, בניין ממשלה, או מוסד דתי.
במקרים-שני אלה נטפליקס פרס ואת-הופעת הנתונים מונית בניו יורק כי יחסית מיומני אנשים לא מעריכים את סיכון המידע נכון בנתונים שהם שוחררו, במקרים אלה הם בהחלט לא ייחודיים (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . יתר על כן, ברבים מהמקרים הללו, הנתונים הבעייתיים עדיין זמינים בחינם באינטרנט, המציינים את הקושי של פעם בעוכריו שחרור נתונים. קולקטיבי דוגמאות-כמו אלה גם מחקר במדעי מחשב על-מוביל פרטיות על מסקנה חשובה. חוקרים צריכים להניח שכל הנתונים הם פוטנציאל המזוהים כל הנתונים הם שעלול להיות רגישים.
למרבה הצער, אין פתרון פשוט העובדה כי כל הנתונים הם פוטנציאל המזוהים כל הנתונים הם שעלול להיות רגישים. עם זאת, אחת הדרכים להפחית את הסיכון מידע בזמן שאתה עובד עם נתונים היא ליצור ופעל תוכנית להגנה על נתונים. תכנית זו תהיה מקטינה את הסיכוי כי הנתונים שלך ידלפו, ויצמצמו את הפגיעה אם דליפה איכשהו מתרחשת. הפרטים של תוכניות הגנה על נתונים, כגון איזה סוג של הצפנה להשתמש, ישתנו במשך זמן, אבל שירותי הנתונים בבריטניה בניסיון לעזור מארגן האלמנטים של תכנית הגנת נתונים לתוך 5 קטגוריות שקוראות 5 הכספות: פרויקטים בטוחים, אנשים בטוחים הגדרות, בטוחות, נתונים בטוחים, ותפוקות בטוחות (לוח 6.2) (Desai, Ritchie, and Welpton 2016) . אף אחד מחמש כספות בנפרד לספק הגנה מושלמת. אבל, יחד הם יוצרים קבוצה חזקה של גורמים שיכולים להקטין את סיכון מידע.
בטוח | פעולה |
---|---|
פרויקטים בטוחים | מגביל פרויקטים עם נתונים לאלה שהם אתיים |
אנשים בטוחים | גישה מוגבלת לאנשים מי אפשר לסמוך עם נתונים (למשל, אנשים שעברו הכשרה אתית) |
נתונים בטוחים | נתוני דה-מזוהה מצטברים עד כמה שניתן |
הגדרות בטוחות | נתונים מאוחסנים במחשבים עם פיזי מתאים (למשל, בחדר נעול) ותוכנה (למשל, הגנה באמצעות סיסמא, מוצפן) גינות |
פלט בטוח | תפוקות מחקר נבדקות כדי למנוע הפרת פרטיות בטעות |
בנוסף להגנה על הנתונים שלך בזמן שאתה משתמש בו, צעד אחד בתהליך המחקר בם סיכון מידע משתקף במיוחד הוא שיתוף נתונים עם חוקרים אחרים. שיתוף נתונים בין מדענים הוא ערך ליבה של העשייה המדעית, וזה מאוד מתקנים לקידום הידע. הנה כמה בבריטניה בית הנבחרים תיאר את החשיבות של שיתוף נתונים:
"גישה לנתונים הוא היסוד אם החוקרים לשחזר, לוודא ולבנות על התוצאות המדווחות בספרות. ההנחה צריכה להיות כי, אלא אם כן יש סיבה חזקה אחרת, נתונים צריכים לבוא לידיעה ויהיה זמין לציבור. עולה בקנה אחד עם עיקרון זה, במידת האפשר, נתונים המשויכים כל מחקר במימון ציבורי צריך להיעשות נרחב וזמין בחופשיות. " (Molloy 2011)
עם זאת, על ידי שיתוף הנתונים שלך עם חוקר אחר, ייתכן הגדלת סיכון מידע למשתתפים שלך. לכן, זה אולי נראה כי חוקרים שמעוניינים לחלוק שלהם נתונים או נדרשים לשתף שלהם נתונים עומדים בפני מתח בסיסי. מצד אחד יש להם מחויבות אתיות לשתף את הנתונים שלהם עם מדענים אחרים, במיוחד אם המחקר המקורי הוא במימון ציבורי. עם זאת, בעת ובעונה אחת, יש חוקרים מחויבות אתית כדי למזער, ככל האפשר, את הסיכון מידע למשתתפים שלהם.
למרבה המזל, הדילמה הזאת אינה חמורה כפי שהוא מופיע. חשוב לחשוב על שיתוף נתונים לאורך רצף מאף שיתוף נתונים לשחרר ולשכוח, שבו הנתונים "אנונימי" והציבה ותתאפשר גישה (איור 6.6). שתי עמדות הקיצוניות אלה יש סיכונים ויתרונות. כלומר, זה לא אוטומטי את הדבר המוסרי ביותר כדי לא לשתף את הנתונים שלך; גישה כזו מבטלת יתרונות פוטנציאליים רבים לחברה. חוזר לטעום, עניבות, ושעה, דוגמא דנה קודם לכן בפרק, טיעונים נגד שחרור נתונים המתמקדים רק על סכנות אפשריות המתעלמים יתרונות אפשריים הן יתר על מידה חד-צדדיות; אתאר את הבעיות עם מגונן מדי בגישה חד-צדדית, זה ביתר פירוט להלן כשאני מציעה ייעוץ על קבלת החלטות לנוכח אי הוודאות (סעיף 6.6.4).
יתר על כן, בין במקרים קיצוניים שני אלה הם מה אני נקרא גישת גן נעולה שבו נתונים משותפים עם אנשים העומדים בקריטריונים מסוימים שמסכימים להיות מחויבים לכללים מסוימים (למשל, פיקוח מן IRB וכן תוכניות הגנה על נתונים) . גישת גן נעולה זה מספק רבים מן היתרונות של שחרור ולשכוח עם פחות סיכון. כמובן, גישת גן נעולה ומייצרת בתוכו שאלות-שרבים צריכים להיות גישה, ובאילו תנאים, ולכמה זמן, מי צריך לשלם כדי לשמור על ומשטרת הגן המוקף החום וכו ', אבל אלה אינם בלתי עבירות. למעשה, יש כבר עובדים בגנים הסגורים במקום שהחוקרים יכול להשתמש עכשיו, כגון ארכיון נתונים של הקונסורציום הבין-אוניברסיטאי למחקרים פוליטיים וחברתיים באוניברסיטת מישיגן.
אז, איפה צריכים הנתונים מהמחקר שלך להיות על הרצף של שום שיתוף, גן נעול, ולשחרר ולשכוח? זה תלוי את פרטי הנתונים שלך; חוקרים חייבים לאזן כבוד לאנשים, חסד, צדק וכבוד למשפט טוב הציבור. בהערכת איזון ראוי לשם החלטות אחרות החוקר לבקש את עצתו ואישור IRBs, ושחרור נתונים יכול להיות סתם עוד חלק מהתהליך. במילות אחרות, אם כי יש אנשים שחושבים בדיווח כמו בביצה אתית תקווה, כבר יש לנו מערכות במקום כדי לסייע לחוקרים לאזן אלה סוג של דילמות אתיות.
דרך נוספת אחרונה לחשוב על שיתוף נתונים היא על ידי אנלוגיה. כל מכוניות בשנה אחראיות לאלפי הרוגים, אבל אנחנו לא מנסים לאסור נהיגה. למעשה, שיחה כגון לאסור נהיגה תהיה מגוחכת כי נהיגה מאפשרת הרבה דברים נפלאים. במקום זאת, החברה מטילה מגבלות על מי יכול לנהוג (למשל, צריך להיות בגיל מסוים, צריך עברו בדיקות מסוימות) וכיצד הם יכולים לנהוג (למשל, מתחת למהירות המותרת). החברה גם יש אנשים המוטל על אכיפת החוקים הללו (למשל, המשטרה), ואנחנו שיעניש נתפסים פגיעה בהם. אותו סוג זה של חשיבה מאוזנת שהחברה חלה על ויסות נהיגה יכול לחול גם על שיתוף נתונים. כלומר, במקום לבצע טענות אבסולוטיות בעד או נגד שיתוף נתונים, אני חושב היתרונות הגדולים ביותר יגיעו להבין איך אנחנו יכולים לשתף יותר נתונים בצורה בטוחות יותר.
לסיכום, הסיכון מידע גדל באופן דרמטי, וזה מאוד קשה לחזות ולכמת. לכן, עדיף להניח כי כל הנתונים הם פוטנציאל מזוהה שעלולים להיות רגיש. כדי להקטין את הסיכון מידע בזמן ביצוע המחקר, החוקרים יכולים ליצור ופעל תוכנית להגנה על נתונים. יתר על כן, סיכון מידע אינו מונע חוקר שיתוף נתונים עם מדענים אחרים.