חלק מהמידע כי חברות וממשלות להיות רגיש.
חברות ביטוח בריאות יש מידע מפורט על הטיפול הרפואי שקיבלו הלקוחות שלהם. מידע זה יכול לשמש למחקר חשוב על בריאות, אבל אם הוא הפך לציבורי, הוא עלול לגרום נזק רגשי (למשל, מבוכה) או נזק כלכלי (למשל, אובדן תעסוקה). מקורות נתונים רבים אחרים יש גם מידע רגיש , המהווה חלק מהסיבה מדוע הם לעתים קרובות נגיש.
למרבה הצער, מתברר להיות די מסובך להחליט איזה מידע הוא רגיש למעשה (Ohm 2015) , כפי שהודגם על ידי פרס נטפליקס. כפי שאספר בפרק 5, בשנת 2006 הוציאה נטפליקס 100 מיליון דירוגי סרטים שסופקו על ידי כמעט 500,000 חברים, ושיחה פתוחה שבה אנשים מכל רחבי העולם הגישו אלגוריתמים שיכולים לשפר את יכולתה של נטפליקס להמליץ על סרטים. לפני שחרור הנתונים, נטפליקס הסירה כל מידע מזהה ברור, כגון שמות. אבל רק שבועיים לאחר פרסום הנתונים, Arvind Narayanan ו- Vitaly Shmatikov (2008) הראו שאפשר ללמוד על דירוגי סרטים ספציפיים של אנשים באמצעות טריק שאראה לכם בפרק 6. למרות שתוקף יכול לגלות הסרט של אדם דירוגים, שם עדיין לא נראה שום דבר רגיש כאן. אמנם זה יכול להיות נכון בכלל, לפחות עבור חלק 500,000 אנשים במערך, דירוגים הסרט היו רגישים. למעשה, בתגובה לשחרור ולזיהוי מחדש של הנתונים, הצטרפה לאשה לסבית בתביעה ייצוגית נגד נטפליקס. כך התבטאה הבעיה בתביעה זו (Singel 2009) :
"[M] ovie ודירוג הנתונים מכיל מידע של ... אופי אישי ורגיש מאוד. נתוני הסרט של החבר חושפים את האינטרס האישי של חבר ו / או מאבקו של נטפליקס בנושאים שונים מאוד, כולל מיניות, מחלת נפש, התאוששות מאלכוהוליזם וקורבנות מגילוי עריות, התעללות גופנית, אלימות במשפחה, ניאוף ואונס ".
בדוגמה זו ניתן למצוא מידע שחלק מהאנשים רואים בו רגישות בתוך מה שנראה כמסד נתונים שפיר. יתר על כן, הוא מראה כי ההגנה העיקרית כי החוקרים להשתמש כדי להגן על נתונים רגישים דה זיהוי, יכול להיכשל בדרכים מפתיעות. שני הרעיונות הללו מתפתחים ביתר פירוט בפרק 6.
הדבר האחרון שיש לזכור על נתונים רגישים הוא כי איסוף זה ללא הסכמת אנשים מעלה שאלות אתיות, גם אם לא נגרם נזק ספציפי. הרבה כמו לצפות במישהו להתקלח ללא הסכמתם עלול להיחשב כהפרה של הפרטיות של אותו אדם, לאסוף מידע רגיש - ולזכור כמה קשה זה יכול להיות להחליט מה רגיש - ללא הסכמה יוצרת חששות פרטיות פוטנציאליים. אחזור לשאלות על פרטיות בפרק 6.
לסיכום, מקורות מידע גדולים, כגון רשומות ממשלתיות ועסקיות, אינם נוצרים בדרך כלל לצורך מחקר חברתי. מקורות הנתונים הגדולים של היום, וכנראה מחר, נוטים להיות 10 מאפיינים. רבים מהמאפיינים הנחשבים בדרך כלל טובים למחקר - גדולים, תמיד-על-ובלתי-פעילים - מגיעים מעובדות החברות והממשלות הדיגיטליות, מסוגלים לאסוף נתונים בקנה מידה שלא היה אפשרי קודם לכן. ורבים מהמאפיינים שנחשבים בדרך כלל לרעים למחקר - לא גמורים, בלתי נגישים, לא מייצגים, נסחפים, מבולבלים באלגוריתמים, בלתי נגישים, מלוכלכים ורגישים - נובעים מהעובדה שמידע זה לא נאסף על ידי חוקרים לחוקרים. עד כה דיברתי על נתונים ממשלתיים ועסקיים, אבל יש כמה הבדלים בין השניים. מניסיוני, נתונים ממשלתיים נוטים להיות פחות מייצגים, פחות מבולבלים מבחינה אלגוריתמית, ופחות נסחפים. מצד שני, רשומות מנהליות עסקיות נוטות להיות יותר תמיד. הבנת 10 מאפיינים כלליים אלה היא צעד ראשון מועיל לקראת למידה ממקורות נתונים גדולים. ועכשיו אנו פונים אסטרטגיות מחקר אנו יכולים להשתמש עם נתונים אלה.