חלק מהמידע כי חברות וממשלות להיות רגיש.
חברות ביטוח הבריאות יש מידע מפורט על הטיפול הרפואי שקיבלה ללקוחותיהם. מידע זה יכול לשמש למחקר חשוב על בריאות, אבל אם זה נודע ברבים באופן פוטנציאלי יכול להביא לפגיעה רגשית (למשל, מבוכה) ופגיעה כלכלית (למשל, אובדן של תעסוקה). הרחוק ממקורות נתונים גדולים ייחודיים, רבים יש מידע כי הוא רגיש. האופי הרגיש של מידע זה הוא חלק מהסיבה כי מקורות נתונים גדולים הם בדרך כלל נגישים (כמתואר לעיל).
אחת הדרכים שבהן החוקרים מנסים להתמודד עם המצב הזה היא דה-לזהות מערכי נתונים שיש להם מידע רגיש. אבל, כפי שאראה בהרחבה בפרק 6 (אתיקה) גישה זו מוגבלת ברצינות בדרכים שאינן להערכה רבה על ידי שני מדענים חברתיים ומדעני נתונים.
לסיכום, מקורות הנתונים הגדולים של היום (ומחר) יש בדרך כלל עשר תכונות. רבים מן המאפיינים-גדולים הטובים, תמיד-על, ואת nonreactive-לבוא מן העובדה בחברות בעידן הדיגיטליות וממשלות מסוגלות לאסוף נתונים בקנה מידה שלא היה אפשרי בעבר. וגם, רב של רע נכסים השלם, נגיש, מייצג עישון, נסחף, מבולבל אלגוריתמי, נגיש, מלוכלך, ורגיש-באו מן העובדה שהנתונים לא נאספו על ידי חוקרים לחוקרים. הבנת מאפיינים אלה הם צעד ראשון הכרחי כדי ללמוד מנתונים גדולים. וגם, עכשיו אנו פונים לחקור אסטרטגיות אנו יכולים להשתמש בנתונים הללו.