Деяка інформація , що компанії і уряду відчутно.
Медичні страхові компанії детальну інформацію про медичну допомогу, отриманої їх клієнтами. Ця інформація може бути використана для важливих досліджень про здоров'я, але якщо вона стала надбанням громадськості вона потенційно може привести до емоційного шкоди (наприклад, збентеження) і економічного збитку (наприклад, втрата роботи). Далеко від відмінних, багатьох великих джерел даних є інформація, яка чутлива. Непростий характер цієї інформації є частиною тієї причини , що великі джерела даних часто недоступні (описано вище).
Один із способів, що дослідники намагаються впоратися з цією ситуацією є де-визначити набори даних, які мають конфіденційну інформацію. Але, як я покажу докладно в главі 6 (етика), цей підхід серйозно обмежений такими способами, які не є широко цінується як соціальними вченими і вченими даних.
На закінчення відзначимо, що великі джерела даних сьогодні (і завтра), як правило, десять характеристик. Багато з хороших властивостей-великих, завжди-на, і нереакционноспособниє-виходять з того, в століття цифрових технологій компанії та уряди можуть збирати дані в масштабі, що було неможливо раніше. І багато хто з поганих властивостей-неповної, недоступною, нерепрезентативного, дрифтинг, алгоритмічно осоромлені, недоступне, брудний і чутливої виходять з того, що дані не збираються дослідниками для дослідників. Розуміння цих характеристик є необхідним першим кроком до навчання з великих обсягів даних. І тепер ми переходимо до стратегії досліджень ми можемо використовувати з цими даними.