برخی از اطلاعات که شرکت ها و دولت ها حساس است.
شرکت های بیمه بهداشت اطلاعات در مورد مراقبت های پزشکی دریافت شده توسط مشتریان خود بحث کرده ام. این اطلاعات می تواند برای تحقیقات مهم در مورد سلامت استفاده می شود، اما اگر آن را علنی شد که به طور بالقوه می تواند به آسیب عاطفی (به عنوان مثال، خجالت) و آسیب های اقتصادی (به عنوان مثال، از دست دادن شغل) منجر شود. دور از متمایز، بسیاری از منابع داده های بزرگ اطلاعاتی است که حساس داشته باشد. ماهیت حساس این اطلاعات بخشی از این دلیل است که منابع داده های بزرگ اغلب غیر قابل دسترس (در بالا توضیح) می باشد.
یکی از راه های است که محققان در تلاش برای مقابله با این وضعیت این است که غیر قابل تشخیص مجموعه داده است که اطلاعات حساس است. اما، به عنوان من در جزئیات در فصل 6 (اخلاق) این رویکرد به طور جدی در راه است که به طور گسترده ای توسط هر دو دانشمندان علوم اجتماعی و دانشمندان داده قدردانی نمی محدود را نشان می دهد.
در نتیجه، منابع داده های بزرگ از امروز (و فردا) به طور کلی باید ده ویژگی. بسیاری از خواص بزرگ خوب، همیشه در، و از این واقعیت nonreactive آمده در شرکت عصر دیجیتال و دولت قادر به جمع آوری داده ها در مقیاس بود که قبلا امکان پذیر نیست. و، بسیاری از بد خواص ناقص، غیر قابل دسترس، غیر نماینده، شناور، الگوریتمی در گم، غیر قابل دسترس، کثیف، و حساس به آمده از این واقعیت است که داده ها توسط محققان برای پژوهشگران به جمع آوری است. درک این ویژگیها اولین گام لازم برای یادگیری از داده های بزرگ. و در حال حاضر ما به نوبه خود به تحقیق استراتژی ما می توانیم با این داده ها استفاده کنید.