برخی از اطلاعات که شرکت ها و دولت ها حساس است.
شرکت های بیمه درمانی دارای اطلاعات دقیق در مورد مراقبت های پزشکی دریافت شده توسط مشتریان خود هستند. این اطلاعات می تواند برای تحقیقات مهم در مورد سلامت مورد استفاده قرار گیرد، اما اگر این امر عمومی شود، می تواند به طور بالقوه منجر به آسیب عاطفی (مثلا خجالت) یا آسیب اقتصادی (مثلا از دست دادن اشتغال) شود. بسیاری از منابع داده بزرگ دیگر همچنین دارای اطلاعاتی هستند که حساس هستند ، که بخشی از دلیل آن است که اغلب غیرقابل دسترسی هستند.
متاسفانه، به نظر می رسد که کاملا تصمیم گیرنده است که اطلاعاتی که واقعا حساس هستند (Ohm 2015) تصمیم بگیرد، همانطور که توسط Prix Netflix نشان داده شد. همان طور که در بخش 5 توضیح خواهم داد، در سال 2006 Netflix نسخه 100 میلیون فیلم را که توسط تقریبا 500،000 عضو ارائه شده بود منتشر کرد و یک تماس باز داشت که مردم از سراسر جهان الگوریتمی را ارائه می دادند که می توانست قابلیت Netflix را برای توصیه فیلم ها بهبود بخشد. قبل از انتشار داده ها، Netflix هرگونه اطلاعات شناسایی شخصی را، مانند نام، حذف کرد. اما، فقط دو هفته پس از انتشار Arvind Narayanan و Vitaly Shmatikov (2008) نشان داده شد که می توان در مورد رتبه بندی فیلم های خاص افراد با استفاده از یک ترفند که من در فصل 6 به شما نشان می دهم می توانم یاد بگیرم. هرچند یک مهاجم می تواند کشف کند رتبه بندی فیلم شخصی، هنوز به نظر نمی رسد که در اینجا حساس باشد. در حالی که این ممکن است به طور کلی درست باشد، برای حداقل برخی از 500،000 نفر در مجموعه داده، رتبه بندی فیلم حساس است. در واقع، در پاسخ به انتشار و دوباره شناسایی داده ها، یک زن لزبین نزدیک و متصل به یک تقاضای کلاس علیه Netflix. در اینجا این است که چگونه این مشکل در این دعوی قضایی بیان شد (Singel 2009) :
"اطلاعات [M] ovie و رتبه بندی حاوی اطلاعاتی از ... طبیعت بسیار شخصی و حساس است. داده های فیلم عضو، شخصیت شخصی Netflix و / یا مبارزه با مسائل بسیار شخصی شخصی از قبیل جنسیت، بیماری روحی، بهبودی از مشروبات الکلی و قربانی کردن از تجاوز جنسی، سوء استفاده فیزیکی، خشونت خانگی، زنا و تجاوز جنسی است. "
این مثال نشان می دهد که ممکن است اطلاعاتی وجود داشته باشد که بعضی افراد در درون آنچه ممکن است به عنوان یک پایگاه خوشخیم در نظر گرفته شوند حساس باشند. علاوه بر این، این نشان می دهد که یک دفاع اصلی که محققان برای حفاظت از اطلاعات حساس-شناسایی-شناسایی استفاده می کنند، می توانند به شیوه های شگفت انگیزی شکست بخورند. این دو ایده در بخش 6 بیشتر توضیح داده شده است.
نکته نهایی در مورد اطلاعات حساس در ذهن است که جمع آوری آن بدون رضایت مردم، سوالات اخلاقی را مطرح می کند، حتی اگر آسیب خاصی ایجاد نشود. شبیه تماشای کسی که بدون رضایتش از حمام می آید ممکن است نقض حریم شخصی آن فرد باشد، جمع آوری اطلاعات حساس - و به یاد داشته باشید که چقدر سخت است تصمیم بگیریم چه حساس است - بدون رضایت، نگرانی های احتمالی حفظ حریم خصوصی را ایجاد می کند. من به سوالات مربوط به حریم خصوصی در فصل 6 می روم.
در نتیجه، منابع داده بزرگ، مانند پرونده های دولتی و اداری اداری، به طور کلی برای تحقیقات اجتماعی ایجاد نمی شوند. منابع داده بزرگ امروز و احتمالا فردا 10 ویژگی دارند. بسیاری از خواص که به طور کلی برای تحقیقات مفید هستند - بزرگ، همیشه و غیر فعال - از این واقعیت در شرکت های عصر دیجیتال می آید و دولت ها قادر به جمع آوری داده ها در یک مقیاس است که قبلا امکان پذیر نبود. و بسیاری از خواص که به طور کلی به عنوان تحقیق نامطلوب برای ناقص بودن، غیرقابل دسترس بودن، غیرواقع بودن، حرکت، الگوریتمی غم انگیز، غیرقابل دسترس، کثیف و حساس است، ناشی از این واقعیت است که این اطلاعات توسط محققان برای محققان جمع آوری نشده است. تا کنون، من درباره داده های دولت و کسب و کار با هم صحبت کرده ام، اما بین این دو تفاوت وجود دارد. در تجربه من، داده های دولتی تمایل دارند که کمتر نمایانگر باشند، الگوریتمی کم تر از حد متعفن، و کمتر روان شدن. از سوی دیگر، رکوردهای اداری کسب و کار معمولا بیشتر از همیشه است. درک این 10 ویژگی کلی، اولین گام مفید برای یادگیری از منابع داده بزرگ است. و اکنون ما به استراتژی های تحقیقاتی می پردازیم که می توانیم با این داده ها استفاده کنیم.