بعض المعلومات أن الشركات والحكومات لديها حساس.
لدى شركات التأمين الصحي معلومات مفصلة حول الرعاية الطبية التي تلقاها زبائنها. يمكن استخدام هذه المعلومات في أبحاث مهمة حول الصحة ، ولكن إذا أصبحت عامة ، فقد يؤدي ذلك إلى ضرر عاطفي (مثل الإحراج) أو ضرر اقتصادي (مثل فقدان الوظيفة). تحتوي العديد من مصادر البيانات الكبيرة الأخرى أيضًا على معلومات حساسة ، والتي تعد جزءًا من سبب عدم إمكانية الوصول إليها في كثير من الأحيان.
لسوء الحظ ، تبين أنه من الصعب تحديد المعلومات الحساسة بالفعل (Ohm 2015) ، كما هو موضح في جائزة Netflix. كما سأشرح في الفصل 5 ، في عام 2006 ، صدر Netflix عن 100 مليون تقييم فيلم قدمها ما يقرب من 500000 عضو ، وكان هناك مكالمة مفتوحة حيث قدم أشخاص من جميع أنحاء العالم خوارزميات من شأنها تحسين قدرة Netflix على اقتراح الأفلام. قبل إصدار البيانات ، أزال Netflix أي معلومات واضحة لتعريف الشخصية ، مثل الأسماء. ولكن ، بعد أسبوعين فقط من إصدار البيانات أرفيند نارايانان و فيتالي شماتيكوف (2008) أظهر أنه كان من الممكن التعرف على تصنيفات معينة لأفلام معينة باستخدام خدعة سوف أريكها في الفصل 6. على الرغم من أن المهاجم يمكن أن يكتشف تصنيفات شخص ما ، لا يبدو أن هناك أي شيء حساس هنا. في حين أن هذا قد يكون صحيحًا بشكل عام ، فعلى الأقل بعض الأشخاص البالغ عددهم 500000 شخص في مجموعة البيانات ، كانت تقييمات الأفلام حساسة. في الواقع ، ردا على إطلاق سراح وإعادة تحديد البيانات ، انضمت امرأة مثلية مغلقة إلى دعوى دعوى جماعية ضد نيتفليكس. وإليك كيف تم التعبير عن المشكلة في هذه الدعوى (Singel 2009) :
"تحتوي بيانات [M] ovie and rating على معلومات ذات طبيعة شخصية وحساسة للغاية. تعرض بيانات الفيلم الخاصة بالعضو اهتمامًا شخصيًا لأحد أعضاء Netflix و / أو تناضل مع العديد من القضايا الشخصية للغاية ، بما في ذلك الجنس ، والأمراض العقلية ، والانتعاش من الإدمان على الكحول ، والإيذاء من سفاح القربى ، والإساءة الجسدية ، والعنف المنزلي ، والزنا ، والاغتصاب. "
يوضح هذا المثال أنه يمكن أن تكون هناك معلومات يعتبرها بعض الأشخاص حساسة داخل ما قد يبدو أنه قاعدة بيانات حميدة. علاوة على ذلك ، يظهر أن الدفاع الرئيسي الذي يستخدمه الباحثون لحماية البيانات الحساسة - إزالة الهوية - قد يفشل بطرق مدهشة. تم تطوير هذين الفكرتين بمزيد من التفصيل في الفصل السادس.
آخر شيء يجب أخذه في الاعتبار حول البيانات الحساسة هو أن جمعه بدون موافقة الناس يثير أسئلة أخلاقية ، حتى لو لم يحدث أي ضرر محدد. قد يشبه إلى حد كبير مشاهدة شخص ما يستحم بدون موافقته ، انتهاكًا لخصوصية هذا الشخص ، وجمع معلومات حساسة - وتذكر مدى صعوبة تحديد ما هو حساس - دون موافقة يخلق مخاوف خصوصية محتملة. سأعود إلى الأسئلة المتعلقة بالخصوصية في الفصل السادس.
في الختام ، لا يتم عادة إنشاء مصادر البيانات الكبيرة ، مثل السجلات الإدارية الحكومية والتجارية ، لغرض البحث الاجتماعي. تميل مصادر البيانات الكبيرة اليوم ، وغدًا غالبًا ، إلى الحصول على 10 خصائص. العديد من الخصائص التي تعتبر عمومًا مفيدة للبحث - كبيرة ، ودائمة ، وغير متفاعلة - تأتي من واقع شركات العصر الرقمي ، والحكومات قادرة على جمع البيانات على نطاق لم يكن ممكنًا من قبل. والعديد من الخصائص التي تعتبر سيئة بشكل عام للبحوث - غير كاملة ، يتعذر الوصول إليها ، غير تمثيلية ، انجراف ، مرتبك خوارزميًا ، يتعذر الوصول إليها ، قذرة ، وحساسة - تأتي من حقيقة أن هذه البيانات لم يتم جمعها من قبل الباحثين للباحثين. لقد تحدثت حتى الآن عن بيانات الحكومة وبيانات الأعمال ، ولكن هناك بعض الاختلافات بين الاثنين. من وجهة نظري ، تميل البيانات الحكومية إلى أن تكون أقل تمثيلاً ، وأقل إرباكًا خوارزميًا ، وأقل انحرافًا. من ناحية أخرى ، تميل السجلات الإدارية الخاصة بالأعمال إلى أن تكون أكثر دوما. يعتبر فهم هذه الخصائص العامة العشر خطوة أولى مفيدة نحو التعلم من مصادر البيانات الضخمة. والآن ننتقل إلى استراتيجيات البحث التي يمكننا استخدامها مع هذه البيانات.