يصعب على الباحثين الوصول إلى البيانات التي تحتفظ بها الشركات والحكومات.
في أيار / مايو 2014 ، افتتحت وكالة الأمن القومي الأمريكية مركزًا للبيانات في ريف ولاية يوتا باسم غريب ، مركز بيانات مبادرة الأمن القومي للأمن السيبراني الوطني. ومع ذلك ، فإن مركز البيانات هذا ، الذي أصبح يعرف باسم مركز أوتاه للبيانات ، يُقال إنه يتمتع بقدرات مذهلة. يزعم أحد التقارير أنه قادر على تخزين ومعالجة جميع أشكال الاتصالات بما في ذلك "المحتويات الكاملة لرسائل البريد الإلكتروني الخاصة والمكالمات الهاتفية الخلوية وعمليات البحث في Google ، بالإضافة إلى جميع أنواع مسارات البيانات الشخصية - إيصالات وقوف السيارات ومسارات السفر ومشتريات الكتب" ، وغيرها من "فضلات الجيب" الرقمية (Bamford 2012) . بالإضافة إلى إثارة المخاوف بشأن الطبيعة الحساسة للكثير من المعلومات التي تم التقاطها في البيانات الضخمة ، والتي سيتم شرحها لاحقًا ، فإن مركز Utah Data Center هو مثال متطرف لمصدر بيانات غني لا يمكن للباحثين الوصول إليه. بشكل عام ، يتم التحكم في العديد من مصادر البيانات الضخمة التي يمكن أن تكون مفيدة ومقيدة من قبل الحكومات (على سبيل المثال ، البيانات الضريبية والبيانات التعليمية) أو الشركات (على سبيل المثال ، الاستعلامات إلى محركات البحث والبيانات الفوقية للمكالمة الهاتفية). لذلك ، على الرغم من وجود مصادر البيانات هذه ، إلا أنها غير مجدية لأغراض البحث الاجتماعي لأنها لا يمكن الوصول إليها.
من واقع خبرتي ، يسيء الكثير من الباحثين في الجامعات فهم مصدر عدم إمكانية الوصول. لا يمكن الوصول إلى هذه البيانات ليس لأن الأشخاص في الشركات والحكومات أغبياء أو كسالى أو غير مرتبطين. بدلاً من ذلك ، توجد عوائق قانونية وعملية وأخلاقية خطيرة تمنع الوصول إلى البيانات. على سبيل المثال ، تسمح بعض اتفاقات شروط الخدمة لمواقع الويب فقط باستخدام البيانات من قِبل الموظفين أو لتحسين الخدمة. لذلك يمكن لأشكال معينة من تبادل البيانات أن تعرض الشركات إلى دعاوى قانونية من الزبائن. هناك أيضا مخاطر تجارية كبيرة للشركات المشاركة في تبادل البيانات. حاول أن تتخيل كيف سيستجيب الجمهور إذا تسربت بيانات البحث الشخصية عن طريق الخطأ من Google كجزء من مشروع بحث جامعي. مثل هذا الخرق في البيانات ، إذا كان متطرفًا ، قد يشكل خطرًا وجوديًا على الشركة. لذا ، فإن غوغل - ومعظم الشركات الكبيرة - تميل إلى تجنب المخاطر بشأن مشاركة البيانات مع الباحثين.
في الواقع ، كل شخص تقريبا في وضع يسمح له بالوصول إلى كميات كبيرة من البيانات يعرف قصة عبد شودري. في عام 2006 ، عندما كان رئيس قسم الأبحاث في AOL ، أطلق عمدا إلى مجتمع الأبحاث ما كان يعتقد أنه عبارة عن استعلامات بحث مجهولة المصدر من 650،000 مستخدم من مستخدمي AOL. بقدر ما أستطيع أن أقول ، كان لدى شودري والباحثين في AOL نوايا حسنة ، وكانوا يعتقدون أنهم قاموا بإخفاء الهوية. لكنهم كانوا مخطئين. سرعان ما اكتشفت أن البيانات لم تكن مجهولة كما اعتقد الباحثون ، وتمكن مراسلو نيويورك تايمز من التعرف على شخص ما في مجموعة البيانات بكل سهولة (Barbaro and Zeller 2006) . وبمجرد اكتشاف هذه المشاكل ، قام تشودري بإزالة البيانات من موقع AOL الإلكتروني ، ولكن الوقت كان متأخرا. تم إعادة نشر البيانات على مواقع ويب أخرى ، وربما تظل متاحة عند قراءة هذا الكتاب. تم طرد شودري ، واستقال مدير تقنية AOL الرئيسي (Hafner 2006) . وكما يوضح هذا المثال ، فإن الفوائد التي تعود على أفراد معينين داخل الشركات لتسهيل الوصول إلى البيانات صغيرة إلى حد كبير وسيناريو الحالة الأسوأ أمر فظيع.
ومع ذلك ، يمكن للباحثين في بعض الأحيان الوصول إلى البيانات التي يتعذر الوصول إليها لعامة الناس. لدى بعض الحكومات إجراءات يمكن للباحثين اتباعها للتقدم للحصول على إمكانية الوصول ، وكما توضح الأمثلة في وقت لاحق من هذا الفصل ، يمكن للباحثين أحيانًا الوصول إلى بيانات الشركة. على سبيل المثال ، Einav et al. (2015) اشتركت مع باحث في eBay لدراسة المزادات عبر الإنترنت. سأتحدث أكثر عن البحث الذي جاء من هذا التعاون لاحقًا في الفصل ، لكنني أذكره الآن لأنه يحتوي على جميع المكونات الأربعة التي أراها في الشراكات الناجحة: اهتمام الباحثين ، والقدرة على البحث ، واهتمام الشركة ، وقدرات الشركة . لقد رأيت العديد من عمليات التعاون المحتملة تفشل لأن الباحث أو الشريك - سواء كان ذلك شركة أو حكومة - يفتقر إلى أحد هذه المكونات.
حتى إذا كنت قادرًا على تطوير شراكة مع شركة أو الوصول إلى البيانات الحكومية المقيدة ، فهناك بعض السلبيات بالنسبة لك. أولاً ، ربما لن تتمكن من مشاركة بياناتك مع باحثين آخرين ، مما يعني أن الباحثين الآخرين لن يتمكنوا من التحقق من نتائجك وتوسيعها. ثانيًا ، قد تكون الأسئلة التي يمكنك طرحها محدودة ؛ من غير المحتمل أن تسمح الشركات بإجراء أبحاث قد تجعلها تبدو سيئة. أخيرًا ، يمكن لهذه الشراكات إنشاء مظهر تضارب المصالح على الأقل ، حيث قد يعتقد الأشخاص أن نتائجك تأثرت بشراكاتك. يمكن معالجة كل هذه الجوانب السلبية ، ولكن من المهم أن يكون من الواضح أن العمل مع البيانات التي لا يمكن الوصول إليها من قبل الجميع لديه كل من الارتجاع والسلبيات.
باختصار ، لا يمكن للباحثين الوصول إلى الكثير من البيانات الضخمة. هناك عوائق قانونية ، وأعمال ، وأخلاقية خطيرة تمنع الوصول إلى البيانات ، وهذه الحواجز لن تزول مع تحسن التكنولوجيا لأنها ليست حواجز تقنية. وضعت بعض الحكومات الوطنية إجراءات لتمكين الوصول إلى البيانات لبعض مجموعات البيانات ، ولكن العملية مخصصة بشكل خاص على مستوى الولاية والمستوى المحلي. أيضا ، في بعض الحالات ، يمكن للباحثين المشاركة مع الشركات للحصول على الوصول إلى البيانات ، ولكن هذا يمكن أن يخلق مجموعة متنوعة من المشاكل للباحثين والشركات.