إن مصادر البيانات الضخمة موجودة في كل مكان ، ولكن استخدامها للبحث الاجتماعي قد يكون صعبًا. في تجربتي ، هناك شيء مثل قاعدة "لا غداء مجاني" للبيانات: إذا لم تضع الكثير من العمل في جمعها ، فستضطر على الأرجح إلى التفكير في الكثير من العمل تحليلها.
ستميل مصادر البيانات الكبيرة اليوم - وغدًا غالبًا - إلى الحصول على 10 خصائص. ثلاثة من هذه (ولكن ليس دائمًا) مفيدة للبحث: كبيرة ، ودائمة ، وغير متفاعلة. سبعة بشكل عام (ولكن ليس دائما) إشكالية للبحث: غير كاملة ، لا يمكن الوصول إليها ، غير تمثيلية ، انجراف ، مرتبكة خوارزمية ، قذرة ، وحساسة. كثير من هذه الخصائص تنشأ في نهاية المطاف لأن مصادر البيانات الكبيرة لم يتم إنشاؤها لغرض البحث الاجتماعي.
استنادًا إلى الأفكار الواردة في هذا الفصل ، أعتقد أن هناك ثلاث طرق رئيسية ستكون بها مصادر البيانات الضخمة الأكثر قيمة للبحث الاجتماعي. أولاً ، يمكنهم تمكين الباحثين من الاختيار بين التنبؤات النظرية المتنافسة. ومن أمثلة هذا النوع من العمل Farber (2015) (سائقو تاكسي نيويورك) King, Pan, and Roberts (2013) (الرقابة في الصين). ثانياً ، يمكن لمصادر البيانات الضخمة أن تمكّن من تحسين قياس السياسة من خلال التنبؤ الآني. مثال على هذا النوع من العمل هو Ginsberg et al. (2009) (Google Flu Trends). وأخيرًا ، يمكن لمصادر البيانات الضخمة مساعدة الباحثين في إعداد تقديرات سببية دون إجراء تجارب. ومن الأمثلة على هذا النوع من العمل Mas and Moretti (2009) (تأثيرات الأقران على الإنتاجية) و Einav et al. (2015) (تأثير بدء السعر على المزادات في eBay). ومع ذلك ، يميل كل من هذه الأساليب إلى مطالبة الباحثين بإدخال الكثير للبيانات ، مثل تعريف كمية مهمة لتقدير أو نظريتين تقومان بتوقعات متنافسة. وهكذا ، أعتقد أن أفضل طريقة للتفكير في ما يمكن أن تفعله مصادر البيانات الكبيرة هو أنها تستطيع مساعدة الباحثين الذين يمكنهم طرح أسئلة مهمة ومهمة.
قبل أن أختتم ، أعتقد أنه من الجدير بالاهتمام أن مصادر البيانات الكبيرة قد يكون لها تأثير هام على العلاقة بين البيانات والنظرية. حتى الآن ، اتخذ هذا الفصل نهج البحث التجريبي المدفوع بالنظرية. لكن المصادر الكبيرة للبيانات تمكّن الباحثين من إجراء التنظير المدفوع تجريبياً . وهذا ، من خلال تراكم دقيق للحقائق التجريبية والأنماط والألغاز ، يمكن للباحثين بناء نظريات جديدة. إن هذا البديل ، النهج الأول للبيانات النظرية ليس جديدًا ، وقد تم التعبير عنه بأقوى من قبل بارني جلاسر و أنسيلم شتراوس (1967) بدعوتهما إلى نظرية مؤرضة . ومع ذلك ، فإن نهج البيانات الأول هذا لا يعني "نهاية النظرية" ، كما ورد في بعض الصحافة حول الأبحاث في العصر الرقمي (Anderson 2008) . بدلا من ذلك ، مع تغير بيئة البيانات ، يجب أن نتوقع إعادة التوازن في العلاقة بين البيانات والنظرية. في عالم كان جمع البيانات فيه مكلفًا ، كان من المنطقي جمع البيانات التي تقترح النظريات أنها مفيدة للغاية. ولكن في عالم تتوفر فيه بالفعل كميات هائلة من البيانات مجانًا ، من المنطقي أيضًا تجربة نهج البيانات أولاً (Goldberg 2015) .
كما أوضحت في هذا الفصل ، يمكن للباحثين أن يتعلموا الكثير من خلال مشاهدة الناس. في الفصول الثلاثة القادمة ، سوف أصف كيف يمكننا معرفة المزيد والأشياء المختلفة إذا قمنا بتجميع مجموعة البيانات الخاصة بنا والتفاعل مع الأشخاص بشكل أكثر مباشرة من خلال طرح الأسئلة عليهم (الفصل 3) ، وإجراء التجارب (الفصل 4) ، وحتى إشراكهم في عملية البحث مباشرة (الفصل 5).