مجموعات البيانات الكبيرة هي وسيلة لتحقيق الغاية؛ فهي ليست غاية في حد ذاتها.
الميزة الأكثر تداولاً على نطاق واسع لمصادر البيانات الضخمة هي أنها كبيرة. على سبيل المثال ، تبدأ العديد من المقالات بمناقشة - وأحيانا المفاخرة - حول مقدار البيانات التي قاموا بتحليلها. على سبيل المثال ، شملت إحدى المقالات المنشورة في العلوم التي تدرس اتجاهات استخدام الكلمات في كتب Google كتب ما يلي (Michel et al. 2011) :
"يحتوي مجلدنا على أكثر من 500 مليار كلمة ، بالإنجليزية (361 مليارًا) ، والفرنسية (45 مليارًا) ، والإسبانية (45 مليارًا) ، والألمانية (37 مليارًا) ، والصينية (13 مليارًا) ، والروسية (35 مليارًا) ، والعبرية (2 بليون). تم نشر أقدم الأعمال في القرن السادس عشر. يتم تمثيل العقود الأولى من خلال عدد قليل فقط من الكتب في السنة ، تضم مئات الآلاف من الكلمات. بحلول عام 1800 ، تنمو المجموعة إلى 98 مليون كلمة في السنة ؛ بحلول عام 1900 ، 1.8 مليار ؛ وبحلول عام 2000 ، 11 مليار. لا يمكن قراءة الجسم من قبل الإنسان. إذا حاولت قراءة إدخالات باللغة الإنجليزية فقط من عام 2000 وحده ، وبسرعة معقولة قدرها 200 كلمة / دقيقة ، دون انقطاع للطعام أو النوم ، فسوف يستغرق الأمر 80 عامًا. تسلسل الحروف أطول بـ 1000 مرة من الجينوم البشري: إذا كتبته في خط مستقيم ، فسيصل إلى القمر والعودة 10 مرات. "
لا شك في أن حجم هذه البيانات مثير للإعجاب ، ونحن محظوظون تمامًا لأن فريق كتب Google قد أصدر هذه البيانات للجمهور (في الواقع ، تستفيد بعض هذه الأنشطة في نهاية هذا الفصل من هذه البيانات). ولكن ، عندما ترى شيئًا كهذا ، عليك أن تسأل: هل كل هذه البيانات تفعل أي شيء فعلاً؟ هل كان بوسعهم القيام بنفس الأبحاث إذا كانت البيانات تصل إلى القمر والعودة مرة واحدة فقط؟ ماذا لو كانت البيانات تصل فقط إلى قمة جبل إفرست أو أعلى برج إيفل؟
في هذه الحالة ، فإن أبحاثهم ، في الواقع ، لديها بعض النتائج التي تتطلب مجموعة هائلة من الكلمات على مدى فترة زمنية طويلة. على سبيل المثال ، هناك شيء واحد يستكشفه هو تطور القواعد ، وخاصة التغيرات في معدل اقتران الفعل غير النظامي. نظرًا لأن بعض الأفعال الشاذة نادرة إلى حد كبير ، فإن هناك حاجة إلى قدر كبير من البيانات لاكتشاف التغيرات بمرور الوقت. في كثير من الأحيان ، يبدو أن الباحثين يتعاملون مع حجم مصدر البيانات الضخمة كنهاية - "انظروا كم البيانات التي يمكن أن أتعرض لها" - بدلاً من وسيلة إلى بعض الأهداف العلمية الأكثر أهمية.
في تجربتي ، تعتبر دراسة الأحداث النادرة واحدة من الأهداف العلمية المحددة الثلاثة التي تميل مجموعات البيانات الكبيرة إلى تمكينها. والثاني هو دراسة عدم التجانس ، كما يمكن أن يتضح من دراسة قام بها راج شيتي وزملاؤه (2014) حول الحراك الاجتماعي في الولايات المتحدة. في الماضي ، درس العديد من الباحثين الحراك الاجتماعي من خلال مقارنة النتائج الحياتية للآباء والأمهات والأطفال. من النتائج المتسقة من هذا (Hout and DiPrete 2006) يميلون إلى أن يكون لديهم أطفال (Hout and DiPrete 2006) ، ولكن قوة هذه العلاقة تختلف مع مرور الوقت وعبر البلدان (Hout and DiPrete 2006) . لكن في الآونة الأخيرة ، تمكن شيتي وزملاؤه من استخدام السجلات الضريبية من 40 مليون شخص لتقدير عدم التجانس في التنقل بين الأجيال عبر مناطق في الولايات المتحدة (الشكل 2.1). فقد وجدوا ، على سبيل المثال ، أن احتمال أن يصل الطفل إلى الشريحة العليا من توزيع الدخل القومي بدءا من عائلة في الخماسي السفلي يبلغ حوالي 13٪ في سان خوسيه ، كاليفورنيا ، ولكن حوالي 4٪ فقط في شارلوت ، نورث كارولينا. إذا نظرت إلى الشكل 2.1 للحظة ، فقد تبدأ في التساؤل لماذا يكون التنقل بين الأجيال أعلى في بعض الأماكن من غيره. كان لدى شيتي وزملاؤه نفس السؤال بالضبط ، ووجدوا أن تلك المناطق ذات الحركة العالية لديها فصل أقل في السكن ، وقلة عدم المساواة في الدخل ، ومدرسة ابتدائية أفضل ، ورأس مال اجتماعي أكبر ، واستقرار أكبر للأسرة. بطبيعة الحال ، لا تظهر هذه الارتباطات وحدها أن هذه العوامل تسبب قدراً أكبر من الحركة ، ولكنها تشير إلى آليات ممكنة يمكن استكشافها في عمل إضافي ، وهو بالضبط ما فعله Chetty وزملاؤه في العمل اللاحق. لاحظ كيف كان حجم البيانات مهمًا جدًا في هذا المشروع. إذا كان شيتي وزملاؤه قد استخدموا السجلات الضريبية لـ 40 ألف شخص بدلاً من 40 مليونًا ، فلن يكونوا قادرين على تقدير عدم التجانس الإقليمي ولن يكونوا قادرين أبداً على إجراء أبحاث لاحقة لمحاولة تحديد الآليات التي تخلق هذا الاختلاف.
وأخيرًا ، بالإضافة إلى دراسة الأحداث النادرة ودراسة عدم التجانس ، تمكّن مجموعات البيانات الكبيرة الباحثين أيضًا من اكتشاف الاختلافات الصغيرة. في الواقع ، فإن معظم التركيز على البيانات الضخمة في مجال الصناعة يدور حول هذه الاختلافات الصغيرة: يمكن أن يؤدي الكشف عن الفرق بين معدلات النقر إلى الظهور 1٪ و 1.1٪ على الإعلان إلى ملايين الدولارات كإيرادات إضافية. ومع ذلك ، في بعض البيئات العلمية ، قد لا تكون هذه الاختلافات الصغيرة مهمة بشكل خاص ، حتى وإن كانت ذات دلالة إحصائية (Prentice and Miller 1992) . ولكن في بعض إعدادات السياسة ، يمكن أن تصبح مهمة عند عرضها بشكل إجمالي. على سبيل المثال ، إذا كان هناك تدخلين للصحة العامة وواحد أكثر فعالية قليلاً من الآخر ، فإن اختيار التدخل الأكثر فعالية يمكن أن يؤدي إلى إنقاذ الآلاف من الأرواح الإضافية.
على الرغم من أن الضخامة عادة ما تكون خاصية جيدة عند استخدامها بشكل صحيح ، إلا أنني لاحظت أن ذلك قد يؤدي أحيانًا إلى خطأ مفاهيمي. لسبب ما ، يبدو أن الروعة تقود الباحثين إلى تجاهل كيفية إنشاء بياناتهم. في حين أن التقلبات تقلل من الحاجة للقلق بشأن الخطأ العشوائي ، إلا أنها في الواقع تزيد من الحاجة للقلق بشأن الأخطاء المنهجية ، وأنواع الأخطاء التي سوف أصفها أدناه والتي تنشأ من التحيز في كيفية إنشاء البيانات. على سبيل المثال ، في مشروع سأصفه لاحقًا في هذا الفصل ، استخدم الباحثون الرسائل التي تم إنشاؤها في 11 سبتمبر 2001 لإنتاج جدول زمني عاطفي عالي الدقة للتفاعل مع الهجوم الإرهابي (Back, Küfner, and Egloff 2010) . ولأن الباحثين لديهم عدد كبير من الرسائل ، فإنهم لم يكونوا بحاجة إلى القلق بشأن ما إذا كانت الأنماط التي لاحظوها - زيادة الغضب على مدار اليوم - يمكن تفسيرها من خلال الاختلاف العشوائي. كان هناك الكثير من البيانات وكان النمط واضحا جدا بحيث أن جميع الاختبارات الإحصائية الإحصائية تشير إلى أن هذا كان نمطا حقيقيا. ولكن هذه الاختبارات الإحصائية كانت جهلة لكيفية إنشاء البيانات. في الواقع ، اتضح أن العديد من الأنماط كانت تُعزى إلى بوت واحد ينتج عنه رسائل أكثر فأكثر بلا معنى طوال اليوم. أدت إزالة هذا البوت إلى تدمير بعض النتائج الرئيسية في الورقة (Pury 2011; Back, Küfner, and Egloff 2011) . بكل بساطة ، يواجه الباحثون الذين لا يفكرون في الخطأ المنهجي خطر استخدام مجموعات البيانات الكبيرة للحصول على تقدير دقيق للكمية غير الهامة ، مثل المحتوى العاطفي للرسائل التي لا معنى لها والتي ينتجها بوت أوتوماتيكي.
في الختام ، لا تشكل مجموعات البيانات الكبيرة غاية في حد ذاتها ، ولكنها تستطيع تمكين أنواع معينة من الأبحاث بما في ذلك دراسة الأحداث النادرة ، وتقدير عدم التجانس ، والكشف عن الاختلافات الصغيرة. كما يبدو أن مجموعات البيانات الكبيرة تقود بعض الباحثين إلى تجاهل كيفية إنشاء بياناتهم ، مما قد يؤدي بهم إلى الحصول على تقدير دقيق لكمية غير مهمة.