تم تضخيم الطلب باستخدام نموذج تنبئي لدمج بيانات الاستبيان من عدد قليل من الأشخاص الذين لديهم مصدر بيانات كبير من العديد من الأشخاص.
هناك طريقة مختلفة للجمع بين الاستقصاء ومصادر البيانات الكبيرة ، وهي عملية سأسميها . في طلب تضخمي ، يستخدم الباحث نموذجًا تنبئيًا لدمج كمية صغيرة من بيانات الاستقصاء مع مصدر بيانات كبير من أجل إنتاج تقديرات بمقياس أو دقة لا يمكن تحقيقها مع مصدر البيانات بشكل فردي. أحد الأمثلة المهمة على تضخيم الطلب يأتي من عمل جوشوا بلومنستوك ، الذي أراد جمع البيانات التي يمكن أن تساعد في توجيه التنمية في الدول الفقيرة. في الماضي ، كان على الباحثين الذين يجمعون هذا النوع من البيانات أن يأخذوا أحد نهجين: مسوحات العينة أو التعدادات. يمكن أن تكون استبيانات العينة ، حيث يقابل الباحثون عددًا صغيرًا من الأشخاص ، مرنة ، وفي الوقت المناسب ، ورخيصة نسبياً. ومع ذلك ، فإن هذه الاستطلاعات ، لأنها تستند إلى عينة ، غالباً ما تكون محدودة في حلها. من خلال نموذج المسح ، يصعب في الغالب عمل تقديرات حول مناطق جغرافية محددة أو لمجموعات سكانية محددة. من ناحية أخرى ، تحاول التعدادات إجراء مقابلات مع الجميع ، ومن ثم يمكن استخدامها لإنتاج تقديرات للمناطق الجغرافية الصغيرة أو المجموعات السكانية. لكن التعدادات مكلفة بشكل عام ، وضيقة في التركيز (لا تتضمن سوى عدد قليل من الأسئلة) ، وليس في الوقت المناسب (فهي تحدث على جدول زمني ثابت ، مثل كل 10 سنوات) (Kish 1979) . فبدلاً من التمسك بمسوحات العينة أو التعدادات ، تخيل لو استطاع الباحثون الجمع بين أفضل خصائص كل منهما. تخيل لو استطاع الباحثون طرح كل سؤال على كل شخص كل يوم. من الواضح أن هذا المسح الدائم الوجود هو نوع من الخيال العلمي الاجتماعي. ولكن يبدو أنه يمكننا البدء في تقريب ذلك من خلال الجمع بين أسئلة الاستطلاع من عدد قليل من الأشخاص الذين لديهم آثار رقمية من العديد من الأشخاص.
بدأ بحث Blumenstock عندما دخل في شراكة مع أكبر مزود للهاتف المحمول في رواندا ، وقدمت الشركة سجلات معاملات مجهولة المصدر من حوالي 1.5 مليون عميل بين عامي 2005 و 2009. وتضمنت هذه السجلات معلومات حول كل مكالمة ورسالة نصية ، مثل وقت البدء والمدة ، والموقع الجغرافي التقريبي للمتصل والمستلم. قبل أن أتحدث عن القضايا الإحصائية ، تجدر الإشارة إلى أن هذه الخطوة الأولى قد تكون واحدة من أصعب المشكلات بالنسبة لكثير من الباحثين. كما وصفت في الفصل 2 ، فإن معظم مصادر البيانات الضخمة لا يمكن للباحثين الوصول إليها . ولا يمكن الوصول إلى البيانات الفوقية الهاتفية بشكل خاص ، لأنه من المستحيل بشكل أساسي إخفاء الهوية ، ومن المؤكد أنها تحتوي على معلومات يعتبرها المشاركون حساسين (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . في هذه الحالة بالذات ، حرص الباحثون على حماية البيانات وأشرف على عملهم طرف ثالث (أي IRB الخاص بهم). سوف أعود إلى هذه القضايا الأخلاقية بمزيد من التفصيل في الفصل السادس.
كان Blumenstock مهتمًا بقياس الثروة والرفاهية. لكن هذه السمات ليست مباشرة في سجلات المكالمات. وبعبارة أخرى ، فإن سجلات المكالمات هذه غير مكتملة لهذا البحث - وهي سمة مشتركة لمصادر البيانات الضخمة التي تمت مناقشتها بالتفصيل في الفصل الثاني. ومع ذلك ، يبدو من المحتمل أن سجلات المكالمات ربما تحتوي على بعض المعلومات التي قد توفر معلومات غير مباشرة عن الثروة و الرفاه. بالنظر إلى هذا الاحتمال ، سأل Blumenstock ما إذا كان من الممكن تدريب نموذج التعلم الآلي للتنبؤ بكيفية استجابة شخص ما لدراسة استقصائية استنادًا إلى سجلات المكالمات الخاصة به. إذا كان هذا ممكنًا ، فيمكن أن يستخدم Blumenstock هذا النموذج للتنبؤ بردود الاستطلاع لجميع العملاء البالغ عددهم 1.5 مليون.
من أجل بناء وتدريب مثل هذا النموذج ، دعا Blumenstock ومساعدو الأبحاث من معهد Kigali للعلوم والتكنولوجيا عينة عشوائية من حوالي ألف عميل. وشرح الباحثون أهداف المشروع للمشاركين ، وطلب موافقتهم على ربط استجابات الاستبيان بسجلات المكالمات ، ثم طلب منهم سلسلة من الأسئلة لقياس ثروتهم ورفاهيتهم ، مثل "هل تملك الراديو؟ "و" هل تملك دراجة؟ "(انظر الشكل 3.14 لقائمة جزئية). تم تعويض جميع المشاركين في الدراسة مالياً.
بعد ذلك ، استخدم Blumenstock إجراءً مؤلفًا من خطوتين شائعًا في التعلم الآلي: هندسة الميزات تليها عملية التعلم تحت الإشراف. أولاً ، في خطوة الهندسة المميزة ، بالنسبة إلى كل من تمت مقابلته ، قام Blumenstock بتحويل سجلات المكالمات إلى مجموعة من الخصائص الخاصة بكل شخص ؛ يمكن لعلماء البيانات أن يطلقوا على هذه الخصائص "خصائص" ، وأن علماء الاجتماع قد يطلق عليهم "المتغيرات". على سبيل المثال ، بالنسبة لكل شخص ، يحسب Blumenstock العدد الإجمالي للأيام مع النشاط ، وعدد الأشخاص المتميزين الذين كان الشخص على اتصال به ، كمية من المال تنفق على البث ، وهلم جرا. بشكل حاسم ، تتطلب هندسة الميزة الجيدة معرفة إعداد البحث. على سبيل المثال ، إذا كان من المهم التمييز بين المكالمات المحلية والدولية (قد نتوقع أن يكون الأشخاص الذين يدعون دوليًا أكثر ثراءً) ، فيجب أن يتم ذلك في خطوة هندسية مميزة. قد لا يشتمل الباحث الذي لا يفهم الكثير عن رواندا على هذه الميزة ، ومن ثم سيعاني الأداء التنبئي للنموذج.
بعد ذلك ، في خطوة التعليم تحت الإشراف ، قام Blumenstock ببناء نموذج للتنبؤ باستجابة الاستقصاء لكل شخص بناءً على ميزاته. في هذه الحالة ، استخدم Blumenstock الانحدار اللوجستي ، لكنه كان يمكن أن يستخدم مجموعة متنوعة من أساليب التعلم الإحصائية أو الآلية الأخرى.
إذن كيف عملت بشكل جيد؟ هل كان Blumenstock قادرًا على التنبؤ بأجوبة أسئلة الاستطلاع مثل "هل تملك راديو؟" و "هل تملك دراجة؟" باستخدام ميزات مشتقة من سجلات المكالمات؟ من أجل تقييم أداء نموذجه التنبئي ، استخدم Blumenstock التحقق المتقاطع ، وهو أسلوب شائع الاستخدام في علم البيانات ولكنه نادرًا ما يكون في العلوم الاجتماعية. إن الهدف من التحقق المتقاطع هو توفير تقييم عادل لأداء تنموي في النموذج عن طريق تدريبه واختباره على مجموعات فرعية مختلفة من البيانات. على وجه الخصوص ، قسم Blumenstock بياناته إلى 10 أجزاء من كل 100 شخص. ثم استخدم تسعة من القطع لتدريب نموذجه ، وتم تقييم الأداء التنبئي للنموذج المدرّب على القطعة المتبقية. كرر هذا الإجراء عشر مرات ، مع حصول كل جزء من البيانات على دور واحد كبيانات التحقق - وحسب متوسط النتائج.
كانت دقة التوقعات عالية بالنسبة لبعض السمات (الشكل 3.14) ؛ على سبيل المثال ، يمكن أن يتنبأ Blumenstock بدقة تبلغ 97.6٪ إذا كان شخص ما يمتلك جهاز راديو. قد يبدو هذا مثيرًا للإعجاب ، ولكن من المهم دائمًا مقارنة طريقة التنبؤ المعقدة مقابل بديل بسيط. في هذه الحالة ، هناك بديل بسيط هو التنبؤ بأن الجميع سيعطون الإجابة الأكثر شيوعًا. على سبيل المثال ، أفاد 97.3٪ من أفراد العينة بأنهم يملكون جهازًا إذاعيًا إذا كان Blumenstock قد تنبأ بأن كل شخص سيبلغ عن امتلاك جهاز راديو سيكون لديه دقة تبلغ 97.3٪ ، وهو أمر مماثل بشكل مدهش لأداء إجراءاته الأكثر تعقيدًا (دقة 97.6٪) . وبعبارة أخرى ، زادت جميع البيانات والنمذجة الهائلة من دقة التنبؤ من 97.3 ٪ إلى 97.6 ٪. ومع ذلك ، بالنسبة للأسئلة الأخرى ، مثل "هل تملك دراجة؟" ، تحسنت التوقعات من 54.4٪ إلى 67.6٪. بشكل عام ، يوضح الشكل 3.15 أنه بالنسبة لبعض الصفات لم يتحسن Blumenstock أكثر من مجرد إجراء التنبؤ الأساسي البسيط ، ولكن بالنسبة لبعض السمات الأخرى ، كان هناك بعض التحسن. لكن بالنظر إلى هذه النتائج ، قد لا تعتقد أن هذا النهج واعد بشكل خاص.
ومع ذلك ، بعد عام واحد فقط ، نشر بلومنستوك وزميلين له - غابرييل كادامورو وروبرت أون - بحثًا في العلوم مع نتائج أفضل بشكل كبير (Blumenstock, Cadamuro, and On 2015) . كان هناك سببان فنيان رئيسيان لهذا التحسن: (1) استخدموا طرقًا أكثر تعقيدًا (أي ، أسلوبًا جديدًا للهندسة المميزة ونموذجًا أكثر تطوراً للتنبؤ بالردود من الميزات) و (2) بدلاً من محاولة استنتاج الاستجابات للفرد أسئلة المسح (على سبيل المثال ، "هل تملك الراديو؟") ، حاولوا استنتاج مؤشر الثروة المركبة. هذه التحسينات الفنية تعني أنه بإمكانهم القيام بعمل معقول باستخدام سجلات المكالمات للتنبؤ بالثروة للناس في عينتهم.
ومع ذلك ، لم يكن التنبؤ بثروة الأشخاص في العينة الهدف النهائي للبحث. تذكر أن الهدف النهائي هو الجمع بين بعض أفضل ميزات المسح الإحصائي والتعدادات لإنتاج تقديرات دقيقة وعالية الدقة للفقر في البلدان النامية. لتقييم قدرتها على تحقيق هذا الهدف ، استخدم Blumenstock وزملاؤه نموذجهم وبياناتهم للتنبؤ بثروة جميع 1.5 مليون شخص في سجلات المكالمات. واستخدموا المعلومات الجغرافية المكانية في سجلات المكالمات (أذكر أن البيانات شملت موقع أقرب برج خلية لكل مكالمة) لتقدير مكان الإقامة التقريبي لكل شخص (الشكل 3-17). وقد وضع كل من Blumenstock وزملاؤه تقديرًا للتوزيع الجغرافي لثروة المشتركين عند التفصيل المكاني الدقيق للغاية. على سبيل المثال ، يمكن أن يقدروا متوسط الثروة في كل واحد من 2148 خلية في رواندا (أصغر وحدة إدارية في البلاد).
ما مدى تطابق هذه التقديرات مع المستوى الحقيقي للفقر في هذه المناطق؟ قبل أن أجيب على هذا السؤال ، أريد أن أؤكد على حقيقة أن هناك الكثير من الأسباب التي تجعلك متشككا. على سبيل المثال ، كانت القدرة على وضع التوقعات على المستوى الفردي صاخبة إلى حد ما (الشكل 3.17). والأهم من ذلك ، أن الأشخاص الذين يملكون هواتف محمولة قد يكونون مختلفين بشكل منهجي عن الأشخاص الذين لا يملكون هواتف محمولة. وهكذا ، قد يعاني Blumenstock وزملاؤه من أنواع أخطاء التغطية التي منحت استقصاء 1936 Literary Digest الذي وصفته في وقت سابق.
للحصول على شعور بجودة تقديراتهم ، احتاج Blumenstock وزملاؤه إلى مقارنتهم بشيء آخر. لحسن الحظ ، في نفس الوقت تقريباً أثناء دراستهم ، كانت مجموعة أخرى من الباحثين تدير استقصاءً اجتماعياً أكثر تقليدية في رواندا. وكان هذا المسح الآخر - الذي كان جزءًا من برنامج المسح الديمغرافي والصحي المحترم - يتمتع بميزانية كبيرة ويستخدم أساليب تقليدية عالية الجودة. لذلك ، يمكن اعتبار تقديرات المسح الديمغرافي والصحي تقديراً معقولاً للمعايير الذهبية. عندما تمت مقارنة التقديرين ، كانت متشابهة تماماً (الشكل 3.17). وبعبارة أخرى ، من خلال الجمع بين كمية صغيرة من بيانات الاستقصاء وسجلات المكالمات ، كان بلينستوك وزملاؤه قادرين على إنتاج تقديرات مماثلة لتلك التي تتم مقاربات المعايير الذهبية.
قد يرى المشككون هذه النتائج خيبة أمل. بعد كل شيء ، هناك طريقة واحدة لعرضها هي أن نقول أنه باستخدام البيانات الكبيرة والتعلم الآلي ، تمكن Blumenstock وزملاؤه من إنتاج تقديرات يمكن جعلها أكثر موثوقية من خلال الأساليب الموجودة بالفعل. لكنني لا أعتقد أن هذه هي الطريقة الصحيحة للتفكير في هذه الدراسة لسببين. أولا ، كانت التقديرات من Blumenstock والزملاء حوالي 10 مرات أسرع و 50 مرة أرخص (عندما يتم قياس التكلفة من حيث التكاليف المتغيرة). كما ذكرت في هذا الفصل ، يتجاهل الباحثون التكلفة التي يواجهونها. في هذه الحالة ، على سبيل المثال ، يعني الانخفاض الهائل في التكلفة أنه بدلاً من أن يتم تشغيله كل بضع سنوات - كما هو الحال في الدراسات الاستقصائية الديمغرافية والصحية - يمكن تشغيل هذا النوع من المسح كل شهر ، مما يوفر مزايا عديدة للباحثين والسياسة صناع. السبب الثاني لعدم أخذ وجهة نظر المشكّك هو أن هذه الدراسة توفّر وصفة أساسية يمكن تكييفها مع العديد من المواقف البحثية المختلفة. هذه الوصفة تحتوي على مكونين فقط وخطوتين. المكونات هي (1) مصدر بيانات كبير واسع لكن رفيع (على سبيل المثال ، لديه الكثير من الناس ولكن ليس المعلومات التي تحتاجها عن كل شخص) و (2) مسح ضيق ولكنه سميك (على سبيل المثال ، لديه فقط عدد قليل من الناس ، ولكن لديها المعلومات التي تحتاجها عن هؤلاء الناس). ثم يتم الجمع بين هذه المكونات في خطوتين. أولاً ، بالنسبة إلى الأشخاص في كلا مصدري البيانات ، أنشئ نموذجًا للتعلم الآلي يستخدم مصدر البيانات الكبير للتنبؤ بإجابات الاستبيان. بعد ذلك ، استخدم هذا النموذج لإدراج إجابات استطلاع الرأي للجميع في مصدر البيانات الكبير. وبالتالي ، إذا كان هناك بعض الأسئلة التي تريد طرحها على العديد من الأشخاص ، فابحث عن مصدر بيانات كبير من هؤلاء الأشخاص الذين قد يتم استخدامهم للتنبؤ بإجاباتهم ، حتى إذا لم تكن مهتمًا بمصدر البيانات الكبير . أي أن Blumenstock وزملائه لم يهتموا بسجلات المكالمات. كانوا يهتمون فقط بسجلات المكالمات لأنهم يمكن أن يستخدموا للتنبؤ بإجابات المسح التي كانوا يهتمون بها. إن هذه الخاصية - وهي المصلحة غير المباشرة فقط في مصدر البيانات الضخم - تجعلها تضغط على طرح مختلف عن السؤال الضمني ، الذي وصفته سابقًا.
في الختام ، يجمع أسلوب Blumenstock للتضخيم بين بيانات الاستقصاء مع مصدر بيانات كبير لإنتاج تقديرات مماثلة لتلك الواردة من المسح المعياري الذهبي. يوضح هذا المثال على وجه الخصوص بعض المفاضلات بين طرق الطلب المتضاربة وطرق المسح التقليدية. كانت تقديرات الطلب المضخمة أكثر ملاءمة ، وأرخص بكثير ، وأكثر دقة. لكن ، من ناحية أخرى ، لا يوجد بعد أساس نظري قوي لهذا النوع من الإسراف في الطلب. لا يوضح هذا المثال الفردي متى سيعمل هذا النهج ومتى لا يعمل ، ويتعين على الباحثين الذين يستخدمون هذا المنهج أن يشعروا بقلق خاص حيال التحيزات المحتملة الناتجة عن من يتم تضمينه - ومن لا يتم تضمينه - في مصدر البيانات الكبير الخاص بهم. علاوة على ذلك ، لا توجد لدى طرق الطلب المتضخمة حتى الآن طرق جيدة لتحديد عدم التيقن حول تقديراتها. لحسن الحظ ، فإن تضخيم الطلب له صلات عميقة بثلاث مناطق واسعة في الإحصاء - تقدير المساحة الصغيرة (Rao and Molina 2015) ، والإسقاط (Rubin 2004) ، والبعد الطبقي القائم على النموذج (الذي يرتبط في حد ذاته بالسيد ب. ، الطريقة التي وصفتها في وقت سابق في الفصل) (Little 1993) . وبسبب هذه الروابط العميقة ، أتوقع أن العديد من الأسس المنهجية لتضخيم الطلب ستتحسن قريبًا.
وأخيرًا ، فإن مقارنة محاولات Blumenstock الأولى والثانية توضح أيضًا درسًا مهمًا حول البحث الاجتماعي في العصر الرقمي: البداية ليست النهاية. وهذا ، مرات عديدة ، لن يكون النهج الأول هو الأفضل ، ولكن إذا استمر الباحثون في العمل ، فإن الأمور يمكن أن تتحسن. بشكل عام ، عند تقييم المناهج الجديدة للبحث الاجتماعي في العصر الرقمي ، من المهم إجراء تقييمين متميزين: (1) ما مدى جودة هذا العمل الآن؟ و (2) ما مدى جودة هذا العمل في المستقبل حيث يتغير منظر البيانات ويكرس الباحثون المزيد من الاهتمام للمشكلة؟ على الرغم من تدريب الباحثين على إجراء النوع الأول من التقييم ، إلا أن الثانية أكثر أهمية في الغالب.