يمكننا تقريبًا التجارب التي لم نفعلها أو لا يمكننا القيام بها. هناك طريقتان تستفيدان بشكل خاص من مصادر البيانات الضخمة هما التجارب الطبيعية والمطابقة.
بعض الأسئلة العلمية والسياسة الهامة هي السببية. على سبيل المثال ، ما هو تأثير برنامج التدريب على العمل على الأجور؟ قد يقارن الباحث الذي يحاول الإجابة عن هذا السؤال أرباح الأشخاص الذين قاموا بالتسجيل من أجل أولئك الذين لم يقوموا بالتسجيل. ولكن كم من أي اختلاف في الأجور بين هذه المجموعات هو بسبب التدريب وكم هو بسبب الاختلافات الموجودة مسبقًا بين الأشخاص الذين يقومون بالتسجيل وتلك التي لا تفعل ذلك؟ هذا سؤال صعب ، وهو سؤال لا يختفي تلقائيًا مع المزيد من البيانات. بمعنى آخر ، ينشأ القلق حول الاختلافات الموجودة مسبقًا بغض النظر عن عدد العمال في بياناتك.
في العديد من المواقف ، تتمثل الطريقة الأقوى لتقدير التأثير السببي لبعض العلاج ، مثل التدريب الوظيفي ، في إجراء تجربة معشاة ذات شواهد حيث يقوم الباحث بشكل عشوائي بتوصيل العلاج لبعض الأشخاص وليس الآخرين. سأخصص كل الفصل 4 للتجارب ، لذلك سأركز هنا على استراتيجيتين يمكن استخدامهما مع البيانات غير التجريبية. تعتمد الاستراتيجية الأولى على البحث عن شيء يحدث في العالم يعين عشوائياً (أو بشكل عشوائي تقريباً) العلاج لبعض الأشخاص وليس الآخرين. تعتمد الإستراتيجية الثانية على تعديل البيانات غير التجريبية إحصائيًا في محاولة لحساب الاختلافات الموجودة مسبقًا بين من فعلوا ولم يتلقوا العلاج.
قد يدعي المشككون أنه يجب تجنب كلا الاستراتيجيتين لأنها تتطلب فرضيات قوية ، وافتراضات يصعب تقييمها ، وغالباً ما يتم انتهاكها. وبينما أتعاطف مع هذا الادعاء ، أعتقد أنه أمر بعيد بعض الشيء. من المؤكد أنه من الصعب إجراء تقديرات سببية موثوقة من البيانات غير التجريبية ، لكنني لا أعتقد أن هذا يعني أننا يجب ألا نحاول أبداً. على وجه الخصوص ، يمكن أن تكون المناهج غير التجريبية مفيدة إذا كان القيد اللوجستي يمنعك من إجراء تجربة أو إذا كانت القيود الأخلاقية تعني أنك لا تريد إجراء تجربة. علاوة على ذلك ، يمكن أن تكون الطرق غير التجريبية مفيدة إذا كنت ترغب في الاستفادة من البيانات الموجودة بالفعل من أجل تصميم تجربة معشاة ذات شواهد.
قبل البدء ، تجدر الإشارة أيضًا إلى أن إجراء تقديرات سببية هي واحدة من أكثر الموضوعات المعقدة في البحث الاجتماعي ، والتي يمكن أن تؤدي إلى نقاش حاد وعاطفي. في ما يلي ، سأقدم وصفاً متفائلاً لكل أسلوب من أجل بناء الحدس حوله ، ثم سأصف بعض التحديات التي تنشأ عند استخدام هذا النهج. تتوفر المزيد من التفاصيل حول كل منهج في المواد الموجودة في نهاية هذا الفصل. إذا كنت تخطط لاستخدام أي من هذه الأساليب في البحث الخاص بك ، فإنني أوصي بشدة بقراءة واحدة من العديد من الكتب الممتازة حول الاستدلال السببي (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
تتمثل إحدى الطرق لجعل التقديرات السببية من البيانات غير التجريبية في البحث عن حدث قام بشكل عشوائي بتعيين علاج لبعض الأشخاص وليس للآخرين. تسمى هذه المواقف بالتجارب الطبيعية . أحد الأمثلة الواضحة للتجربة الطبيعية يأتي من بحث جوشوا أنجريست (1990) لقياس تأثير الخدمات العسكرية على الأرباح. خلال الحرب في فيتنام ، زادت الولايات المتحدة حجم قواتها المسلحة من خلال مسودة. من أجل تحديد المواطنين الذين سيتم استدعاؤهم للخدمة ، عقدت الحكومة الأمريكية يانصيب. تم كتابة كل تاريخ ميلاد على قطعة من الورق ، وكما هو موضح في الشكل 2.7 ، تم اختيار هذه القطع من الورق واحدة في كل مرة من أجل تحديد الترتيب الذي سيتم من خلاله استدعاء الشباب للخدمة (لم تكن الشابات عرضة إلى المسودة). واستنادا إلى النتائج ، تم استدعاء الرجال الذين ولدوا في 14 أيلول (سبتمبر) لأول مرة ، وتم استدعاء الرجال المولودين في 24 نيسان (أبريل) الثاني ، وهكذا. في نهاية المطاف ، في هذا اليانصيب ، تمت صياغة الرجال الذين ولدوا في 195 يومًا مختلفًا ، بينما لم يكن الرجال الذين ولدوا في 171 يومًا.
على الرغم من أنه قد لا يكون واضحًا على الفور ، إلا أن مسودة اليانصيب لها تشابه كبير مع تجربة عشوائية مضبوطة: في كلتا الحالتين ، يتم تعيين المشاركين عشوائيا لتلقي العلاج. من أجل دراسة تأثير هذا العلاج العشوائي ، استغل Angrist نظام بيانات كبير دائمًا: إدارة الضمان الاجتماعي الأمريكية ، التي تجمع معلومات حول كل دخل أمريكي من التوظيف. من خلال الجمع بين المعلومات حول من تم اختياره بشكل عشوائي في مشروع القرعة مع بيانات الأرباح التي تم جمعها في السجلات الإدارية الحكومية ، خلص Angrist إلى أن أرباح المحاربين القدامى كانت حوالي 15 ٪ أقل من أرباح مماثلة غير المحاربين القدامى.
وكما يوضح هذا المثال ، فإن القوى الاجتماعية أو السياسية أو الطبيعية في بعض الأحيان تقوم بتعيين العلاجات بطريقة يمكن للباحثين الاستفادة منها ، وأحيانًا يتم التقاط آثار هذه العلاجات في مصادر البيانات الكبيرة دائمًا. يمكن تلخيص استراتيجية البحث هذه على النحو التالي: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
لتوضيح هذه الاستراتيجية في العصر الرقمي ، دعونا نفكر في دراسة أجراها ألكسندر ماس وإنريكو موريتي (2009) والتي حاولت تقدير تأثير العمل مع الزملاء المنتجين على إنتاجية العامل. قبل رؤية النتائج ، تجدر الإشارة إلى أن هناك توقعات متضاربة قد تكون لديك. فمن ناحية ، قد تتوقع أن يؤدي العمل مع الزملاء المنتجين إلى زيادة عاملتها الإنتاجية بسبب ضغط الأقران. أو ، من ناحية أخرى ، قد تتوقع أن وجود زملاء يعملون بجد قد يقود العامل إلى الركود لأن العمل سيتم بواسطة أقرانه على أي حال. إن أوضح طريقة لدراسة تأثيرات الزملاء على الإنتاجية ستكون تجربة عشوائية مضبوطة حيث يتم تعيين العمال عشوائياً للتحولات مع العمال بمستويات إنتاجية مختلفة ثم يتم قياس الإنتاجية الناتجة للجميع. غير أن الباحثين لا يسيطرون على جدول العمال في أي عمل حقيقي ، ولذا اضطر ماس وموريتي إلى الاعتماد على تجربة طبيعية تتعلق بأصحاب صناديق في سوبرماركت.
في هذا السوبرماركت الخاص ، بسبب الطريقة التي تمت بها الجدولة والطريقة التي تتداخل بها التحولات ، كان لكل أمين صندوق موظفين مختلفين في أوقات مختلفة من اليوم. علاوة على ذلك ، في هذا السوبر ماركت الخاص ، لم تكن مهمة أمين الصندوق مرتبطة بإنتاجية زملائهم أو مدى انشغال المتجر. وبعبارة أخرى ، على الرغم من أن تحديد مواعيد لأمين الصندوق لم يتم تحديده بواسطة اليانصيب ، فقد كان الأمر وكأن العمال قد تم تعيينهم عشوائياً في بعض الأحيان للعمل مع نظراء إنتاجية مرتفعين (أو منخفضين). ولحسن الحظ ، كان لدى هذا السوبر ماركت أيضًا نظام دفع رقمي للعمر الذي تتبع العناصر التي كان كل أمين صندوق يقوم بمسحها في جميع الأوقات. من بيانات سجل الخروج هذه ، استطاع ماس وموريتي إنشاء مقياس دقيق وفريد ودائم للإنتاجية: عدد العناصر الممسوحة ضوئيًا في الثانية. الجمع بين هذين الأمرين - الاختلاف الطبيعي في إنتاجية الأقران وقياس الإنتاجية على الدوام - قدرت ماس وموريتي أنه إذا تم تعيين أمين الصندوق لزملاء العمل الذين كانوا أكثر إنتاجية بنسبة 10٪ من المتوسط ، فإن إنتاجيتها سترتفع بنسبة 1.5٪ . علاوة على ذلك ، استخدموا حجم وثراء بياناتهم لاستكشاف قضيتين مهمتين: عدم التجانس لهذا التأثير (لأي نوع من العمال هو تأثير أكبر؟) والآليات وراء التأثير (لماذا يؤدي وجود الأقران عالية الإنتاجية إلى زيادة الإنتاجية؟). سوف نعود إلى هاتين المسألتين المهمتين - عدم تجانس تأثيرات وآليات المعالجة - في الفصل 4 عندما نناقش التجارب بمزيد من التفصيل.
بالتعميم من هاتين الدراستين ، يلخص الجدول 2.3 الدراسات الأخرى التي لها نفس البنية: استخدام مصدر بيانات دائمًا لقياس تأثير بعض الاختلافات العشوائية. من الناحية العملية ، يستخدم الباحثون استراتيجيتين مختلفتين للعثور على تجارب طبيعية ، يمكن أن يكون كلاهما مثمرين. يبدأ بعض الباحثين بمصدر بيانات دائمًا ويبحثون عن الأحداث العشوائية في العالم ؛ البعض الآخر يبدأ حدثًا عشوائيًا في العالم ويبحث عن مصادر البيانات التي تستحوذ على تأثيره.
التركيز الموضوعي | مصدر التجربة الطبيعية | دائما على مصدر البيانات | مرجع |
---|---|---|---|
تأثيرات النظير على الإنتاجية | عملية الجدولة | بيانات Checkout | Mas and Moretti (2009) |
تكوين الصداقة | الأعاصير | فيس بوك | Phan and Airoldi (2015) |
انتشار العواطف | تمطر | فيس بوك | Lorenzo Coviello et al. (2014) |
التحويلات الاقتصادية بين الأقران | زلزال | بيانات النقود المتنقلة | Blumenstock, Fafchamps, and Eagle (2011) |
سلوك الاستهلاك الشخصي | إغلاق 2013 حكومة الولايات المتحدة | بيانات التمويل الشخصي | Baker and Yannelis (2015) |
الأثر الاقتصادي لنظم التوصية | مختلف | تصفح البيانات في الأمازون | Sharma, Hofman, and Watts (2015) |
تأثير الإجهاد على الأطفال الذين لم يولدوا بعد | حرب إسرائيل مع حزب الله عام 2006 | سجلات الميلاد | Torche and Shwed (2015) |
قراءة السلوك على ويكيبيديا | الكشف سنودن | سجلات ويكيبيديا | Penney (2016) |
تأثيرات الزملاء على ممارسة الرياضة | طقس | تعقب اللياقة البدنية | Aral and Nicolaides (2017) |
في المناقشة التي دارت حتى الآن حول التجارب الطبيعية ، تركت نقطة مهمة: فالانتقال من طبيعة ما قدمته إلى ما تريد يمكن أن يكون في بعض الأحيان أمرًا صعبًا للغاية. لنعد إلى مثال مشروع فيتنام. في هذه الحالة ، كان Angrist مهتمًا بتقدير تأثير الخدمة العسكرية على الأرباح. للأسف ، لم يتم تعيين الخدمة العسكرية بشكل عشوائي. بدلا من ذلك كان يجري صياغتها التي تم تعيينها بشكل عشوائي. ومع ذلك ، لم يكن كل من تمت صياغته (كان هناك مجموعة متنوعة من الاستثناءات) ، ولم يكن كل من عملوا قد تمت صياغته (يمكن أن يتطوع الناس للخدمة). نظرًا لأنه تم تعيينها عشوائياً ، يمكن للباحث تقدير تأثير صياغة كل الرجال في المسودة. لكن أنغريست لم يرغب في معرفة تأثير الصياغة ؛ أراد أن يعرف تأثير الخدمة في الجيش. ومع ذلك ، لإجراء هذا التقدير ، هناك حاجة إلى افتراضات ومضاعفات إضافية. أولاً ، على الباحثين أن يفترضوا أن الطريقة الوحيدة التي يتم بها صياغة الدخل المتأثر هي من خلال الخدمة العسكرية ، وهو افتراض يسمى تقييد الاستثناء . قد يكون هذا الافتراض خاطئًا ، على سبيل المثال ، إذا ما بقي الرجال الذين تمت صياغتهم في المدرسة لفترة أطول من أجل تجنب الخدمة أو إذا كان أرباب العمل أقل عرضة لتوظيف الرجال الذين تمت صياغتهم. بشكل عام ، يعد تقييد الاستبعاد أحد الافتراضات الحرجة ، وعادة ما يكون من الصعب التحقق منه. حتى إذا كان تقييد الاستبعاد صحيحًا ، فلا يزال من المستحيل تقدير تأثير الخدمة على جميع الرجال. وبدلاً من ذلك ، اتضح أن الباحثين لا يستطيعون تقدير التأثير إلا على مجموعة فرعية محددة من الرجال تسمى المتشابهة (الرجال الذين سيخدمون عند صياغتهم ، لكنهم لن يخدموا عندما لا يتم صياغتهم) (Angrist, Imbens, and Rubin 1996) . غير أن الجهات المتلقية لم تكن السكان الأصليين للاهتمام. لاحظ أن هذه المشاكل تنشأ حتى في حالة نظيفة نسبيا من مشروع القرعة. تنشأ مجموعة أخرى من المضاعفات عندما لا يتم تعيين العلاج بواسطة اليانصيب المادي. على سبيل المثال ، في دراسة ماس وموريتي لأصحاب الأموال ، تنشأ أسئلة إضافية حول الافتراض بأن تعيين الزملاء عشوائي بشكل أساسي. إذا كان هذا الافتراض منتهكًا بشدة ، فيمكنه تحييد تقديراتهم. في الختام ، يمكن أن تكون التجارب الطبيعية استراتيجية قوية لوضع تقديرات سببية من البيانات غير التجريبية ، ومصادر البيانات الكبيرة تزيد من قدرتنا على الاستفادة من التجارب الطبيعية عند حدوثها. ومع ذلك ، قد يتطلب الأمر رعاية كبيرة - وأحيانًا فرضيات قوية - للانتقال مما قدمته الطبيعة للتقدير الذي تريده.
تعتمد الإستراتيجية الثانية التي أود أن أخبرك بها لتقدير التقديرات السببية من البيانات غير التجريبية على تعديل البيانات غير التجريبية إحصائيًا في محاولة لحساب الاختلافات الموجودة مسبقًا بين من فعلوا ولم يتلقوا العلاج. هناك العديد من طرق التعديل هذه ، ولكن سأركز على واحدة تسمى المطابقة . في المطابقة ، ينظر الباحث من خلال بيانات غير تجريبية لإنشاء أزواج من الأشخاص المتشابهين فيما عدا أن الشخص قد تلقى العلاج ولم يفعله أحد. في عملية المطابقة ، فإن الباحثين هم في الواقع يشذبون ؛ هذا هو ، تجاهل الحالات التي لا توجد فيها مباراة واضحة. وبالتالي ، فإن هذه الطريقة يمكن أن تسمى بدقة أكثر التطابق والتشذيب ، لكنني سألتزم بالمصطلح التقليدي: المطابقة.
أحد الأمثلة على قوة استراتيجيات التطابق مع مصادر البيانات غير التجريبية الضخمة يأتي من الأبحاث حول سلوك المستهلك من قبل ليران آيناف وزملائه (2015) . كانوا مهتمين بالمزادات التي تجري على موقع ئي باي ، وفي وصف عملهم ، سأركز على تأثير سعر بدء المزاد على نتائج المزاد ، مثل سعر البيع أو احتمال البيع.
الطريقة الأكثر سذاجة لتقدير تأثير السعر المبدئي على سعر البيع هي ببساطة حساب السعر النهائي للمزادات بأسعار مختلفة. سيكون هذا النهج على ما يرام إذا كنت تريد التنبؤ بسعر البيع نظراً لسعر البدء. ولكن إذا كان سؤالك يتعلق بتأثير سعر البدء ، فإن هذا النهج لن ينجح لأنه لا يعتمد على مقارنات عادلة ؛ قد تكون المزادات ذات أسعار البدء المنخفضة مختلفة تمامًا عن تلك ذات أسعار البدء الأعلى (على سبيل المثال ، قد تكون لأنواع مختلفة من البضائع أو تتضمن أنواعًا مختلفة من البائعين).
إذا كنت بالفعل على دراية بالمشاكل التي يمكن أن تنشأ عند إجراء تقديرات سببية من بيانات غير تجريبية ، فيمكنك تخطي النهج الساذج والنظر في إجراء تجربة ميدانية حيث يمكنك بيع عنصر محدد - على سبيل المثال ، نادي غولف - مع برنامج ثابت مجموعة من معلمات المزادات - على سبيل المثال ، الشحن المجاني والمزاد مفتوحان لمدة أسبوعين - ولكن بأسعار بدء محددة بشكل عشوائي. من خلال مقارنة نتائج السوق الناتجة ، ستقدم هذه التجربة الميدانية قياسًا واضحًا للغاية لتأثير بدء السعر على سعر البيع. ولكن هذا القياس لن ينطبق إلا على منتج معين واحد ومجموعة من معلمات المزادات. قد تكون النتائج مختلفة ، على سبيل المثال ، لأنواع مختلفة من المنتجات. بدون نظرية قوية ، من الصعب استنباط من هذه التجربة الواحدة إلى المجموعة الكاملة من التجارب الممكنة التي كان من الممكن إجراؤها. علاوة على ذلك ، تكون التجارب الميدانية باهظة التكلفة إلى الحد الذي يجعل من غير الممكن تشغيل كل شكل قد ترغب في تجربته.
على النقيض من النهج الساذج والتجريبي ، اتخذ أيناف وزملاؤه مقاربة ثالثة: المطابقة. تتمثل الحيلة الأساسية في استراتيجيتهم في اكتشاف أشياء مشابهة للتجارب الميدانية التي حدثت بالفعل على موقع eBay. على سبيل المثال ، يوضح الشكل 2.8 بعض قوائم 31 لنفس نادي الغولف بالضبط - وهو سائق Taylormade Burner 09 - يتم بيعه بنفس البائع بالضبط - "budgetgolfer". ومع ذلك ، فإن هذه القوائم الـ31 لها خصائص مختلفة قليلاً ، مثل بدائل مختلفة السعر وتواريخ الانتهاء ورسوم الشحن. بعبارة أخرى ، يبدو الأمر كما لو أن "budgetgolfer" يدير تجارب للباحثين.
هذه القوائم الخاصة ببرنامج Taylormade Burner 09 Driver الذي يتم بيعه من قبل "budgetgolfer" هي مثال على مجموعة من القوائم المتوافقة ، حيث يتم بيع نفس السلعة بالضبط من قبل البائع نفسه ، ولكن في كل مرة تتميز بخصائص مختلفة قليلاً. ضمن السجلات الضخمة لموقع eBay ، هناك مئات الآلاف من المجموعات المتطابقة التي تتضمن ملايين القوائم. وبالتالي ، بدلا من مقارنة السعر النهائي لجميع المزادات مع سعر بداية معين ، مقارنة بين Einav والزملاء ضمن مجموعات متطابقة. من أجل الجمع بين نتائج المقارنات ضمن هذه المجموعات من مئات الآلاف من المجموعات المتطابقة ، أعاد Einav وزملاؤه التعبير عن سعر البداية والسعر النهائي من حيث القيمة المرجعية لكل عنصر (على سبيل المثال ، متوسط سعر البيع). على سبيل المثال ، إذا كان لبرنامج Taylormade Burner 09 قيمة مرجعية قدرها 100 دولار (استنادًا إلى مبيعاته) ، فسيتم التعبير عن سعر يبدأ بـ 10 دولارات على أنه 0.1 وسعر نهائي 120 دولارًا ك 1.2.
تذكر أن Einav وزملائه كانوا مهتمين بتأثير بدء السعر على نتائج المزاد. أولاً ، استخدموا الانحدار الخطي لتقدير أن ارتفاع الأسعار المبدئية يقلل من احتمال البيع ، وأن أسعار البداية الأعلى تزيد من سعر البيع النهائي (مشروطًا بالبيع). في حد ذاتها ، هذه التقديرات - التي تصف علاقة خطية ويتم حسابها على جميع المنتجات - ليست كلها مثيرة للاهتمام. بعد ذلك ، استخدم آيناف وزملاؤه الحجم الهائل لبياناتهم لإنشاء مجموعة من التقديرات الأكثر دقة. على سبيل المثال ، من خلال تقدير التأثير بشكل منفصل لمجموعة متنوعة من أسعار بدء مختلفة ، وجدوا أن العلاقة بين سعر البدء وسعر البيع غير خطية (الشكل 2.9). على وجه الخصوص ، بالنسبة لبداية الأسعار بين 0.05 و 0.85 ، فإن سعر البداية له تأثير ضئيل على سعر البيع ، وهي النتيجة التي تم تفويتها تمامًا في تحليلها الأول. علاوة على ذلك ، بدلاً من المتوسط على جميع البنود ، قدرت Einav وزملاؤها تأثير بدء السعر لـ 23 فئة مختلفة من العناصر (مثل مستلزمات الحيوانات الأليفة والإلكترونيات وتذكارات الرياضة) (الشكل 2.10). تظهر هذه التقديرات أنه بالنسبة للبنود الأكثر تميزًا - مثل التذكارات - فإن السعر الأولي له تأثير أقل على احتمال البيع وتأثير أكبر على سعر البيع النهائي. علاوة على ذلك ، بالنسبة للبنود الأكثر سلعة - مثل أقراص DVD - فإن سعر البدء لا يؤثر تقريبًا على السعر النهائي. بمعنى آخر ، يخفي المتوسط الذي يجمع بين النتائج من 23 فئة مختلفة من العناصر اختلافات هامة بين هذه العناصر.
حتى إذا لم تكن مهتمًا بشكل خاص بالمزادات على موقع eBay ، فيجب أن تعجبك الطريقة التي يقدم بها الشكل 2.9 والشكل 2-10 فهماً أكثر ثراءً لموقع eBay من التقديرات البسيطة التي تصف العلاقة الخطية وتجمع بين العديد من فئات العناصر المختلفة. علاوة على ذلك ، على الرغم من أنه من الممكن علمياً توليد هذه التقديرات الأكثر دقة مع التجارب الميدانية ، فإن التكلفة تجعل مثل هذه التجارب مستحيلة بشكل أساسي.
كما هو الحال مع التجارب الطبيعية ، هناك عدد من الطرق التي يمكن أن تؤدي بها المطابقة إلى تقديرات سيئة. أعتقد أن مصدر القلق الأكبر في مطابقة التقديرات هو أنه يمكن تحيزهم بأشياء لم يتم استخدامها في المطابقة. على سبيل المثال ، في نتائجهم الرئيسية ، قام آيناف وزملاؤه بالتطابق على أربع خصائص: رقم معرّف البائع وفئة البند وعنوان العنصر والعنوان الفرعي. إذا كانت العناصر مختلفة بطرق لم يتم استخدامها للمطابقة ، فإن ذلك قد يؤدي إلى مقارنة غير عادلة. على سبيل المثال ، إذا كانت "budgetgolfer" قد خفضت أسعار برنامج Taylormade Burner 09 Driver في الشتاء (عندما تكون نوادي الجولف أقل شعبية) ، فيمكن أن يبدو أن انخفاض أسعار البداية يؤدي إلى انخفاض الأسعار النهائية ، في حين أن ذلك سيكون في الواقع قطعة أثرية التباين الموسمي في الطلب. تحاول إحدى الطرق للتعامل مع هذا القلق العديد من أنواع المطابقة المختلفة. على سبيل المثال ، كرر Einav وزملاؤه تحليلهم أثناء تغيير الإطار الزمني المستخدم للمطابقة (تضمنت المجموعات المطابقة عناصر معروضة للبيع خلال سنة واحدة ، في غضون شهر واحد ، وفي نفس الوقت). لحسن الحظ ، وجدوا نتائج مماثلة لجميع النوافذ الزمنية. وهناك قلق آخر مع المطابقة ينشأ من التفسير. تنطبق التقديرات من المطابقة فقط على البيانات المتطابقة ؛ لا تنطبق على الحالات التي لا يمكن مطابقتها. على سبيل المثال ، من خلال الحد من بحثهم إلى عناصر تحتوي على قوائم متعددة ، يركز Einav وزملاؤه على البائعين المحترفين وشبه المحترفين. وبالتالي ، عند تفسير هذه المقارنات ، يجب أن نتذكر أنها تنطبق فقط على هذه المجموعة الفرعية من eBay.
تعتبر المطابقة إستراتيجية قوية للعثور على مقارنات عادلة في البيانات غير التجريبية. بالنسبة للعديد من علماء الاجتماع ، فإن المطابقة تعتبر ثاني أفضل التجارب ، ولكن هذا اعتقاد يمكن مراجعته بشكل طفيف. قد تكون مطابقة البيانات الضخمة أفضل من عدد صغير من التجارب الميدانية عندما تكون (1) التغايرية في التأثيرات مهمة و (2) تم قياس المتغيرات الهامة المطلوبة للمطابقة. يقدم الجدول 2.4 بعض الأمثلة الأخرى لكيفية استخدام المطابقة مع مصادر البيانات الكبيرة.
التركيز الموضوعي | مصدر بيانات كبير | مرجع |
---|---|---|
تأثير إطلاق النار على عنف الشرطة | سجلات التوقف والفرك | Legewie (2016) |
تأثير 11 سبتمبر 2001 على العائلات والجيران | سجلات التصويت وسجلات التبرعات | Hersh (2013) |
العدوى الاجتماعية | بيانات الاتصال واعتماد المنتج | Aral, Muchnik, and Sundararajan (2009) |
في الختام ، من الصعب تقدير الآثار السببية من البيانات غير التجريبية ، ولكن يمكن استخدام طرق مثل التجارب الطبيعية والتعديلات الإحصائية (على سبيل المثال ، مطابقة). في بعض الحالات ، يمكن أن تكون هذه الطرق خاطئة بشكل سيء ، ولكن عند نشرها بعناية ، يمكن أن تكون هذه المقاربات مكملاً مفيداً للنهج التجريبي الذي وصفته في الفصل 4. وعلاوة على ذلك ، يبدو أن هذين النهجين قد يستفيدان على وجه الخصوص من نمو على أنظمة البيانات الضخمة.