تشير صحة لمدى تدعم نتائج تجربة استنتاج أعم.
لا توجد تجربة مثالية ، وقد طور الباحثون مجموعة واسعة من المفردات لوصف المشاكل المحتملة. تشير الصلاحية إلى المدى الذي تدعم فيه نتائج تجربة معينة بعض الاستنتاجات العامة. وقد وجد علماء الاجتماع أنه من المفيد تقسيم الصلاحية إلى أربعة أنواع رئيسية: صحة النتائج الإحصائية ، الصلاحية الداخلية ، صلاحية البناء ، والصلاحيات الخارجية (Shadish, Cook, and Campbell 2001, chap. 2) . سيوفر إتقان هذه المفاهيم قائمة مراجعة ذهنية لنقد وتحسين تصميم وتحليل تجربة ، وسوف يساعدك على التواصل مع الباحثين الآخرين.
تركز صحة النتائج الإحصائية حول ما إذا كان التحليل الإحصائي للتجربة قد تم بشكل صحيح. في سياق Schultz et al. (2007) ، قد تركز مثل هذا السؤال على ما إذا كانوا قد قاموا بحساب قيمهم \(p\) بشكل صحيح. تحتاج المبادئ الإحصائية التي تحتاج إلى تصميم وتحليل التجارب إلى ما هو أبعد من نطاق هذا الكتاب ، ولكنها لم تتغير بشكل جذري في العصر الرقمي. غير أن ما تغير ، هو أن بيئة البيانات في التجارب الرقمية قد خلقت فرصًا جديدة مثل استخدام أساليب التعلم الآلي لتقدير عدم التجانس في تأثيرات العلاج (Imai and Ratkovic 2013) .
مراكز الصلاحية الداخلية حول ما إذا كانت الإجراءات التجريبية قد تم تنفيذها بشكل صحيح أم لا. العودة إلى تجربة Schultz et al. (2007) ، يمكن أن تركز الأسئلة حول الصلاحية الداخلية على التوزيع العشوائي ، وتقديم العلاج ، وقياس النتائج. على سبيل المثال ، قد يقلقك أن مساعدي الأبحاث لم يقرؤوا العدادات الكهربائية بشكل موثوق. في الواقع ، كان شولتز وزملاؤه قلقين بشأن هذه المشكلة ، وكان لديهم عينة من العدادات تقرأ مرتين ؛ لحسن الحظ ، كانت النتائج متطابقة أساسًا. بشكل عام ، يبدو أن تجربة شولتز وزملاؤه تتمتع بصلاحيات داخلية عالية ، ولكن هذا ليس هو الحال دائمًا: فالتجارب المعقدة والتجارب عبر الإنترنت غالبًا ما تصطدم بمشاكل تقدم فعليًا العلاج المناسب للأشخاص المناسبين وقياس النتائج للجميع. لحسن الحظ ، يمكن أن يساعد العصر الرقمي في الحد من المخاوف المتعلقة بالصحة الداخلية لأنه أصبح من الأسهل الآن ضمان تسليم العلاج إلى الأشخاص المفترض أنهم يتلقونه وقياس النتائج لجميع المشاركين.
إنشاء مراكز صحة حول المباراة بين البيانات والبنيات النظرية. كما نوقش في الفصل 2 ، والبنى هي مفاهيم مجردة التي يرويها علماء الاجتماع. للأسف ، لا تحتوي هذه المفاهيم المجردة دائمًا على تعريفات وقياسات واضحة. العودة إلى Schultz et al. (2007) ، الزعم القائل بأن القواعد الاجتماعية الزائفة يمكن أن يقلل من استخدام الكهرباء يتطلب من الباحثين تصميم علاج من شأنه أن يتلاعب "بالأعراف الاجتماعية الزجرية" (على سبيل المثال ، عاطفة) وقياس "استخدام الكهرباء". في التجارب التناظرية ، صمم العديد من الباحثين معالجاتهم الخاصة وقاسوا نتائجهم الخاصة. يضمن هذا النهج ، قدر الإمكان ، أن تتطابق التجارب مع التركيبات المجردة التي يتم دراستها. في التجارب الرقمية حيث يتعاون الباحثون مع الشركات أو الحكومات لتقديم العلاجات واستخدام أنظمة البيانات التي تعمل دائمًا لقياس النتائج ، قد تكون المطابقة بين التجربة والبنى النظرية أقل ضيقًا. وبالتالي ، أتوقع أن تكون صلاحية الإنشاء هي مصدر قلق أكبر في التجارب الرقمية من التجارب التناظرية.
وأخيرًا ، تتمحور الصلاحية الخارجية حول إمكانية تعميم نتائج هذه التجربة على حالات أخرى. العودة إلى Schultz et al. (2007) ، يمكن للمرء أن يسأل ما إذا كانت هذه الفكرة نفسها - تزويد الناس بمعلومات حول استخدامهم للطاقة في علاقتها بأقرانهم وإشارة إلى قواعد زجرية (على سبيل المثال ، تعبيرات) - ستقلل من استخدام الطاقة إذا تم ذلك بطريقة مختلفة في وضع مختلف. بالنسبة لمعظم التجارب جيدة التصميم والمُدارة بشكل جيد ، فإن المخاوف بشأن الصلاحية الخارجية هي الأصعب في معالجتها. في الماضي ، لم تكن النقاشات حول الصدق الخارجي تتضمن في كثير من الأحيان أكثر من مجموعة من الأشخاص الذين كانوا يجلسون في غرفة يحاولون تخيل ما كان سيحدث إذا تم تنفيذ الإجراءات بطريقة مختلفة ، أو في مكان مختلف ، أو مع مشاركين مختلفين. . ولحسن الحظ ، فإن العصر الرقمي يمكّن الباحثين من تجاوز هذه التخمينات الخالية من البيانات وتقييم الصحة الخارجية تجريبيًا.
لأن النتائج من Schultz et al. (2007) كانت مثيرة للغاية ، وهي شركة تدعى Opower شراكة مع المرافق في الولايات المتحدة لنشر العلاج على نطاق أوسع. على أساس تصميم Schultz et al. (2007) ، قام Opower بإنشاء تقارير الطاقة المنزلية المخصصة التي تحتوي على وحدتين رئيسيتين: واحدة تبين استخدام الكهرباء للأسرة بالنسبة لجيرانها مع رمز تعبيري وواحد يقدم نصائح لخفض استخدام الطاقة (الشكل 4.6). بعد ذلك ، وبالتعاون مع الباحثين ، قام Opower بتشغيل تجارب عشوائية مضبوطة لتقييم تأثير تقارير الطاقة المنزلية هذه. على الرغم من أن المعالجات في هذه التجارب قد تم تقديمها جسديًا عادة - من خلال البريد العادي القديم - فقد تم قياس النتيجة باستخدام أجهزة رقمية في العالم الفعلي (مثل عدادات الطاقة). علاوة على ذلك ، بدلاً من جمع هذه المعلومات يدويًا مع مساعدي الأبحاث الذين يزورون كل منزل ، تم إجراء تجارب Opower بالشراكة مع شركات الطاقة لتمكين الباحثين من الوصول إلى قراءات الطاقة. وهكذا ، تم تشغيل هذه التجارب الميدانية الرقمية جزئيا على نطاق واسع بتكلفة منخفضة متغيرة.
في أول مجموعة من التجارب التي شملت 600000 أسرة من 10 مواقع مختلفة ، Allcott (2011) أن تقرير الطاقة المنزلية خفض استهلاك الكهرباء. بعبارة أخرى ، كانت النتائج من الدراسة الأكبر والأكثر تنوعًا جغرافيًا مشابهة نوعًا ما للنتائج التي توصل إليها Schultz et al. (2007) . علاوة على ذلك ، في أبحاث لاحقة Allcott (2015) فيها ثمانية ملايين أسرة إضافية من 101 موقع مختلف ، Allcott (2015) مرة أخرى أن تقرير Energy Home خفض باستمرار استهلاك الكهرباء. وكشفت هذه المجموعة الأكبر من التجارب أيضًا عن نمط جديد مثير للاهتمام لا يمكن رؤيته في أي تجربة واحدة: حيث انخفض حجم التأثير في التجارب الأخيرة (الشكل 4.7). Allcott (2015) أن هذا الانخفاض حدث لأنه مع مرور الوقت ، كان يتم تطبيق العلاج على أنواع مختلفة من المشاركين. وبشكل أكثر تحديدًا ، كان استخدام الخدمات مع العملاء الأكثر تركيزًا على البيئة أكثر احتمالًا في تبني البرنامج في وقت سابق ، وكان عملاءهم أكثر استجابةً للمعالجة. وحيث أن المرافق ذات العملاء الأقل تركيزاً على البيئة اعتمدت البرنامج ، بدا أن فعاليته في انخفاض. وهكذا ، مثلما يضمن التوزيع العشوائي في التجارب أن تكون مجموعة المعالجة والتحكم متشابهة ، فإن التوزيع العشوائي في مواقع الأبحاث يضمن إمكانية تعميم التقديرات من مجموعة واحدة من المشاركين إلى مجموعة أكثر عمومية (يرجى الرجوع إلى الفصل الثالث حول أخذ العينات). إذا لم يتم أخذ عينات من مواقع البحث بشكل عشوائي ، فإن التعميم - حتى من التجربة المصممة والمنفذة تمامًا - يمكن أن يكون مشكلة.
معا ، هذه التجارب 111 - 10 في Allcott (2011) و 101 في Allcott (2015) شاركت في نحو 8.5 مليون أسرة من جميع أنحاء الولايات المتحدة. وهي تظهر باستمرار أن تقارير الطاقة المنزلية تقلل متوسط استهلاك الكهرباء ، وهو ما يدعم النتائج الأصلية التي توصل إليها شولتز وزملاؤه من 300 منزل في كاليفورنيا. بالإضافة إلى مجرد تكرار هذه النتائج الأصلية ، تُظهر تجارب المتابعة أيضًا أن حجم التأثير يختلف باختلاف الموقع. توضح هذه المجموعة من التجارب أيضًا نقطتين أكثر عمومية حول التجارب الحقلية الجزئية. أولاً ، سيتمكن الباحثون من معالجة المخاوف المتعلقة بالصحة الخارجية تجريبياً عندما تكون تكلفة تشغيل التجارب منخفضة ، ويمكن أن يحدث هذا إذا تم قياس النتيجة بالفعل بواسطة نظام بيانات دائم. لذلك ، فإنه يقترح أن الباحثين يجب أن يكونوا بالمرصاد لسلوكيات أخرى مثيرة للاهتمام ومهمة يتم تسجيلها بالفعل ، ومن ثم تصميم التجارب على أعلى البنية التحتية الحالية للقياس. ثانيًا ، تذكرنا هذه المجموعة من التجارب بأن التجارب الميدانية الرقمية ليست على الإنترنت فقط ؛ على نحو متزايد ، أتوقع أن يكونوا في كل مكان مع العديد من النتائج التي تقاس بواسطة أجهزة الاستشعار في البيئة المبنية.
توفر الأنواع الأربعة للصلاحية - صلاحية الاستنتاج الإحصائي ، والصدق الداخلي ، وصحة الإنشاء ، والصلاحيات الخارجية - قائمة مراجعة ذهنية لمساعدة الباحثين على تقييم ما إذا كانت نتائج تجربة معينة تدعم استنتاجًا أكثر عمومية. مقارنة بالتجارب في عصر تناظري ، في تجارب العصر الرقمي ، يجب أن يكون من الأسهل التعامل مع الصحة الخارجية تجريبيًا ، كما يجب أن يكون من الأسهل ضمان الصلاحية الداخلية. من ناحية أخرى ، من المحتمل أن تكون قضايا بناء الصلاحية أكثر صعوبة في تجارب العصر الرقمي ، لا سيما التجارب الميدانية الرقمية التي تنطوي على شراكات مع الشركات.