تشير صحة لمدى تدعم نتائج تجربة استنتاج أعم.
لا تجربة مثالية، وطور باحثون من المفردات واسعة لوصف المشاكل المحتملة. صلاحية يشير إلى مدى نتائج تجربة معينة تدعم بعض الاستنتاجات أعم. وقد وجد علماء الاجتماع أنه من المفيد لتقسيم صحة إلى أربعة أنواع رئيسية هي: إحصائية صحة الاستنتاج، صحة الداخلية، وبناء صحة، وصحة الخارجية (Shadish, Cook, and Campbell 2001, Ch 2) . سوف اتقان هذه المفاهيم توفر لك المرجعية العقلية للنقد وتحسين تصميم وتحليل تجربة، وأنها سوف تساعدك على التواصل مع الباحثين الآخرين.
مراكز إحصائية استنتاج صحة حول ما اذا كان يتم التحليل الإحصائي للتجربة بشكل صحيح. في سياق Schultz et al. (2007) هذا السؤال قد تركز على ما إذا كانت تحسب لها ف القيم بشكل صحيح. التحليل الإحصائي هو خارج نطاق هذا الكتاب، ولكن أستطيع أن أقول إن المبادئ الإحصائية اللازمة لتصميم وتحليل التجارب لم تتغير في العصر الرقمي. ومع ذلك، فإن بيئة بيانات مختلفة في التجارب الرقمية تعمل على خلق فرص إحصائية جديدة (على سبيل المثال، وذلك باستخدام أساليب التعلم آلة لتقدير تباين آثار العلاج (Imai and Ratkovic 2013) ) والتحديات الحسابية الجديدة (على سبيل المثال، حظر في تجارب واسعة النطاق (Higgins, Sävje, and Sekhon 2016) ).
مراكز صحة الداخلية حول ما إذا كان تم تنفيذ الإجراءات التجريبية بشكل صحيح. وبالعودة إلى تجربة Schultz et al. (2007) ، أسئلة حول صحة الداخلية يمكن أن تتمحور حول التوزيع العشوائي، وتقديم العلاج، وقياس النتائج. على سبيل المثال، قد يكون القلق من أن مساعدي الباحثين لم يقرأ متر الكهربائية بشكل موثوق. في الواقع، كان شولتز وزملاؤها قلقا حول هذه المشكلة وكان لديهم عينة من متر قراءة مرتين. لحسن الحظ، كانت النتائج متطابقة في جوهرها. بشكل عام، يظهر شولتز وتجربة الزملاء لديهم صلاحية الداخلية عالية، ولكن هذا ليس هو الحال دائما. المجال المعقد والتجارب على الانترنت غالبا ما واجهت مشاكل تسليم في الواقع العلاج المناسب للشخص المناسب وقياس النتائج للجميع. لحسن الحظ، يمكن أن العصر الرقمي تساعد على تقليل المخاوف بشأن صحة الداخلية لأنه يجعل من الأسهل لضمان أن يتم تسليم المعاملة مصممة لأولئك الذين من المفترض أن تحصل عليه، وقياس النتائج لجميع المشاركين.
بناء مراكز صحة حول المباراة بين البيانات ويبني النظرية. كما نوقشت في الفصل 2، بنيات المفاهيم المجردة أن علماء الاجتماع السبب حول. للأسف، هذه المفاهيم المجردة لا يكون دائما تعريفات وقياسات واضحة. العودة إلى Schultz et al. (2007) ، فإن الادعاء بأن قضائية الأعراف الاجتماعية يمكن أن تقلل من استخدام الكهرباء تتطلب الباحثين لتصميم العلاج التي من شأنها التعامل مع "المعايير الاجتماعية قضائية" (على سبيل المثال، وهي التعبيرات) وقياس "استخدام الكهرباء". في التجارب التناظرية، صممت العديد من الباحثين العلاجات الخاصة وقياس نتائجها الخاصة. هذا النهج يضمن، قدر الإمكان، والتجارب تطابق البنى المجردة التي تجري دراستها. في التجارب الرقمية حيث شريك الباحثين مع شركات أو الحكومات لتقديم العلاجات وتستخدم دائما على نظم البيانات لقياس النتائج، المباراة بين التجربة ويبني النظرية قد تكون أقل مشددة. وهكذا، وأتوقع أن بناء صحة سوف تميل إلى أن تكون مصدر قلق أكبر في التجارب الرقمية من التجارب التناظرية.
وأخيرا، مراكز صحة الخارجية حول ما إذا كانت نتائج هذه التجربة أن يعمم على حالات أخرى. العودة إلى Schultz et al. (2007) ، يمكن للمرء أن يسأل، وهذا نفس المعلومات التي تقدم فكرة الناس عن استخدام الطاقة في العلاقة مع أقرانهم، وإشارة للقواعد قضائية (على سبيل المثال، وهي التعبيرات) استخدام الطاقة، تقليل إذا تم القيام به بطريقة مختلفة في وضع مختلف؟ وبالنسبة لمعظم مصممة تصميما جيدا وتجارب تشغيل جيدا، المخاوف بشأن صحة الخارجية هي أصعب لمعالجتها. في الماضي، كانت هذه المناقشات حول صحة الخارجية في كثير من الأحيان مجرد حفنة من الناس يجلسون في غرفة محاولة لتخيل ما كان سيحدث لو تم القيام به من إجراءات في طريقة مختلفة، أو في مكان مختلف، أو مع أشخاص مختلفين. لحسن الحظ، العصر الرقمي تمكن الباحثون أن نتجاوز هذه المضاربات خالية من البيانات وتقييم صحة الخارجية تجريبيا.
لأن النتائج من Schultz et al. (2007) كانت مثيرة جدا، شركة اسمها Opower شراكة مع المرافق في الولايات المتحدة لنشر العلاج على نطاق أوسع. وبناء على تصميم Schultz et al. (2007) ، Opower إنشاؤها مخصصة الرئيسية التقارير الطاقة التي لديها اثنين من وحدات رئيسية، واحدة تبين استهلاك الكهرباء للأسرة بالنسبة إلى جيرانها مع التعبيرات واحد تقديم نصائح لخفض استهلاك الطاقة (الشكل 4.6). ثم، في شراكة مع الباحثين وOpower ركض العشوائية التجارب التي تسيطر عليها لتقييم أثر التقارير الطاقة الرئيسية. على الرغم من أن العلاج في هذه التجارب كانت عادة تسليم جسديا عادة من خلال الحلزون الطراز القديم الإلكتروني تم قياس نتائج استخدام الأجهزة الرقمية في العالم المادي (على سبيل المثال، لقياس الطاقة). بدلا من جمع هذه المعلومات مع مساعدي البحوث زيارة كل منزل يدويا، والتجارب Opower كل ذلك في شراكة مع شركات الطاقة تمكين الباحثين للوصول إلى قراءات السلطة. وهكذا، تم تشغيل هذه التجارب الميدانية الرقمية جزئيا على نطاق واسع في التكلفة المتغيرة المنخفضة.
في أول مجموعة من التجارب التي تنطوي على 600،000 الأسر التي تخدمها 10 شركات المرافق العامة في جميع أنحاء الولايات المتحدة، Allcott (2011) وجد تقرير الطاقة المنزلية خفضت استهلاك الكهرباء بنسبة 1.7٪. وبعبارة أخرى، كانت النتائج من دراسة أكبر من ذلك بكثير، أكثر تنوعا جغرافيا مماثلة نوعيا للنتائج من Schultz et al. (2007) . ولكن، كان حجم التأثير أصغر: في Schultz et al. (2007) من الأسر في حالة معايير وصفية وinjective (واحد مع التعبيرات) خفض استهلاك الكهرباء بنسبة 5٪. السبب الدقيق لهذا الاختلاف هو معروف، ولكن Allcott (2011) وتكهن بأن تلقي التعبيرات بخط اليد كجزء من الدراسة التي ترعاها الجامعة قد يكون لها تأثير أكبر على السلوك من تلقي التعبيرات المطبوعة كجزء من تقرير إنتاجها بكميات كبيرة من شركة الكهرباء.
وعلاوة على ذلك، في بحث لاحق، Allcott (2015) ذكرت على 101 مزيد من التجارب التي تنطوي على مبلغ 8 ملايين الأسر. في هذه التجارب 101 القادمة اصلت تقرير الطاقة الرئيسية لقضية شعب لخفض استهلاك الكهرباء، ولكن كان من آثار أصغر. السبب الدقيق لهذا التراجع غير معروف، ولكن Allcott (2015) وتكهن بأن فعالية التقرير على ما يبدو تراجع مع مرور الوقت لأنه كان في الواقع يجري تطبيقه على أنواع مختلفة من المشاركين. وبشكل أكثر تحديدا، كانت المرافق العامة في أكثر مناطق بيئية أكثر عرضة اعتماد البرنامج في وقت سابق وكان عملائها أكثر استجابة للعلاج. كما اعتمدت المرافق مع العملاء البيئي أقل البرنامج، ظهرت فعاليته في الانخفاض. وهكذا، مثلما التوزيع العشوائي في التجارب يضمن أن مجموعة العلاج والسيطرة متشابهة، التوزيع العشوائي في مواقع البحوث يضمن أن التقديرات يمكن تعميمها من مجموعة واحدة من المشاركين إلى السكان أكثر عمومية (بذاكرتي إلى الفصل 3 حول أخذ العينات). إذا لم يتم أخذ عينات مواقع البحث بشكل عشوائي، ثم التعميم، وحتى من مصممة تماما وأجريت التجربة يمكن أن يكون مشكلة.
معا، هذه التجارب 111 10 في Allcott (2011) و 101 في Allcott (2015) -involved نحو 8.5 مليون أسرة من جميع أنحاء الولايات المتحدة. كانت تظهر على الدوام أن التقارير الرئيسية للطاقة تقليل معدل استهلاك الكهرباء، وهي النتيجة التي تدعم النتائج الأصلية من شولتز وزملاؤها من 300 منزل في ولاية كاليفورنيا. أبعد من مجرد تكرار هذه النتائج الأصلية، وتظهر التجارب المتابعة أيضا أن حجم التأثير يختلف حسب الموقع. هذه مجموعة من التجارب ويوضح أيضا اثنين من أكثر نقاط عامة حول التجارب الميدانية الرقمية جزئيا. أولا، سوف تكون قادرة على الباحثين تجريبيا معالجة الشواغل حول صحة الخارجية عندما تكلفة تشغيل التجارب منخفضة، ويمكن أن يحدث هذا إذا تم بالفعل قياس نتائج من قبل النظام دائما على البيانات. وبالتالي، فإنه يشير إلى أن البحث يجب أن يكون على نظرة شاملة لسلوكيات مثيرة للاهتمام والهامة الأخرى التي يجري بالفعل سجلت، ومن ثم تصميم التجارب على رأس هذه البنية التحتية القياس الحالية. ثانيا، هذه المجموعة من التجارب يذكرنا بأن التجارب الميدانية الرقمية ليست فقط على الانترنت. على نحو متزايد وأتوقع أنها لن تكون في كل مكان مع العديد من النتائج المقاسة بواسطة أجهزة الاستشعار في البيئة المبنية.
أربعة أنواع من-صحة الإحصائية صحة الاستنتاج، صحة الداخلية، بناء صحة، صحة، توفير خارجية المرجعية العقلية لمساعدة الباحثين على تقييم ما إذا كانت النتائج من تجربة معينة تدعم الاستنتاج أعم. بالمقارنة مع التجارب سن التناظرية، في تجارب العصر الرقمي يجب أن يكون من الأسهل لمعالجة صحة الخارجية تجريبيا، وينبغي أن يكون من الأسهل لضمان صحة الداخلية. من ناحية أخرى، فإن قضايا صحة بناء ربما يكون أكثر صعوبة في التجارب العصر الرقمي (على الرغم من أن هذا ليس هو الحال مع التجارب Opower).