اعتبار به چه مقدار از نتایج یک آزمایش حمایت از یک نتیجه گیری کلی تر اشاره دارد.
بدون آزمایش کامل است، و محققان واژگان گسترده توسعه یافته برای توصیف مشکلات امکان پذیر است. اعتبار اشاره به میزانی که نتایج حاصل از یک آزمایش خاص حمایت برخی از نتیجه گیری کلی تر. دانشمندان علوم اجتماعی پیدا کرده اند آن مفید به تقسیم اعتبار به چهار نوع اصلی است: اعتبار نتیجه گیری آماری، اعتبار داخلی، اعتبار سازه و اعتبار خارجی (Shadish, Cook, and Campbell 2001, Ch 2) . تسلط این مفاهیم به شما یک چک لیست بهداشت روانی برای نقد و بهبود طراحی و تجزیه و تحلیل یک آزمایش ارائه، و آن را به شما کمک خواهد با محققان دیگر ارتباط برقرار کنند.
مراکز اعتبار نتیجه گیری آماری اطراف که آیا تجزیه و تحلیل آماری از این آزمایش به درستی انجام شد. در زمینه Schultz et al. (2007) از جمله سوال ممکن است به اینکه آیا آنها ارزش P خود را به درستی محاسبه مرکز. تجزیه و تحلیل آماری فراتر از محدوده این کتاب است، اما من می توانم بگویم که اصول آماری مورد نیاز برای طراحی و تجزیه و تحلیل آزمایشات در عصر دیجیتال تغییر نکرده است. با این حال، محیط زیست داده های مختلف در آزمایش دیجیتال ایجاد فرصت های جدید آماری (به عنوان مثال، با استفاده از روش های یادگیری ماشین برای تخمین ناهمگونی از عوارض درمان (Imai and Ratkovic 2013) ) و چالش های محاسباتی جدید (به عنوان مثال، مسدود کردن در آزمایش عظیم (Higgins, Sävje, and Sekhon 2016) ).
مراکز اعتبار داخلی در اطراف که آیا روش های تجربی به درستی انجام شد. بازگشت به آزمایش از Schultz et al. (2007) ، سوال در مورد اعتبار داخلی می تواند در اطراف تصادفی تحویل درمان، و اندازه گیری نتایج مرکز،. به عنوان مثال، شما ممکن است نگران آن است که دستیاران پژوهشی بود برق را نمی خواند قابل اعتماد. در واقع، شولتز و همکارانش در مورد این مشکل نگران بودند و آنها یک نمونه از متر به عنوان خوانده شده به حال دو بار؛ خوشبختانه، نتایج اساسا یکسان بود. به طور کلی، شولتز و آزمایش همکاران نظر می رسد که اعتبار داخلی بالا، اما این همیشه صدق نمی کند؛ زمینه های پیچیده و آزمایش آنلاین اغلب به مشکلات در واقع ارائه درمان مناسب به افراد مناسب و سنجش نتایج برای همه اجرا شود. خوشبختانه، عصر دیجیتال می تواند به کاهش نگرانی ها در مورد اعتبار داخلی، به دلیل آن را می سازد آن را آسان تر به اطمینان حاصل شود که درمان تحویل داده شده است به عنوان کسانی که قرار است به آن را دریافت و برای اندازه گیری نتایج برای همه شرکت کنندگان طراحی شده است.
ساخت مراکز اعتبار سراسر مسابقه بین داده ها و سازه های نظری. همانطور که در فصل 2 بحث، سازه مفاهیم انتزاعی که دانشمندان علوم اجتماعی به دلیل در مورد. متاسفانه، این مفاهیم انتزاعی همیشه تعاریف و معیارهای روشن است. بازگشت به Schultz et al. (2007) ، این ادعا که هنجارهای اجتماعی می توانید مصرف برق را کاهش تاکیدی نیاز محققان برای طراحی یک درمان که دستکاری "هنجارهای اجتماعی تاکیدی" (به عنوان مثال، یک صورتک) و برای اندازه گیری "مصرف برق". در آزمایش های آنالوگ، بسیاری از محققان درمان خود طراحی شده و نتایج خود را اندازه گیری کرد. این روش تضمین میکند که، تا آنجا که ممکن است، آزمایش مطابقت با ساختارهای انتزاعی مورد مطالعه. در آزمایش های دیجیتال که در آن محققان همکاری با شرکت های و یا دولت برای ارائه درمان و استفاده از همیشه در سیستم های داده برای اندازه گیری نتایج، مسابقه بین آزمایش و سازه های نظری ممکن است کمتر تنگ است. بنابراین، من انتظار دارم که اعتبار سازه تمایل به یک نگرانی بزرگتر در آزمایش دیجیتال از آزمایش های آنالوگ.
در نهایت، اعتبار خارجی در مراکز سراسر اینکه آیا نتایج این آزمایش به موقعیت های دیگر تعمیم. بازگشت به Schultz et al. (2007) ، یک نفر می تواند بپرسید، این همان اطلاعات ایده ارائه به مردم در مورد استفاده از انرژی خود را در رابطه با همسالان خود و یک سیگنال از هنجارها احکام حقوقی (به عنوان مثال، یک صورتک) مصرف انرژی -Reduce اگر آن را در راه های مختلف در انجام شد یک محیط متفاوت؟ برای بسیاری خوبی طراحی شده و آزمایش به خوبی اجرا، نگرانی در مورد اعتبار خارجی سخت ترین برای رسیدگی به می باشد. در گذشته، این بحث در مورد اعتبار خارجی اغلب فقط یک دسته از مردم در یک اتاق نشسته تلاش برای تصور چه اتفاقی می افتاد اگر روش در راه های مختلف انجام شد، یا در یک مکان مختلف، و یا با افراد مختلف بود. خوشبختانه، عصر دیجیتال محققان را قادر می سازد به فراتر از این گمانه زنی ها رایگان داده حرکت و ارزیابی اعتبار خارجی تجربی.
از آنجا که نتایج حاصل از Schultz et al. (2007) بسیار هیجان انگیز بود، یک شرکت به نام Opower همکاری با آب و برق در ایالات متحده برای استقرار درمان طور گسترده تر. بر اساس طراحی Schultz et al. (2007) ، Opower سفارشی ایجاد خانه گزارشها انرژی که تا به حال دو ماژول های اصلی، یکی نشان دادن مصرف برق یک خانواده نسبت به همسایگان خود را با یک شکلک و ارائه راهنمایی برای کاهش مصرف انرژی (شکل 4.6). سپس، در همکاری با محققان، Opower آزمایش های کنترل شده تصادفی فرار به ارزیابی تاثیر از خانه گزارشها انرژی. حتی اگر درمان در این آزمایش معمولا از طریق حلزون قدیمی از مد افتاده تحویل داده شد از لحاظ جسمی که معمولا ایمیل نتیجه با استفاده از دستگاه های دیجیتال در جهان فیزیکی (به عنوان مثال، متر برق) اندازه گیری شد. نه دستی از جمع آوری این اطلاعات با دستیاران پژوهش از دیدن هر خانه، آزمایش Opower همه در همکاری با شرکت های برق را قادر می سازد محققان برای دسترسی به خوانش قدرت انجام شده است. بنابراین، این آزمایشات مزرعه تا حدی دیجیتال در یک مقیاس گسترده در هزینه های متغیر کم اجرا شد.
در اولین مجموعه از آزمایش های مربوط به 600000 خانوار خدمت توسط 10 شرکت ابزار در سراسر ایالات متحده، Allcott (2011) یافت صفحه اصلی گزارش انرژی مصرف برق 1.7 درصد کاهش داد. به عبارت دیگر، نتایج حاصل از بسیار بزرگتر، مطالعه بیشتر جغرافیایی متنوع کیفی شبیه به نتایج حاصل از بود Schultz et al. (2007) . اما، اندازه اثر کوچکتر بود: در Schultz et al. (2007) خانواده در شرایط هنجارهای توصیفی و تزریقی (با یک شکلک) مصرف برق خود را با 5٪ کاهش می یابد. دلیل اصلی این تفاوت ناشناخته است، اما Allcott (2011) بر این باورند که دریافت شکلک ها و دست نوشته های به عنوان بخشی از یک مطالعه با حمایت مالی یک دانشگاه ممکن است یک اثر بزرگتر بر رفتار از دریافت شکلک ها چاپ شده به عنوان بخشی از یک گزارش تولید انبوه از یک دارند شرکت برق.
علاوه بر این، در تحقیقات بعدی، Allcott (2015) در اضافی 101 آزمایش های مربوط به 8 اضافی میلیون خانوار گزارش شده است. در این آزمایش 101 بعدی صفحه اصلی گزارش انرژی ادامه داد: برای مردم را به کاهش مصرف برق خود را، اما اثرات حتی کوچکتر است. دلیل اصلی این کاهش مشخص نیست، اما Allcott (2015) بر این باورند که اثر از گزارش به نظر می رسد به کاهش است در طول زمان به دلیل آن در واقع در حال به انواع مختلف از شرکت کنندگان استفاده شد. بیشتر به طور خاص، آب و برق در مناطق محیط زیست بیشتر تر بیشتر است اتخاذ برنامه قبلی و مشتریان خود را بیشتر پاسخگو به درمان بودند. آب و برق با مشتریان زیست محیطی کمتر برنامه به تصویب رسید، اثر خود را به نظر می رسد به کاهش است. بنابراین، فقط به عنوان تصادفی در آزمایشات تضمین می کند که گروه درمان و شاهد مشابه هستند، تصادفی در سایت های تحقیقات تضمین می کند که تخمین ها را می توان از یک گروه از شرکت کنندگان به جمعیت کلی تر تعمیم (فکر می کنم به فصل 3 در مورد نمونه). اگر سایت های تحقیقات به طور تصادفی نمونه برداری نیست، پس تعمیم-حتی از یک کاملا طراحی شده و انجام آزمایش می تواند مشکل ساز باشد.
با هم، این 111 آزمایش-10 در Allcott (2011) و 101 در Allcott (2015) حدود 8.5 میلیون خانوار از سراسر ایالات متحده -involved. آنها به طور مداوم نشان می دهد که گزارش اصلی انرژی را کاهش دهد به طور متوسط مصرف برق، که در نتیجه یافته های اولیه از شولتز و همکارانش از 300 خانه در کالیفرنیا پشتیبانی می کند. فراتر از فقط تکرار این نتایج اصلی، پیگیری آزمایشات نشان می دهد که اندازه اثر توسط محل متفاوت است. این مجموعه ای از آزمایش های همچنین نشان می دهد دو نقطه کلی در مورد آزمایشات مزرعه تا حدی دیجیتال است. اول، محققان قادر به تجربی نگرانی آدرس مورد اعتبار خارجی زمانی که هزینه در حال اجرا آزمایش کم است خواهد بود، و این می تواند رخ دهد در صورتی که نتیجه در حال حاضر توسط یک سیستم همیشه در داده های اندازه گیری. بنابراین، آن را نشان می دهد که تحقیقات باید در نگاه کردن برای دیگر رفتارهای جالب و مهم که در حال حاضر در حال ضبط باشد، و پس از آن در طراحی آزمایشات در بالای این زیرساخت اندازه گیری موجود است. دوم، این مجموعه ای از آزمایش ما یادآوری میکند که آزمایشات مزرعه دیجیتال فقط آنلاین نیست. به طور فزاینده من انتظار دارم که آنها را در همه جا با بسیاری از نتایج توسط سنسور در محیط های ساخته شده اندازه گیری می شود.
چهار نوع از اعتبار نتیجه گیری اعتبار آماری، اعتبار داخلی، اعتبار سازه، اعتبار ارائه خارجی یک چک لیست روانی برای کمک به محققان ارزیابی اینکه آیا نتایج حاصل از یک آزمایش خاص حمایت یک نتیجه گیری کلی تر. در مقایسه با آزمایش عصر آنالوگ، در آزمایش های عصر دیجیتال باید آن را آسان تر به آدرس اعتبار خارجی تجربی و باید آن را آسان تر برای اطمینان از اعتبار داخلی. از سوی دیگر، مسائل مربوط به اعتبار سازه احتمالا در آزمایشهای عصر دیجیتال بیشتر به چالش کشیدن (هر چند که در مورد آزمایش Opower نیست).