Etibarlılıq bir sınaq nəticələri daha ümumi nəticəyə dəstək nə qədər aiddir.
Heç bir təcrübə mükəmməl deyil və tədqiqatçılar mümkün problemləri təsvir etmək üçün geniş bir lüğət hazırlamışlar. Qüvvədəlik , müəyyən bir təcrübənin nəticələrinin bir qədər daha ümumi nəticə verməsinin dərəcəsini əks etdirir. Sosial elmlər dörd əsas növə bölünməyi faydalı hesab edirlər: statistik nəticənin etibarlılığı, daxili etibarlılığı, etibarlılığı və xarici etibarlılığı (Shadish, Cook, and Campbell 2001, chap. 2) . Bu anlayışları mənimsəmək, bir sınaqın dizaynı və təhlilini tənqid etmək və təkmilləşdirmək üçün zehni bir kontrol siyahısı ilə təmin edəcək və digər tədqiqatçılarla ünsiyyətdə kömək edəcəkdir.
İstintaqın statistik təhlili düzgün aparıldığına dair statistika nəticələrinin etibarlılıq mərkəzləri. Schultz et al. (2007) , belə bir sual onların \(p\) -valularını düzgün hesablamağa əsas ola bilər. Ekspertlərin dizaynını və təhlilini aparmaq üçün lazım olan statistik prinsiplər bu kitabın əhatəsindən kənarda, lakin rəqəmsal əsrdə əsaslı şəkildə dəyişməmişdir. Bununla belə, rəqəmsal eksperimentlərdə məlumat mühiti müalicə effektlərinin heterojenliyini qiymətləndirmək üçün maşın öyrənmə metodlarından istifadə kimi yeni imkanlar yaradıb (Imai and Ratkovic 2013) .
Təcrübəli prosedurların düzgün yerinə yetirildiyinə dair daxili etibarlılıq mərkəzləri. Schultz et al. (2007) , daxili etibarlılıqla bağlı suallar randomizasiya, müalicənin çatdırılması və nəticələrin ölçülməsi ətrafında mərkəzləşə bilər. Məsələn, tədqiqat köməkçiləri elektrik sayğaclarını etibarlı şəkildə oxumadığından narahat ola bilərsiniz. Əslində, Schultz və həmkarları bu problemdən narahat idi və iki dəfə oxunan sayğac nümunəsi vardı; Xoşbəxtlikdən, nəticələr mahiyyətcə eyni idi. Ümumiyyətlə, Schultz və həmkarlarının təcrübəsi yüksək daxili etibarlılığa malik görünür, lakin bu həmişə belə deyil: mürəkkəb sahə və onlayn təcrübələr tez-tez düzgün insanlara doğru müalicəni təmin edən və hər kəs üçün nəticəni ölçən problemlərə çevrilir. Xoşbəxtlikdən, rəqəmsal yaş, daxili etibarlılığa dair narahatlıqları azaltmağa kömək edə bilər, çünki müalicənin onu qəbul etməsi və bütün iştirakçıların nəticələrini ölçmək üçün asanlaşdırılmasını təmin etmək daha asandır.
Məlumat və teorik quruluşlar arasında matç ətrafında etibarlılıq mərkəzləri qurulur. Fəsil 2-də müzakirə edildiyi kimi, konstruksiyalar sosial elm adamlarının düşündüyü abstrakt konsepsiyalardır. Təəssüf ki, bu mücərrəd konsepsiyalar həmişə aydın anlayışlar və ölçmələr vermir. Schultz et al. (2007) , mühakimə olunan sosial normaların elektrik istehlakının azaldılması iddiası tədqiqatçıların "mühakiməli sosial normaları" (məsələn, bir ifadəni) manipulyasiya edəcək və "elektrik enerjisindən istifadə" ölçmək üçün bir müalicə hazırlamağı tələb edir. Analoq təcrübələrində bir çox tədqiqatçı öz müalicələrini hazırlamış və öz nəticələrini ölçmüşdür. Bu yanaşma mümkün qədər mümkündür ki, eksperimentlər mücərrəd strukturların öyrənilməsinə uyğun gəlir. Tədqiqatçılar şirkətlərin və ya hökumətlərin müalicələri təmin etmək üçün istifadə etdiyi və nəticələrin ölçülməsi üçün həmişə məlumat sistemləri istifadə edən rəqəmsal təcrübələrində, sınaq və teorik quruluşlar arasında oynanış daha az sıx ola bilər. Beləliklə, quruluşun etibarlılığının rəqəmsal eksperimentlərdə analoq təcrübələrə nisbətən daha böyük bir narahatlıq olacağını düşünürəm.
Nəhayət, bu təcrübənin nəticələrinin digər hallara ümumi ola biləcəyini ətrafında xarici etibarlılıq mərkəzləri. Schultz et al. (2007) , bir nəfər eyni fikirdə olub-olmadığını soruşa bilir - insanlara onların yaşıdları ilə münasibətlərində enerji istifadəsi barədə məlumat vermək və müdaxilə normalarına (məsələn, bir ifadəyə) səy göstərmək - başqa bir şəkildə həyata keçirildiyi təqdirdə enerji istifadəsini azalda bilər fərqli bir məkanda. Ən yaxşı dizayn edilmiş və yaxşı təcrübələr üçün, xarici etibarlılıq ilə bağlı narahatlıqların həlli çətindir. Keçmişdə xarici etibarlılıq ilə bağlı bu müzakirələr tez-tez proseduralar fərqli bir şəkildə və ya fərqli bir yerdə və ya müxtəlif iştirakçılar ilə edildikdə nə baş verəcəyini təsəvvür etməyə çalışan bir otaqda oturan bir qrup insandan daha çox bir şeydə iştirak etməmişdir . Xoşbəxtlikdən, rəqəmsal yaş tədqiqatçıların bu məlumatsız spekulyasiyalardan kənara çıxmasına və xarici etibarlılığını empirik şəkildə qiymətləndirməyə imkan verir.
Çünki Schultz et al. (2007) çox maraqlı idi, Opower adlı şirkət, müalicəni daha geniş şəkildə yerləşdirmək üçün Birləşmiş Ştatlarda kommunal xidmətlərlə əməkdaşlıq etdi. Schultz et al. (2007) dizaynına əsasən Schultz et al. (2007) , Opower iki ana modul olan xüsusi Enerji Hesabatları yaratmışdır: biri elektrik enerjisindən istifadəni azaltmaq üçün bir ifadəsi olan qonşularına nisbətən ev təsərrüfatının elektrik enerjisini istifadəsini göstərir (şəkil 4.6). Daha sonra, tədqiqatçılar ilə birgə, Opower bu Əsas Enerji Hesabatlarının təsirini qiymətləndirmək üçün təsadüfi nəzarətli təcrübələrə başladı. Bu təcrübələrdə edilən müalicələr adətən fiziki olaraq verilmiş olsa da - adətən köhnə salyangoz poçtu vasitəsilə - nəticə fiziki dünyada rəqəmli qurğular (məsələn, elektrik sayğacları) ilə ölçüldü. Bundan əlavə, hər bir evdə araşdırma köməkçiləri ilə bu məlumatı əllə yığmaqdan başqa, Opower təcrübələri tədqiqatçıların güc oxunmalarına çıxmasına imkan verən enerji şirkətləri ilə birgə həyata keçirilmişdir. Beləliklə, bu qısamüddətli rəqəmsal sahə təcrübələri aşağı dəyişkən xərclərlə kütləvi miqyasda həyata keçirilmişdir.
10 fərqli saytdan 600.000 ev təsərrüfatını əhatə edən ilk təcrübədə Allcott (2011) Home Energy Report elektrik istehlakını Allcott (2011) tapdı. Başqa sözlə, daha böyük, daha coğrafi olaraq müxtəlif tədqiqatların nəticələrindən Schultz et al. (2007) . Bundan başqa, 101 müxtəlif saytdan səkkiz milyon əlavə ev təsərrüfatını əhatə edən sonrakı araşdırmalarda, Allcott (2015) yenə Ev Enerji Hesabatının elektrik istehlakını ardıcıl şəkildə Allcott (2015) tapdı. Bu daha böyük bir təcrübə qrupu, heç bir sınaqda görülə bilməyəcək maraqlı bir yeni nişanı ortaya qoydu: sonrakı eksperimentlərdə təsirin ölçüsü azaldı (şəkil 4.7). Allcott (2015) bu azalmanın baş verdiyini iddia etdi, çünki vaxt keçdikcə müalicə müxtəlif növ iştirakçılara tətbiq olundu. Daha konkret olaraq, ekoloji cəhətdən daha çox müştərilərə malik olan kommunal xidmətlər daha əvvəl proqramı qəbul edir və müştəriləri müalicəyə daha çox cavab verdilər. Ekoloji cəhətdən daha az müştərilərə malik olan kommunal xidmətlər proqramı qəbul etdiyi üçün onun effektivliyi azalmışdır. Beləliklə, təcrübələrdəki randomizasiya müalicə və nəzarət qrupunun oxşar olduğunu təmin etsə də, tədqiqat sahələrində təsadüfən qiymətləndirmələrin bir qrup iştirakçıdan daha ümumi əhaliyə yayılmasını təmin edir (nümunələşmə haqqında 3-cü fəslinə nəzər salın). Tədqiqat sahələri təsadüfi olaraq nümunə alınmazsa, hətta tamamilə tərtib edilmiş və aparılan təcrübədən ümumiləşdirmə problemli ola bilər.
Birlikdə Allcott (2011) bu 111 sınaq və Allcott (2011) 101 Allcott (2015) - bütün Amerika Birləşmiş Ştatlarında təxminən 8,5 milyon evlənmişdir. Onlar Home Energy Reports, orta hesabla elektrik istehlakının azaldığını göstərirlər. Bu nəticə, Schultz və Kaliforniyadakı 300 evdən gələn iş yoldaşının əsl tapıntılarını dəstəkləyən bir nəticədir. Yalnız bu orijinal nəticələrin təkrarlanmasından başqa, təqib təcrübələri də təsirin ölçüsünün yerə görə dəyişdiyini göstərir. Bu eksperimentlər qrupu, qismən rəqəmsal sahə təcrübələri haqqında daha iki ümumi nöqteyi göstərir. Birincisi, tədqiqatçılar təcrübənin qüvvədə olma ehtimalı az olduqda və nəticənin artıq bir məlumat sistemi ilə ölçülməsi halında ortaya çıxa biləcəyi təqdirdə xarici etibarlılıq ilə əlaqədar narahatlıqları empirik şəkildə həll edə biləcəklər. Buna görə də, tədqiqatçılar artıq qeyd olunan digər maraqlı və əhəmiyyətli davranışlara baxmağı və bu mövcud ölçmə infrastrukturunun üstündə eksperimentlər hazırlamağını təklif edir. İkincisi, bu eksperimentlər kompleksi rəqəmsal sahə təcrübələrinin yalnız onlayn deyil olduğunu xatırladır; getdikcə daha çox qurulmuş mühitdə sensorlar tərəfindən ölçülən çox nəticələrlə hər yerdə olacaqlarını gözləyirik.
Dörd növ etibarlılıq-statistik nəticənin etibarlılığı, daxili etibarlılığı, quruluş etibarlılığı və xarici etibarlılığı - tədqiqatçıların müəyyən bir sınaqdan əldə edilən nəticələrin daha ümumi nəticəyə malik olub-olmadığını qiymətləndirmək üçün psixi bir yoxlama siyahısı verir. Rəqəmsal yaş təcrübələrində analoq yaşlı təcrübələrlə müqayisədə, xarici etibarlılığı empirik şəkildə həll etmək daha asan olmalıdır və daxili etibarlılığı təmin etmək daha asan olmalıdır. Digər tərəfdən, rəqəmsal yaş təcrübələrində, xüsusilə də rəqəmsal sahə təcrübələrində, şirkətlərlə əməkdaşlıqları nəzərdə tutan quruluşun etibarlılığı məsələləri daha çətin olacaqdır.