Hesab edirəm ki, eksperimentləri başa düşmək üçün ən yaxşı yol potensial nəticələr çərçivəsidir (2-ci fəsildə riyazi qeydlərdə müzakirə etdiyim). Potensial nəticələr çərçivəsi 3-cü fəsildə təsvir etdiyim dizayn-əsaslı nümunələrdən olan fikirlərə (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Bu əlavə bu əlaqəni vurğulamaq üçün yazılmışdır. Bu diqqət bir az qeyri-ənənəvi deyil, amma nümunə və təcrübələr arasındakı əlaqənin faydalı olduğunu düşünürəm: bu, nümunələşmə ilə bağlı bir şey bilsəniz, təcrübə və əksinə bir şey bilirsiniz. Bu qeydlərdə göstərəcəyəm kimi, potensial nəticələr çərçivəsində təsadüfi nəzarət edilən təcrübələrin qüvvəsini təsvir edir və nəticədə hətta mükəmməl yerinə yetirilmiş eksperimentlər ilə edilə bilən məhdudiyyətləri göstərir.
Bu əlavədə, bu qeydləri daha müstəqil etmək üçün 2-ci fəsildə riyazi qeydlərdən bəzi materialları təkrarlayaraq potensial nəticələr çərçivəsini təsvir edəcəyəm. Sonra mən optimal yerləşdirmə və fərq-fərqlər qiymətləndiriciləri müzakirə, o cümlədən orta müalicə təsiri təxminləri haqqında bəzi faydalı nəticələr təsvir edəcəyik. Bu əlavə Gerber and Green (2012) çox çəkir.
Potensial nəticələr çərçivəsi
Potensial nəticələr çərçivəsini təsvir etmək üçün, Restivo və van de Rijtin Vikipediyaya gələcək qatqılara dair barnstarın alınmasının təsirini qiymətləndirmək üçün eksperimentinə qayıdaq. Potensial nəticələr çərçivəsində üç əsas ünsür var: vahidlər , müalicə və potensial nəticələr . Restivo və van de Rijt iddiasında vahidlər redaktorlara layiq görülmüşdür - bu, hələ də bir barnstarı almadılar. Bu redaktorları \(i = 1 \ldots N\) endeksleyebiliriz. Onların təcrübə müalicə "heç barnstar" "barnstar" və ya idi və mən yazmaq lazımdır \(W_i = 1\) şəxs əgər \(i\) müalicə vəziyyətdədir və \(W_i = 0\) başqa. Potensial nəticələrin çərçivəsinin üçüncü elementi ən vacibdir: potensial nəticələr . Bunlar bir qədər daha konseptual çətindir, çünki "potensial" nəticələr - baş verə biləcək şeylərdir. Hər bir Vikipediya redaktoru üçün, onun müalicə vəziyyətində ( \(Y_i(1)\) ) və onun nəzarət vəziyyətində edəcəyi ( \(Y_i(0)\) ).
Qeyd edək ki, bu seçki vahidi, müalicə və nəticələr bu sınaqdan nə öyrənilə biləcəyini müəyyənləşdirir. Məsələn, heç bir əlavə fərziyyə olmadan, Restivo və van de Rijt Barnstarsın bütün Vikipediya redaktorlarına və ya redaktə keyfiyyəti kimi nəticələrə dair heç bir şey deyə bilmər. Ümumiyyətlə, vahidlərin, müalicələrin və nəticələrin seçilməsi işin məqsədlərinə əsaslanmalıdır.
Cədvəl 4.5-də göstərilən bu potensial nəticələr nəzərə alınmaqla, müalicənin şəxsin \(i\)
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Mənə görə, bu tənlik nəyə əsaslanan təsirin müəyyənləşdirilməsinin ən açıq yoludur və olduqca sadədir, baxmayaraq ki, bu çərçivə çox əhəmiyyətli və maraqlı yollarla ümumiləşdirilə bilər (Imbens and Rubin 2015) .
Şəxs | Müalicə vəziyyətində düzəlişlər | Nəzarət şəraitində düzəlişlər | Müalicə təsiri |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
deməkdir | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Bununla belə, biz nizamlılığı müəyyən edərsə, bir problemlə qarşılaşırıq. Demək olar ki, bütün hallarda, həm potensial nəticələrə riayət etməyəcəyik. Yəni, xüsusi bir Vikipediya redaktoru ya bir barnstar aldı və ya olmadı. Buna görə də, potensial nəticələrdən birinə - \(Y_i(1)\) və ya \(Y_i(0)\) - həm də ikisi deyil. Hər iki potensial nəticəni müşahidə etmək mümkünsüzdür, Holland (1986) onu Nəticə çıxarılmasının əsas problemi adlandırdığı belə böyük bir problemdir.
Xoşbəxtlikdən, tədqiqat apararkən, biz yalnız bir insana sahibik, bir çox insana sahibik və bu, Causal Girişinin əsas problemi ətrafında bir yol təklif edir. Fərdi səviyyəli müalicə təsirini qiymətləndirməyə çalışmaq əvəzinə, orta müalicə təsirini qiymətləndirə bilərik:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Bu hələ göz qabağındakı \(\tau_i\) baxımından ifadə edilir, lakin bəzi cəbr ilə ( Gerber and Green (2012) 2.8)
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Equation 4.3 göstərir ki, biz (müalicə altına əhalinin orta nəticəsini qiymətləndirmək olar əgər \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) və nəzarəti altında əhalinin orta nəticəsi ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), sonra hər hansı bir şəxs üçün müalicə effektini qiymətləndirmədən, orta müalicə effektini qiymətləndirə bilərik.
İndi etdiyimiz təsəvvürləri müəyyən etdik ki, biz qiymətləndirməyə çalışdığımız şey - məlumatları necə qiymətləndirəcəyimizə dönəcəyəm. Mən bu qiymətləndirmə problemini nümunə məsələsi kimi düşünmək istərdim (3-cü fəsildə riyazi qeydlərə geri nəzər salın). Təsəvvür edin ki, biz təsadüfi olaraq müalicə vəziyyətində müşahidə etmək üçün bəzi insanları seçə bilərik və təsadüfi olaraq bəzi hallarda nəzarət şəraitində müşahidə etmək üçün seçirik, sonra hər bir vəziyyətdə orta nəticəni qiymətləndirə bilərik:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
burada \(N_t\) və \(N_c\) müalicə və nəzarət şəraitində olan insanların \(N_c\) . Tənzimləmə 4.4 fərqli bir vasitədir. Nümunə dizaynı səbəbindən bilirik ki, birinci müddət müalicə altında olan orta nəticəyə görə qərəzsiz bir qiymətləndiricidir və ikinci müddət nəzarət altında olan qərəzsiz bir qiymətləndiricidir.
Randomizasiyanın mümkünlüyünü düşünmək üçün başqa bir üsul, müalicə və nəzarət qrupları arasındakı müqayisənin ədalətli olmasını təmin edir, çünki təsadüfən iki qrupun bir-birinə bənzədiyini təmin edir. Bu bənzərlik biz ölçdüyümüz şeyləri (sınaqdan 30 gün əvvəl düzəlişlərin sayını) və ölçmədiklərimizi (cinsi deyirlər) təşkil edir. Həm müşahidə olunan , həm də gözləməyən amillər üzərində balans təmin etmək qabiliyyəti vacibdir. Gözlənilməyən amillər üzərində avtomatik balansın gücünü görmək üçün gəlin gələcək araşdırmaların kişilərin qadınlara nisbətən mükafatlara daha çox cavab verdiyini təsəvvür edək. Bu, Restivo və van de Rijtin sınaqlarının nəticələrini ləğv edə bilərmi? Xeyr. Randomizasiya edərək, bütün gözləməyənlərin gözləməsində balanslı olacağını təmin etdi. Bilinməyənə qarşı bu qorunma çox güclüdür və eksperimentlər fəsil 2-də təsvir edilən qeyri-eksperimental üsullardan fərqlənən mühüm bir üsuldur.
Bütün əhali üçün müalicə effektini təyin etməklə yanaşı, insanların alt hissəsi üçün müalicə təsiri də müəyyən edilə bilər. Bu adətən şərti ortalama müalicə təsiri (CATE) adlanır. Məsələn, Restivo və van de Rijt tərəfindən araşdırma edək ki, \(X_i\) , redaktorun sınaqdan əvvəl 90 gün əvvəl düzəlişlərin median sayının üstündə və ya aşağıda olub olmadığını təsəvvür edək. Bu işıq və ağır redaktorları üçün müalicə effektini ayrıca hesablaya bilərik.
Potensial nəticələr çərçivəsi nedensel imtina və təcrübə barədə düşünmək üçün güclü bir üsuldur. Ancaq nəzərə alınması lazım olan iki əlavə çətinlik var. Bu iki mürəkkəblik tez-tez Stabil Vahid Müalicə Qiymət Assumption (SUTVA) termini ilə birgə birləşdirilir. SUTVA-nın birinci hissəsi, şəxsin \(i\) nəticəsi üçün vacib olan yeganə şeyin həmin şəxsin müalicə və ya yoxlama vəziyyətində olub-olmamasından ibarətdir. Başqa sözlə, adamın \(i\) digər insanlara verilən müalicə ilə təsirlənməməsi fərz edilir. Bəzən bəzən "heç bir müdaxilə" və ya "spillovers" deyilmir və aşağıdakı kimi yazıla bilər:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
burada \(\mathbf{W_{-i}}\) şəxsin \(i\) xaricində hər kəs üçün müalicə vəziyyətlərinin bir vektorudur. Bunun pozulmasının bir yolu, bir insanın müalicəsi başqa bir insana ya müsbət və ya mənfi bir şəkildə dökülür. Restivo və van Rijtin sınaqlarına dönərək, iki dostu \(i\) və \(j\) təsəvvür edin və həmin şəxs \(i\) bir barnstar alır və \(j\) yoxdur. Əgər \(i\) barnstar qəbul səbəb \(j\) , sonra SUTVA pozulub (rəqabət hissi həyata) daha redaktə etmək və ya (ümidsizlik hissi həyata) az redaktə etmək. Müalicənin təsiri müalicəni alan digər insanların sayından asılı olursa, bu da pozulmalıdır. Məsələn, Restivo və van de Rijt 100 əvəzinə 1,000 və ya 10,000 barnstars verdikdə, bu bir barnstarın təsirini təsir edə bilərdi.
SUTVA-ya daxil edilən ikinci məsələ, tədqiqatçının verdiyi yeganə müalicənin olmasıdır; bu ehtimal bəzən heç bir gizli müalicə və ya məhdudlaşdırma deyilmir . Məsələn, Restivo və van de Rijtdə, araşdırmaçılar bir redaktorun məşhur redaktor səhifələrində nümayiş etdirilməsinə və populyar redaktorların səhifəsində yerləşdirilməsinə səbəb olduqları bir barnstar verərək, barnstar- bu da redaktə davranışının dəyişməsinə gətirib çıxardı. Bu doğruysa, barnstarın təsiri məşhur redaktorların səhifəsində olmağından təsirlənə bilməz. Əlbəttə ki, elmi cəhətdən bu cəlbedici və ya cəlbedici hesab edilməməlidirmi? Yəni, bir barnstarın alınmasının təsiri barnstarın tetiklediği bütün sonrakı müalicələri içərisində bir tədqiqatçı təsəvvür edə bilərsiniz. Yoxsa bir araşdırma barnstarsın bütün bunlardan təsirini təcrid etmək istədiyi bir vəziyyət təsəvvür edə bilərsiniz. Bu barədə düşünmək üçün bir yol Gerber and Green (2012) (s. 41) "simmetriyada parçalanma" deyə səbəb olan bir şeyin olmadığını soruşmaqdır? Başqa sözlə, müalicə və nəzarət şəraitində insanların müxtəlif müalicə olunmasına səbəb olan müalicədən başqa bir şey varmı? Simmetriya pozulmasına dair narahatlıqlar, tibbi sınaqlarda nəzarət qrupunda olan xəstələrin bir plasebo həb almasına gətirib çıxarır. Beləliklə, tədqiqatçılar əmin ola bilərlər ki, iki şərait arasındakı fərq yalnız həbin alınması təcrübəsi deyil, faktiki dərmandır.
SUTVA haqqında daha ətraflı məlumat üçün, Gerber and Green (2012) 2.7, Morgan and Winship (2014) Bölüm 2 Morgan and Winship (2014) Bölüm 2, Morgan and Winship (2014) və Imbens and Rubin (2015) .
Həssaslıq
Əvvəlki bölümdə, orta müalicə təsiri necə qiymətləndirəcəyini təsvir etdim. Bu bölmədə mən bu qiymətləndirmələrin dəyişkənliyi barədə bəzi fikirlər verəcəyəm.
Əgər iki nümunə vasitəsi arasındakı fərqi qiymətləndirərkən orta müalicə effektinin qiymətləndirilməsi barədə düşünsəniz, orta müalicə effektinin standart səhv olduğunu göstərmək mümkündür:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
müalicəyə təyin olunan \(m\) insanlar və \(Nm\) nəzarət etmək üçün (bax Gerber and Green (2012) , eq 3.4). Beləliklə, müalicəyə nə qədər adamın təyin ediləcəyi və neçə adamın nəzarətə verilməsi barədə düşünərkən, \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , sonra müalicə və nəzarət xərcləri eyni olduğu müddətdə \(m \approx N / 2\) istersiniz. Tənzimləmə 4.6 Bond və iş yoldaşlarının (2012) səslərin ictimai məlumatların səsvermədə təsiri haqqında təsəvvürünün (şəkil 4.18) statistika cəhətdən effektiv olmadığını aydınlaşdırır. Təbii vəziyyətdə iştirakçıların 98% -i olduğunu xatırlayın. Bu, nəzarət vəziyyətindəki orta davranışın mümkün olduğu qədər dəqiq qiymətləndirilmədiyini və bununla da müalicə və nəzarət şəraitinin təxmin edilən fərqinin mümkün olduğu qədər dəqiq qiymətləndirilməməsini nəzərdə tuturdu. List, Sadoff, and Wagner (2011) şərtləri arasında fərqləri List, Sadoff, and Wagner (2011) şəraitə List, Sadoff, and Wagner (2011) optimal yerləşdirilməsi haqqında daha ətraflı məlumat üçün, List, Sadoff, and Wagner (2011) -a baxın.
Nəhayət, əsas mətndə mən adətən qarışıq bir dizaynda istifadə olunan fərqlər arasındakı fərqi qiymətləndirmənin, fərziyyə arasındakı fərziyyələrdən daha kiçik fərqliliyinə səbəb ola biləcəyini təsvir etdim, dizayn. Əgər \(X_i\) müalicədən əvvəl nəticənin dəyəri varsa, fərqi fərqlilik anlayışı ilə qiymətləndirməyə çalışdığımız miqdar:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Bu miqdarda standart səhv (bax Gerber and Green (2012) , eq 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Eq. 4.6 və eq. 4.8 fərqi fərqlilik anlayışının daha kiçik bir standart səhv olacağını göstərir ( Gerber and Green (2012) , s. 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
\(X_i\) \(Y_i(1)\) və \(Y_i(0)\) çox proqnozlaşdırıldığı zaman fərqli fərqlərdən daha fərqli bir yanaşma əldə edə bilərsiniz. birdir. Restivo və van de Rijtin təcrübəsi baxımından bunu düşünmənin bir yolu, insanların redaktə etdiyi məbləğdə bir çox təbii dəyişikliyin olmasıdır ki, bu da müalicə və nəzarət şəraitini çətinləşdirir: bir qohumu tapmaq çətindir səs-küylü nəticə məlumatlarında kiçik təsirə malikdir. Ancaq təbii olaraq meydana gələn dəyişkənliyi fərqləndirirsinizsə, daha az dəyişkənlik var və bu, kiçik bir təsir təsbitini asanlaşdırır.
Frison and Pocock (1992) baxın, Frison and Pocock (1992) fərqlər, fərqi fərqlər və ANCOVA-əsaslı yanaşmalar daha çox ümumi vəziyyətdə müqayisə olunsun, burada bir çox ölçmə pre-müalicə və sonradan müalicə olunmalıdır. Xüsusilə, onlar ANCOVA-a qətiliklə məsləhət görürlər. Əlavə olaraq, McKenzie (2012) sonrakı müalicədən sonrakı tədbirlərin əhəmiyyətini müzakirə etmək üçün baxın.