Deneyleri anlamanın en iyi yolunun potansiyel çıktılar çerçevesi olduğunu düşünüyorum (bölüm 2'deki matematik notlarında tartıştım). Potansiyel çıktılar çerçevesi, bölüm 3'te anlattığım tasarım tabanlı örneklemeden fikirlerle yakın ilişki içerisindedir (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Bu ek, bu bağlantıyı vurgulayacak şekilde yazılmıştır. Bu vurgu biraz geleneksel değil, ama örnekleme ve deneyler arasındaki bağlantının faydalı olduğunu düşünüyorum: bu, örnekleme hakkında bir şey biliyorsanız, deneyler hakkında bir şey biliyorsunuz demektir. Bu notlarda göstereceğim gibi, potansiyel sonuç çerçevesi, nedensel etkilerin tahmin edilmesi için randomize kontrollü deneylerin gücünü ortaya koymakta ve mükemmel icra edilen deneylerle bile ne yapılabileceğini sınırlamaktadır.
Bu ekte, bu notların daha fazla kendi kendine yeten hale getirilmesi için, bölüm 2'deki matematiksel notlardan bazı materyalleri çoğaltarak potansiyel sonuç çerçevesini açıklayacağım. Daha sonra, optimal tahsisi ve farklılık farkı tahmin edicileri içeren bir tartışma da dahil olmak üzere, ortalama tedavi etkilerinin tahminlerinin kesinliği hakkında bazı yararlı sonuçları anlatacağım. Bu ek, büyük ölçüde Gerber and Green (2012) üzerine çekiyor.
Potansiyel çıktılar çerçevesi
Potansiyel çıktılar çerçevesini göstermek için, Restivo ve van de Rijt'in deneyine, Wikipedia'ya gelecek katkılar için bir barnstar almanın etkisini tahmin etmeye dönelim. Potansiyel çıktılar çerçevesinin üç ana unsuru vardır: birimler , tedaviler ve potansiyel sonuçlar . Restivo ve van de Rijt davasında, birimler , henüz bir barnstar almayan editörleri (katkıda bulunanların en üst% 1'inde olanlar) hak ediyordu. Bu editörleri \(i = 1 \ldots N\) indeksleyebiliriz. Onların deneyde tedavileri “hiçbir Barnstar” “Barnstar” veya vardı ve ben yazacağım \(W_i = 1\) kişi eğer \(i\) tedavi durumda ve \(W_i = 0\) aksi. Potansiyel sonuç çerçevesinin üçüncü unsuru en önemli olanıdır: potansiyel sonuçlar . Bunlar biraz daha kavramsal olarak zordur çünkü “potansiyel” sonuçları içerirler - olabilecek şeyler. Her bir Vikipedi editörü için, tedavi şartlarında ( \(Y_i(1)\) ) yapacağı düzenleme sayısını ve kontrol durumunda yapacağı sayıyı tahmin edebilirsiniz ( \(Y_i(0)\) ).
Bu birimlerin, tedavilerin ve sonuçların seçiminin, bu denemeden neyin öğrenilebileceğini tanımladığını unutmayın. Örneğin, herhangi bir ek varsayım olmaksızın Restivo ve van de Rijt, tüm Wikipedia editörlerinde veya düzenleme kalitesi gibi sonuçlarda barnstars'ın etkileri hakkında bir şey söyleyemez. Genel olarak, birim, tedavi ve sonuçların seçimi çalışmanın amaçlarına dayanmalıdır.
Tablo 4.5'de özetlenen bu potansiyel sonuçlar göz önünde bulundurulduğunda, kişinin \(i\) olarak muamelenin nedensel etkisini tanımlayabiliriz.
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Bana göre, bu denklem nedensel bir etki tanımlamanın en net yoludur ve son derece basit olmasına rağmen, bu çerçeve birçok önemli ve ilginç yolla genellenebilir hale gelmektedir (Imbens and Rubin 2015) .
Kişi | Tedavi durumunda düzenler | Kontrol koşulunda düzenler | Tedavi etkisi |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N- | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
anlamına gelmek | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Ancak nedensellik bu şekilde tanımlanırsa, bir sorunla karşılaşırız. Hemen her durumda, hem potansiyel sonuçları gözlemlemeyiz. Yani, belirli bir Wikipedia editörü ya bir barnstar aldı ya da değil. Bu nedenle, potansiyel sonuçlardan birini gözlemliyoruz - \(Y_i(1)\) veya \(Y_i(0)\) - her ikisini de değil. Hem potansiyel sonuçların gözlemlenememesi, Holland (1986) Nedensel Çıkarımın Temel Sorunu olarak adlandırdığı büyük bir sorundur.
Neyse ki, araştırma yaparken, sadece bir insanımız yok, birçok insanımız var ve bu, Nedensel Çıkarımın Temel Sorunu etrafında bir yol sunuyor. Bireysel düzeyde tedavi etkisini tahmin etmeye çalışmak yerine, ortalama tedavi etkisini tahmin edebiliriz:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Bu hala gözlemlenemeyen \(\tau_i\) cinsinden ifade edilir, ancak bazı cebir ( Gerber and Green (2012) \(\tau_i\) 2.8)
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Denklem 4.3, tedavi altındaki popülasyonun ortalama sonucunu tahmin edebiliyorsak ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) ve popülasyonun ortalama sonucunun kontrol altında olduğunu gösterir ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), o zaman belirli bir kişinin tedavi etkisini tahmin etmeden bile, ortalama tedavi etkisini tahmin edebiliriz.
Şimdi tahminimizi - tahmin etmeye çalıştığımız şeyi - tanımladım, veriyi nasıl tahmin edebileceğimize döneceğim. Bu tahmin sorununu bir örnekleme problemi olarak düşünmeyi seviyorum (bölüm 3'teki matematik notlarına geri dönün). Rastgele tedavi koşullarında gözlemlemek için bazı insanları rastgele seçtiğimizi ve kontrol koşullarında gözlemlemek için bazı insanları rastgele seçtiğimizi hayal edin, sonra her koşulda ortalama sonucu tahmin edebiliriz:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
Burada [ \(N_t\) ve \(N_c\) , tedavi ve kontrol koşullarındaki kişilerin \(N_c\) . Denklem 4.4, bir ortalama fark tahmincisidir. Örnekleme tasarımı nedeniyle, ilk terimin tedavi altındaki ortalama sonuç için tarafsız bir tahminci olduğunu ve ikinci dönemin ise kontrol altındaki tarafsız bir tahmincinin olduğunu biliyoruz.
Rastgeleliğin mümkün kılmayı düşünmenin başka bir yolu da, tedavi ve kontrol grupları arasındaki karşılaştırmanın adil olmasını sağlamasıdır, çünkü randomizasyon iki grubun birbirine benzemesini sağlar. Bu benzerlik, ölçtüğümüz şeyler için (deneyden önceki 30 gün içinde yapılan değişikliklerin sayısı) ve ölçmediğimiz şeyler için geçerlidir (cinsiyet deyin). Hem gözlemlenen hem de gözlemlenmeyen faktörlerde dengeyi sağlama yeteneği kritiktir. Gözlemlenmemiş faktörler üzerinde otomatik dengelemenin gücünü görmek için, gelecekteki araştırmaların erkeklerin kadınlara göre daha fazla ödül aldığını keşfettiğini düşünelim. Restivo ve van de Rijt'in deneyinin sonuçlarını geçersiz kılar mı? Hayır. Rastgele olarak, tüm gözlemlenemeyenlerin beklenti içinde dengelenmesini sağladılar. Bilinmeyene karşı bu koruma çok güçlüdür ve deneylerin 2. bölümde tarif edilen deneysel olmayan tekniklerden farklı olması önemli bir yoldur.
Tüm popülasyonun tedavi etkisini tanımlamanın yanı sıra, bir grup insan için bir tedavi etkisi tanımlamak mümkündür. Bu tipik olarak bir koşullu ortalama tedavi etkisi (CATE) olarak adlandırılır. Örneğin, Restivo ve van de \(X_i\) tarafından yapılan çalışmada, \(X_i\) 'ün editörün, denemeden önceki 90 gün boyunca editörün medyan sayının üstünde mi yoksa altında mı olduğunu hayal edelim. Bu hafif ve ağır editörler için tedavi etkisini ayrı ayrı hesaplayabiliriz.
Potansiyel çıktılar çerçevesi nedensel çıkarım ve deneyleri düşünmek için güçlü bir yoldur. Bununla birlikte, akılda tutmanız gereken iki ek karmaşıklık vardır. Bu iki karmaşıklık genellikle Stable Unit Treatment Value Assumption (SUTVA) terimi altında toplanır. SUTVA'nın ilk bölümü, kişinin [ \(i\) 'nin sonucu için önemli olan tek şeyin, bu kişinin tedavi veya kontrol durumunda olup olmadığıdır. Diğer bir deyişle, kişinin \(i\) başka insanlara verdiği muameleden etkilenmediği varsayılmaktadır. Bu bazen “müdahale yok” veya “yayılma yok” olarak adlandırılır ve şu şekilde yazılabilir:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
burada \(\mathbf{W_{-i}}\) kişi \(i\) dışındaki herkes için tedavi durumlarının bir vektörüdür. Bunun ihlal edilebileceğinin bir yolu, bir kişiden birinin tedavi edilmesi durumunda, olumlu ya da olumsuz bir şekilde başka bir kişiye aktarılıyorsa. Restivo ve van de Rijt'in denemesine dönersek, iki arkadaş \(i\) ve \(j\) hayal edin ve o kişi \(i\) bir barnstar alır ve \(j\) bunu yapmaz. Eğer \(i\) barnstarı alırsa \(j\) daha fazla (bir rekabet duygusu) düzenlemek veya daha az (bir çaresizlik duygusu \(j\) düzenlemek için neden olur, SUTVA ihlal edilmiştir. Tedavinin etkisinin tedaviyi alan diğer kişilerin toplam sayısına bağlı olması durumunda da ihlal edilebilir. Örneğin, Restivo ve van de Rijt 100 yerine 10.000 barnstar verdiyse, bu durum bir barnstar almanın etkisini etkileyebilirdi.
SUTVA'ya giren ikinci konu, tek ilgili tedavinin araştırmacının sunduğu şey olduğu varsayımıdır; Bu varsayım bazen gizli tedaviler ya da dışlama olamaz . Örneğin, Restivo ve van de Rijt'te, bir barnstar vererek, yazarların editörlerin popüler bir editör sayfasında yer almasına ve popüler editörler sayfasında yer almasının, bir barnstar almaktan ziyade olması gerektiği söylenebilirdi. Bu düzenleme davranışında değişikliğe neden oldu. Bu doğruysa, barnstarın etkisi popüler editörler sayfasında olmanın etkisinden ayırt edilemez. Elbette, bilimsel açıdan bakıldığında bu durumun çekici ya da çekici olmadığı düşünülmelidir. Yani, bir araştırmacının barnstar almanın etkisinin, barnstarın tetiklediği sonraki tüm tedavileri içerdiğini söyleyebilirsiniz. Ya da bir araştırmanın barnstarların etkisini diğer tüm şeylerden izole etmek isteyeceği bir durumu hayal edebilirsiniz. Bunu düşünmenin bir yolu, Gerber and Green (2012) (s. 41) “simetride bozulma” olarak adlandırdığı bir şeye yol Gerber and Green (2012) sormaktır. Başka bir deyişle, tedavi ve kontrol koşullarındaki insanların farklı muamele görmesine neden olan tedaviden başka bir şey var mı? Simetri kırılması ile ilgili endişeler, kontrol grubundaki hastaların tıbbi çalışmalarda plasebo hapı almasına neden olan faktörlerdir. Böylelikle araştırmacılar, iki koşul arasındaki tek farkın, gerçek ilaç olduğunu ve hapı almanın deneyiminden emin olmadıklarından emin olabilirler.
SUTVA hakkında daha fazla bilgi için, Gerber and Green (2012) bölüm 2.7, Morgan and Winship (2014) bölüm 2.5 ve Imbens and Rubin (2015) bölüm Imbens and Rubin (2015) bakınız.
Hassas
Bir önceki bölümde, ortalama tedavi etkisinin nasıl tahmin edileceğini açıkladım. Bu bölümde, bu tahminlerin değişkenliği hakkında bazı fikirler vereceğim.
Eğer ortalama tedavi etkisini iki örnek ortalama arasındaki farkı tahmin etmeyi tahmin ediyorsanız, o zaman ortalama tedavi etkisinin standart hatasının olduğunu göstermek mümkündür:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
nerede \(m\) tedavisi ve atanan kişiler \(Nm\) kontrol etmek için (bkz Gerber and Green (2012) , eşi. 3.4). Böylece, tedaviye kaç kişinin atayacağını ve ne kadarının denetime atayacağını düşündüğünüzde, şunu görürsünüz: \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , o zaman tedavi ve kontrol maliyetleri aynı olduğu sürece \(m \approx N / 2\) . Denklem 4.6, Bond ve meslektaşlarının (2012) sosyal bilginin oylama üzerindeki etkisinin (Şekil 4.18) deney tasarımının neden istatistiksel olarak yetersiz olduğuna açıklık getirmektedir. Tedavi durumunda katılımcıların% 98'inin olduğunu hatırlayın. Bu, kontrol koşulundaki ortalama davranışın, olabileceği kadar doğru bir şekilde tahmin edilmediği anlamına gelmekteydi; bu da, tedavi ve kontrol koşulu arasındaki tahmini farkın, olabildiğince doğru tahmin edilmediği anlamına geliyordu. Maliyetlerin koşullar arasında ne zaman değiştiği de dahil olmak üzere katılımcıların koşullara en uygun şekilde dağıtılması için bkz. List, Sadoff, and Wagner (2011) .
Son olarak, ana metinde, tipik olarak karışık bir tasarımda kullanılan, farklılık-fark-fark tahmincisinin, tipik olarak ara-konular arasında kullanılan bir ortalama-fark tahmincisinden daha küçük bir varyansa yol açabileceğini anlattım. tasarımı. Eğer \(X_i\) tedaviden önceki sonucun değeri ise, o zaman fark-farklılık yaklaşımları ile tahmin etmeye çalıştığımız miktar:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Bu miktarın standart hatasıdır (bkz. Gerber and Green (2012) , denklem 4.4).
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Denkleminin bir karşılaştırması 4.6 ve denk. 4.8, farklılık-fark yaklaşımının daha küçük bir standart hataya sahip olacağını gösterir (bkz. Gerber and Green (2012) , denklem 4.6).
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Kabaca, \(X_i\) \(Y_i(1)\) ve \(Y_i(0)\) çok belirleyici olması durumunda, farklardan ziyade farkların bir farkından daha kesin tahminler alabilirsiniz. -den biri bir. Restivo ve van de Rijt'in denemesi bağlamında bunu düşünmenin bir yolu, insanların düzenledikleri miktarda bir çok doğal varyasyonun olmasıdır, bu yüzden tedavi ve kontrol koşullarını karşılaştırmayı zorlaştırır: bir akrabayı tespit etmek zordur. gürültülü sonuç verisinde küçük etki. Ancak, doğal olarak oluşan bu değişkenliği farklılaştırırsanız, o zaman daha az değişkenlik vardır ve bu da küçük bir etkiyi tespit etmeyi kolaylaştırır.
Çoklu tedavi öncesi ve tedavi sonrası ölçümlerin yapıldığı daha genel ortamdaki farklılıkların, farklılık farklarının ve ANCOVA tabanlı yaklaşımların kesin bir karşılaştırması için bkz. Frison and Pocock (1992) . Özellikle, burada ele almadığım ANCOVA'yı şiddetle tavsiye ediyorlar. Ayrıca, çoklu tedavi sonrası sonuç ölçütlerinin önemini tartışmak için McKenzie (2012) bakınız.