Saya fikir cara terbaik untuk memahami eksperimen adalah kerangka hasil berpotensi (yang dibincangkan dalam nota matematik dalam bab 2). Kerangka hasil berpotensi mempunyai hubungan yang dekat dengan idea-idea dari pensampelan berasaskan rekaan yang saya nyatakan dalam bab 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Apendiks ini telah ditulis sedemikian rupa untuk menekankan sambungan itu. Penekanan ini agak tidak tradisional, tetapi saya fikir hubungan antara persampelan dan eksperimen adalah berguna: ini bermakna bahawa jika anda tahu sesuatu tentang pensampelan maka anda tahu sesuatu tentang eksperimen dan sebaliknya. Seperti yang saya akan menunjukkan dalam nota-nota ini, rangka kerja hasil berpotensi mendedahkan kekuatan eksperimen terkawal rawak untuk menganggarkan kesan kausal, dan ia menunjukkan batasan apa yang boleh dilakukan dengan eksperimen yang dilaksanakan dengan sempurna.
Dalam lampiran ini, saya akan menerangkan rangka kerja hasil yang berpotensi, menggandakan beberapa bahan daripada nota matematik dalam bab 2 untuk membuat nota-nota ini lebih lengkap. Kemudian saya akan menerangkan beberapa hasil yang berguna mengenai ketepatan anggaran kesan rawatan purata, termasuk perbincangan peruntukan optimum dan perbezaan-perbezaan dalam penganggar. Lampiran ini amat menarik pada Gerber and Green (2012) .
Kerangka hasil berpotensi
Untuk menggambarkan rangka kerja hasil yang berpotensi, mari kita kembali ke percubaan Restivo dan van de Rijt untuk menganggarkan kesan menerima barnstar pada sumbangan masa depan kepada Wikipedia. Kerangka hasil berpotensi mempunyai tiga elemen utama: unit , rawatan , dan hasil yang berpotensi . Dalam hal Restivo dan van de Rijt, unit - unit yang layak adalah editor-yang di atas 1% dari penyumbang-yang belum menerima barnstar. Kita boleh mengindeks edit ini oleh \(i = 1 \ldots N\) . Rawatan dalam eksperimen mereka adalah "barnstar" atau "no barnstar," dan saya akan menulis \(W_i = 1\) jika orang \(i\) berada dalam keadaan rawatan dan \(W_i = 0\) sebaliknya. Unsur ketiga dari kerangka hasil yang berpotensi adalah yang paling penting: hasil potensial . Ini agak lebih rumit kerana mereka melibatkan "potensi" hasil-perkara-perkara yang boleh berlaku. Untuk setiap editor Wikipedia, seseorang boleh membayangkan bilangan pengeditan yang akan dibuat dalam keadaan rawatan ( \(Y_i(1)\) ) dan nombor yang akan dibuat dalam keadaan kawalan ( \(Y_i(0)\) ).
Perhatikan bahawa pilihan unit, rawatan, dan hasil ini menentukan apa yang dapat dipelajari dari eksperimen ini. Sebagai contoh, tanpa sebarang anggapan tambahan, Restivo dan van de Rijt tidak boleh mengatakan apa-apa mengenai kesan barnstars pada semua editor Wikipedia atau hasil seperti mengedit kualiti. Secara umum, pilihan unit, rawatan, dan hasil mestilah berdasarkan matlamat kajian.
Memandangkan hasil yang berpotensi-yang diringkaskan dalam jadual 4.5-satu boleh menentukan kesan kausal rawatan untuk orang \(i\) sebagai
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Bagi saya, persamaan ini adalah cara yang paling jelas untuk menentukan kesan kausal, dan, walaupun sangat mudah, rangka kerja ini ternyata dapat umum di banyak cara yang penting dan menarik (Imbens and Rubin 2015) .
Orang | Editan dalam keadaan rawatan | Editan dalam keadaan kawalan | Kesan rawatan |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
maksudnya | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Sekiranya kita mentakrifkan kausal dengan cara ini, kita menghadapi masalah. Dalam hampir semua kes, kita tidak dapat melihat kedua-dua hasil yang berpotensi. Iaitu, editor Wikipedia tertentu sama ada menerima barnstar atau tidak. Oleh itu, kita melihat satu daripada hasil yang berpotensi - \(Y_i(1)\) atau \(Y_i(0)\) -but tidak keduanya. Ketidakupayaan untuk melihat kedua-dua hasil yang berpotensi merupakan masalah utama yang Holland (1986) oleh Holland (1986) sebagai Masalah Asas Kesilapan Sebab .
Mujurlah, ketika kita sedang melakukan penyelidikan, kita tidak hanya mempunyai satu orang, kita mempunyai banyak orang, dan ini menawarkan jalan ke Arah Masalah Asas Kesimpulan Sebab. Daripada cuba menganggarkan kesan rawatan peringkat individu, kita boleh menganggarkan kesan rawatan purata:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Ini masih dinyatakan dari segi \(\tau_i\) yang tidak dapat \(\tau_i\) , tetapi dengan beberapa algebra (Persamaan 2.8 dari Gerber and Green (2012) ) kita dapat
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Persamaan 4.3 menunjukkan bahawa jika kita boleh menganggarkan hasil purata populasi di bawah rawatan ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) dan hasil purata populasi di bawah kawalan ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), maka kita dapat menganggarkan kesan rawatan rata-rata, walaupun tanpa menganggarkan kesan rawatan untuk orang tertentu.
Sekarang saya telah menentukan anggaran kami-perkara yang kita cuba anggaran-saya akan beralih kepada bagaimana kita boleh menganggarkannya dengan data. Saya suka memikirkan cabaran anggaran ini sebagai masalah persampelan (berfikir kembali kepada nota matematik dalam bab 3). Bayangkan bahawa kita secara rawak memilih beberapa orang untuk memerhatikan keadaan rawatan dan kita secara rawak memilih beberapa orang untuk memerhatikan keadaan kawalan, maka kita dapat menganggarkan hasil purata dalam setiap keadaan:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
di mana \(N_t\) dan \(N_c\) adalah bilangan orang dalam keadaan rawatan dan kawalan. Persamaan 4.4 adalah penganggar perbezaan-of-bermakna. Kerana reka bentuk pensampelan, kita tahu bahawa istilah pertama adalah penganggar tidak bias untuk hasil purata di bawah rawatan dan istilah kedua adalah taksiran tidak berat sebelah di bawah kawalan.
Satu lagi cara untuk berfikir tentang apa yang rawak membolehkan adalah bahawa ia memastikan bahawa perbandingan antara rawatan dan kumpulan kawalan adalah adil kerana rawak memastikan bahawa kedua-dua kumpulan akan menyerupai satu sama lain. Kemiripan ini memegang pada perkara yang telah kami diukur (nyatakan bilangan suntingan dalam 30 hari sebelum percubaan) dan perkara-perkara yang belum kami diukur (katakan jantina). Keupayaan untuk memastikan keseimbangan di kedua-dua faktor diperhatikan dan yang tidak diperhatikan adalah kritikal. Untuk melihat kekuatan mengimbangi automatik pada faktor yang tidak dapat diobservasi, bayangkan penyelidikan masa depan mendapati bahawa lelaki lebih responsif terhadap anugerah daripada wanita. Adakah itu membatalkan keputusan percubaan Restivo dan van de Rijt? Tidak. Dengan rawak, mereka memastikan bahawa semua orang yang tidak mengawasi akan seimbang, dalam jangkaan. Perlindungan ini terhadap yang tidak diketahui adalah sangat berkuasa, dan ia adalah cara yang penting bahawa eksperimen adalah berbeza daripada teknik bukan percubaan yang diterangkan dalam bab 2.
Selain mendefinisikan kesan rawatan untuk seluruh penduduk, adalah mungkin untuk menentukan kesan rawatan untuk subset orang. Ini biasanya dipanggil kesan rawatan purata bersyarat (CATE). Sebagai contoh, dalam kajian oleh Restivo dan van de Rijt, bayangkan bahawa \(X_i\) adalah sama ada editor di atas atau di bawah bilangan median pengeditan selama 90 hari sebelum eksperimen. Orang boleh mengira kesan rawatan secara berasingan untuk editor ringan dan berat ini.
Kerangka hasil berpotensi adalah cara yang ampuh untuk berfikir tentang kesimpulan kausa dan eksperimen. Walau bagaimanapun, terdapat dua kerumitan tambahan yang perlu diingat. Kedua-dua kerumitan ini sering disatukan di bawah istilah Asumsi Nilai Rawatan Unit Stabil (SUTVA). Bahagian pertama SUTVA adalah andaian bahawa satu-satunya perkara yang penting bagi seseorang \(i\) hasil 's ialah sama ada orang itu berada dalam keadaan rawatan atau kawalan. Dalam erti kata lain, diandaikan bahawa orang \(i\) tidak dipengaruhi oleh rawatan yang diberikan kepada orang lain. Ini kadang-kadang dipanggil "tiada campur tangan" atau "tidak ada spillovers", dan boleh ditulis sebagai:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
di mana \(\mathbf{W_{-i}}\) adalah vektor status rawatan untuk semua orang kecuali orang \(i\) . Salah satu cara yang boleh dilanggar adalah jika rawatan dari satu orang tumpahan ke orang lain, baik secara positif atau negatif. Kembali ke percubaan Restivo dan van de Rijt, bayangkan dua kawan \(i\) dan \(j\) dan orang itu \(i\) menerima barnstar dan \(j\) tidak. Jika \(i\) menerima barnstar menyebabkan \(j\) untuk mengedit lebih banyak (daripada rasa persaingan) atau mengedit kurang (daripada rasa putus asa), maka SUTVA telah dilanggar. Ia juga boleh dilanggar jika kesan rawatan bergantung kepada jumlah orang lain yang menerima rawatan. Sebagai contoh, jika Restivo dan van de Rijt telah memberikan 1,000 atau 10,000 tongkang bukan 100, ini mungkin memberi kesan kepada kesan menerima barnstar.
Isu kedua yang diserapkan ke SUTVA adalah andaian bahawa satu-satunya rawatan yang relevan adalah yang disampaikan oleh penyelidik; andaian ini kadang-kadang dipanggil tiada rawatan tersembunyi atau pengecualian . Sebagai contoh, di Restivo dan van de Rijt, mungkin ada kemungkinan bahawa dengan memberikan barnstar para penyelidik menyebabkan penyuntingnya dipaparkan pada halaman editor yang popular dan bahawa ia berada di halaman editor yang popular-bukannya menerima barnstar- yang menyebabkan perubahan tingkah laku penyuntingan. Jika ini benar, maka kesan barnstar tidak dapat dibezakan dari kesannya pada halaman editor yang popular. Sudah tentu, tidak jelas jika, dari perspektif saintifik, ini harus dianggap menarik atau tidak menarik. Iaitu, anda boleh bayangkan seorang penyelidik mengatakan bahawa kesan menerima barnstar termasuk semua rawatan seterusnya yang mencetuskan barnstar. Atau anda boleh bayangkan situasi di mana penyelidikan ingin mengasingkan kesan barnstar dari semua perkara lain. Satu cara untuk memikirkannya ialah untuk bertanya sama ada terdapat apa-apa yang membawa kepada apa yang Gerber and Green (2012) (ms 41) memanggil "pecahan dalam simetri"? Dalam erti kata lain, ada apa-apa selain rawatan yang menyebabkan orang dalam keadaan rawatan dan kawalan untuk dirawat secara berbeza? Kebimbangan mengenai pemecahan simetri adalah apa yang menyebabkan pesakit dalam kumpulan kawalan dalam ujian perubatan untuk mengambil pil plasebo. Dengan cara itu, para penyelidik boleh memastikan bahawa satu-satunya perbezaan antara kedua-dua keadaan adalah ubat sebenar dan bukan pengalaman mengambil pil.
Untuk lebih lanjut mengenai SUTVA, lihat bahagian 2.7 Gerber and Green (2012) , bahagian 2.5 Morgan and Winship (2014) , dan seksyen 1.6 daripada Imbens and Rubin (2015) .
Ketepatan
Di bahagian sebelumnya, saya telah menerangkan bagaimana untuk menganggarkan kesan rawatan purata. Dalam seksyen ini, saya akan memberikan beberapa idea tentang kebolehubahan dari anggaran tersebut.
Jika anda berfikir tentang menganggarkan kesan rawatan purata sebagai menganggarkan perbezaan antara dua cara sampel, maka adalah mungkin untuk menunjukkan bahawa kesilapan standard kesan rawatan purata adalah:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
di mana \(m\) orang ditugaskan untuk rawatan dan \(Nm\) untuk mengawal (lihat Gerber and Green (2012) , ms 3.4). Oleh itu, apabila memikirkan berapa banyak orang yang diberikan kepada rawatan dan berapa banyak yang ditetapkan untuk mengawal, anda dapat melihat bahawa jika \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , maka anda mahu \(m \approx N / 2\) , selagi kos rawatan dan kawalan adalah sama. Persamaan 4.6 menjelaskan mengapa reka bentuk ujian Bond dan rakan-rakan (2012) tentang kesan maklumat sosial mengenai pengundian (angka 4.18) tidak berkesan secara statistik. Ingat bahawa ia mempunyai 98% peserta dalam keadaan rawatan. Ini bermakna bahawa tingkah laku rata-rata dalam keadaan kawalan tidak dianggarkan dengan tepat seperti yang mungkin, yang seterusnya bermakna bahawa perbezaan dianggarkan antara keadaan rawatan dan kawalan tidak dianggarkan sebagai tepat kerana ia boleh. Untuk lebih banyak peruntukan optimum peserta ke syarat, termasuk apabila kosnya berbeza antara keadaan, lihat List, Sadoff, and Wagner (2011) .
Akhir sekali, dalam teks utama, saya menerangkan bagaimana perbezaan estimator dalam perbezaan, yang biasanya digunakan dalam reka bentuk bercampur, boleh membawa kepada varians yang lebih kecil daripada penganggar perbezaan-dalam-cara, yang biasanya digunakan dalam subjek antara reka bentuk. Jika \(X_i\) adalah nilai hasil sebelum rawatan, maka kuantiti yang kita cuba untuk menganggarkan dengan pendekatan perbezaan-dalam-perbezaan adalah:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Kesalahan piawai kuantiti itu ialah (lihat Gerber and Green (2012) , ms 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Perbandingan persamaan 4.6 dan persamaan 4.8 mendedahkan bahawa pendekatan perbezaan-dalam-perbezaan akan mempunyai ralat piawai yang lebih kecil apabila (lihat Gerber and Green (2012) , ms 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Secara kasar, apabila \(X_i\) sangat meramalkan \(Y_i(1)\) dan \(Y_i(0)\) , maka anda boleh mendapatkan anggaran yang lebih tepat dari perbezaan perbezaan-perbezaan daripada dari perbezaan- daripada-bermakna satu. Salah satu cara untuk memikirkan perkara ini dalam konteks percubaan Restivo dan van de Rijt adalah terdapat banyak variasi semula jadi dalam jumlah yang diedit oleh orang-orang, jadi ini menjadikan perbandingan keadaan dan rawatan yang sukar: sukar untuk mengesan saudara kesan kecil dalam data hasil bising. Tetapi jika anda membezakan kebolehubahan ini secara semula jadi, maka terdapat sedikit variabilitas, dan itu menjadikannya lebih mudah untuk mengesan kesan kecil.
Lihat Frison and Pocock (1992) untuk membandingkan perbezaan perbezaan antara perbezaan, perbezaan-perbezaan, dan pendekatan berasaskan ANCOVA dalam keadaan yang lebih umum di mana terdapat banyak pengukuran pra-rawatan dan selepas rawatan. Khususnya, mereka sangat mengesyorkan ANCOVA, yang saya tidak bincangkan di sini. Selanjutnya, lihat McKenzie (2012) untuk perbincangan tentang pentingnya pelbagai langkah hasil rawatan selepas rawatan.