Saya pikir cara terbaik untuk memahami eksperimen adalah kerangka hasil potensial (yang saya diskusikan dalam catatan matematis dalam bab 2). Kerangka hasil potensial memiliki hubungan erat dengan ide-ide dari sampling berbasis desain yang saya jelaskan di bab 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Apendiks ini telah ditulis sedemikian rupa untuk menekankan koneksi itu. Penekanan ini sedikit non-tradisional, tetapi saya pikir bahwa hubungan antara pengambilan sampel dan eksperimen sangat membantu: itu berarti bahwa jika Anda tahu sesuatu tentang pengambilan sampel, maka Anda tahu sesuatu tentang eksperimen dan sebaliknya. Seperti yang akan saya tunjukkan dalam catatan ini, kerangka hasil potensial mengungkapkan kekuatan eksperimen terkontrol acak untuk memperkirakan efek kausal, dan itu menunjukkan keterbatasan apa yang dapat dilakukan bahkan dengan eksperimen yang dilaksanakan dengan sempurna.
Dalam apendiks ini, saya akan menjelaskan kerangka hasil potensial, menduplikasi beberapa materi dari catatan matematis dalam bab 2 untuk membuat catatan ini lebih lengkap. Kemudian saya akan menjelaskan beberapa hasil yang bermanfaat tentang ketepatan perkiraan dari efek pengobatan rata-rata, termasuk diskusi tentang alokasi optimal dan estimator perbedaan-dalam-perbedaan. Apendiks ini sangat bergantung pada Gerber and Green (2012) .
Kerangka hasil potensial
Untuk mengilustrasikan kerangka hasil potensial, mari kita kembali ke eksperimen Restivo dan van de Rijt untuk memperkirakan dampak penerimaan sebuah barnstar terhadap kontribusi masa depan bagi Wikipedia. Kerangka hasil potensial memiliki tiga elemen utama: unit , perawatan , dan hasil potensial . Dalam kasus Restivo dan van de Rijt, unit - unit itu layak mendapat editor — mereka yang berada di atas 1% kontributor — yang belum menerima barnstar. Kami dapat mengindeks editor ini dengan \(i = 1 \ldots N\) . Perlakuan dalam eksperimen mereka adalah "barnstar" atau "no barnstar," dan saya akan menulis \(W_i = 1\) jika orang \(i\) dalam kondisi perawatan dan \(W_i = 0\) sebaliknya. Elemen ketiga dari kerangka hasil potensial adalah yang paling penting: hasil potensial . Ini sedikit lebih sulit secara konseptual karena melibatkan hasil "potensial" —hal yang bisa terjadi. Untuk setiap editor Wikipedia, seseorang dapat membayangkan jumlah pengeditan yang akan dia buat dalam kondisi perawatan ( \(Y_i(1)\) ) dan nomor yang akan dia buat dalam kondisi kontrol ( \(Y_i(0)\) ).
Perhatikan bahwa pilihan unit, perawatan, dan hasil ini menentukan apa yang dapat dipelajari dari eksperimen ini. Misalnya, tanpa asumsi tambahan, Restivo dan van de Rijt tidak dapat mengatakan apa pun tentang efek barnstars pada semua editor Wikipedia atau pada hasil seperti kualitas edit. Secara umum, pilihan unit, perawatan, dan hasil harus didasarkan pada tujuan penelitian.
Mengingat hasil potensial ini — yang dirangkum dalam tabel 4.5 — seseorang dapat mendefinisikan efek kausal dari pengobatan untuk orang \(i\) sebagai
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Bagi saya, persamaan ini adalah cara yang paling jelas untuk mendefinisikan efek kausal, dan, meskipun sangat sederhana, kerangka ini ternyata dapat digeneralisasikan dalam banyak cara yang penting dan menarik (Imbens and Rubin 2015) .
Orang | Suntikan dalam kondisi perawatan | Suntingan dalam kondisi kontrol | Efek pengobatan |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
berarti | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Jika kita mendefinisikan kausalitas dengan cara ini, kita mengalami masalah. Di hampir semua kasus, kita tidak bisa mengamati kedua hasil potensial. Artinya, editor Wikipedia tertentu menerima barnstar atau tidak. Oleh karena itu, kami mengamati salah satu hasil potensial— \(Y_i(1)\) atau \(Y_i(0)\) —tapi tidak keduanya. Ketidakmampuan untuk mengamati kedua hasil potensial adalah masalah besar yang oleh Holland (1986) menyebutnya sebagai Masalah Fundamental dari Inferensi Kausal .
Untungnya, ketika kita melakukan penelitian, kita tidak hanya memiliki satu orang, kita memiliki banyak orang, dan ini menawarkan jalan di sekitar Masalah Fundamental dari Inferensi Kausal. Daripada mencoba untuk memperkirakan efek pengobatan tingkat individu, kita dapat memperkirakan efek pengobatan rata-rata:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Ini masih dinyatakan dalam istilah \(\tau_i\) yang tidak dapat diamati, tetapi dengan beberapa aljabar (Persamaan 2.8 Gerber and Green (2012) ) kita dapatkan
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Persamaan 4.3 menunjukkan bahwa jika kita dapat memperkirakan hasil rata-rata populasi di bawah perlakuan ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) dan hasil rata-rata populasi terkendali ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), maka kita dapat memperkirakan efek pengobatan rata-rata, bahkan tanpa memperkirakan efek pengobatan untuk orang tertentu.
Sekarang setelah saya mendefinisikan perkiraan kami — hal yang kami coba perkirakan — saya akan beralih ke bagaimana kami dapat memperkirakannya dengan data. Saya suka berpikir tentang tantangan estimasi ini sebagai masalah sampling (pikirkan kembali catatan matematis dalam bab 3). Bayangkan bahwa kita secara acak memilih beberapa orang untuk diamati dalam kondisi pengobatan dan kami secara acak memilih beberapa orang untuk diamati dalam kondisi kontrol, maka kita dapat memperkirakan hasil rata-rata dalam setiap kondisi:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
di mana \(N_t\) dan \(N_c\) adalah jumlah orang dalam perawatan dan kondisi kontrol. Persamaan 4.4 adalah penduga perbedaan-dari-berarti. Karena desain sampling, kita tahu bahwa istilah pertama adalah penduga yang tidak bias untuk hasil rata-rata di bawah perawatan dan istilah kedua adalah penaksir yang tidak bias di bawah kontrol.
Cara lain untuk berpikir tentang apa yang memungkinkan pengacakan adalah memastikan bahwa perbandingan antara kelompok perlakuan dan kontrol adalah adil karena pengacakan memastikan bahwa kedua kelompok akan mirip satu sama lain. Kemiripan ini berlaku untuk hal-hal yang telah kami ukur (katakanlah jumlah pengeditan dalam 30 hari sebelum percobaan) dan hal-hal yang belum kami ukur (katakanlah jenis kelamin). Kemampuan untuk memastikan keseimbangan pada kedua faktor yang diamati dan tidak teramati sangat penting. Untuk melihat kekuatan keseimbangan otomatis pada faktor-faktor yang tidak teramati, mari kita bayangkan bahwa penelitian masa depan menemukan bahwa pria lebih responsif terhadap penghargaan daripada wanita. Apakah itu akan membatalkan hasil eksperimen Restivo dan van de Rijt? Tidak. Dengan mengacak, mereka memastikan bahwa semua yang tidak teramati akan seimbang, dalam harapan. Perlindungan terhadap yang tidak dikenal ini sangat kuat, dan ini merupakan cara penting bahwa eksperimen berbeda dari teknik non-eksperimental yang dijelaskan di bab 2.
Selain mendefinisikan efek pengobatan untuk seluruh penduduk, adalah mungkin untuk menentukan efek pengobatan untuk sebagian orang. Ini biasanya disebut efek pengobatan rata-rata bersyarat (CATE). Misalnya, dalam studi oleh Restivo dan van de Rijt, mari kita bayangkan bahwa \(X_i\) adalah apakah editor berada di atas atau di bawah jumlah rata-rata pengeditan selama 90 hari sebelum percobaan. Seseorang dapat menghitung efek pengobatan secara terpisah untuk editor ringan dan berat ini.
Kerangka hasil potensial adalah cara yang ampuh untuk memikirkan inferensi kausal dan eksperimen. Namun, ada dua kerumitan tambahan yang harus Anda ingat. Kedua kompleksitas ini sering disatukan di bawah istilah Asumsi Nilai Perawatan Unit Stabil (SUTVA). Bagian pertama dari SUTVA adalah asumsi bahwa satu-satunya hal yang penting bagi seseorang \(i\) 's hasil adalah apakah seseorang itu dalam pengobatan atau kontrol kondisi. Dengan kata lain, diasumsikan bahwa orang itu \(i\) tidak terpengaruh oleh perlakuan yang diberikan kepada orang lain. Ini kadang-kadang disebut "tidak ada gangguan" atau "tidak ada spillovers", dan dapat ditulis sebagai:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
di mana \(\mathbf{W_{-i}}\) adalah vektor status perawatan untuk semua orang kecuali orang \(i\) . Salah satu cara yang dapat dilanggar adalah jika perawatan dari satu orang tumpah ke orang lain, baik secara positif atau negatif. Kembali ke percobaan Restivo dan van de Rijt, bayangkan dua teman \(i\) dan \(j\) dan orang itu \(i\) menerima barnstar dan \(j\) tidak. Jika \(i\) menerima barnstar menyebabkan \(j\) untuk mengedit lebih banyak (keluar dari rasa persaingan) atau mengedit lebih sedikit (karena rasa putus asa), maka SUTVA telah dilanggar. Itu juga dapat dilanggar jika dampak dari perawatan tergantung pada jumlah total orang lain yang menerima perawatan. Misalnya, jika Restivo dan van de Rijt telah memberikan 1.000 atau 10.000 barnstars alih-alih 100, ini mungkin berdampak pada efek menerima barnstar.
Masalah kedua yang disatukan dalam SUTVA adalah asumsi bahwa satu-satunya perlakuan yang relevan adalah yang diberikan oleh peneliti; Asumsi ini kadang-kadang disebut tidak ada perawatan terselubung atau ketidaksamaan . Sebagai contoh, di Restivo dan van de Rijt, mungkin itu adalah kasus yang dengan memberikan barnstar para peneliti menyebabkan editor untuk ditampilkan di halaman editor populer dan bahwa itu berada di halaman editor populer - daripada menerima barnstar— yang menyebabkan perubahan dalam perilaku pengeditan. Jika ini benar, maka efek dari barnstar tidak dapat dibedakan dari efek berada di halaman editor populer. Tentu saja, tidak jelas apakah, dari perspektif ilmiah, ini harus dianggap menarik atau tidak menarik. Artinya, Anda bisa membayangkan seorang peneliti mengatakan bahwa efek menerima barnstar mencakup semua perawatan berikutnya yang memicu barnstar. Atau Anda bisa membayangkan situasi di mana penelitian ingin mengisolasi efek barnstars dari semua hal lainnya. Salah satu cara untuk memikirkannya adalah dengan bertanya apakah ada sesuatu yang mengarah pada apa yang Gerber and Green (2012) (hal. 41) sebut "gangguan dalam simetri"? Dengan kata lain, adakah hal lain selain perawatan yang menyebabkan orang dalam perawatan dan kondisi kontrol diperlakukan berbeda? Kekhawatiran tentang pemutusan simetri adalah apa yang menyebabkan pasien dalam kelompok kontrol dalam uji medis untuk mengambil pil plasebo. Dengan begitu, para peneliti dapat yakin bahwa satu-satunya perbedaan antara dua kondisi adalah obat yang sebenarnya dan bukan pengalaman minum pil.
Untuk lebih lanjut tentang SUTVA, lihat bagian 2.7 dari Gerber and Green (2012) , bagian 2.5 dari Morgan and Winship (2014) , dan bagian 1,6 dari Imbens and Rubin (2015) .
Presisi
Pada bagian sebelumnya, saya telah menjelaskan cara memperkirakan efek pengobatan rata-rata. Pada bagian ini, saya akan memberikan beberapa gagasan tentang variabilitas estimasi tersebut.
Jika Anda berpikir tentang memperkirakan efek pengobatan rata-rata sebagai memperkirakan perbedaan antara dua cara sampel, maka adalah mungkin untuk menunjukkan bahwa kesalahan standar dari efek pengobatan rata-rata adalah:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
di mana \(m\) orang yang ditugaskan untuk perawatan dan \(Nm\) untuk mengontrol (lihat Gerber and Green (2012) , eq. 3.4). Jadi, ketika berpikir tentang berapa banyak orang yang ditugaskan untuk perawatan dan berapa banyak yang ditugaskan untuk mengontrol, Anda dapat melihat bahwa jika \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , maka Anda ingin \(m \approx N / 2\) , selama biaya perawatan dan kontrol adalah sama. Persamaan 4.6 menjelaskan mengapa desain eksperimen Bond dan rekan (2012) tentang efek informasi sosial pada pemungutan suara (gambar 4.18) tidak efisien secara statistik. Ingat bahwa ada 98% peserta dalam kondisi perawatan. Ini berarti bahwa perilaku rata-rata dalam kondisi kontrol tidak diperkirakan seakurat mungkin, yang pada gilirannya berarti bahwa perkiraan perbedaan antara perlakuan dan kondisi kontrol tidak diperkirakan seakurat mungkin. Untuk lebih lanjut tentang alokasi optimal peserta untuk kondisi, termasuk ketika biaya berbeda antara kondisi, lihat List, Sadoff, and Wagner (2011) .
Akhirnya, dalam teks utama, saya menjelaskan bagaimana estimator selisih-dalam-perbedaan, yang biasanya digunakan dalam desain campuran, dapat menyebabkan variasi yang lebih kecil dari estimator perbedaan-dalam-makna, yang biasanya digunakan di antara subjek Desain. Jika \(X_i\) adalah nilai dari hasil sebelum perawatan, maka kuantitas yang kami coba perkirakan dengan pendekatan perbedaan-dalam-perbedaan adalah:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Kesalahan standar kuantitas itu (lihat Gerber and Green (2012) , eq. 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Perbandingan persamaan. 4.6 dan eq. 4.8 mengungkapkan bahwa pendekatan perbedaan-dalam-perbedaan akan memiliki kesalahan standar yang lebih kecil ketika (lihat Gerber and Green (2012) , eq. 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Secara kasar, ketika \(X_i\) sangat prediktif \(Y_i(1)\) dan \(Y_i(0)\) , maka Anda bisa mendapatkan perkiraan yang lebih tepat dari pendekatan perbedaan-perbedaan daripada dari perbedaan- dari-artinya satu. Salah satu cara untuk memikirkan hal ini dalam konteks percobaan Restivo dan van de Rijt adalah bahwa ada banyak variasi alami dalam jumlah yang disunting orang, jadi ini membuat membandingkan perlakuan dan kondisi kontrol yang sulit: sulit untuk mendeteksi seorang kerabat efek kecil dalam data hasil yang berisik. Tetapi jika Anda membedakan variabilitas yang terjadi secara alami ini, maka variabilitasnya jauh lebih sedikit, dan itu membuatnya lebih mudah untuk mendeteksi efek yang kecil.
Lihat Frison and Pocock (1992) untuk perbandingan yang tepat antara perbedaan-perbedaan, perbedaan-perbedaan, dan pendekatan berbasis ANCOVA dalam pengaturan yang lebih umum di mana ada beberapa pengukuran pra-perawatan dan pasca perawatan. Secara khusus, mereka sangat merekomendasikan ANCOVA, yang belum saya bahas di sini. Lebih lanjut, lihat McKenzie (2012) untuk diskusi tentang pentingnya berbagai ukuran hasil pasca perawatan.