Aku mikir cara paling apik kanggo mangerteni eksperimen yaiku kerangka kerja potensial (sing aku rembugan ing cathetan matematika ing bab 2). Framework kerangka potensial nduweni hubungan sing cedhak karo ide-ide saka sampling basis desain sing diterangake ing bab 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Apendiks iki wis ditulis kanthi cara kaya kanggo nekanake sambungan kasebut. Penekanan iki rada ora tradisional, nanging aku mikir yen sambungan antarane sampling lan eksperimen bisa mbiyantu: tegese yen sampeyan ngerti babagan sampling, sampeyan ngerti babagan eksperimen lan sabanjure. Minangka aku bakal nuduhake ing cathetan kasebut, kerangka hasil potensial ngungkapake kekuwatan eksperimen kontrol acak kanggo ngira efek akibat, lan nuduhake watesan apa sing bisa dilakoni karo eksperimen sing wis rampung.
Ing apendiks iki, aku bakal nggambarake kerangka asil potensial, duplikat sawetara materi saka cathetan matématika ing bab 2 supaya bisa nyatakake cathetan-cathetan kasebut. Banjur aku bakal njlèntrèhaké sawetara asil sing mbiyantu babagan presisi perkiraan efek perawatan rata-rata, kalebu diskusi alokasi optimal lan estimator sing beda-beda. Lampiran iki gumantung banget marang Gerber and Green (2012) .
Potensi kerangka kerja hasil
Kanggo nggambarake kerangka asil potensial, ayo bali menyang Restivo lan eksperimen van de Rijt kanggo ngira efek saka nampa barnstar ing kontribusi mangsa kanggo Wikipedia. Kerangka hasil potensial duwe telung elemen utama: unit , pangobatan , lan hasil potensial . Ing kasus Restivo lan van de Rijt, unit kasebut minangka editor sing pantes-sing paling dhuwur ing 1% saka kontributor-sing durung nampa barnstar. Kita bisa indeks editors iki kanthi \(i = 1 \ldots N\) . Pangobatan ing eksperimen yaiku "barnstar" utawa "ora ana barnstar," lan aku bakal nulis \(W_i = 1\) yen wong \(i\) ana ing kondisi perawatan lan \(W_i = 0\) . Unsur katelu saka kerangka asil potensial yaiku sing paling penting: asil potensial . Iki luwih angel dikira-kira amarga padha ndherek hasil "potensial" -wujud sing bisa kelakon. Kanggo saben editor Wikipedia, siji bisa mbayangna jumlah suntingan sing bakal \(Y_i(1)\) ing kondisi pangobatan ( \(Y_i(1)\) ) lan nomer sing bakal \(Y_i(0)\) ing kondisi kontrol ( \(Y_i(0)\) ).
Elinga yen pilihan unit, perawatan, lan hasil iki nemtokake apa sing bisa dipelajari saka eksperimen iki. Contone, tanpa pemanggih liyane, Restivo lan van de Rijt ora bisa ngomong apa-apa bab efek saka barnstars ing kabeh editors Wikipedia utawa ing asil kayata editing quality. Umumé, pilihan saka unit, pangobatan, lan asil kudu didhasarake ing tujuan sinau.
Amarga asil potensial kasebut-sing dirangkum ing tabel 4.5-siji bisa nemtokake efek akibat saka perawatan kanggo wong \(i\) minangka
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Kanggo kula, persamaan iki minangka cara paling jelas kanggo nemtokake efek sing nyebabake, lan, sanajan arang banget prasaja, kerangka iki dadi umum ing akeh cara sing penting lan menarik (Imbens and Rubin 2015) .
Wong | Pengeditan ing kondisi perawatan | Pengeditan ing kondisi kontrol | Efek perawatan |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
tegese | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Yen kita netepake kausal karo cara iki, kita bisa dadi masalah. Ing meh kabeh kasus, kita ora bisa netepi loro potensial hasil. Mangkono, editor Wikipedia tartamtu nampi barnstar utawa ora. Mulane, kita mirsani salah sawijining hasil potensial- \(Y_i(1)\) utawa \(Y_i(0)\) -nanging ora loro. Ketidakmampuan kanggo mirsani kedadeyan potensial kuwi masalah utama sing diarani Holland (1986) Masalah Dasar saka Kesimpulan Kesalahan .
Begjanipun, nalika kita nindakake riset, kita ora mung duwe siji wong, kita duwe akeh wong, lan iki menehi cara ngubengi Masalah Fundamental Kesimpulan Kesimpulan. Tinimbang nyoba ngestimasi efek perawatan individu-tingkat, kita bisa ngira efek perawatan rata-rata:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Iki isih ditulis ing istilah \(\tau_i\) sing ora bisa ditliti, nanging kanthi aljabar sawetara (Eq 2.8 saka Gerber and Green (2012) ) kita njaluk
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Persamaan 4.3 nuduhaké yen yèn kita bisa ngira hasil rata-rata populasi miturut perawatan ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) lan asil rata-rata populasi ing kontrol ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), banjur bisa ngira efek perawatan rata-rata, sanajan ora ngira efek perawatan kanggo wong tartamtu.
Saiki aku wis nemtokake prakiraan kita-apa sing kita nyoba kanggo ngira-Aku bakal nguripake carane kita bisa ngira-ngira kanthi data. Aku seneng mikir bab tantangan iki minangka masalah sampling (mikir maneh cathetan matematika ing bab 3). Mbayangno yen kita kanthi acak njupuk sawetara wong kanggo mirsani ing kondisi perawatan lan kita kanthi acak njupuk sawetara wong kanggo mirsani ing kondisi kontrol, banjur kita bisa ngira kasil rata-rata ing saben kondisi:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
ngendi \(N_t\) lan \(N_c\) iku nomer wong ing kondisi perawatan lan kontrol. Persamaan 4.4 minangka estimator sing beda-beda. Amarga desain sampling, kita sumurup, yen istilah kapisan minangka panaksir ora adil kanggo asil rata-rata ing perawatan lan istilah liya minangka panaksir sing ora dikendalekake.
Cara liya kanggo mikir babagan apa sing bisa diadopsi acak yaiku njamin yen perbandingan antarane perawatan lan kelompok kontrol adil amarga acakisasi njamin yen loro klompok iki bakal meh padha karo liyane. Kemiringan iki nyakup bab-bab sing wis diukur (nyatakake jumlah suntingan ing 30 dina sadurunge eksperimen) lan barang-barang sing durung diukur (ngandhut gender). Iki kemampuan kanggo njamin keseimbangane ing faktor sing diamati lan ora dingerteni iku kritis. Kanggo ndeleng daya tarik otomatis ing faktor sing ora ditemokake, ayo padha mbayangake yen riset ing mangsa ngarep nemokake yen wong luwih responsif marang penghargaan saka wanita. Apa sing mbatalake asil Restivo lan van de Rijt? Ora. Kanthi pamriksaan, dheweke njamin yen kabeh wong sing ora prayoga bakal seimbang, ing pangarep-arep. Perlindhungan iki ora dingerteni sanget, lan iku minangka cara sing penting kanggo eksperimen sing beda karo teknik non eksperimental sing diterangake ing bab 2.
Saliyane kanggo nemtokake efek perawatan kanggo kabeh populasi, bisa kanggo nemtokake efek perawatan kanggo subset saka wong. Iki biasane disebut efek perawatan rata-rata sing kondisional (CATE). Contone, ing panaliten dening Restivo lan van de Rijt, ayo \(X_i\) yen \(X_i\) yaiku manawa panyunting ana ing ndhuwur utawa ngisor jumlah suntingan suntingan sajrone 90 dina sadurunge eksperimen. Siji bisa ngetung efek kasebut kanthi kapisah kanggo editor kasebut kanthi cahya lan abot.
Kerangka hasil potensial minangka cara sing kuat kanggo mikir babagan kesimpulan lan eksperimen kausal. Nanging, ana rong kerumitan tambahan sing kudu sampeyan pikirake. Kerumitan loro iki kerep digabungake miturut istilah Stable Unit Treatment Assumption (SUTVA). Pérangan pisanan saka SUTVA iku Panyangka sing mung bab sing penting kanggo wong \(i\) 's kasil iku apa wong sing ana ing perawatan utawa kontrol kondisi. Ing tembung liyane, iku wiwit yen wong \(i\) ora pengaruh perawatan diwenehi kanggo wong liya. Iki kadhangkala disebut "no interference" utawa "no spillovers", lan bisa ditulis minangka:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
ngendi \(\mathbf{W_{-i}}\) minangka vektor status perawatan kanggo saben wong kajaba wong \(i\) . Salah siji cara sing bisa dilanggar yaiku yen perawatan saka siji wong tumpah liwat marang wong liya, kanthi positif utawa negatif. Bali menyang Restivo lan ekspor van de Rijt, mbayangno loro kanca \(i\) lan \(j\) lan wong \(i\) nampi barnstar lan \(j\) ora. Menawa \(i\) nampa barnstar nyebabake \(j\) kanggo nyunting luwih (metu saka rasa persaingan) utawa nyunting kurang (metu saka rasa ora kentekan niat), banjur SUTVA wis dilanggar. Uga bisa dilanggar manawa pangaruh perawatan gumantung saka jumlah total wong liya sing nampa perawatan kasebut. Contone, yen Restivo lan van de Rijt wis menehi 1,000 utawa 10.000 barnstar tinimbang 100, iki bisa nyebabake efek saka nampa barnstar.
Masalah kaping pindho ing SUTVA minangka asumsi yen perawatan sing cocog mung minangka peneliti; anggepan iki kadhangkala ora disebut pangobatan sing didhelikake utawa ora bisa ditemokake . Contone, ing Restivo lan van de Rijt, bisa uga kasus kasebut kanthi menehi barnstar para peneliti nyebabake editor bisa ditampilake ing kaca editors populer lan sing ana ing kaca editors populer-tinimbang nampa barnstar- sing nyebabake owah-owahan ing editing behavior. Yen pancen bener, efek saka barnstar ora bisa dibedakake saka efek saka kaca editors sing populer. Temtu, ora jelas yen, saka perspektif ilmiah, iki kudu dianggep atraktif utawa ora menarik. Dadi, sampeyan bisa mbayangno peneliti nyatake yen efek saka nampa barnstar kalebu kabeh perawatan sabanjure sing barnstar micu. Utawa sampeyan bisa mbayangno kahanan ing ngendi riset bakal ngisolasi efek barnstars saka kabeh iki liyane. Salah siji cara kanggo mikir babagan iku kanggo takon yen ana apa-apa sing ndadékaké menyang apa Gerber and Green (2012) (kaca 41) nelpon "breakdown ing simetri"? Ing tembung liya, ana apa-apa liyane saka perawatan sing nyebabake wong ing kondisi perawatan lan kontrol kanggo dianggep beda? Masalah babagan pemecahan symmetry yaiku pasien sing mimpin kelompok kontrol ing medis kanggo njupuk pil placebo. Mangkono, peneliti bisa yakin yen mung beda antarane loro kondisi iku obat nyata lan ora pengalaman njupuk pil.
Kanggo luwih saka SUTVA, waca bagean 2.7 saka Gerber and Green (2012) , bagean 2.5 Morgan and Winship (2014) , lan bagean 1.6 saka Imbens and Rubin (2015) .
Precision
Ing bagean sadurunge, Aku wis nggambarake carane ngestimasi efek perawatan rata-rata. Ing bagean iki, aku bakal nyedhiyani sawetara gagasan babagan variabilitas perkiraan kasebut.
Yen sampeyan mikir babagan ngitung efek perawatan rata-rata minangka ngitung prabédan antarane rong saran sampel, banjur bisa nuduhake yen kesalahan standar efek perawatan rata-rata yaiku:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
ngendi \(m\) wong ditugasake kanggo perawatan lan \(Nm\) kanggo ngontrol (pirsani Gerber and Green (2012) , eq. Dadi, nalika mikir babagan pirang-pirang wong sing ditugasake kanggo perawatan lan pirang-pirang pengawas, sampeyan bisa ndeleng manawa yèn \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , sampeyan pengin \(m \approx N / 2\) , anggere biaya perawatan lan kontrol padha. Rumus 4.6 nerangake ngapa rancangane Bond lan kolega ' (2012) eksprimen babagan efek informasi sosial babagan pemungutan (angka 4.18) ora efisien babagan statistik. Elinga yen ana 98% peserta ing kondisi perawatan. Iki tegese yen perilaku sing ateges ing kondisi kontrol ora dianggep kanthi akurat minangka bisa, sing siji tegese yen prabédan sing ditemtokake antarane kondisi pangobatan lan kontrol ora ditemtokake kanthi akurat minangka bisa. Kanggo luwih akeh alokasi peserta kanggo kahanan optimal, kalebu nalika biaya beda antarane kondisi, deleng List, Sadoff, and Wagner (2011) .
Pungkasan, ing teks utama, aku nyatakake yen perkiraan beda-beda-beda, sing biasane digunakake ing desain campuran, bisa nimbulake variasi sing luwih cilik tinimbang prabédan sing beda-beda, sing biasane digunakake ing antar-subyek desain. Yen \(X_i\) iku nilai saka asil sadurunge perawatan, banjur jumlah sing kita nyoba kanggo ngira karo pendekatan beda-beda antarane:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Kesalahan standar kuantitas kasebut (waca Gerber and Green (2012) , lan 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
A comparison of eq. 4.6 lan liya-liyane. 4.8 ngungkapake yen pendekatan prabédan-beda-beda bakal duwe kesalahan standar sing luwih cilik nalika (pirsani Gerber and Green (2012) , lan 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Kira-kira, nalika \(X_i\) banget prediksi saka \(Y_i(1)\) lan \(Y_i(0)\) , sampeyan bisa nemtokake perkiraan sing luwih tepat saka pendekatan sing beda-beda tinimbang saka- saka-liya siji. Siji cara kanggo mikir babagan iki ing konteks Restivo lan eksperimen van de Rijt iku ana akeh variasi alami ing jumlah sing diowahi wong, saéngga iki mbandhingaké kondisi perawatan lan kontrol sing angel: angel kanggo ndeteksi relatif Efek cilik ing data hasil rame. Nanging yen sampeyan beda-beda variasi alami, banjur ana variasi sing luwih sithik, lan ndadekake luwih gampang ndeteksi efek cilik.
Deleng Frison and Pocock (1992) kanggo perbandingan sing beda-beda, bedane-beda, lan pendekatan sing adhedhasar ANCOVA ing setelan sing luwih umum ing ngendi ana pirang-pirang pangukuran pengobatan lan pasca perawatan. Secara khusus, padha banget ngusulake ANCOVA, sing durung dakanggep ing kene. Luwih, waca McKenzie (2012) kanggo diskusi babagan pentinge langkah-langkah panularan pasca-perawatan.