Mi pensas, ke la plej bona maniero por kompreni eksperimentojn estas la potenca rezultita kadro (kiun mi diskutis en la matematikaj notoj en ĉapitro 2). La potenca rezultita kadro havas proksimajn rilatojn al la ideoj de dezajno-bazita specimenado, kiun mi priskribis en ĉapitro 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Ĉi tiu apendico estis skribita tiel kiel emfazi tiun rilaton. Ĉi tiu emfazo estas iom ne-tradicia, sed mi opinias, ke la rilato inter sampado kaj eksperimentoj estas helpema: ĝi signifas, ke se vi scias ion pri sampado, tiam vi scias ion pri eksperimentoj kaj viceversa. Kiel mi montros en ĉi tiuj notoj, la potenca rezultita kadro malkaŝas la forton de hazardigitaj kontrolitaj eksperimentoj por taksado de kaŭzaj efikoj, kaj ĝi montras la limojn de kio povas esti farita kun eĉ perfekte ekzekutitaj eksperimentoj.
En ĉi tiu apendico, mi priskribos la eblajn rezultajn kadrojn, duobligante iujn el la materialo de la matematikaj notoj en ĉapitro 2 por fari ĉi tiujn notojn pli memstarajn. Tiam mi priskribos iujn helpemajn rezultojn pri la precizeco de taksoj de la mezumaj traktataj efikoj, inkluzive de diskuto pri optimuma atribuo kaj diferencaj diferencoj en diferencoj. Ĉi tiu apendico altiras tre je Gerber and Green (2012) .
Potencaj rezultaj kadro
Por ilustri la potencialan rezulton kadron, ni revenu al la eksperimento de Restivo kaj van de Rijt por taksi la efikon ricevi barnstelon pri estontaj kontribuoj al Vikipedio. La potenca rezultita kadro havas tri ĉefajn elementojn: unuoj , traktadoj kaj potencaj rezultoj . En la kazo de Restivo kaj van de Rijt, la unuoj estis merecedaj redaktistoj - tiuj en la plej alta 1% de kontribuantoj - kiuj ankoraŭ ne ricevis barnstelon. Ni povas indeksi tiujn redaktojn per \(i = 1 \ldots N\) . La traktadoj en ilia eksperimento estis "barnstar" aŭ "neniu barnstar", kaj mi skribos \(W_i = 1\) se persono \(i\) estas en la traktado kaj \(W_i = 0\) alie. La tria elemento de la potenca rezultita kadro estas la plej grava: la eblaj rezultoj . Ĉi tiuj estas iom pli malfacile malfacile ĉar ili implicas "potencajn" rezultojn - aferojn, kiuj povus okazi. Por ĉiu redaktisto de Vikipedio, oni povas imagi la nombron da redaktoj, kiujn ŝi farus en la kuracilo ( \(Y_i(1)\) ) kaj la nombro, kiun ŝi faros en la kontrolo ( \(Y_i(0)\) ).
Notu, ke ĉi tiu elekto de unuoj, traktadoj kaj rezultoj difinas, kion oni povas lerni de ĉi tiu eksperimento. Ekzemple, sen ajna suplementa supozo, Restivo kaj van de Rijt ne povas diri ion pri la efikoj de grekaĵoj en ĉiuj redaktistoj de Vikipedio aŭ pri rezultoj kiel redakta kvalito. Ĝenerale, la elekto de unuoj, traktadoj kaj rezultoj devas esti bazita sur la celoj de la studo.
Donita ĉi tiuj potencialaj rezultoj - kiuj estas resumitaj en tablo 4.5-unu povas difini la kaŭzan efikon de la traktado por persono \(i\) kiel
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Por mi, ĉi tiu ekvacio estas la plej klara maniero por difini kaŭzan efikon, kaj, kvankam ege simpla, ĉi tiu kadro rezultas ĝeneraligebla en multaj gravaj kaj interesaj manieroj (Imbens and Rubin 2015) .
Persono | Redaktoj en traktado kondiĉo | Eldonoj en kontrolo kondiĉo | Efekto de traktado |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
signifas | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Se ni difinas la kaŭzon de ĉi tiu maniero, tamen ni fariĝas problemo. En preskaŭ ĉiuj kazoj, ni ne atingas observi ambaŭ potencajn rezultojn. Tio estas, specifa redaktilo de Vikipedio aŭ ricevita barnstar aŭ ne. Sekve, ni observas unu el la eblaj rezultoj - \(Y_i(1)\) aŭ \(Y_i(0)\) sed ne ambaŭ. La nekapablo observi ambaŭ potencajn rezultojn estas tia grava problemo, ke Holland (1986) nomis ĝin la Fundamenta Problemo de Kaŭza Inkludo .
Feliĉe, kiam ni esploras, ni ne nur havas unu personon, ni havas multajn homojn, kaj ĉi tio proponas vojon ĉirkaŭ la Fundamenta Problemo de Kaŭza Konferenco. Prefere ol provi taksi la efikan traktan efikon, ni povas taksi la mezuran efikan traktadon:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Ĉi tio ankoraŭ esprimas laŭ la \(\tau_i\) kiuj estas neobservebla, sed kun iu algebro (Eq 2.8 de Gerber and Green (2012) ) ni ricevas
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Ekvacio 4.3 montras, ke se ni povas taksi la popularan rezulton sub la traktado ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) kaj la populara averaĝa rezulto sub kontrolo ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), tiam ni povas taksi la averaĝan efikan traktadon, eĉ sen estimi la traktan efikon por iu aparta persono.
Nun, ke mi difinis nian korinklinon - la aferon, kiun ni provas taksi - Mi turnos sin al kiel ni povas efektive taksi ĝin per datumoj. Mi ŝatas pensi pri ĉi tiu korinklino kiel problemo de problemo (pensu reen al la matematikaj notoj en ĉapitro 3). Imagu, ke ni hazarde elektas iujn homojn observi en la traktado kaj ni hazarde elektas iujn homojn observi en la kontrolo-kondiĉo, tiam ni povas taksi la averaĝan rezulton en ĉiu kondiĉo:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
kie \(N_t\) kaj \(N_c\) estas la nombroj da homoj en la traktado kaj kontrolo-kondiĉoj. Ekvacio 4.4 estas diferencilo-de-rimedilo. Pro la specimena dezajno, ni scias, ke la unua termino estas senpaga komunaĵo por la averaĝa rezulto sub la kuracado kaj la dua termino estas senpaga konsililo sub kontrolo.
Alia maniero por pensi pri kio hazardigo ebligas, ke ĝi certigas, ke la komparo inter traktado kaj kontrolo-grupoj estas justa, ĉar hazarda aligo certigas, ke la du grupoj similas unu al la alia. Ĉi tiu simileco tenas por tio, kion ni mezuris (diras la nombro de redaktoj en la 30 tagoj antaŭ la eksperimento) kaj la aferojn, kiujn ni ne mezuris (diras sekso). Ĉi tiu kapablo certigi ekvilibron sur ambaŭ observitaj kaj nekontestataj faktoroj estas kritika. Por vidi la potencon de aŭtomata ekvilibro sur nekontestataj faktoroj, ni imagu, ke estonta esplorado trovos, ke homoj pli respondas al premioj ol virinoj. Ĉu tio nevalidigas la rezultojn de la eksperimento de Restivo kaj van de Rijt? Ne hazarde, ili certigis, ke ĉiuj neobserveblaj estus ekvilibrigitaj, atendante. Ĉi tiu protekto kontraŭ la nekonata estas tre potenca, kaj ĝi estas grava maniero, ke eksperimentoj diferencas al la ne-eksperimentaj teknikoj priskribitaj en ĉapitro 2.
Krom difini la traktan efikon por tuta loĝantaro, ĝi eblas difini traktan efikon por subaro de homoj. Ĉi tio estas tipe (nomita, vokis) kondiĉita averaĝa traktado efiko (CATE). Ekzemple, en la studo de Restivo kaj van de Rijt, ni imagu, ke \(X_i\) estas ĉu la redaktoro estis supre aŭ sub la meza numero de redaktoj dum la 90 tagoj antaŭ la eksperimento. Oni povus kalkuli la traktan efikon aparte por ĉi tiuj lumo kaj pezaj redaktantoj.
La potenca rezulta kadro estas potenca maniero pensi pri kaŭzaj konferencoj kaj eksperimentoj. Tamen, ekzistas du pliaj komplikecoj, kiujn vi devas konsideri. Ĉi tiuj du kompleksecoj ofte estas kunigitaj sub la termino Stable Unit Treatment Value Assumption (SUTVA). La unua parto de SUTVA estas la supozo, ke la sola afero, kiu rilatas al la rezulto de persono \(i\) estas), ĉu tiu persono estis en la traktado aŭ kontrolo. Alivorte, oni supozas, ke la persono \(i\) ne efikas la traktado donita al aliaj homoj. Ĉi tio foje estas nomata "neniu interferencia" aŭ "neŝanĝado", kaj povas esti skribita kiel:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
kie \(\mathbf{W_{-i}}\) estas vektoro de kuracaj statusoj por ĉiuj krom persono \(i\) . Unu maniero, ke ĉi tio povas esti seksperfortita, estas se la traktado de unu persono verŝas al alia persono, ĉu pozitive aŭ negative. Revenante al Restivo kaj la eksperimento de Van de Rijt, imagu du amikojn \(i\) kaj \(j\) kaj tiu persono \(i\) ricevas barnstar kaj \(j\) ne. Se \(i\) ricevanta la barnstaron kaŭzas \(j\) por redakti pli (sen sento de konkurenco) aŭ redakti malpli (sen sento de malespero), tiam SUTVA estis malobservita. Ĝi ankaŭ povas esti seksperfortita se la efiko de la traktado dependas de la tuta nombro da aliaj homoj ricevantaj la traktadon. Ekzemple, se Restivo kaj van de Rijt donacis 1,000 aŭ 10,000 milŝtonojn anstataŭ 100, ĉi tio povus efiki la efikon ricevi barnstaron.
La dua afero interrompita en SUTVA estas la supozo, ke la sola grava traktado estas tiu, kiun la esploristo liveras; Ĉi tiu supozo estas foje nomata ne kaŝitaj traktadoj aŭ ekskludo . Ekzemple, en Restivo kaj van de Rijt, eble okazis, ke donante greka stelo la esploristoj kaŭzis redaktistojn aperi en populara redaktpaĝo kaj ke ĝi estis en la populara redaktpaĝo-anstataŭ ricevi barnstar- kiu kaŭzis la ŝanĝon en redaktado. Se ĉi tio estas vera, tiam la efiko de la greka stelo ne estas distingebla de la efiko de esti sur la populara redaktpaĝo. Kompreneble, ne estas certe, se, de scienca perspektivo, ĉi tio devus esti konsiderita alloga aŭ netaŭga. Tio estas, vi povus imagi, ke esploristo diras, ke la efekto ricevado de greka stelo inkluzivas ĉiujn postajn traktadojn, kiujn la stelo deĵorigas. Aŭ vi povus imagi situacion, kie esplorado volus izoli la efikon de grekaĵoj de ĉio ĉi. Unu maniero por pensi pri tio estas demandi, ĉu estas io, kio kondukas al kio Gerber and Green (2012) (p. 41) nomas "rompo en simetrio"? Alivorte, ĉu ekzistas io alia ol la traktado, kiu kaŭzas homojn en la traktado kaj kontrolo de kondiĉoj por esti traktataj malsame? Koncernoj pri simetria rompado estas kio pliaj pacientoj en la kontrola grupo en medicinaj provoj prenas lokan pilolon. De ĉi tiu maniero, la investigadores povas certigi ke la sola diferenco inter la du kondiĉoj estas la reala medicino kaj ne la sperto de preni la pilolon.
Por pli da pri SUTVA, vidu sekcion 2.7 de Gerber and Green (2012) , sekcio 2.5 de Morgan and Winship (2014) , kaj sekcio 1.6 de Imbens and Rubin (2015) .
Precizeco
En la antaŭa sekcio, mi priskribis kiel taksi la averaĝan traktadon. En ĉi tiu sekcio, mi donos iujn ideojn pri la variablo de tiuj taksoj.
Se vi pensas pri taksado de la averaĝa traktado efektive kiel taksante la diferencon inter du specimeno, tiam eblas montri, ke la norma eraro de la averaĝa traktado efektive estas:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
kie \(m\) homoj asignitaj al traktado kaj \(Nm\) por kontroli (vidu Gerber and Green (2012) , eq. 3.4). Tiel, kiam vi pensas pri kiom da homoj asigni al la traktado kaj kiom da asigni kontrolon, vi povas vidi, ke se \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , tiam vi volas \(m \approx N / 2\) , kondiĉe ke la kostoj de traktado kaj kontrolo estas samaj. Ekvacio 4.6 klarigas kial la eksperimento de Bond kaj kolegoj (2012) pri la efikoj de sociaj informoj pri balotado (figuro 4.18) estis ineficie statistike. Memoru, ke ĝi havas 98% de partoprenantoj en la traktado. Ĉi tio signifis, ke la duona konduto en la kontrolo-kondiĉo ne estis taksita precize kiel ĝi povus esti, kio siavice signifis, ke la taksita diferenco inter la traktado kaj kontrolo-kondiĉo ne estis taksita precize kiel ĝi povus esti. Por pli da optimuma atribuo de partoprenantoj al kondiĉoj, inkluzive kiam kostoj diferencas inter kondiĉoj, vidu List, Sadoff, and Wagner (2011) .
Fine, en la ĉefa teksto, mi priskribis, kiel diferenca diferencilo, kiu estas kutime uzata en miksita dezajno, povas konduki al pli malgranda varianco ol diferenca-en-rimedilo, kiu estas kutime uzata inter interjektoj dezajno. Se \(X_i\) estas la valoro de la rezulto antaŭ kuracado, tiam la kvanto, kiun ni provas taksi kun la diferenco-en-diferenca aliro estas:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
La norma eraro de tiu kvanto estas (vidu Gerber and Green (2012) , kvadrata 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Komparo de eq. 4.6 kaj eq. 4.8 malkaŝas, ke la diferenco-en-diferenca aliro havas pli malgrandan norman eraron kiam (vidu Gerber and Green (2012) , kvadrata 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Malmulte, kiam \(X_i\) estas tre antaŭdirema de \(Y_i(1)\) kaj \(Y_i(0)\) , tiam vi povas akiri pli precizajn taksojn de diferenco de diferencoj alproksimiĝanta ol de diferenco- de-signifas unu. Unu maniero por pensi pri tio en la kunteksto de la eksperimento de Restivo kaj van de Rijt estas, ke ekzistas multe da natura variado en la kvanto, kiun homoj redaktas, do tio komparas la traktadon kaj kontrolon de malfacilaj kondiĉoj: malfacile detektas parencon Malgranda efiko en bruaj rezultaj datumoj. Sed se vi diferencas ĉi tiun naturan variecon, tiam estas multe malpli variebleco, kaj tio faciligas detekti malgrandan efikon.
Vidu Frison and Pocock (1992) por preciza komparo de diferenco-de-rimedoj, diferencoj de diferencoj, kaj bazitaj en ANCOVA en la plej ĝenerala agado, kie estas pluraj antaŭdrapoj kaj post-traktado. En aparta, ili forte rekomendas ANCOVA, kiun mi ne kovris ĉi tie. Plue, vidu McKenzie (2012) por diskuto pri la graveco de multaj postulataj rezultaj mezuroj.