Es domāju, ka labākais veids, kā izprast eksperimentus, ir potenciālo rezultātu sistēma (ko es apsprieda 2. nodaļas matemātiskajās piezīmēs). Potenciālajiem rezultātu sistēmai ir ciešas attiecības ar dizainparaugu paraugu ņemšanas idejām, kuras es aprakstīju 3. nodaļā (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Šis pielikums ir uzrakstīts tā, lai uzsvērtu šo savienojumu. Šis uzsvars ir mazliet netradicionāls, taču es domāju, ka saikne starp paraugu ņemšanu un eksperimentiem ir noderīga: tas nozīmē, ka, ja kaut ko kaut ko zinās par paraugu ņemšanu, tad jūs zināt kaut ko par eksperimentiem un otrādi. Kā es parādīšu šajās piezīmēs, potenciālo rezultātu sistēma atklāj nejaušu kontrolētu eksperimentu spēku, lai novērtētu cēloņsakarības efektus, un tas parāda ierobežojumus, ko var izdarīt ar pat pilnīgi izpildītiem eksperimentiem.
Šajā pielikumā es raksturošu potenciālo rezultātu sistēmu, dublējot dažus materiālus no 2. nodaļas matemātiskajām piezīmēm, lai padarītu šīs piezīmes neatkarīgākas. Tad es aprakstīšu dažus noderīgus rezultātus par vidējo ārstēšanas efektu aplēšu precizitāti, ieskaitot diskusiju par optimālu sadalījumu un atšķirībām starpības novērtējumos. Šis pielikums lielā mērā balstās uz Gerber and Green (2012) .
Potenciālo rezultātu sistēma
Lai ilustrētu potenciālo rezultātu struktūru, atgriezīsimies Restivo un van de Rijta eksperimentā, lai novērtētu ietekmi, kāda ir barnstar saņemšanai par nākotnes iemaksām Wikipedia. Potenciālajiem rezultātu sistēmai ir trīs galvenie elementi: vienības , ārstēšana un iespējamie rezultāti . Attiecībā uz Restivo un van de Rijt vienības bija pelnījuši redaktorus - tos, kas bija iekļauti 1% no visiem ieguldītājiem - kuri vēl nebija saņēmuši barnstar. Mēs varam indeksēt šos redaktorus ar \(i = 1 \ldots N\) . Procedūrās eksperimentā bija "barnstar" vai "no barnstar", un es rakstīšu \(W_i = 1\) ja persona \(i\) atrodas ārstēšanas stāvoklī un \(W_i = 0\) citādi. Potenciālo rezultātu sistēmas trešais elements ir vissvarīgākais: potenciālie rezultāti . Šie ir mazliet konceptuāli grūti, jo tie ietver "potenciālos" rezultātus - lietas, kas varētu notikt. Katram Vikipēdijas redaktoram var iedomāties, cik rediģējumu viņš veiks ārstēšanas nosacījumos ( \(Y_i(1)\) ) un skaitli, ko viņa varētu veikt kontroles nosacījumos ( \(Y_i(0)\) )
Ņemiet vērā, ka šis vienību izvēle, apstrāde un rezultāti nosaka to, ko var iegūt no šī eksperimenta. Piemēram, bez jebkādiem papildu pieņēmumiem, Restivo un van de Rijt nevar pateikt neko par barnstars ietekmi uz visiem Wikipedia redaktoriem vai par rezultātiem, piemēram, rediģēšanas kvalitāti. Parasti vienību, ārstēšanas un rezultātu izvēlei jābalstās uz pētījuma mērķiem.
Ņemot vērā šos potenciālos rezultātus, kas apkopoti 4.5. Tabulā, var definēt ārstēšanas cēloņspēju personai \(i\) kā
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Man šis vienādojums ir visskaidrākais veids, kā definēt cēloņsakarību, un, lai gan tas ir ārkārtīgi vienkāršs, šī sistēma daudzos svarīgos un interesantos veidos (Imbens and Rubin 2015) vispārināma (Imbens and Rubin 2015) .
Persona | Labojumi ārstēšanas stāvoklī | Rediģējumi kontroles stāvoklī | Ārstēšanas efekts |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
nozīmē | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Ja mēs šādi definējam cēloņsakarību, tomēr mēs saskaramies ar problēmu. Gandrīz visos gadījumos mēs nespējam ievērot abus potenciālos rezultātus. Tas nozīmē, ka konkrēts Vikipēdijas redaktors ir saņēmis Barnstar vai ne. Tāpēc mēs novērojam vienu no potenciālajiem rezultātiem - \(Y_i(1)\) vai \(Y_i(0)\) ne abi. Nevar sasniegt abus potenciālos rezultātus, ir tāda liela problēma, ka Holland (1986) sauc par primāro secinājumu fundamentālo problēmu .
Par laimi, kad mēs veicam pētniecību, mums ne tikai ir viena persona, mums ir daudz cilvēku, un tas piedāvā ceļu pie fundamentāla iemesla, kas saistīts ar cēloņsakarību. Tā vietā, lai mēģinātu novērtēt individuālā līmeņa ārstēšanas efektu, mēs varam novērtēt vidējo ārstēšanas efektu:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Tas joprojām izpaužas kā \(\tau_i\) kas nav \(\tau_i\) , bet ar dažiem \(\tau_i\) ( Gerber and Green (2012) Eq 2.8), mēs saņemam
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Equation 4.3 rāda, ka, ja mēs varam novērtēt populācijas vidējais iznākumu saskaņā ar ārstēšanu ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) un populācijas vidējais iznākumu saskaņā ar kontroli ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), tad mēs varam novērtēt vidējo ārstēšanas efektu, pat neņemot vērā ārstēšanas efektu konkrētai personai.
Tagad, kad esmu definējis mūsu novērtējumu - to, ko mēs cenšamies novērtēt - es vēršos pie tā, kā mēs to faktiski varam novērtēt ar datiem. Man patīk domāt par šo aplēses problēmu kā paraugu ņemšanas problēmu (atcerieties matemātiskās piezīmes 3. nodaļā). Iedomājieties, ka mēs nejauši izvēlamies dažus cilvēkus novērot ārstēšanas stāvoklī, un mēs nejauši izvēlamies dažus cilvēkus novērot kontroles stāvoklī, tad mēs varam novērtēt vidējo rezultātu katrā stāvoklī:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
kur \(N_t\) un \(N_c\) ir cilvēku skaits apstrādes un kontroles apstākļos. 4.4. Vienādojums ir starpības novērtējuma novērtētājs. Ņemot vērā izlases veidošanas metodi, mēs zinām, ka pirmais termins ir objektīvs novērtējums vidējam ārstēšanas rezultātam un otrais termins ir objektīvs novērtējums.
Vēl viens veids, kā domāt par to, ko ļauj randomizēt, ir tas, ka tiek nodrošināts, ka salīdzinājums starp ārstēšanas un kontroles grupām ir taisnīgs, jo nejaušība nodrošina, ka abas grupas atgādinās viens otru. Šī līdzība attiecas uz lietām, ko mēs esam izmērījuši (teiksim, rediģējumu skaitu 30 dienas pirms eksperimenta) un par lietām, kuras mēs neesam izmērījuši (teiksim dzimumu). Šī spēja nodrošināt līdzsvaru starp novērotajiem un neievērotajiem faktoriem ir kritiska. Lai redzētu iespēju automātiski līdzsvarot neievērotus faktorus, pieņemsim, ka turpmākajos pētījumos atklājas, ka vīrieši ir vairāk reaģējuši uz balvām nekā sievietes. Vai tas atceltu Restivo un van de Rijta eksperimenta rezultātus? Nē. Pēc nejaušības principa tie nodrošināja, ka visi neobservatīvi būtu līdzsvaroti, gaidot. Šī aizsardzība pret nezināmu ir ļoti spēcīga, un eksperimentu būtisks veids atšķiras no 2. nodaļā aprakstītajām neeksperimentālajām metodēm.
Papildus ārstēšanas efekta noteikšanai veselam iedzīvotājam ir iespējams noteikt ārstēšanas efektu cilvēku daļai. To parasti sauc par nosacītu vidējo ārstēšanas efektu (CATE). Piemēram, Restivo un van de Rijta pētījumā pieņemsim, ka \(X_i\) ir tas, vai 90 dienu laikā pirms eksperimenta redaktors bija virs vai zem vidējā \(X_i\) skaita. Šo vieglo un smago redaktoru var atsevišķi aprēķināt ārstēšanas efektu.
Potenciālo rezultātu sistēma ir spēcīgs veids, kā domāt par cēloņu secinājumiem un eksperimentiem. Tomēr jums ir jāņem vērā arī divas papildu sarežģītības. Šīs divas sarežģītības bieži tiek apvienotas ar terminu " stabila vienības ārstēšanas vērtības pieņēmums" (SUTVA). SUTVA pirmā daļa ir pieņēmums, ka vienīgā lieta, kas attiecas uz personas \(i\) iznākumu, ir tā, vai šī persona bija ārstēšanas vai kontroles stāvoklī. Citiem vārdiem sakot, tiek pieņemts, ka personai \(i\) neietekmē attieksme pret citiem cilvēkiem. To dažreiz sauc par "neiejaukšanās" vai "bez pārplūdes", un to var rakstīt kā:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
kur \(\mathbf{W_{-i}}\) ir ārstēšanas statusa vektors visiem, izņemot personu \(i\) . Viens no veidiem, kā to var pārkāpt, ir tas, vai ārstēšana no vienas personas noplūdes uz citu personu, vai nu pozitīvi, vai negatīvi. Atgriežoties pie Restivo un van de Rijta eksperimenta, iedomājieties divus draugus \(i\) un \(j\) un šī persona \(i\) saņem barnstar un \(j\) nav. Ja \(i\) saņem barnstar, izraisa \(j\) lai rediģētu vairāk (no konkurences izjūtas) vai rediģētu mazāk (no izmisuma sajūtas), tad SUTVA tika pārkāpts. To var arī pārkāpt, ja ārstēšanas ietekme ir atkarīga no kopējā citu ārstējošo personu skaita. Piemēram, ja Restivo un van de Rijt izsniedza 1000 vai 10000 barnstars, nevis 100, tas varētu ietekmēt sekas, kas saistītas ar barnstar saņemšanu.
Otrais jautājums, kas tika sadalīts SUTVA, ir pieņēmums, ka vienīgais atbilstošais režīms ir tas, ko nodrošina pētnieks; šo pieņēmumu dažreiz sauc par slēptu ārstēšanu vai izslēgšanu . Piemēram, Restivo un van de Rijt, var gadīties, ka, piešķirot barnstar, pētnieki izraisīja redaktoru popularizēšanu populārajā redaktora lapā un ka tā atrodas populārajā redaktora lapā, nevis saņēma barnstar- kas izraisīja pārmaiņas rediģēšanas darbībā. Ja tas ir taisnība, tad barnstar efekts nav atšķirīgs no tā, kā tā darbojas populārajā redaktora lapā. Protams, nav skaidrs, vai no zinātnes viedokļa tas būtu jāuzskata par pievilcīgu vai nepievilcīgu. Tas nozīmē, ka jūs varētu iedomāties, ka pētnieks apgalvo, ka sekas, kas saistītas ar barnstar saņemšanu, ietver visas turpmākās procedūras, kuras rada barnstar. Vai arī jūs varētu iedomāties situāciju, kurā pētījums vēlētos izolēt barnstars ietekmi no visām šīm citām lietām. Viens no veidiem, kā domāt par to, ir uzdot jautājumu, vai ir kaut kas, kas noved pie tā, ko Gerber and Green (2012) (41. lpp.) Sauc par "simetrijas sadalījumu"? Citiem vārdiem sakot, vai ir kaut kas cits kā ārstēšana, kas izraisa atšķirīgu attieksmi pret cilvēkiem ārstēšanas un kontroles apstākļos? Bažas par simetrijas izzušanu ir tas, ka medicīnisko izmēģinājumu laikā kontrolgrupā novēroti pacienti, kuri lieto placebo. Šādā veidā pētnieki var būt pārliecināti, ka vienīgā atšķirība starp abiem nosacījumiem ir faktiskā zāle, nevis tablešu lietošanas pieredze.
Plašāku informāciju par SUTVA sk. Imbens and Rubin (2015) Morgan and Winship (2014) 2.5. Iedaļā Gerber and Green (2012) , 2.5. Iedaļā un Imbens and Rubin (2015) 1.6. Imbens and Rubin (2015) .
Precizitāte
Iepriekšējā sadaļā esmu aprakstījis, kā novērtēt vidējo ārstēšanas efektu. Šajā sadaļā es sniegšu dažas idejas par šo aplēšu mainīgumu.
Ja jūs domājat par vidējās ārstēšanas efekta novērtēšanu, novērtējot starpību starp diviem paraugu līdzekļiem, tad var pierādīt, ka vidējā ārstēšanas efekta standartkļūda ir:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
kur \(m\) cilvēki, kuriem piešķirts ārstēšana un \(Nm\) lai kontrolētu (skat. Gerber and Green (2012) , 3. ek.). Tātad, ja domājat par to, cik daudz cilvēku piešķir ārstēšanai un cik tos var piešķirt kontrolei, jūs varat redzēt, ka, ja \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , tad jūs vēlaties \(m \approx N / 2\) , kamēr ārstēšanas un kontroles izmaksas ir vienādas. 4.6. Vienādojums paskaidro, kāpēc Bonda un kolēģu (2012) eksperimenta dizains par sociālās informācijas ietekmi uz balsošanu (4.18. Attēls) bija statistiski neefektīva. Atcerieties, ka ārstēšanas stāvoklī tā bija 98% dalībnieku. Tas nozīmē, ka vidējā uzvedība kontroles stāvoklī netika novērtēta tik precīzi, kā tas varētu būt bijis, kas savukārt nozīmēja, ka aprēķinātā atšķirība starp ārstēšanas un kontroles stāvokli netika novērtēta tik precīzi, kā tas varētu būt. Plašāku informāciju par dalībnieku optimālu sadali nosacījumos, tostarp, ja izmaksas atšķiras atkarībā no nosacījumiem, skatiet List, Sadoff, and Wagner (2011) .
Visbeidzot, galvenajā tekstā es aprakstīju, kā atšķirību atšķirību novērtēšanas rīks, ko parasti izmanto jauktā dizainā, var novest pie mazāka novirzes nekā starpības novērtējumā, ko parasti izmanto starppriekšmetos dizains. Ja \(X_i\) ir rezultāta vērtība pirms ārstēšanas, tad daudzums, ko cenšamies novērtēt ar atšķirību starpību pieejā, ir:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Šī kvantitātes standarta kļūda ir (skat. Gerber and Green (2012) , ekvivalents 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Eq. 4.6 un eq. 4.8. Rāda, ka atšķirību atšķirības pieejā būs mazāka standarta kļūda, kad (skat. Gerber and Green (2012) , 4.6. Eksemplārs)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Aptuveni, kad \(X_i\) ir ļoti prognozējams par \(Y_i(1)\) un \(Y_i(0)\) , tad jūs varat iegūt precīzākus aprēķinus no starpības atšķirību pieejas nekā no starpības- of-means one. Viens no veidiem, kā to domāt Restivo un van de Rijta eksperimenta kontekstā, ir tāds, ka cilvēkiem ir daudz veidu, kā rediģēt summu, tāpēc ir grūti salīdzināt ārstēšanas un kontroles nosacījumus: ir grūti noteikt relatīvu neliels efekts trokšņainos iznākuma datos. Bet, ja jūs atšķirat šo dabisko atšķirību, tad tas ir daudz mazāk mainīgs, un tas atvieglo neliela efekta noteikšanu.
Skatīt Frison and Pocock (1992) lai precīzi salīdzinātu starpību starp līdzekļiem, starpību atšķirībām un ANCOVA balstītas pieejas vispārīgākā vidē, kur ir vairāki mērījumi pirms ārstēšanas un pēcapstrādes. Jo īpaši viņi stingri iesaka ANCOVA, ko es šeit neaptveru. Turklāt skatīt McKenzie (2012) lai apspriestu vairāku post-ārstēšanas iznākuma pasākumu nozīmīgumu.