Matematiniai užrašai

Manau, kad geriausias būdas suprasti eksperimentus yra galimų rezultatų sistema (apie kurią aptariau 2 skyriuje pateiktose matematinėse pastabose). Potencialių rezultatų sistema yra glaudžiai susijusi su modeliu pagrįstos atrankos idėjomis, kurias aš aprašiau 3 skyriuje (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Šis priedas buvo parašytas taip, kad pabrėžtų šį ryšį. Šis akcentas yra šiek tiek netradicinis, tačiau manau, kad ryšys tarp mėginių ėmimo ir eksperimentų yra naudingas: tai reiškia, kad jei žinote ką nors apie mėginių ėmimą, jūs ką nors žinote apie eksperimentus ir atvirkščiai. Kaip parodysiu šiuose pastabose, galimų rezultatų sistema atskleidžia atsitiktinių imčių kontroliuojamų eksperimentų, skirtų priežastiniams poveikiams įvertinti, stiprumą, ir tai rodo, ką galima padaryti net ir puikiai atliktais eksperimentais.

Šiame priede apibūdinsiu galimų rezultatų sistemą, dubliuojančią tam tikrą medžiagą iš 2 skyriuje pateiktų matematinių užrašų, kad šios pastabos būtų labiau savarankiškos. Tada apibūdinsiu kai kuriuos naudingus rezultatus apie vidutinio gydymo efekto įverčių tikslumą, įskaitant optimalaus paskirstymo ir skirtingų skirtumų įvertinimų aptarimą. Šis priedas daugiausia remiasi Gerber and Green (2012) .

Galimų rezultatų sistema

Norint parodyti galimų rezultatų sistemą, grįžkime į "Restivo" ir "van de Rijt" eksperimentą, kad įvertintume "barnstar" priėmimo poveikį būsimiems "Wikipedia" įnašams. Galimų rezultatų sistema turi tris pagrindinius elementus: vienetus , gydymo būdus ir galimus rezultatus . "Restivo" ir "van de Rijt" atveju vienetai buvo vertieji redaktoriai - tie, kurie buvo įtraukti į viršų 1% dalyvių, kurie dar negavo "barnstar". Galime indeksuoti šiuos redaktorius naudodami \(i = 1 \ldots N\) . Eksperimento procedūros buvo "barnstar" arba "no barnstar", ir aš \(W_i = 1\) jei asmuo \(i\) yra gydymo būklėje ir \(W_i = 0\) kitaip. Trečias galimų rezultatų sistemos elementas yra svarbiausias: galimi rezultatai . Tai yra šiek tiek konceptualiai sunku, nes jie apima "potencialius" rezultatus - tai gali įvykti. Kiekvienam Vikipedijos redaktoriui galima įsivaizduoti, kokius pakeitimus jis padarys gydymo būsenoje ( \(Y_i(1)\) ) ir skaičius, kurį ji padarys kontrolės sąlygomis ( \(Y_i(0)\) )

Atkreipkite dėmesį, kad šis pasirinkimas vienetų, procedūrų ir rezultatų apibrėžia tai, ką galima sužinoti iš šio eksperimento. Pavyzdžiui, be papildomų prielaidų, "Restivo" ir "van de Rijt" nieko negali pasakyti apie "barnstars" poveikį visiems Vikipedijos redaktoriams arba apie rezultatus, pavyzdžiui, apie redagavimo kokybę. Apskritai, vienetų pasirinkimas, gydymas ir rezultatai turi būti pagrįsti tyrimo tikslais.

Atsižvelgiant į šiuos potencialius rezultatus, kurie apibendrinti 4.5 lentelėje, galima apibrėžti gydymo priežastinį poveikį asmeniui \(i\) kaip

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Man lygybė yra aiškiausias būdas apibrėžti priežastinį poveikį ir, nors ir labai paprastas, ši sistema tampa apibendrinama daugeliu svarbių ir įdomių būdų (Imbens and Rubin 2015) .

4.5 lentelė. Galimų rezultatų lentelė
Asmuo Redaguoti gydymo būklę Pakeitimai kontrolės sąlygomis Gydymo efektas
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
vidutinis \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Tačiau tokiu būdu nustatydami priežastinį ryšį, mes susiduriame su problema. Beveik visais atvejais negalime stebėti abiejų galimų rezultatų. Tai reiškia, kad konkretus Vikipedijos redaktorius gavo "Barnstar" arba ne. Todėl pastebime vieną iš galimų rezultatų: \(Y_i(1)\) arba \(Y_i(0)\) -bet ne abu. Nesugebėjimas stebėti abu potencialius rezultatus yra tokia didelė problema, kurią Holland (1986) Pavadino pagrindine priežasties priežastimi .

Laimei, kai mes atliekame mokslinius tyrimus, mes neturime vienintelio asmens, turime daug žmonių, ir tai suteikia pagrindą pagrindinei priežasties priežasties problemai spręsti. Užuot bandę įvertinti individualaus gydymo efektą, galime įvertinti vidutinį gydymo efektą:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Tai vis dar išreiškiama \(\tau_i\) kurios yra nepastebimos, bet su tam tikra algebra ( Gerber and Green (2012) Eq 2.8), gauname

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Lygtis 4,3 rodo, kad, jei galime įvertinti bendrą populiacijos vidurkį rezultatus pagal gydymo ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) ir populiacijos dalies vidurkis baigčiai kontrolės ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), tuomet mes galime įvertinti vidutinį gydymo efektą netgi nenaudodami jokio konkretaus asmens gydymo efekto.

Dabar, kai aš nustatėme savo vertinimą - tai, ką mes stengiamės įvertinti - aš atsiversiu, kaip mes iš tiesų galime jį įvertinti su duomenimis. Man patinka galvoti apie šį įvertinimo iššūkį kaip atrankos problemą (grįžti prie 3 skyriuje pateiktų matematinių pastabų). Įsivaizduokite, kad atsitiktinai pasirinkome kai kuriuos žmones, kad stebėtų gydymo būklę, ir atsitiktinai pasirinkome kai kuriuos žmones stebint kontrolės būklę, tada galime įvertinti kiekvieno būdo vidutinį rezultatą:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

kur \(N_t\) ir \(N_c\) yra žmonių skaičius gydymo ir kontrolės sąlygomis. 4.4 lygtis yra skirtumo tarpas įvertinimas. Dėl atrankos modelio mes žinome, kad pirmasis terminas yra objektyvus vidurkio vertinimo rezultatas, o antrasis terminas yra neobjektyvus vertinimas.

Kitas būdas galvoti apie tai, ką leidžia atsitiktinumas, yra tai, kad užtikrinama, kad gydymo ir kontrolinių grupių palyginimas yra teisingas, nes atsitiktinės atrankos būdu užtikrinama, kad abi grupės panašios viena į kitą. Tai panaši į dalykus, kuriuos mes išmatavome (pasakykite pakeitimų skaičių per 30 dienų iki eksperimento) ir dalykus, kurių mes nevertinome (pasakykite lyties). Šis gebėjimas užtikrinti stebimų ir nepastebimų veiksnių pusiausvyrą yra labai svarbus. Norėdami pamatyti automatinio balanso galios nepaisyti veiksnius, įsivaizduokite, kad būsimi tyrimai parodo, kad vyrai labiau reaguoja į apdovanojimus nei moterys. Ar tai paneigtų Restivo ir van de Rijto eksperimento rezultatus? Ne. Atsitiktinės atrankos būdu jie užtikrino, kad visi nepastebimai bus lanksčiai suvienodinti. Ši apsauga nuo nežinomos yra labai galinga, ir tai yra svarbus būdas, kad eksperimentai skiriasi nuo 2 skyriuje aprašytų neeksperimentinių metodų.

Be to, kad apibrėžtų gydymo poveikį visai gyventojų grupei, galima apibrėžti gydymo poveikį žmonių grupei. Tai paprastai vadinama sąlyginiu vidutiniu gydymo efektu (CATE). Pavyzdžiui, "Restivo" ir "van de Rijt" tyrime, įsivaizduokime, kad \(X_i\) yra tai, ar per 90 dienų iki eksperimento redaktorius buvo didesnis arba mažesnis už vidinį pakeitimų skaičių. Galima atskirai apskaičiuoti gydymo efektą šiems lengviesiems ir sunkiems redaktoriams.

Potencialių rezultatų sistema yra galingas būdas galvoti apie priežastines išvadas ir eksperimentus. Tačiau yra dvi papildomos sudėtingos problemos, kurias turėtumėte nepamiršti. Šie du sudėtingumai dažnai suskaidomi kartu pagal sąvoką " stabilus vieneto gydymo pranašumas" (SUTVA). Pirmoji SUTVA dalis yra prielaida, kad vienintelis dalykas, kuris yra svarbus asmens \(i\) rezultatui, yra tai, ar tas asmuo buvo gydymo ar kontrolės sąlygomis. Kitaip tariant, daroma prielaida, kad asmeniui \(i\) neturi įtakos kitų žmonių elgesys. Tai kartais vadinama "jokiu trikdymu" arba "be perviršio", ir gali būti parašyta taip:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

kur \(\mathbf{W_{-i}}\) yra gydymo būsenų vektorius visiems, išskyrus asmenį \(i\) . Vienas iš būdų, kaip tai gali būti pažeista, yra tai, ar gydymas iš vieno asmens išsiskiria į kitą asmenį, teigiamai ar neigiamai. Grįžę į "Restivo" ir van de Rijto eksperimentą, įsivaizduokite du draugus \(i\) ir \(j\) o tas asmuo \(i\) gauna barnstar'ą ir \(j\) neturi. Jei \(i\) gaunant barnstar sukelia \(j\) redaguoti daugiau (neatsižvelgiant į konkurencijos jausmą) arba redaguoti mažiau (neatsiradus nevilties), tada SUTVA buvo pažeista. Tai taip pat gali būti pažeista, jei gydymo poveikis priklauso nuo to, kiek kitų gydytojų gauna. Pavyzdžiui, jei "Restivo" ir "van de Rijt" išdavė 1000 arba 10 000 "Barnstars" vietoj 100, tai galėjo turėti įtakos "Barnstar" gavimo poveikiui.

Antrasis klausimas suskaidytas į SUTVA - tai prielaida, kad vienintelis tinkamas gydymas yra tas, kurį pateikia mokslininkas; Ši prielaida kartais vadinama neapsaugotomis procedūromis ar išskyrimu . Pavyzdžiui, "Restivo" ir "van de Rijt" gali būti, kad "Barnstar" suteikimas mokslininkams paskatino redaktorių rodyti populiariose redaktorių puslapyje ir kad jis buvo populiariame redaktorių puslapyje, o ne "Barnstar" dėl to pasikeitė redagavimo elgesys. Jei tai tiesa, tada "Barnstar" poveikis nėra atskirtas nuo populiarių redaktorių puslapio poveikio. Žinoma, neaišku, ar iš mokslinės perspektyvos tai reikėtų laikyti patraukliu ar nepatraukliu. Tai reiškia, kad galėtumėte įsivaizduoti, kad mokslininkas teigia, kad "Barnstar" gavimo poveikis apima visus tolesnius gydymo būdus, kuriuos sukelia "Barnstar". Arba galite įsivaizduoti situaciją, kai moksliniai tyrimai norėtų izoliuoti "Barnstars" poveikį iš visų kitų šių dalykų. Vienas iš būdų pagalvoti apie tai - paklausti, ar yra kažkas, kas veda prie to, ką Gerber and Green (2012) (41 p.) Vadina "simetrijos sutrikimu"? Kitaip tariant, ar yra kitoks nei gydymas, dėl kurio žmonės gydymo ir kontrolės sąlygomis skirtingai elgiasi? Susirūpinimas dėl simetrijos pasipriešinimo yra tai, kokie širdies pacientai kontrolinės grupės medicininių bandymų metu vartoja placebo tabletes. Tokiu būdu mokslininkai gali būti tikri, kad vienintelis skirtumas tarp dviejų sąlygų yra faktinis vaistas, o ne vartojimo tabletės patirtis.

Daugiau informacijos apie SUTVA rasite " Gerber and Green (2012) 2.7 skyriuje, " Morgan and Winship (2014) 2.5 skirsnyje Morgan and Winship (2014) Ir Imbens and Rubin (2015) 1.6 skirsnyje.

Tikslumas

Ankstesniame skyriuje aprašiau, kaip apskaičiuoti vidutinį gydymo efektą. Šiame skyriuje pateikiu keletą idėjų apie šių įvertinimų kintamumą.

Jei manote apie vidutinį gydymo efektą, apskaičiuojant skirtumą tarp dviejų imties priemonių, galima parodyti, kad vidutinė gydymo efekto standartinė paklaida yra:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

kur \(m\) žmonėms priskiriamas gydymas ir \(Nm\) kontroliuoti (žr. Gerber and Green (2012) , 3.4 ekv.). Taigi, kai galvoju apie tai, kiek žmonių priskirti gydymui ir kiek priskirti kontrolei, matysite, kad \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , tada norite \(m \approx N / 2\) , jei gydymo ir kontrolės išlaidos yra vienodos. 4.6 lygtis paaiškina, kodėl Bondo ir kolegų (2012) Eksperimento dėl socialinės informacijos poveikio balsavimui schema (4.18 pav.) Modelis statistiškai neefektyvus. Prisiminkite, kad gydymo būklė buvo 98% dalyvių. Tai reiškė, kad vidutinis elgesys kontrolinėje būklėje nebuvo įvertintas taip tiksliai, kaip galėjo būti, o tai savo ruožtu reikštų, kad apskaičiuotas skirtumas tarp gydymo ir kontrolės būklės nebuvo įvertintas taip tiksliai, kaip jis galėjo būti. Norėdami sužinoti daugiau apie optimalų dalyvių paskirstymą sąlygoms, įskaitant išlaidas, kai sąlygos skiriasi, žr. List, Sadoff, and Wagner (2011) .

Galiausiai pagrindiniame tekste aš apibūdino, kaip skirtingų skirtumų įvertinimo priemonė, kuri paprastai naudojama mišraus dizaino, gali lemti mažesnę dispersiją nei skirtumas į įverčius, kuris dažniausiai naudojamas tarp subjektų dizainas. Jei \(X_i\) yra rezultato reikšmė prieš gydymą, tada kiekis, kurį mes stengiamės įvertinti su skirtingų skirtumų metodu:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Standartinė šio kiekio paklaida (žr. Gerber and Green (2012) , ekvivalentas 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Eq. 4.6 ir ekv. 4.8 atskleidžia, kad skirtingų skirtumų metodas turės mažesnę standartinę paklaidą, kai (žr. Gerber and Green (2012) , 4.6 ekvivalentas)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Apytiksliai, kai \(X_i\) yra labai prognozuojamas \(Y_i(1)\) ir \(Y_i(0)\) , tuomet galite gauti tikslesnius įvertinimus iš skirtingo požiūrio, vienas-tai reiškia. Vienas iš būdų tai pamąstyti Restivo ir van de Rijto eksperimento kontekste rodo, kad natūraliai skiriasi tokio dydžio, kiek žmonės redaguoja, taigi sunku palyginti gydymo ir kontrolės sąlygas: sunku nustatyti giminaičio mažas efektas triukšminguose rezultatuose. Bet jei pasikeisite šio natūraliai pasitaikančio kintamumo, tada yra daug mažiau kintamumo, todėl lengviau nustatyti nedidelį poveikį.

Žr. Frison and Pocock (1992) tiksliai palyginti skirtumus tarp priemonių, skirtumų skirtumus ir ANCOVA metodus bendresnėje aplinkoje, kai yra atliekami keli matavimai prieš gydymą ir po gydymo. Visų pirma jie primygtinai rekomenduoja ANCOVA, kurį čia neaptinku. Be to, žr. McKenzie (2012) , kuriame aptariama po kelių gydymo rezultatų požymių svarba.