Mathematyske notysjes

Ik tink dat de bêste manier om eksperiminten te begripen is it potinsjele útkomstkader (dat ik yn 'e wiskunde yn haadstik 2 besprutsen). It potinsjele útkomst-ramt hat in hechte relaasje mei de ideeën út ûntwerp-basearre sampling dy't ik yn haadstik 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) beskreaun hat. Dizze appendeks is op sa'n manier skreaun, om dizze ferbining te betinken. Dizze klam is in bytsje net-tradysjoneel, mar ik tink dat de ferbining tusken sampling en eksperiminten nuttich is: it betsjuttet dat as jo wat fine oer sampling dan kinne jo wat oer eksperiminten en oarsom witte. As ik yn dizze notysjes sjen litte sil de potinsjele útkomstromte de krêft fan randomisearre kontrolearjende eksperiminten sjen litte foar it beskôgjen fan kausale effekten, en it lit de beheining fan wat mei dien wurde mei sels perfekte útfieringen.

Yn dit appendeksje sil ik it potinsjele útkomsteskema beskriuwe, duplikearje wat fan it materiaal fan 'e matematyske notysjes yn haadstik 2 om dizze nota mear selsbeheine te meitsjen. Dan sil ik in oantal nuttige resultaten beskriuwe oer de prestiizje fan skatten fan 'e gemiddelde behannelingseffekten, wêrûnder in diskusje oer optimale allocaasje en ferskillende ynferwiderjende skieders. Dizze appendyk lûkt swier op Gerber and Green (2012) .

Potinsjeel resultaten ramt

Om it potinsjele útkomsteskema wer te yllustrearjen, lit ús weromkomme op Restivo en van de Rijt's eksperimint om it effekt te krijen fan it krijen fan in barnstar op takomstige bydragen oan Wikipedia. It potinsjele rinnende ramt hat trije wichtige eleminten: ienheden , behannelingen en potinsjele resultaten . Yn it gefal fan Restivo en van de Rijt krigen de ienheden de redakteur - dy yn 'e top 1% fan de bydragen - dy't noch gjin barnstar krige. Wy kinne dizze redaksjes yndeksearje troch \(i = 1 \ldots N\) . De behannelingen yn har eksperiment wiene "barnstar" of "gjin barnstar", en ik sil \(W_i = 1\) as persoan \(i\) yn 't behannele betingst en \(W_i = 0\) oars is. It tredde elemint fan it potinsjele útkomst kader is it wichtichste: de potinsjele resultaten . Dizze binne wat mear konseptysk dreech om't se "potensjele" resultaten bewege - dingen dy't barre kinne. Foar elke Wikipedia bewurker kin men it oantal bewurkjen ynstelle dy't se yn 'e \(Y_i(1)\) ( \(Y_i(1)\) ) en it getal dat se yn' e kontrôlemonding meitsje soe ( \(Y_i(0)\) ).

Tink derom dat dizze kar foar ienheden, behannelingen en resultaten definiearret wat kin wurde fan dit eksperiment. Bygelyks, sûnder ekstra oanfollingen, Restivo en van de Rijt kinne net sizze oer de effekten fan barnstars op alle Wikipedia-redaksje of op resultaten lykas bewurkingskwaliteit. Yn it algemien moat de kar foar ienheden, behannelingen en resultaten basearre wurde op 'e doelen fan' e stúdzje.

Troch dizze potensjele útkomsten-dy't yn tabel 4.5 gearfette binne kin men de kausale effekt fan 'e behanneling foar persoan \(i\) as

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Foar my is dizze lykwicht de ljochte manier om in kausale effekt te bepalen, en, hoewol ienfâldich ienfâldich, ramt dit kader in algemien wichtige en nijsgjirrige manieren (Imbens and Rubin 2015) .

Tabel 4.5: Tabel fan potensjele útkomsten
Persoan Edits yn behannelmoarden Edits yn kontrôlemintstân Behandelingseffekt
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
betsjutte \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

As wy dizze kausaliteit lykwols bepale, lykwols rinne wy ​​yn in probleem. Yn hast alle gefallen krije wy gjin potinsjele resultaten. Dat is, in spesifike Wikipedia redaksje krige in barnstar of net. Dêrom sjogge wy ien fan 'e potinsjele resultaten- \(Y_i(1)\) of \(Y_i(0)\) -niet net beide. De ûnfermogen om sawol potinsjele útkomsten te beoardieljen is sa'n grutte probleem dat Holland (1986) it Fûnemintaalprobleem fan 'e Causal Inference neamde.

Gelokkich, as wy ûndersyks dwaan, hawwe wy net allinich ien persoan, wy hawwe in protte minsken, en dit biedt in manier om it Fûnemintale probleem fan 'e koartsinsintra. Lykas it probearjen fan 'e behannelingseffekt yndividueel nivo, kinne wy ​​de gemiddelde behannelingseffekt skele:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Dit wurdt noch altyd útdrukt yn 'e \(\tau_i\) dy't net beoardielje, mar mei wat algebra (Gl 2.8 fan Gerber and Green (2012) ) krije wy

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Ekwizing 4.3 lit sjen dat as wy de befolking trochsneupeare wurde kinne troch de behanneling ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) en de befolking trochsnee útkomst ûnder kontrôle ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), dan kinne wy ​​de gemiddelde behanneling effektje, sels sûnder de behannelingseffekt foar in bepaalde persoan te beskachten.

No, dat ik ús skatting definieare - it ding dat wy besykje te meitsjen-ik werklikje hoe't wy dat kinne mei de gegevens te fertsjinjen. Ik wol graach tinke oan dizze problemen as in samplingprobleem (tink werom nei de wiskundige nota yn haadstik 3). Stel dan foar dat wy guon minsken gewoan markearje om te behanneljen yn 'e behannele betingsten en wy hawwe guon minsken gewoanlik opnommen om te besjen yn' e kontrôle condition, dan kinne wy ​​de gemiddelde resultaat yn elke betingst skatte:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

wêr \(N_t\) en \(N_c\) binne de nûmers fan minsken yn 'e behanneling en kontrôle. Ekwizing 4.4 is in ferskil fan betsjutting fan betsjutting. Troch it samplingsûntwerp kenne wy ​​dat de earste term in unbeheinde wurdskatting is foar it gemiddelde resultaat ûnder behanneling en de twadde termyn is in ûnbidige estimator ûnder kontrôle.

In oar manier om te tinken oer hokker randomisaasje ynskeakelje is dat it soarget dat de fergeliking tusken behanneling en kontrôles is fair, om't randomisaasje derfoar soarget dat de beide groepen elkoar sjogge. Dizze fergelykjen hâldt foar dingen dy't wy meimamen (sizze it tal edysjes yn 'e 30 dagen foar it eksperiment) en de dingen dy't wy net gemocht hawwe (sizze gender). Dy mooglikheid om te fersekerjen balâns oan beide waarnommen en unobserved faktoaren is kritysk. Om de krêft fan automatyske balânsjen te sjen op unbestindere faktoaren, lit ús foarkommen dat it takomstige ûndersyk fynt dat de minsken mear reagearje op prizen as froulju. Wolle dat it ûntslach fan 'e eksperimente fan Restivo en van de Rijt ûntsiferje? Neffens de randomisearing soargen se derfoar dat alle unobservables balâns wiene, yn ferwachting. Dizze beskerming tsjin 'e ûnbekende is tige machtich, en it is in wichtige manier dat eksperiminten ferskille binne fan' e non-eksperimintele techniken, beskreaun yn haadstik 2.

Neist it definiearjen fan de behannelingseffekt foar in folsleine befolking, is it mooglik om in behannele effekt foar in subset fan minsken te bepalen. Dit wurdt typysk in bedoeld gemiddelde behanneling effekt (CATE) neamd. Bygelyks, yn 'e stúdzje fan Restivo en van de Rijt litte wy ris yntinke dat \(X_i\) is oft de bewurker boppe of ûnder de middelste edysje is yn' e 90 dagen foar it eksperiment. Ien kin de behannelingseffekt apart foar dizze ljocht- en swiere redaksjes berekkenje.

It potinsjele útkomst-ramt is in machtige manier om te tinken oer kausal-ynterferinsje en eksperiminten. Dochs binne der twa ekstra kompleksjes dy't jo yn 't hâlden hâlde moatte. Dizze twa kompleksjes wurde faak ûnderinoar keppele ûnder de term Stable Unit Treatment Value Hypophyte (SUTVA). It earste diel fan SUTVA is de oerjefte dat it iennichste ding dat it persoanlik is foar it persoan \(i\) 's útkomst is oft de persoan yn' e behanneling of kontrôleminting wie. Mei oare wurden wurdt beoardiele dat persoan \(i\) net beynfloede is troch de behanneling dy't oaren oanbean wurdt. Dit wurdt soms neamd "gjin ynterferinsje" of "gjin spillovers", en kin skreaun wurde as:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

dêr't \(\mathbf{W_{-i}}\) in fektor fan behannelingstatus foar elkenien is, útsein persoan \(i\) . Ien manier dat dit ferwiderje kin wêze as de behanneling fan ien persoan oer in oare persoan is, positiv of negatyf. Gean werom nei Restivo en van de Rijt 's eksperimint, foegje twa freonen \(i\) en \(j\) en dy persoan \(i\) in barnstar kriget en \(j\) net. As \(i\) ûntfangt de barnstar feroarsake \(j\) om mear te bewurkjen (út in komplekse betsjoening) of minder feroarjen (fanút in gefoel fan ferachting), is SUTVA ferwidere. It kin ek ferslein wurde as de effekt fan 'e behanneling ôfhinklik is fan it totale tal oare minsken dy't de behanneling ûntfange. As bygelyks Restivo en van de Rijt 1000 of 10.000 barnstars ynstee fan 100 jûn hawwe, dan kin dit miskien ynfloed hawwe op it effekt fan it krijen fan in barnstar.

It twadde probleem slút yn SUTVA is de ferantwurding dat de ienichste relevante behanneling dejinge dat de ûndersiker jout; Dizze oertsjûging wurdt soms gjin ferburgene behanneling neamd . Bygelyks yn Restivo en van de Rijt, it kin wêze dat it troch in barnstar de wittenskippers feroarsake feroarings makke wurde op in side fan 'e populêre redaksje en dat it wie op' e populêre redaksje-side, mar net as in barnstar- dat feroarsake de feroaring yn it bewurkingsgedrach. As dit wier is, dan is it effekt fan de barnstar net ûnderskiede fan it effekt fan 'e side op' e populêre redaksje side. Fansels is it net dúdlik as, fanút in wittenskiplik perspektyf dit as oantreklik of netattraktyf te beskôgjen. Dat is, jo kinne in ûndersiker prate sizze dat it effekt fan in barnstart allinich de folgjende behannelingen befetsje dy't de barnstar útlizze. Of jo kinne foarstelle in situaasje wêr't in ûndersyk it effekt fan barnstars fan alle oare dingen isolearje wol. Ien manier om tinke te dûnen is te freegjen oft der wat is dat liedt ta wat Gerber and Green (2012) (p. 41) in "ôfbrek yn symmetry" neamt? Mei oare wurden, is der wat oars as de behanneling dy't feroarsake minsken yn 'e behanneling en kontrôle-omstannichheden oars te behannelje? Belangen oer symmetry brekken binne wat pasjinten yn 'e kontrôtgroep yn medisineare problemen liede om in placebo-pille te nimmen. Op dy manier kinne ûndersikers safier wêze dat it iennichste ferskil tusken de twa betingsten it eigentlike medisinen is en net de ûnderfining fan it pillen.

Foar mear op SUTVA, sjoch seksje 2.7 fan Gerber and Green (2012) , seksje 2.5 fan Morgan and Winship (2014) , en diel 1.6 fan Imbens and Rubin (2015) .

Krektens

Yn 'e foarige paragraaf haw ik beskreaun hoe't de gemiddelde behannelingseffekt te beskachten is. Yn dit ûnderdiel leverje ik guon ideeën oer de variabelens fan dy skatten.

As jo ​​tinke oan it skatteljen fan de gemiddelde behannelingseffekt as it skatteljen fan it ferskil tusken twa problemen middels, dan is it mooglik om te sjen dat de standert flater fan 'e gemiddelde behanneling effekt is:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

dêr't \(m\) minsken oan behannele wurde en \(Nm\) om te kontrolearjen (sjoch Gerber and Green (2012) , ek 3.4. As jo ​​tinke oan hoefolle minsken de behanneling oanmeitsje en hoefolle in kontrôle oanbelanget, dan kinne jo sjen dat as \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , dan wolle jo \(m \approx N / 2\) , salang't de kosten foar behanneling en kontrôle itselde binne. Ekwizing 4.6 ferklearret wêrom't it ûntwerp fan Bond en kollega's (2012) eksperimintearje oer de effekten fan sosjale ynformaasje oer stimming (figuer 4.18) wie net effisjint statistysk. Ferjit net dat it 98% fan 'e dielnimmers yn' e behannemondens hie. Dit betsjutte dat it betsjutting fan 'e betsjinning fan' e kontrôleuriteit net sa krekt beskôge wie as it west hie, dat bedoeld hie dat it bepaalde ferskil tusken behanneling en kontrôlemosting net sa krekter as krekt wie. Foar mear op optimale oefening fan dielnimmers oan betingsten, ynklusief as de kosten ferskille tusken betingsten, sjoch List, Sadoff, and Wagner (2011) .

As lêste, yn 'e wichtichste tekst haw ik beskreaun hoe't in differinsje-yn-ûnderskate skatting, dy't typysk brûkt wurdt yn in mingde ûntwerp, kin in lytsere fersin liede as in ûnderskate yn-betsjinningskerator, dy't typysk brûkt wurdt yn in tusken-ûnderwerpen ûntwerp. As \(X_i\) de wearde fan 'e útkomst foar behanneling is, dan is de kwantiteit dy't wy besykje om te skatteljen mei de ferskillen yn ferskillende ferskillen:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

De standert flater fan dy kwantiteit is (sjoch Gerber and Green (2012) , ek 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

In ferliking fan eq. 4.6 en eq. 4.8 lit sjen dat de ferskillen yn ferskate ferskillen in lytsere standertflater hawwe (sjoch Gerber and Green (2012) , ek 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Roughly, as \(X_i\) is tige foarsjoen fan \(Y_i(1)\) en \(Y_i(0)\) , dan kinne jo mear prestizjeare estimaasjes krije fan in ferskil fan ferskillende ferskillen as fan in ferskil- fan-ien betsjut ien. Ien manier om te tinken oer dit yn it kontekst fan 'e eksperimente fan Restivo en van de Rijt is dat der in protte natuerlike fariant is yn it bedrach dat minsken bewurkje, dus dit makket it behanneljen fan de behanneling en kontrôle-kondysjes dreech: it is dreech om in relative lytse effekt yn laitsjen útgeande gegevens. Mar as jo ferskille fan dizze natuerlike feroaring, dan is der folle minder ferfarskens, en dat makket it makliker om in lyts effekt te ûntdekken.

Sjoch Frison and Pocock (1992) foar in krekte fergelykjen fan ferskillen fan betsjutting, ferskillen fan ferskillen, en ANCOVA-basearre oanwêzigen yn 'e algemiene ynstellings wêr't meardere mjittingen foar behanneling en postbehandeling binne. Benammen te rekommandearjen hja ANCOVA, dy't ik hjir net ha. Fierder sjogge McKenzie (2012) foar in diskusje oer it belang fan meardere post-behanneling útkomstmaatregels.