Matematiko tala

Sa palagay ko ang pinakamahusay na paraan upang maunawaan ang mga eksperimento ay ang mga potensyal na balangkas ng kinalabasan (na tinalakay ko sa mga tala ng matematika sa kabanata 2). Ang mga potensyal na resulta ng balangkas ay may malapit na relasyon sa mga ideya mula sa sampling batay sa disenyo na inilarawan sa kabanata 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) kabanata (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Ang apendiks na ito ay isinulat sa isang paraan upang bigyang-diin ang koneksyon na iyon. Ang diin na ito ay medyo hindi tradisyunal, ngunit sa palagay ko na ang koneksyon sa pagitan ng sampling at mga eksperimento ay kapaki-pakinabang: nangangahulugan ito na kung alam mo ang isang bagay tungkol sa sampling pagkatapos ay alam mo ang isang bagay tungkol sa mga eksperimento at vice versa. Tulad ng ipapakita ko sa mga tala na ito, ang balangkas ng potensyal na resulta ay nagpapakita ng lakas ng mga random na kinokontrol na eksperimento para sa pagtantya ng mga epekto sa pananahilan, at ipinapakita nito ang mga limitasyon ng kung ano ang maaaring gawin sa kahit na ganap na eksperimento.

Sa apendise na ito, ilalarawan ko ang balangkas ng potensyal na resulta, na doblehin ang ilan sa mga materyal mula sa mga talaang matematika sa kabanata 2 upang gawing mas malinis ang mga tala na ito. Pagkatapos ay ilalarawan ko ang ilang kapaki-pakinabang na mga resulta tungkol sa katumpakan ng mga pagtatantya ng average na mga epekto sa paggamot, kabilang ang isang diskusyon ng pinakamainam na laang-gugulin at mga pagkakaiba sa pagkakaiba-sa-pagkakaiba. Ang apendiks na ito ay kumukuha ng mabigat sa Gerber and Green (2012) .

Potensyal na balangkas ng balangkas

Upang ilarawan ang mga potensyal na balangkas ng resulta, bumalik tayo sa eksperimento ng Restivo at van de Rijt upang tantiyahin ang epekto ng pagtanggap ng isang barnstar sa mga hinaharap na kontribusyon sa Wikipedia. Ang potensyal na mga balangkas ng kinalabasan ay may tatlong pangunahing elemento: mga yunit , paggagamot , at potensyal na kinalabasan . Sa kaso ng Restivo at van de Rijt, ang mga yunit ay karapat-dapat sa mga editor-ang mga nasa pinakamataas na 1% ng mga kontribyutor-na hindi pa nakatanggap ng isang barnstar. Maaari naming i-index ang mga editor na ito sa pamamagitan ng \(i = 1 \ldots N\) . Ang paggamot sa kanilang mga eksperimento ay "barnstar" o "no barnstar," at kukunin ko na magsulat ng \(W_i = 1\) kung ang taong \(i\) ay nasa kalagayan paggamot at \(W_i = 0\) kung hindi man. Ang ikatlong elemento ng potensyal na balangkas ng mga resulta ay ang pinakamahalaga: ang mga potensyal na kinalabasan . Ang mga ito ay mas kaunti pang conceptually mahirap dahil kasangkot sila "potensyal" na mga resulta-mga bagay na maaaring mangyari. Para sa bawat editor ng Wikipedia, maaari mong isipin ang bilang ng mga pag-edit na gagawin niya sa kondisyon ng paggamot ( \(Y_i(1)\) ) at ang numero na gagawin niya sa kondisyon ng control ( \(Y_i(0)\) ).

Tandaan na ang pagpili ng mga yunit, paggamot, at kinalabasan ay tumutukoy kung ano ang maaaring matutunan mula sa eksperimentong ito. Halimbawa, nang walang anumang mga palagay, ang Restivo at van de Rijt ay hindi maaaring magsabi ng anumang bagay tungkol sa mga epekto ng mga barnstar sa lahat ng mga editor sa Wikipedia o sa mga kinalabasan tulad ng pag-edit ng kalidad. Sa pangkalahatan, ang pagpili ng mga yunit, paggamot, at mga resulta ay dapat batay sa mga layunin ng pag-aaral.

Dahil sa mga potensyal na kinalabasan-na kung saan ay summarized sa talahanayan 4.5-maaari isa tukuyin ang pananahilan epekto ng paggamot para sa tao \(i\) bilang

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Para sa akin, ang equation na ito ang pinakamalinaw na paraan upang tukuyin ang isang salungat na epekto, at, bagaman sobrang simple, ang balangkas na ito ay nagiging pangkalahatan sa maraming mahahalagang at kagiliw-giliw na paraan (Imbens and Rubin 2015) .

Talaan 4.5: Talaan ng Mga Posibleng Kinalabasan
Tao Mga pag-edit sa kondisyon sa paggamot Mga pag-edit sa kondisyon ng pagkontrol Epekto ng paggamot
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
ibig sabihin \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Kung tinutukoy natin ang pananahilan sa ganitong paraan, gayunpaman, tumakbo tayo sa isang problema. Sa halos lahat ng kaso, hindi namin napansin ang parehong posibleng resulta. Iyon ay, isang partikular na editor ng Wikipedia ang nakatanggap ng isang barnstar o hindi. Samakatuwid, \(Y_i(1)\) natin ang isa sa mga potensyal na kinalabasan - \(Y_i(1)\) o \(Y_i(0)\) -but hindi pareho. Ang kawalan ng kakayahan na obserbahan ang parehong potensyal na mga resulta ay tulad ng isang malaking problema na tinatawag na Holland (1986) ang Pangunahing Problema ng Causal Inference .

Sa kabutihang palad, kapag gumagawa kami ng pananaliksik, hindi lamang kami ay may isang tao, mayroon kaming maraming tao, at ito ay nag-aalok ng isang paraan sa paligid ng Pangunahing Problema ng Causal Inference. Sa halip na tangkaing tantyahin ang epekto sa paggamot sa indibidwal na antas, maaari naming tantiyahin ang average na epekto sa paggamot:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Ito ay ipinahayag pa rin sa mga tuntunin ng \(\tau_i\) na hindi pa napapanood, ngunit may ilang algebra (Eq 2.8 ng Gerber and Green (2012) ) makakakuha tayo

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Ang equation 4.3 ay nagpapakita na kung maaari naming tantiyahin ang average na kinalabasan ng populasyon sa ilalim ng paggamot ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) at ang average na kinalabasan ng populasyon sa ilalim ng kontrol ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), pagkatapos ay maaari naming tantiyahin ang average na epekto ng paggamot, kahit na walang pagtantya sa paggamot na epekto para sa anumang partikular na tao.

Ngayon na tinukoy ko ang aming estimand-ang bagay na sinisikap nating tantyahin-ibabaling ko kung paano talaga natin itong tantyahin sa data. Gusto kong mag-isip tungkol sa hamon sa pagtatantya na ito bilang isang problema sa sampling (isipin pabalik sa mga talaang matematika sa kabanata 3). Isipin namin na random na pumili ng ilang mga tao upang obserbahan sa kondisyon ng paggamot at random na kami pumili ng ilang mga tao upang obserbahan sa kondisyon ng kontrol, pagkatapos ay maaari naming inestima ang average na kinalabasan sa bawat kondisyon:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

kung saan ang \(N_t\) at \(N_c\) ay ang mga bilang ng mga tao sa mga kondisyon ng paggamot at kontrol. Ang equation 4.4 ay isang pagkakaiba-ng-ibig sabihin ng estimator. Dahil sa disenyo ng sampling, alam namin na ang unang termino ay isang walang pinapanigan na estimator para sa karaniwang resulta sa ilalim ng paggamot at ang ikalawang termino ay isang walang kinikilingan estimator sa ilalim ng kontrol.

Ang isa pang paraan upang mag-isip tungkol sa kung ano ang nagbibigay-daan sa randomization ay na tinitiyak nito na ang paghahambing sa pagitan ng paggamot at mga grupo ng kontrol ay makatarungan dahil ang randomization ay nagsisiguro na ang dalawang grupo ay magkatulad sa bawat isa. Ang pagkakahawig na ito ay para sa mga bagay na nasusukat natin (sabihin ang bilang ng mga pag-edit sa loob ng 30 araw bago ang eksperimento) at ang mga bagay na hindi namin sinusukat (sabihin kasarian). Ang kakayahang ito upang matiyak ang balanse sa parehong mga naobserbahan at hindi nakikitang mga kadahilanan ay kritikal. Upang makita ang lakas ng awtomatikong pagbabalanse sa mga hindi nakikitang mga kadahilanan, isipin natin na hinahanap ng hinaharap na pananaliksik na ang mga lalaki ay mas tumutugon sa mga parangal kaysa sa mga babae. Gusto ba na magpawalang-bisa ang mga resulta ng eksperimento ng Restivo at van de Rijt? Hindi. Sa pamamagitan ng pagsasaling-wika, natiyak nila na ang lahat ng mga hindi nakikinig ay magiging balanse, sa pag-asa. Ang proteksyon na ito laban sa hindi alam ay napakalakas, at ito ay isang mahalagang paraan na ang mga eksperimento ay naiiba mula sa mga di-pang-eksperimentong pamamaraan na inilarawan sa kabanata 2.

Bilang karagdagan sa pagtukoy sa paggamot na epekto para sa isang buong populasyon, posible na tukuyin ang isang paggamot na epekto para sa isang subset ng mga tao. Ito ay karaniwang tinatawag na isang kondisyon average na paggamot epekto (CATE). Halimbawa, sa pag-aaral ni Restivo at van de Rijt, isipin natin na ang \(X_i\) ay kung ang editor ay nasa itaas o mas mababa sa median na bilang ng mga pag-edit sa loob ng 90 araw bago ang eksperimento. Ang isa ay maaaring kalkulahin ang paggamot epekto nang hiwalay para sa mga ilaw at mabigat na mga editor.

Ang potensyal na balangkas ng balangkas ay isang malakas na paraan upang mag-isip tungkol sa pananahilan ng pananahilan at mga eksperimento. Gayunpaman, mayroong dalawang karagdagang mga pagkakumplikado na dapat mong tandaan. Ang dalawang pagkakumplikado na ito ay madalas na magkakasama sa ilalim ng terminong Stable Unit Treatment Value Assumption (SUTVA). Ang unang bahagi ng SUTVA ay ang palagay na ang tanging bagay na mahalaga para sa taong \(i\) 's kinalabasan ay kung ang taong iyon ay nasa sa paggamot o kontrol kondisyon. Sa madaling salita, ipinapalagay na ang taong iyon \(i\) ay hindi naapektuhan ng paggamot na ibinigay sa ibang tao. Ito ay kung minsan ay tinatawag na "walang panghihimasok" o "walang spillovers", at maaaring nakasulat bilang:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

kung saan ang \(\mathbf{W_{-i}}\) ay isang vector ng mga katayuan ng paggamot para sa lahat maliban sa tao \(i\) . Ang isang paraan na ito ay maaaring lumabag ay kung ang paggamot mula sa isang tao ay nagtataboy sa ibang tao, alinman sa positibo o negatibo. Pagbalik sa Restivo at van de Rijt's eksperimento, isipin ang dalawang kaibigan \(i\) at \(j\) at ang taong iyon \(i\) tumatanggap ng isang barnstar at \(j\) ay hindi. Kung natatanggap ng \(i\) ang barnstar nagiging sanhi ng \(j\) upang i-edit ang higit pa (sa labas ng isang pakiramdam ng kumpetisyon) o mag-edit nang mas kaunti (sa labas ng isang pakiramdam ng kawalan ng pag-asa), pagkatapos ay SUTVA ay nilabag. Maaari din itong lumabag kung ang epekto ng paggamot ay depende sa kabuuang bilang ng ibang mga tao na tumatanggap ng paggamot. Halimbawa, kung ang Restivo at van de Rijt ay nagbigay ng 1,000 o 10,000 barnstars sa halip na 100, maaaring naapektuhan nito ang epekto ng pagtanggap ng isang barnstar.

Ang pangalawang isyu na lumped sa SUTVA ay ang palagay na ang tanging may-katuturang paggamot ay ang isa na ipinagkakaloob ng mananaliksik; ang palagay na ito ay paminsan-minsan ay tinatawag na walang nakatagong mga paggamot o pagbubukod . Halimbawa, sa Restivo at van de Rijt, maaaring ito ay ang kaso na sa pamamagitan ng pagbibigay ng isang barnstar ang mga mananaliksik ay naging mga editor na itampok sa isang tanyag na editor ng pahina at na ito ay nasa sikat na editor ng pahina-sa halip na makatanggap ng isang barnstar- na naging dahilan ng pagbabago sa pag-e-edit ng pag-uugali. Kung totoo ito, ang epekto ng barnstar ay hindi maaaring maliwanagan mula sa epekto ng pagiging popular sa pahina ng mga editor. Siyempre, hindi malinaw kung, mula sa isang pang-agham na pananaw, ito ay dapat isaalang-alang na kaakit-akit o hindi kaakit-akit. Iyon ay, maaari mong isipin ang isang mananaliksik na nagsasabi na ang epekto ng pagtanggap ng isang barnstar ay kinabibilangan ng lahat ng mga kasunod na paggamot na pinapalakas ng barnstar. O maaari mong isipin ang isang sitwasyon kung saan gusto ng pananaliksik na ihiwalay ang epekto ng mga barnstar mula sa lahat ng iba pang mga bagay na ito. Ang isang paraan upang isipin ang tungkol dito ay ang magtanong kung mayroong anumang bagay na hahantong sa kung ano ang Gerber and Green (2012) (p. 41) tumawag sa isang "breakdown sa symmetry"? Sa madaling salita, may anumang bagay maliban sa paggamot na nagiging sanhi ng mga tao sa mga kondisyon sa paggamot at kontrol upang magamot nang iba? Ang mga alalahanin tungkol sa pagwawakas sa simetrya ay kung ano ang humantong sa mga pasyente sa control group sa mga medikal na pagsubok upang kumuha ng placebo pill. Sa ganoong paraan, ang mga mananaliksik ay maaaring makatiyak na ang tanging pagkakaiba sa pagitan ng dalawang kondisyon ay ang aktwal na gamot at hindi ang karanasan ng pagkuha ng tableta.

Para sa higit pa sa SUTVA, tingnan ang seksyon 2.7 ng Gerber and Green (2012) , seksyon 2.5 ng Morgan and Winship (2014) , at seksyon 1.6 ng Imbens and Rubin (2015) .

Katumpakan

Sa nakaraang seksyon, inilarawan ko kung paano tantyahin ang average na epekto sa paggamot. Sa seksyong ito, magbibigay ako ng ilang mga ideya tungkol sa pagkakaiba-iba ng mga pagtatantya.

Kung iniisip mo ang tungkol sa pagtantya ng average na epekto sa paggamot bilang pagtantya sa pagkakaiba sa pagitan ng dalawang paraan ng sample, posible upang ipakita na ang karaniwang error ng average na epekto ng paggamot ay:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

kung saan \(m\) tao na nakatalaga sa paggamot at \(Nm\) upang makontrol (tingnan Gerber and Green (2012) , eq. 3.4). Kaya, kapag nag-iisip kung gaano karaming mga tao ang magtalaga sa paggamot at kung gaano karaming italaga upang makontrol, makikita mo na kung \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , gusto mo \(m \approx N / 2\) , hangga't ang mga gastos ng paggamot at kontrol ay pareho. Tinutukoy ng equation 4.6 kung bakit ang eksperimento ng eksperimento ng Bond at mga kasamahan (2012) tungkol sa mga epekto ng panlipunang impormasyon sa pagboto (tayahin 4.18) ay hindi mabisa sa istatistika. Tandaan na may 98% ng mga kalahok sa kondisyon ng paggamot. Nangangahulugan ito na ang ibig sabihin ng pag-uugali sa kondisyon ng kontrol ay hindi tinatantya nang tumpak na maaaring ito ay, na kung saan ay nangangahulugan na ang tinantiyang pagkakaiba sa pagitan ng kondisyon ng paggamot at kontrol ay hindi tinantya nang wasto ayon sa nararapat. Para sa higit pa sa pinakamainam na paglalaan ng mga kalahok sa mga kundisyon, kabilang ang kapag nagkakahalaga ang mga gastos sa pagitan ng mga kondisyon, tingnan ang List, Sadoff, and Wagner (2011) .

Sa wakas, sa pangunahing teksto, inilarawan ko kung paano ang isang pagkakaiba sa pagkakaiba-sa-pagkakaiba, na kadalasang ginagamit sa isang magkakahalo na disenyo, ay maaaring humantong sa mas maliit na pagkakaiba sa isang pagkakaiba-sa-nangangahulugan na estimator, na kadalasang ginagamit sa pagitan ng mga paksa disenyo. Kung ang \(X_i\) ay ang halaga ng kinalabasan bago ang paggamot, pagkatapos ang dami na sinisikap nating tantyahin ang pagkakaiba sa pagkakaiba-sa-pagkakaiba ay:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Ang karaniwang error ng dami na iyon ay (tingnan ang Gerber and Green (2012) , eq.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Ang paghahambing ng eq. 4.6 at eq. 4.8 ay nagpapakita na ang diskarte sa pagkakaiba-sa-pagkakaiba ay magkakaroon ng isang mas maliit na standard error kapag (tingnan ang Gerber and Green (2012) , eq 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Sa pangkalahatan, kapag \(X_i\) ay napaka-predictive ng \(Y_i(1)\) at \(Y_i(0)\) , pagkatapos ay maaari kang makakuha ng mas tumpak na mga pagtatantya mula sa isang diskarte pagkakaiba-ng-pagkakaiba kaysa sa mula sa isang pagkakaiba- ng-ay nangangahulugang isa. Ang isang paraan upang mag-isip tungkol dito sa konteksto ng eksperimento ng Restivo at van de Rijt ay na mayroong maraming likas na pagkakaiba-iba sa halaga na na-edit ng mga tao, kaya ito ay gumagawa ng paghahambing sa mga kondisyon ng paggamot at kontrol na mahirap: mahirap matuklasan ang kamag-anak maliit na epekto sa maingay na data ng kinalabasan. Ngunit kung ka pagkakaiba-out ito natural na nagaganap pabagu-bago, pagkatapos ay mayroong mas mababa pabagu-bago, at na ginagawang mas madali upang makita ang isang maliit na epekto.

Tingnan ang Frison and Pocock (1992) para sa isang tumpak na paghahambing ng pagkakaiba-sa-paraan, pagkakaiba-ng-pagkakaiba, at batay sa ANCOVA na mga pamamaraang sa mas pangkalahatang setting kung saan mayroong maraming mga sukat na pre-treatment at post-treatment. Sa partikular, masidhing inirerekumenda nila ang ANCOVA, na hindi ko saklaw dito. Dagdag pa, tingnan ang McKenzie (2012) para sa isang talakayan sa kahalagahan ng maraming mga post-treatment na mga panukala sa kinalabasan.