Mendoj se mënyra më e mirë për të kuptuar eksperimentet është korniza e rezultateve potenciale (të cilat i diskutova në shënimet matematikore në kapitullin 2). Korniza e rezultateve potenciale ka një lidhje të ngushtë me idetë nga marrja e mostrave të (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) nga dizajni që kam përshkruar në kapitullin 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Kjo shtojcë është shkruar në mënyrë të tillë që ta theksojë atë lidhje. Ky theks është pak jo tradicional, por unë mendoj se lidhja në mes mostrave dhe eksperimenteve është e dobishme: kjo do të thotë që nëse dini diçka rreth marrjes së mostrave atëherë dini diçka rreth eksperimenteve dhe anasjelltas. Siç do të tregoj në këto shënime, korniza e rezultateve potenciale zbulon forcën e eksperimenteve të kontrolluara randomisht për vlerësimin e efekteve shkakësore dhe tregon kufizimet e asaj që mund të bëhet me eksperimente të ekzekutuara në mënyrë perfekte.
Në këtë shtojcë unë do të përshkruaj kornizën e rezultateve potenciale, duke duplikuar disa nga materialet nga shënimet matematikore në kapitullin 2 me qëllim që këto shënime të bëhen më të pavarura. Pastaj unë do të përshkruaj disa rezultate të dobishme në lidhje me saktësinë e vlerësimeve të efekteve mesatare të trajtimit, duke përfshirë një diskutim të shpërndarjes optimale dhe vlerësimeve të diferencës në ndryshime. Kjo shtojcë merret shumë në Gerber and Green (2012) .
Kuadri i rezultateve potenciale
Për të ilustruar kuadrin e rezultateve të mundshme, le të kthehemi në eksperimentin e Restivo dhe van de Rijt për të vlerësuar efektin e marrjes së një barnstar në kontributet e ardhshme në Wikipedia. Kuadri i rezultateve potenciale ka tre elemente kryesore: njësitë , trajtimet dhe rezultatet e mundshme . Në rastin e Restivo dhe van de Rijt, njësitë meritonin redaktorë - ato në 1% të kontribuesve më të lartë - të cilët nuk kishin marrë ende një barnstar. Ne mund të indeksojmë këto redaktorë me \(i = 1 \ldots N\) . Trajtimet në eksperimentin e tyre ishin "barnstar" ose "no barnstar" dhe unë do të shkruaj \(W_i = 1\) nëse personi \(i\) është në gjendje të trajtimit dhe \(W_i = 0\) ndryshe. Elementi i tretë i kornizës së rezultateve të mundshme është më i rëndësishmi: rezultatet e mundshme . Këto janë pak më konceptuale të vështira sepse ato përfshijnë rezultate "potenciale" - gjëra që mund të ndodhin. Për çdo redaktor Wikipedia, mund të imagjinoni numrin e redaktimeve që ajo do të bënte në kushtet e trajtimit ( \(Y_i(1)\) ) dhe numrin që do të bënte në gjendjen e kontrollit ( \(Y_i(0)\) ).
Vini re se kjo zgjedhje e njësive, trajtimeve dhe rezultateve përcakton se çfarë mund të mësohet nga ky eksperiment. Për shembull, pa ndonjë supozim shtesë, Restivo dhe van de Rijt nuk mund të thonë asgjë për efektet e barnstars në të gjithë redaktorët e Wikipedia-s ose në rezultatet siç janë cilësia e redaktimit. Në përgjithësi, zgjedhja e njësive, trajtimeve dhe rezultateve duhet të bazohet në qëllimet e studimit.
Duke pasur parasysh këto rezultate potenciale - të cilat janë përmbledhur në tabelën 4.5 - mund të përcaktohet efekti shkakësor i trajtimit për personin \(i\) si \(i\)
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Për mua, ky ekuacion është mënyra më e qartë për të përcaktuar një efekt kauzal, dhe, edhe pse jashtëzakonisht i thjeshtë, ky kuadër rezulton i përgjithësueshëm në shumë mënyra të rëndësishme dhe interesante (Imbens and Rubin 2015) .
person | Redaktimet në gjendjen e trajtimit | Redaktime në gjendje kontrolli | Efekti i trajtimit |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
do të thotë | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Nëse ne përcaktojmë shkakshmërinë në këtë mënyrë, megjithatë, ne hasim në një problem. Në pothuajse të gjitha rastet, nuk arrijmë t'i vëmë veshin të dyja rezultateve të mundshme. Kjo është, një redaktor specifik Wikipedia ose mori një barnstar ose jo. Prandaj, vërejmë një prej rezultateve të mundshme - \(Y_i(1)\) ose \(Y_i(0)\) - por jo të dyja. Paaftësia për të vëzhguar të dy rezultatet e mundshme është një problem i tillë i madh që Holland (1986) quajti atë Problemi Themelor i Inferencës Kauzale .
Për fat të mirë, kur bëjmë hulumtime, nuk kemi vetëm një person, kemi shumë njerëz dhe kjo ofron një mënyrë përreth Problemit Fundamental të Përfundimit të Kauzës. Në vend që të përpiqemi të vlerësojmë efektin e trajtimit në nivel individual, ne mund të vlerësojmë efektin mesatar të trajtimit:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Kjo është shprehur ende në kuptimin e \(\tau_i\) cilat nuk janë të vëzhgueshme, por me disa algjebër (Eq 2.8 e Gerber and Green (2012)
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Ekuacioni 4.3 tregon se në qoftë se ne mund të vlerësuar popullatën rezultatin mesatar nën trajtim ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) dhe popullsia e rezultati mesatar nën kontroll ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), atëherë mund të vlerësojmë efektin mesatar të trajtimit, madje pa e vlerësuar efektin e trajtimit për ndonjë person të caktuar.
Tani që e kam përcaktuar vlerësimin tonë dhe gjëja që po përpiqemi të vlerësojmë, do të kthehem në atë se si mund ta vlerësojmë me të dhëna. Më pëlqen të mendoj për këtë sfidë vlerësimi si një problem i marrjes së mostrave (mendoni prapë në shënimet matematikore në kapitullin 3). Imagjinoni që ne rastësisht të marrim disa njerëz për të vëzhguar në gjendjen e trajtimit dhe ne rastësisht zgjedhim disa njerëz për të vëzhguar në gjendjen e kontrollit, atëherë mund të vlerësojmë rezultatin mesatar në çdo kusht:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
ku \(N_t\) dhe \(N_c\) janë numri i njerëzve në kushtet e trajtimit dhe kontrollit. Ekuacioni 4.4 është një vlerësues i diferencës së mjeteve. Për shkak të dizajnit të mostrimit, ne e dimë se termi i parë është një vlerësues i paanshëm për rezultatin mesatar në trajtim dhe termi i dytë është një vlerësues i paanshëm nën kontroll.
Një tjetër mënyrë për të menduar se çfarë mundëson randomizimi është se ai siguron që krahasimi mes grupeve të trajtimit dhe kontrollit është i drejtë, sepse randomizimi siguron që të dy grupet do t'i ngjajnë njëri-tjetrit. Kjo ngjashmëri vlen për gjërat që kemi matur (themi numri i redaktimeve në 30 ditë para eksperimentit) dhe gjërat që nuk i kemi matur (të themi gjinia). Kjo aftësi për të siguruar ekuilibrin në të dy faktorët e vëzhguar dhe të pa vëzhguar është kritike. Për të parë fuqinë e balancimit automatik të faktorëve të pa vëzhguar, le të imagjinojmë se hulumtimet e ardhshme konstatojnë se burrat janë më të përgjegjshëm ndaj çmimeve sesa femrat. A do të zhvlerësonte rezultatet e eksperimentit të Restivo dhe van de Rijt? Jo. Duke bërë randomizimin, ata siguroheshin që të gjitha ato që nuk mund t'i vëzhgonin do të ishin të balancuara, në pritje. Kjo mbrojtje kundër të panjohurës është shumë e fuqishme dhe është një mënyrë e rëndësishme që eksperimentet të jenë të ndryshme nga teknikat jo eksperimentale të përshkruara në kapitullin 2.
Përveç përcaktimit të efektit të trajtimit për një popullsi të tërë, është e mundur për të përcaktuar një efekt trajtimi për një mesin e njerëzve. Kjo zakonisht quhet efekt i trajtimit mesatar të kushtëzuar (CATE). Për shembull, në studimin e Restivo dhe van de Rijt, le të imagjinojmë se \(X_i\) është nëse redaktori ishte mbi ose nën numrin mesatar të redaktimeve gjatë 90 ditëve para eksperimentit. Dikush mund të llogarisë efektin e trajtimit veçmas për këta redaktorë të lehtë dhe të rëndë.
Kuadri i mundshëm i rezultateve është një mënyrë e fuqishme për të menduar për përfundimin shkakësor dhe eksperimentet. Megjithatë, ka dy kompleksitete shtesë që duhet të mbani në mend. Këto dy kompleksitete shpesh grumbullohen së bashku nën termin " Vlerë e vlerës së trajtimit të njësisë së qëndrueshme" (SUTVA). Pjesa e parë e SUTVA është supozimi se e vetmja gjë që ka rëndësi për personin \(i\) 's rezultati është nëse ai person ka qenë në trajtim ose kontrollit të gjendjes së. Me fjalë të tjera, supozohet se personi \(i\) nuk ndikohet nga trajtimi i dhënë për njerëzit e tjerë. Kjo nganjëherë quhet "pa ndërhyrje" ose "nuk ka përhapje", dhe mund të shkruhet si:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
ku \(\mathbf{W_{-i}}\) është një vektor i statusit të trajtimit për të gjithë përveç personit \(i\) . Një mënyrë që kjo të shkelet është nëse trajtimi nga një person derdhet mbi një person tjetër, qoftë pozitivisht ose negativisht. Duke iu rikthyer eksperimentit të Restivo dhe van de Rijt, imagjinoni dy shokë \(i\) dhe \(j\) dhe ai person \(i\) merr një barnstar dhe \(j\) nuk. Nëse \(i\) marrja e shkaqeve barnstar \(j\) për të redaktuar më shumë (nga një ndjenjë e konkurrencës) ose për të redaktuar më pak (nga një ndjenjë dëshpërimi), atëherë SUTVA është shkelur. Gjithashtu mund të shkelet nëse ndikimi i trajtimit varet nga numri i përgjithshëm i njerëzve të tjerë që marrin trajtimin. Për shembull, nëse Restivo dhe van de Rijt kishin dhënë 1,000 apo 10,000 barnstars në vend të 100, kjo mund të kishte ndikuar në efektin e marrjes së një barnstar.
Çështja e dytë e grumbulluar në SUTVA është supozimi se trajtimi i vetëm përkatës është ai që ofron hulumtuesi; ky supozim nganjëherë nuk quhet asnjë trajtim i fshehur ose përjashtueshmëri . Për shembull, në Restivo dhe van de Rijt, mund të kishte qenë rasti që duke i dhënë një barnstar kërkuesit shkaktuan që redaktorët të paraqiteshin në një faqe të redaktorëve të redaktorëve dhe se po rrinin në faqen e redaktorëve të popullarizuar - në vend që të merrnin një skedar barnstar- që shkaktoi ndryshimin në sjelljen e redaktimit. Nëse kjo është e vërtetë, atëherë efekti i barnstar nuk është i dallueshëm nga efekti i të qënit në faqen e redaktorëve të popullarizuar. Natyrisht, nuk është e qartë nëse, nga një perspektivë shkencore, kjo duhet të konsiderohet tërheqëse apo jo tërheqëse. Kjo është, ju mund të imagjinoni një studiues që thotë se efekti i marrjes së një barnstar përfshin të gjitha trajtimet e mëvonshme që shkaktojnë barnstar. Ose mund të imagjinoni një situatë ku një hulumtim do të donte të izolonte efektin e barnstars nga të gjitha këto gjëra të tjera. Një mënyrë për të menduar për këtë është të pyesni nëse ka ndonjë gjë që çon në atë që Gerber and Green (2012) (fq 41) e quajnë "ndarje në simetri"? Me fjalë të tjera, a ka ndonjë gjë tjetër përveç trajtimit që i shkakton njerëzit në trajtimin dhe kushtet e kontrollit të trajtohen ndryshe? Shqetësimet për thyerjen e simetrisë janë ato që çojnë pacientët në grupin e kontrollit në sprovat mjekësore për të marrë një pilulë placebo. Në këtë mënyrë, studiuesit mund të jenë të sigurtë se ndryshimi i vetëm midis dy kushteve është ilaçi aktual dhe jo eksperienca e marrjes së pilulës.
Për më shumë mbi SUTVA, shih pjesën 2.7 të Gerber and Green (2012) , seksioni 2.5 i Morgan and Winship (2014) dhe seksioni 1.6 i Imbens and Rubin (2015) .
saktësi
Në pjesën e mëparshme, unë kam përshkruar se si të vlerësoj efektin mesatar të trajtimit. Në këtë seksion do të jap disa ide për ndryshueshmërinë e këtyre vlerësimeve.
Nëse mendoni për vlerësimin e efektit mesatar të trajtimit si vlerësimi i diferencës midis dy mjeteve të mostrës, atëherë është e mundur të tregohet se gabimi standard i efektit mesatar të trajtimit është:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
ku \(m\) njerëz të caktuar për trajtim dhe \(Nm\) për të kontrolluar (shih Gerber and Green (2012) , eq. 3.4). Kështu, kur mendoni se sa njerëz duhet t'i caktojnë trajtimit dhe sa të caktojnë për të kontrolluar, mund të shihni se nëse \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , atëherë dëshironi \(m \approx N / 2\) , përderisa kostot e trajtimit dhe kontrollit janë të njëjta. Ekuacioni 4.6 sqaron pse dizajni i eksperimentit të Bondit dhe kolegëve (2012) për efektet e informacionit shoqëror mbi votimin (figura 4.18) ishte joefikas statistikisht. Kujtojnë se ajo kishte 98% të pjesëmarrësve në gjendjen e trajtimit. Kjo do të thoshte se sjellja mesatare në gjendjen e kontrollit nuk u vlerësua me saktësi siç mund të kishte qenë, gjë që nga ana tjetër do të thoshte se diferenca e vlerësuar midis gjendjes së trajtimit dhe kontrollit nuk u vlerësua aq saktë sa mund të ishte. Për më shumë mbi shpërndarjen optimale të pjesëmarrësve në kushte, duke përfshirë kur kostot ndryshojnë ndërmjet kushteve, shih List, Sadoff, and Wagner (2011) .
Së fundi, në tekstin kryesor, kam përshkruar se si një vlerësues i dallimeve në ndryshime, i cili zakonisht përdoret në një dizajn të përzier, mund të çojë në ndryshueshmëri më të vogël sesa një vlerësues në ndryshim-në-mjete, i cili zakonisht përdoret në një lëndë projektimit. Nëse \(X_i\) është vlera e rezultatit para trajtimit, atëherë sasia që ne po përpiqemi të vlerësojmë me qasjen e diferencës në dallime është:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Gabimi standard i kësaj sasie është (shih Gerber and Green (2012) , v. 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Një krahasim i eq. 4.6 dhe eq. 4.8 tregon se qasja e diferencës në dallime do të ketë një gabim më të vogël të standardeve kur (shih Gerber and Green (2012) , 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Përafërsisht, kur \(X_i\) është shumë parashikues për \(Y_i(1)\) dhe \(Y_i(0)\) , atëherë mund të merrni vlerësime më të sakta nga një qasje diferenciale e dallimeve sesa nga një ndryshim- e-do të thotë një. Një mënyrë për të menduar për këtë në kontekstin e eksperimentit të Restivo dhe van de Rijt është se ka shumë ndryshime natyrore në shumën që njerëzit redaktojnë, kështu që kjo e bën krahasimin e kushteve të trajtimit dhe kontrollit të vështirë: është e vështirë të zbulosh një të afërm efekt të vogël në të dhënat e rezultateve të zhurmshme. Por nëse dalloni këtë ndryshueshmëri natyrale, atëherë ka ndryshueshmëri shumë më pak, dhe kjo e bën më të lehtë zbulimin e një efekti të vogël.
Shihni Frison and Pocock (1992) për një krahasim të saktë të dallimeve të mjeteve, diferencave të dallimeve dhe qasjeve të bazuara në ANCOVA në një mjedis më të përgjithshëm ku ka matje të shumëfishta para trajtimit dhe pas trajtimit. Në veçanti, ata fuqimisht rekomandojnë ANCOVA, të cilën unë nuk e kam mbuluar këtu. Më tej, shih McKenzie (2012) për një diskutim mbi rëndësinë e masave të shumëfishta të rezultateve pas trajtimit.