Qoraalada xisaabta

Waxaan u maleynayaa habka ugu wanaagsan ee lagu fahmi karo tijaabooyinka waa qaabka natiijada laga filayo (kaas oo aan kaga hadlo qoraallada xisaabta ee cutubka 2). Nidaamka natiijada suurtogalka ah wuxuu leeyahay cilaaqaad dhow ee fikradaha ka soo samaynta sawirka ku salaysan ee aan ku sharraxay cutubka 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Lifaaqan waxaa lagu qoray hab sidaas u xoojinaya xiriirka. Tani waxay xooga saartaa mid aan caadi ahayn, laakiin waxaan u maleynayaa in xiriirka ka dhexeeya tijaabinta iyo tijaabooyinka ay tahay mid caawimaad leh: macnaheedu waa haddii aad wax ka ogaato tijaabinta markaa waxaad ogtahay wax ku saabsan tijaabooyinka iyo wixii kale. Sida aan ku muujin doono qoraalladan, qaab-dhismeedka natiijada suurtogalka ah waxay muujinaysaa awoodda tijaabooyinka la xakameeyey ee lagu qiyaaso saamaynta nalalka ah, waxayna muujineysaa xaddidaadaha waxa la samayn karo iyada oo xitaa tijaabooyinka si dhammaystiran loo fuliyay.

Lifaaqan, waxaan ku sharxi doonaa habka natiijooyinka suurtogalka ah, in la soo koobo qaar ka mid ah waxyaabaha ka mid ah qoraallada xisaabta ee cutubka 2 si loo sameeyo qoraalladan aad isugu dhow. Kadibna waxaan ku sharxi doonaa natiijooyin wax ku ool ah oo ku saabsan qiyaasta qiyaasta saameynta daaweynta celceliska ah, oo ay ka mid yihiin dood ku saabsan qoondaynta ugu wanaagsan iyo qiyaasaha faraqa u dhexeeya qiyaasaha. Lifaaqa Tani waxay si xoog leh ugu soo baxaysaa Gerber and Green (2012) .

Nidaamka natiijooyinka suurtogalka ah

Si loo sharaxo qaab-dhismeedka natiijooyinka laga filayo, aynu ku soo celinno dib uhabaynta Restivo iyo van de Rijt si ay u qiyaasaan saameynta helitaanka barnstar ku darsaday mustaqbalka ee Wikipedia. Naqshadda natiijooyinka suurtogalka ahi waxay leedahay saddex qodob oo muhiim ah: unugyo , daaweyn , iyo natiijooyinka iman kara . Marka la eego Restivo iyo van de Rijt, cutubyada ayaa u qalma tifaftirayaasha - kuwa ugu sarreeya 1% ee ka qaybgalayaasha - kuwaas oo aan weli helin barnstar. Waxaan ku soo bandhigi karnaa tifaftireyaasha kuwan \(i = 1 \ldots N\) . Daawooyinka ku jira tijaabadoodu waxay ahaayeen "barnstar" ama "barnstar", waxaanan qori doonaa \(W_i = 1\) haddii qof \(i\) uu ku jiro xaalad daaweyn iyo \(W_i = 0\) haddii kale. Qodobka saddexaad ee qaab-dhismeedka natiijooyinka ka soo baxa ayaa ah waxa ugu muhiimsan: natiijooyinka iman kara . Kuwani waa xoogaa macquul ah oo ku adag sababta oo ah waxay ku lug leeyihiin "natiijooyin" suurogal ah-waxyaallaha dhici kara. Tifaftire kasta oo Wikipedia ah, qofku wuxuu qiyaasi karaa tirada isbaarooyinka ee ay ku samayn lahayd xaalada daaweynta ( \(Y_i(1)\) ) iyo lambarka uu ku samayn lahaa xaalada xakamaynta ( \(Y_i(0)\) ).

Ogsoonow in doorashadan ka mid ah unugyada, daaweynta, iyo natiijooyinka waxay qeexayaan waxa laga barto tijaabadan. Tusaale ahaan, iyada oo aan wax kale la saadaalin Karin, Restivo iyo van de Rijt ma sheegi karaan wax ku saabsan saameynta barnstars ee ku jira dhammaan editor-yada ku jira Wikipedia ama natiijooyinka sida tayada habeynta. Guud ahaan, xulashada unugyada, daaweynta, iyo natiijooyinka waa inay ku saleysnaaadaan hadafyada daraasadda.

Iyadoo la tixgelinayo natiijooyinka suurtagalka ah-oo lagu soo koobay jadwalka 4.5-mid ayaa qeexi kara saameynta natiijada daaweynta qof ahaaneed \(i\) sida

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Aniga ahaan, isla'egtani waa habka ugu saxsan ee lagu qeexayo saamaynta nalalka ah, iyo in kasta oo ay aad u sahlan tahay, qaab-dhismeedkani wuxuu u muuqdaa mid guud oo habab badan oo muhiim ah iyo kuwo xiiso leh (Imbens and Rubin 2015) .

Shaxda 4.5: Shaxda Natiijooyinka Faa'iidada
Qofka Edits oo ku jira xaalad daaweyneed Edits xaalada xakamaynta Saameynta daaweynta
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
macnaheedu \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Haddii aan qeexno sababaha macquulka ah, si kastaba ha noqotee, waxaan ku jirnaa dhibaato. Dhamaan kiisaska oo dhan, ma nihin inaan aragno labada natiijo. Taasi waa, tafatiraha qaaska ah ee Wikipedia waxaa laga helay barnstar ama aan. Sidaa darteed, waxaynu eegaynaa mid ka mid ah natiijooyinka iman kara - \(Y_i(1)\) ama \(Y_i(0)\) - laakiin labadoodaba ma ahan. Awood la'aanta in la ilaaliyo natiijooyinka suurtogalka ah waa dhibaatada ugu weyn ee Holland (1986) magacawday Dhibaatada Asaasiga ah ee Arrimaha Caqliga ah .

Nasiib wanaag, markaan sameyneyno baaritaan, ma nihin keliya hal qof, waxaanu leenahay dad badan, tani waxay bixisaa habka agagaarka Dhibaatada Aasaasiga ah ee Ka-soo-jeeda Causal. Halkii ay isku dayi lahaayeen in ay qiyaasaan saameynta daaweynta heer-gaar ah, waxaan qiyaasi karnaa saameynta daaweynta celceliska celceliska:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Tani weli waxaa lagu qeexay marka la eego \(\tau_i\) kuwaas oo aan la ilaalin karin, laakiin qaar ka mid ah aljebra (Eq 2.8 ee Gerber and Green (2012) ) waxaan helnaa

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Isbarbardhigga 4.3 ayaa muujinaya in haddii aan xisaabin karno natiijada celceliska tirada dadka ee daaweynta ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) iyo natiijada celceliska tirada dadka ay gacanta ku hayaan ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), ka dibna waxaan ku qiyaasay kartaa saamayn celceliska daaweynta, xitaa iyada oo la qiyaasayo saamayn daaweyn qof gaar ah ee.

Hadda waxaan qeexay qiyaasidadayada - waxa aan isku dayeyno inaan ku qiyaasno - Waxaan ku soo laaban doonaa sida aan dhab ahaan ugu qiyaasno xogta. Waxaan jecelahay inaan ka fekero caqabaddan qiyaasta ah sida dhibaatada tijaabada ah (ka fakir xasuusta xisaabta ee cutubka 3). Ka feker in aan si aan kala sooc lahayn u soo qaadno dadka qaarkood si ay ula socdaan xaaladda daaweynta waxaanan si aan kala sooc lahayn u soo qaadeynaa dadka si ay u ilaaliyaan xaaladaha xakamaynta, ka dibna waxaan qiyaasi karnaa celceliska natiijada xaalad kasta:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

halka \(N_t\) iyo \(N_c\) yihiin tirada dadka ku jira xaaladaha daaweynta iyo xakamaynta. Isku dheelitirka 4.4 waa farqiga udhexeeya qiyaasaha. Sababtoo ah naqshad sameynta, waxaan ognahay in mudnaanta koowaad ay tahay qiyaas qiyaas ah oo ku salaysan natiijada celceliska daaweynta iyo marxaladda labaad waa qiyaas lagu qiyaaso oo xakameyn ah.

Siyaabo kale oo lagu falanqeeyo waxa kala soocidda awood u yeelan karo waa in ay hubiso in isbarbardhigga udhexeeya kooxaha daaweynta iyo kooxaha xakameyntu ay tahay mid cadaalad ah sababtoo ah kala soocida ayaa xaqiijinaysa in labada kooxba ay isku midka yihiin. Muuqaalkani waxa uu hayaa waxyaallaha aan qiyaasnay ​​(yiraahda tirada qoraalada 30 maalmood ka hor tijaabada) iyo waxyaalaha aanan cabbirin (jinsiga). Awoodgan si loo hubiyo isu dheelitirka labada dhinac ee la arkay iyo kuwa aan la ilaalin ayaa muhiim ah. Si loo arko awoodda isu-dheellitirnaanta tooska ah ee arrimaha aan la xakamaynin, aynu ka fekerno in cilmi-baarista mustaqbalka ay ogaato in nimanku ay waxtar badan u leeyihiin abaalmarinta haweenka. Miyay taasi ka dhigeysaa natiijooyinka ka soo baxa dib uhabaynta dib udhigista dib uhabaynta dib udhiska iyo dib udhiska? Maya. Marka la kala soocayo, waxay xaqiijiyeen in dhammaan unobservables ay isku dheelitirnaan doonaan, rajada. Ilaalintaas ka dhanka ah aan la garaneyn waa mid aad u awood badan, waana hab muhiim ah oo tijaabooyinka ay ka duwan yihiin farsamooyinka tijaabada ah ee lagu sharraxay cutubka 2aad.

Marka lagu daro qeexidda saameynta daaweynta ee dadka oo idil, waxaa suurtogal ah in la qeexo saameyn daaweyn ah oo loogu talagalay dadka hoos yimaada. Tan waxaa sida caadiga ah loo yaqaan ' saameynta daaweynta celceliska daaweynta celceliska' (CATE). Tusaale ahaan, daraasada by Restivo iyo van de Rijt, aynu ka fekerno in \(X_i\) haddii uu tifaftiruhu ka sarreeyaa ama ka hooseeyay tirada dhexdhexaadiyaha ee muddooyinka 90 maalmood ka hor tijaabada. Mid ka mid ah saamiga daweynta ayaa si gooni ah u xisaabin kara tifaftireyaasha iftiinka iyo culus.

Nidaamka natiijooyinka suurtogalka ah waa hab awood leh oo looga fekero ku-oogitaanka iyo tijaabooyinka. Hase yeeshee, waxaa jira laba murugo oo dheeraad ah oo aad maskaxda ku hayso. Labadan murugood ayaa badanaa la isku maraa iyada oo la raacayo ereyga Dammaanadda Daaweynta Qaadista Dammaanadda (SUTVA). Qeybta ugu horeysa ee SUTVA waxay u maleyneysaa in wax uun oo muhiim u ah qof ahaan \(i\) natiijada ay tahay in qofkaasi ku jiray xaalad daaweyn ama xakameyn. In si kale loo dhigo, waxaa la wareegay qof in \(i\) aan u saamayay mucaamilada lagu siiyo dadka kale. Tan waxaa mararka qaarkood loo yaqaan "wax faragalin ah" ama "wax duufaan ah", waxaana loo qori karaa:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

halkaa \(\mathbf{W_{-i}}\) waa qayb ka mid ah xaaladaha daaweynta ee qofkasta oo aan ka ahayn qofka \(i\) . Hal dariiqo oo la jebin karo waa haddii daaweynta qof ka mid ah uu ku dhufto qof kale, si wanaagsan ama si xun. Ku noqoshada Restivo iyo tijaabada van de Rijt, qiyaas laba saaxiibtinimo \(i\) iyo \(j\) iyo qofkaas \(i\) helayaa barnstar iyo \(j\) ma aha. Haddii \(i\) helitaanka sababaha barnstar \(j\) si aad wax uga beddesho (dareenka tartanka) ama aad ka yar tahay (ka dareen dareenka rajo-xumo), ka dibna SUTVA waa la jabiyey. Sidoo kale waa la jabin karaa haddii saameynta daaweynta ay ku xiran tahay tirada guud ee dadka kale ee hela daaweynta. Tusaale ahaan, haddii dib loo furo iyo van de Rijt ay bixisay 1,000 ama 10,000 barnstars halkii 100, tani waxay saamayn ku yeelan kartaa saamaynta helitaanka barnstar.

Qodobka labaad ee la tuuray SUTVA waxay u malaynaysaa in daaweynta keliya ee la xidhiidha ay tahay mid cilmi-baadhuhu bixiyay; Mala-awaalkan waxaa mararka qaarkood loogu yeeraa daaweyn qarsoodi ah ama ka baxsan . Tusaale ahaan, Restivo iyo van de Rijt, waxaa laga yaabaa in ay ahayd kiis ay bixiyeen barnstar cilmi-baarayaashu waxay keeneen tifaftireyaasha in lagu soo bandhigo bogga tifaftirayaasha caanka ah iyo in ay ku jiraan bogga tafaftirayaasha caan ah-halkii laga heli lahaa barnstar- taas oo keentay isbedelka akhlaaqda edebta. Haddii ay tani run tahay, markaa saameynta barnstar ma ahan mid lagu kala saaro saameynta ay ku leedahay bogga tafaftirayaasha caanka ah. Dabcan, ma cadda haddii, marka laga eego dhinaca sayniska, tani waa in loo tixgeliyaa mid soo jiidasho leh ama jahwareer leh. Taas ayaa ah, waxaad qiyaasi kartaa cilmi-baadhaha oo sheegaya in saameynta helitaanka barnstar ay ku jiraan dhammaan daaweynaha xiga ee barnstar kiciya. Ama waxaad qiyaasi kartaa xaalad ah cilmi-baaris ay doonayso in lagu go'doomiyo saameynta barnstars ee dhammaan waxyaabahan kale. Hal siyaabood oo looga fekerayo waxa weeye in la weydiiyo haddii ay jirto wax keenaya waxa Gerber and Green (2012) (bogga 41) wac "burbur ku jira sumcadda"? Si kale haddii loo dhigo, ma jiraan wax aan ka ahayn daaweynta keenaysa dadka ku jira xaaladaha daaweynta iyo xakamaynta si loola dhaqmo si ka duwan? Cabsida ku saabsan isku-dhafka midabtakoorka ayaa ah waxa keena bukaanka ku jira kooxda udubdhexaadka ah ee tijaabada caafimaadka si ay u qaataan kiniinada xuubka. Sidaa daraadeed, cilmi-baarayaashu waxay xaqiijin karaan in farqiga u dhexeeya labada xaaladoodba ay yihiin daawada dhabta ah ee maaha waayo-aragnimada qaadashada kiniinka.

Wixii dheeraad ah ee ku saabsan SUTVA, arag qaybta 2.7 ee Gerber and Green (2012) , qaybta 2.5 ee Morgan and Winship (2014) , iyo qaybta 1.6 ee Imbens and Rubin (2015) .

Xaqiiqo

Qeybta hore, waxaan ku sharxay sida loo qiyaaso saameynta daaweynta celceliska. Qaybtani, waxaan ku siin doonaa fikrado ku saabsan isbedelka qiyaasahaas.

Haddii aad ka fekereyso qiyaasta saameynta daaweynta celceliska sida qiyaasta farqiga u dhexeeya laba shay oo macnaheedu yahay, markaa waxaa suurtagal ah in la tuso in qaladka caadiga ah ee saameynta daaweynta celceliska waa:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

halkaa \(m\) dadka loo xilsaaray daaweynta iyo \(Nm\) si loo xakameeyo (eeg Gerber and Green (2012) , eq 3.4). Sidaa darteed, markaad ka fekereyso inta qof ee loo xilsaaro daaweynta iyo inta badan ee lagu xakameynayo xakamaynta, waxaad arki kartaa in haddii \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , markaa waxaad dooneysaa \(m \approx N / 2\) , ilaa iyo inta kharashyada daaweynta iyo xakamaynta isku mid yihiin. Isku dheelitirka 4.6 ayaa caddaynaya sababta ay naqshadeynta Bond iyo asxaabta (2012) ' (2012) ' (2012) tijaabiyeen saamaynta xogta bulshada ee ku saabsan cod bixinta (jaantuska 4.18) waxay ahayd mid isbeddel ah. Xusuusnow in ay 98% ka qaybgalayaashu ku jireen xaalad daaweyneed. Tani macnaheedu waa in dhaqanka caadiga ah ee xaalada xakameynta aan lagu qiyaasin sida saxda ah ee ay noqon lahayd, taas oo loola jeedo in farqiga qiyaasta ee daaweynta iyo xakamaynta aan loo qiyaasin sida saxda ah ee ay noqon karto. Wixii dheeraad ah oo ku saabsan qoondaynta ka qaybgalayaasha shuruudaha, oo ay ku jiraan kharashyada u dhexeeya shuruudaha, eeg List, Sadoff, and Wagner (2011) .

Ugu dambeyntii, qoraalka ugu muhiimsan, waxaan ku sharxay sida saadaalinta isbeddelka isbeddelka, kaas oo sida caadiga ah loo isticmaalo naqshad isku dhafan, waxay u horseedi kartaa kala duwanaansho yar marka loo eego farqiga u dhexeeya qiyaasaha, taas oo inta badan loo isticmaalo maadooyinka u dhexeeya naqshadeynta. Haddii \(X_i\) waa qiimaha natiijada daaweynta ka hor, markaa tirada aan isku dayeyno in aan ku qiyaasno qaabka kala duwanaanta kala duwanaanta waa:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Qalabka khaladka ah ee tiradani (eeg Gerber and Green (2012) , eq. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Is barbardhigga eq. 4.6 iyo eq. 4.8 ayaa muujinaya in qaabka farqiga u dhexeeya ee khilaafku uu yeelan doono qalad yar oo cabir ah marka loo eego (eeg Gerber and Green (2012) , eq. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Qiyaas ahaan, marka \(X_i\) waa mid saadaalin ka leh \(Y_i(1)\) iyo \(Y_i(1)\) \(Y_i(0)\) , markaa waxaad ka heli kartaa qiyaaso qeexan oo ka duwan habka kala duwan ee faraqa u dhexeeya marka loo eego kala duwanaansho- oo ka dhigan mid. Mid ka mid ah habka looga fikiro xaaladdan dib u eegista dib u eegista Denbigh and van de Rijt ayaa ah in ay jiraan waxyaabo badan oo kala duwan oo dabiiciga ah oo ku jira xaddiga ay dadku isbeddelayaan, markaa taasi waxay ka dhigeysaa isbarbardhigidda xaaladaha daaweynta iyo xakamaynta: way adag tahay in la ogaado qof qaraabo ah waxtarka yar ee wax ku oolka ah ee xogta natiijada. Laakiin haddii aad kala duwan tahay isbedelkan dabiiciga ah ee dhacaya, markaa waxaa jira isbadal waxoogaa yar, taas oo fududeyneysa in la ogaado saameyn yar.

Fiiri Frison and Pocock (1992) si loo barbardhigo kala duwanaanshaha, kala-duwanaanta kala duwan, iyo hababka ANCOVA ku salaysan goobaha guud ee halkaa oo ay jiraan dhowr qiyaaso daaweyn ah iyo daaweyn dambe. Gaar ahaan, waxay si xoog leh ugu talinayaan ANCOVA, oo aanan halkan ku jirin. Dheeraad ah, fiiri McKenzie (2012) si aad uga wada hadashid muhiimada ay leedahay tallaabooyinka natiijada daaweynta ka dib.