Wiskundige aantekeninge

Ek dink die beste manier om eksperimente te verstaan ​​is die potensiële uitkomsraamwerk (wat ek in die wiskundige aantekeninge in hoofstuk 2 bespreek het). Die potensiële (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) het 'n noue verhoudings tot die idees van ontwerpgebaseerde steekproefneming wat ek in hoofstuk 3 beskryf het (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Hierdie bylae is op so 'n manier geskryf dat die verband beklemtoon word. Hierdie klem is 'n bietjie nie-tradisionele, maar ek dink dat die verband tussen steekproefneming en eksperimente nuttig is. Dit beteken dat as jy iets van steekproefneming weet, weet jy iets oor eksperimente en omgekeerd. Soos ek in hierdie aantekeninge sal toon, toon die potensiële uitkomsraamwerk die sterkte van gerandomiseerde beheerde eksperimente om kousale effekte te bepaal, en dit toon die beperkings van wat gedoen kan word met selfs perfek uitgevoerde eksperimente.

In hierdie bylaag sal ek die potensiële uitkomsraamwerk beskryf, wat sommige van die materiaal uit die wiskundige aantekeninge in hoofstuk 2 dupliseer om hierdie notas meer selfstandig te maak. Dan sal ek 'n paar nuttige resultate beskryf oor die akkuraatheid van skattings van die gemiddelde behandelingseffekte, insluitend 'n bespreking van optimale toekennings en verskille tussen verskille. Hierdie bylaag trek sterk op Gerber and Green (2012) .

Potensiële uitkomste raamwerk

Om die potensiële uitkomste raamwerk te illustreer, kom ons terug na Restivo en van de Rijt se eksperiment om die effek van 'n skatster op toekomstige bydraes tot Wikipedia te skat. Die potensiële uitkomsraamwerk het drie hoofelemente: eenhede , behandelings en moontlike uitkomste . In die geval van Restivo en van de Rijt was die eenhede redakteurs-dié in die top 1% van die bydraers wat nog nie 'n skatster ontvang het nie. Ons kan hierdie redakteurs indekseer met \(i = 1 \ldots N\) . Die behandelings in hul eksperiment was "barnstar" of "no barnstar", en ek sal skryf \(W_i = 1\) as iemand \(i\) in die behandelings toestand en \(W_i = 0\) anders is. Die derde element van die potensiële uitkomsraamwerk is die belangrikste: die potensiële uitkomste . Dit is bietjie meer konseptueel moeilik omdat hulle "potensiële" uitkomste behels - dinge wat kan gebeur. Vir elke Wikipedia-redakteur kan jy die aantal wysigings wat sy in die behandelingstoestand sou maak ( \(Y_i(1)\) ) en die nommer wat sy sou maak in die kontrole toestand ( \(Y_i(0)\) ).

Let daarop dat hierdie keuse van eenhede, behandelings en uitkomste bepaal wat uit hierdie eksperiment geleer kan word. Byvoorbeeld, sonder enige addisionele aannames, kan Restivo en Van de Rijt niks sê oor die gevolge van barnstars op alle Wikipedia-redakteurs of op uitkomstes soos redigeringskwaliteit nie. Oor die algemeen moet die keuse van eenhede, behandelings en uitkomste gegrond wees op die doelwitte van die studie.

Gegewe hierdie potensiële uitkomste, wat in tabel 4.5 opgesom word, kan mens die oorsaaklike effek van die behandeling vir persoon \(i\) as

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Vir my is hierdie vergelyking die duidelikste manier om 'n oorsaaklike effek te definieer, en hoewel dit baie eenvoudig is, is hierdie raamwerk op baie belangrike en interessante maniere (Imbens and Rubin 2015) algemeengemeenbaar.

Tabel 4.5: Tabel van Potensiële Uitkomste
persoon Wysigings in behandelingstoestand Wysigings in beheer toestand Behandeling effek
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
beteken \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

As ons so 'n oorsaaklikheid definieer, loop ons egter 'n probleem in. In byna alle gevalle kry ons nie albei moontlike uitkomste nie. Dit is, 'n spesifieke Wikipedia-redakteur het óf 'n barnstar ontvang of nie. Daarom beskou ons een van die moontlike uitkomste- \(Y_i(1)\) of \(Y_i(0)\) - maar nie albei nie. Die onvermoë om beide potensiële uitkomste te waarneem, is so 'n groot probleem dat Holland (1986) dit die Fundamentele Probleem van Kousale Inferensie noem .

Gelukkig, as ons navorsing doen, het ons nie net een persoon nie, ons het baie mense, en dit bied 'n manier om die fundamentele probleem van oorsaaklike inferensie. Eerder as om die individuele vlak-effek te beoordeel, kan ons die gemiddelde behandelingseffek skat:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Dit word nog steeds uitgedruk in terme van die \(\tau_i\) wat onwaarneembaar is, maar met 'n paar algebra (Eq 2.8 van Gerber and Green (2012) ) kry ons

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Vergelyking 4.3 toon dat indien ons die populasie gemiddelde uitkoms onder behandeling kan skat ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) en die populasie gemiddelde uitkoms onder beheer ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), dan kan ons die gemiddelde behandelingseffek skat, selfs sonder om die behandelingseffek vir enige spesifieke persoon te skat.

Noudat ek ons ​​ramand gedefinieer het - die ding wat ons probeer skat - gaan ek na hoe ons dit eintlik met data kan skat. Ek dink graag aan hierdie skattingsuitdaging as 'n steekproefprobleem (dink terug na die wiskundige aantekeninge in hoofstuk 3). Stel jou voor dat ons ewekansig sommige mense kies om in die behandelingstoestand te waarneem en ons kies lukraak sommige mense om in die kontrole toestand waar te neem, dan kan ons die gemiddelde uitkoms in elke toestand skat:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

waar \(N_t\) en \(N_c\) is die getalle mense in die behandelings- en beheerstoestande. Vergelyking 4.4 is 'n verskil-van-middel-beramer. As gevolg van die steekproefontwerp, weet ons dat die eerste kwartaal 'n onbevooroordeelde skatter vir die gemiddelde uitkoms onder behandeling is en die tweede termyn 'n onbevooroordeelde skatter onder beheer is.

Nog 'n manier om te dink oor wat randomisering moontlik maak, is dat dit verseker dat die vergelyking tussen behandelings- en beheergroepe regverdig is omdat randomisering verseker dat die twee groepe mekaar sal lyk. Hierdie ooreenkoms hou verband met dinge wat ons gemeet het (sê die aantal wysigings in die 30 dae voor die eksperiment) en die dinge wat ons nie gemeet het nie (sê geslag). Hierdie vermoë om balans op beide waargenome en onopgemaakte faktore te verseker is krities. Om die krag van outomatiese balansering op onopgemaakte faktore te sien, kom ons dink dat toekomstige navorsing bevind dat mans meer reageer op toekennings as vroue. Sal dit die resultate van Restivo en van de Rijt se eksperiment ongeldig maak? Nee. Deur te randomiseer, het hulle verseker dat alle onopvallende gebalanseer sal word, in verwagting. Hierdie beskerming teen die onbekende is baie kragtig, en dit is 'n belangrike manier dat eksperimente verskil van die nie-eksperimentele tegnieke wat in hoofstuk 2 beskryf word.

Benewens die definisie van die behandelingseffek vir 'n hele bevolking, is dit moontlik om 'n behandelingseffek vir 'n deelversameling van mense te definieer. Dit word gewoonlik 'n voorwaardelike gemiddelde behandelingseffek (CATE) genoem. Byvoorbeeld, in die studie deur Restivo en van de Rijt, kom ons voor dat \(X_i\) is of die redakteur gedurende die 90 dae voor die eksperiment bo of onder die mediaan aantal wysigings was. 'N Mens kan die behandelingseffek afsonderlik vir hierdie ligte en swaar redakteurs bereken.

Die potensiële uitkomsraamwerk is 'n kragtige manier om oor oorsaaklike inferensie en eksperimente te dink. Daar is egter twee bykomende kompleksiteite wat jy in gedagte moet hou. Hierdie twee kompleksiteite word dikwels saamgepers onder die term Stabiele Eenheid Behandeling Waarde Aanvaarding (SUTVA). Die eerste deel van SUTVA is die aanname dat die enigste ding wat saak maak vir iemand \(i\) se uitkoms is of daardie persoon was in die behandeling of beheer toestand. Met ander woorde, dit word aanvaar dat die persoon \(i\) nie geraak word deur die behandeling wat aan ander mense gegee word nie. Dit word soms "no interference" of "no spillovers" genoem, en kan geskryf word as:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

waar \(\mathbf{W_{-i}}\) is 'n vektor van behandelingsstatus vir almal behalwe persoon \(i\) . Een manier waarop dit geskend kan word, is as die behandeling van een persoon op 'n ander persoon, of positief of negatief, oorval. Terugkeer na Restivo en Van de Rijt se eksperiment, stel twee vriende \(i\) en \(j\) en daardie persoon \(i\) ontvang 'n barnstar en \(j\) nie. As \(i\) u0026 # 39; n \(j\) Dit kan ook geskend word indien die impak van die behandeling afhang van die totale aantal ander persone wat die behandeling ontvang. Byvoorbeeld, as Restivo en Van de Rijt 1000 of 10 000 skuursterre in plaas van 100 uitgegee het, kan dit die effek van die ontvangs van 'n skutster beïnvloed.

Die tweede uitgawe in SUTVA is die aanname dat die enigste relevante behandeling die een is wat die navorser lewer; Hierdie aanname word soms geen verborge behandelings of uitsluiting genoem nie . Byvoorbeeld, in Restivo en Van de Rijt was dit dalk die geval dat die navorsers deur 'n skutster die navorsers laat verskyn het dat dit op 'n gewilde redakteursblad verskyn en dat dit op die gewilde redakteursbladsy was, eerder as om 'n barnstar- Dit het die verandering in redigeringgedrag veroorsaak. As dit waar is, dan is die effek van die barnstar nie onderskeibaar van die effek om op die gewilde redakteursbladsy te wees nie. Dit is natuurlik nie duidelik of dit vanuit 'n wetenskaplike oogpunt as aantreklik of onaantreklik beskou moet word nie. Dit is, jy kan jou voorstel dat 'n navorser sê dat die effek van 'n skuurster al die daaropvolgende behandelings insluit wat die skildster uitstryk. Of jy kan 'n situasie voorstel waar 'n ondersoek die effek van barnstars van al hierdie ander dinge wil isoleer. Een manier om daaroor te dink, is om te vra of daar iets is wat lei tot wat Gerber and Green (2012) (p. 41) 'n slemmiese afbraak noem? Met ander woorde, is daar iets anders as die behandeling wat veroorsaak dat mense in die behandelings- en kontroledoestande anders behandel word? Bekommernisse oor simmetrie breek is wat lei pasiënte in die kontrole groep in mediese proewe 'n placebo pil te neem. Op dié manier kan navorsers seker wees dat die enigste verskil tussen die twee toestande die werklike medisyne is en nie die ervaring van die neem van die pil nie.

Vir meer inligting oor SUTVA, sien afdeling 2.7 van Gerber and Green (2012) , afdeling 2.5 van Morgan and Winship (2014) en afdeling 1.6 van Imbens and Rubin (2015) .

presisie

In die vorige afdeling het ek beskryf hoe om die gemiddelde behandelingseffek te skat. In hierdie gedeelte gee ek 'n paar idees oor die veranderlikheid van daardie ramings.

As u dink aan die gemiddelde behandelingseffek as die verskil tussen twee steekproefmetodes bereken, dan is dit moontlik om aan te toon dat die standaardfout van die gemiddelde behandelingseffek is:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

waar \(m\) mense toegeskryf aan behandeling en \(Nm\) om te beheer (sien Gerber and Green (2012) , vergelyking 3.4). As jy dus dink aan hoeveel mense toegewys moet word aan behandeling en hoeveel om te beheer, kan jy sien dat as \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , dan wil jy \(m \approx N / 2\) , solank die koste van behandeling en beheer dieselfde is. Vergelyking 4.6 verduidelik waarom die ontwerp van Bond en kollegas (2012) eksperimente oor die uitwerking van sosiale inligting oor stemreg (figuur 4.18) ondoeltreffend statisties was. Onthou dat dit 98% van die deelnemers in die behandelingsvoorwaarde gehad het. Dit het beteken dat die gemiddelde gedrag in die beheerstoestand nie so akkuraat geraam is nie, wat op sy beurt beteken het dat die beraamde verskil tussen die behandeling en beheerstoestand nie so akkuraat geraam is as wat dit kon wees nie. Vir meer oor optimale toekenning van deelnemers aan voorwaardes, insluitend wanneer koste verskil tussen toestande, sien List, Sadoff, and Wagner (2011) .

Ten slotte het ek in die hoof teks beskryf hoe 'n verskil-in-verskille-beramer, wat tipies in 'n gemengde ontwerp gebruik word, kan lei tot kleiner afwyking as 'n verskil-in-middel skatter, wat tipies in 'n tussenvak gebruik word. ontwerp. As \(X_i\) die waarde van die uitkoms is voor behandeling, dan is die hoeveelheid wat ons met die verskil-in-verskille benadering beplan, te skat:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Die standaard fout van daardie hoeveelheid is (sien Gerber and Green (2012) , vergelyking 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

'N Vergelyking van eq. 4.6 en ekw. 4.8 onthul dat die verskil-in-verskille benadering 'n kleiner standaard fout sal hê wanneer (sien Gerber and Green (2012) , vgl 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

\(X_i\) , wanneer \(X_i\) baie voorspelbaar is van \(Y_i(1)\) en \(Y_i(0)\) , kan jy meer akkurate ramings kry van 'n verskil-van-verskille benadering as van 'n verskil- van-beteken een. Een manier om hieroor te dink in die konteks van Restivo en van de Rijt se eksperiment is dat daar baie natuurlike variasie is in die hoeveelheid wat mense wysig. Dit vergelyk dus die hanterings- en beheeromstandighede moeilik: dit is moeilik om 'n familielid te bespeur klein effek in lawaaierige uitkoms data. Maar as jy hierdie natuurlike veranderlikheid verskil, dan is daar baie minder veranderlikheid, en dit maak dit makliker om 'n klein effek op te spoor.

Sien Frison and Pocock (1992) vir 'n presiese vergelyking van verskil-van-middele, verskille-verskille en ANCOVA-gebaseerde benaderings in die meer algemene omgewing waar daar verskeie metings voorbehandeling en na-behandeling is. Hulle raai veral ANCOVA aan, wat ek hier nie gedek het nie. Verdere, sien McKenzie (2012) vir 'n bespreking van die belangrikheid van verskeie na-behandelingsuitkomsmaatreëls.