Notele matematice

Cred că cea mai bună modalitate de înțelegere a experimentelor este cadrul de rezultate potențiale (despre care am discutat în notele matematice din capitolul 2). Cadrul potențial al rezultatelor are o relație strânsă cu ideile din eșantionarea bazată pe proiectare pe care le-am descris în capitolul 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Această anexă a fost scrisă astfel încât să sublinieze această conexiune. Acest accent este puțin netradițional, dar cred că legătura dintre eșantionare și experimente este utilă: înseamnă că, dacă știi ceva despre eșantionare, atunci știi ceva despre experimente și invers. Așa cum am arătat în aceste note, cadrul potențial al rezultatelor relevă puterea experimentelor controlate randomizate pentru estimarea efectelor cauzale și arată limitările a ceea ce se poate face chiar cu experimente perfect executate.

În această anexă, voi descrie cadrul potențial al rezultatelor, duplicând o parte din material din notele matematice din capitolul 2, pentru a face aceste note mai de sine stătătoare. Apoi, voi descrie câteva rezultate utile cu privire la precizia estimărilor efectelor medii ale tratamentului, inclusiv o discuție privind estimările optime de alocare și estimările diferenței. Această anexă atrage foarte mult pe Gerber and Green (2012) .

Cadrul potențial al rezultatelor

Pentru a ilustra cadrul potențial al rezultatelor, să revenim la experimentul lui Restivo și lui van de Rijt pentru a estima efectul primirii unui barnstar pe contribuțiile viitoare la Wikipedia. Cadrul potențial al rezultatelor are trei elemente principale: unități , tratamente și rezultate potențiale . În cazul lui Restivo și al lui van de Rijt, unitățile erau meritorii editorilor - cei din topul 1% din contribuabili - care nu primiseră încă un barnstar. Putem indexa acești editori de către \(i = 1 \ldots N\) . Tratamentele din experiment au fost "barnstar" sau "no barnstar" și scriu \(W_i = 1\) dacă persoana \(i\) se află în condiția de tratament și \(W_i = 0\) altfel. Al treilea element al cadrului potențial al rezultatelor este cel mai important: rezultatele potențiale . Acestea sunt mai dificil din punct de vedere conceptual, deoarece implică rezultate "potențiale" - lucruri care s-ar putea întâmpla. Pentru fiecare editor de Wikipedia, se poate imagina numărul de editări pe care le-ar face în condiția de tratament ( \(Y_i(1)\) ) și numărul pe care ar face-o în condiția de control ( \(Y_i(0)\) ).

Rețineți că această alegere a unităților, tratamentelor și rezultatelor definește ceea ce se poate învăța din acest experiment. De exemplu, fără alte ipoteze, Restivo și van de Rijt nu pot spune nimic despre efectele barnstars asupra editorilor Wikipedia sau asupra rezultatelor cum ar fi calitatea editării. În general, alegerea unităților, tratamentelor și rezultatelor trebuie să se bazeze pe obiectivele studiului.

Având în vedere aceste rezultate potențiale - care sunt rezumate în tabelul 4.5 - se poate defini efectul cauzal al tratamentului pentru persoana \(i\) ca

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Pentru mine, această ecuație este cel mai clar mod de definire a unui efect cauzal și, deși extrem de simplu, acest cadru se dovedește a fi generalizabil în multe moduri importante și interesante (Imbens and Rubin 2015) .

Tabelul 4.5: Tabelul rezultatelor potențiale
Persoană Modificări în starea de tratament Modificări în stare de control Efectul de tratament
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
însemna \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Dacă definim cauzalitatea în acest fel, cu toate acestea, ne confruntăm cu o problemă. În aproape toate cazurile, nu putem observa ambele rezultate potențiale. Adică un anumit editor de Wikipedia a primit sau nu un barnstar. Prin urmare, observăm unul dintre rezultatele potențiale - \(Y_i(1)\) sau \(Y_i(0)\) - dar nu ambele. Incapacitatea de a observa ambele rezultate potențiale este o problemă majoră pe care Holland (1986) numește Problema fundamentală a Inferenței cauzale .

Din fericire, atunci când facem cercetări, nu avem doar o singură persoană, avem mulți oameni și aceasta oferă o cale în jurul problemei fundamentale a Inferenței cauzale. În loc să încercăm să estimăm efectul tratamentului la nivel individual, putem estima efectul mediu de tratament:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Acest lucru este încă exprimat în termenii \(\tau_i\) care sunt neobservabili, dar cu o anumită algebră (Eq 2.8 din Gerber and Green (2012) ) obținem

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Ecuația 4.3 arată că , dacă putem estima populația rezultatul mediu sub tratament ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) și rezultatul mediu al populației sub control ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), atunci putem estima efectul mediu de tratament, chiar fara a estima efectul tratamentului pentru o anumita persoana.

Acum că am definit estimarea noastră - lucrul pe care încercăm să-l estimam - mă voi îndrepta spre modul în care o putem estima efectiv cu datele. Îmi place să mă gândesc la această provocare de estimare ca pe o problemă de eșantionare (gândiți-vă la notele matematice din capitolul 3). Imaginați-vă că alegem aleatoriu pe unii oameni pentru a observa în starea de tratament și alegem în mod aleatoriu pe unii oameni pentru a observa în condiția de control, apoi putem estima rezultatul mediu în fiecare condiție:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

unde \(N_t\) și \(N_c\) sunt numerele de persoane aflate în condițiile de tratament și de control. Ecuația 4.4 este un estimator al diferenței de mijloace. Datorită proiectului de eșantionare, știm că primul termen este un estimator imparțial pentru rezultatul mediu sub tratament și al doilea termen este un estimator imparțial sub control.

O alta modalitate de a ne gandi la ceea ce permite randomizarea este aceea ca se asigura ca comparatia intre grupurile de tratament si de control este corecta, deoarece randomizarea asigura ca cele doua grupuri se vor asemeni reciproc. Această asemănare este valabilă pentru lucrurile pe care le-am măsurat (de exemplu, numărul de editări în cele 30 de zile anterioare experimentului) și lucrurile pe care nu le-am măsurat (de exemplu sexul). Această capacitate de a asigura echilibrul pe ambii factori observate și neobservabile este critică. Pentru a vedea puterea de echilibrare automată asupra unor factori neobservați, să presupunem că cercetarea viitoare constată că bărbații sunt mai receptivi la premii decât femeile. Ar anula rezultatele experimentelor lui Restivo și van de Rijt? Nu. Prin randomizare, ei s-au asigurat că toate neobservabilele ar fi echilibrate, în așteptare. Această protecție împotriva necunoscutului este foarte puternică și este un mod important ca experimentele să fie diferite de cele ale tehnicilor non-experimentale descrise în capitolul 2.

Pe lângă definirea efectului de tratament pentru o întreagă populație, este posibil să se definească un efect de tratament pentru un subset de oameni. Aceasta se numește, de obicei, un efect de tratament condiționat condiționat (CATE). De exemplu, în studiul realizat de Restivo și de van de Rijt, să presupunem că \(X_i\) este dacă editorul a fost deasupra sau sub numărul median de editare în timpul celor 90 de zile anterioare experimentului. S-ar putea calcula efectul de tratament separat pentru acești editori ușori și grei.

Cadrul potențial al rezultatelor este un mod puternic de a gândi la inferența cauzală și la experimente. Cu toate acestea, există două complexități suplimentare pe care ar trebui să le țineți cont. Aceste două complexități sunt adesea conjugate împreună în cadrul termenului " unitate stabilă de tratament" (SUTVA). Prima parte a SUTVA este presupunerea că singurul lucru care contează pentru rezultatul persoanei \(i\) este dacă persoana respectivă se află în starea de tratament sau de control. Cu alte cuvinte, se presupune că persoana \(i\) nu este afectată de tratamentul acordat altor persoane. Acest lucru este uneori numit "fără interferențe" sau "fără spillovers" și poate fi scris ca:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

unde \(\mathbf{W_{-i}}\) este un vector al stadiilor de tratament pentru toata lumea, cu exceptia persoanei \(i\) . O modalitate prin care acest lucru poate fi încălcat este dacă tratamentul de la o persoană se revarsă asupra unei alte persoane, fie pozitiv, fie negativ. Revenind la experimentul lui Restivo și lui van de Rijt, imaginați-vă doi prieteni \(i\) și \(j\) și acea persoană \(i\) primește un barnstar și \(j\) nu. Dacă \(i\) primește barnstar cauzează \(j\) să editeze mai mult (dintr-un sentiment de competiție) sau să editeze mai puțin (dintr-un sentiment de disperare), atunci SUTVA a fost încălcat. De asemenea, poate fi încălcat dacă impactul tratamentului depinde de numărul total de persoane care primesc tratamentul. De exemplu, dacă Restivo și van de Rijt ar fi dat 1.000 sau 10.000 barnstare în loc de 100, acest lucru ar fi putut afecta efectul de a primi un barnstar.

Cea de-a doua problemă în SUTVA este presupunerea că singurul tratament relevant este cel pe care cercetătorul îl oferă; această presupunere este uneori numită fără tratamente ascunse sau exclusivitate . De exemplu, în cazul lui Restivo și al lui van de Rijt, s-ar fi putut întâmpla ca, prin acordarea unui star barnist, cercetătorii au provocat editori să fie prezentați pe o pagină editorială populară și că se afla pe pagina editoriilor populare - în loc să primească un barnstar - care a provocat schimbarea comportamentului de editare. Dacă este adevărat, atunci efectul barnstar nu se deosebește de efectul de a fi pe pagina editorilor populare. Desigur, nu este clar dacă, dintr-o perspectivă științifică, acest lucru ar trebui considerat atractiv sau neatractiv. Adică, ați putea să vă imaginați că un cercetător spune că efectul de a primi un barnstar include toate tratamentele ulterioare care declanșează barnstar-ul. Sau vă puteți imagina o situație în care o cercetare ar dori să izoleze efectul barnstarelor de toate aceste lucruri. O modalitate de a ne gândi este să ne întrebăm dacă există ceva care să conducă la ceea ce Gerber and Green (2012) (p. 41) numesc o "defalcare în simetrie"? Cu alte cuvinte, există altceva decât tratamentul care determină tratarea diferită a persoanelor în tratamentul și condițiile de control? Preocupările legate de ruperea simetriei sunt ceea ce determină pacienții din grupul de control din studiile medicale să ia o pastilă placebo. Astfel, cercetatorii pot fi siguri ca singura diferenta dintre cele doua conditii este medicina actuala si nu experienta de a lua pilula.

Pentru mai multe informații despre SUTVA, consultați secțiunea 2.7 din Gerber and Green (2012) , secțiunea 2.5 din Morgan and Winship (2014) și secțiunea 1.6 din Imbens and Rubin (2015) .

Precizie

În secțiunea anterioară, am descris modul de estimare a efectului mediu de tratament. În această secțiune, vă voi oferi câteva idei despre variabilitatea acestor estimări.

Dacă vă gândiți să estimați efectul de tratament mediu ca fiind estimarea diferenței dintre două metode de eșantionare, atunci este posibil să arătați că eroarea standard a efectului mediu de tratament este:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

în cazul în care \(m\) persoanele care se încadrează în tratament și \(Nm\) pentru a controla (a se vedea Gerber and Green (2012) , eq. 3.4). Astfel, atunci cand ne gandim la numarul de oameni pe care sa-i \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) tratamentului si cati sa-i atribuim controlului, se poate observa ca daca \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , atunci doriți \(m \approx N / 2\) , atâta timp cât costurile de tratament și de control sunt aceleași. Ecuația 4.6 clarifică motivul pentru care proiectarea experimentului Bond și colegilor (2012) privind efectele informațiilor sociale asupra votării (figura 4.18) a fost ineficient statistic. Amintiți-vă că a avut 98% dintre participanții la starea de tratament. Acest lucru a însemnat că comportamentul mediu în starea de control nu a fost estimat la fel de precis cum ar fi putut fi, ceea ce la rândul său a însemnat că diferența estimată dintre tratamentul și starea de control nu a fost estimată la fel de exact cum ar putea fi. Pentru mai multe informații despre alocarea optimă a participanților la condiții, inclusiv când costurile diferă între condiții, a se vedea List, Sadoff, and Wagner (2011) .

În cele din urmă, în textul principal, am descris modul în care un estimator de diferențe în diferențe, folosit în mod obișnuit într-un design mixt, poate duce la o variație mai mică decât un estimator de diferență în mijloc, proiecta. Dacă \(X_i\) este valoarea rezultatului înainte de tratament, atunci cantitatea pe care încercăm să o estimăm cu abordarea diferenței diferențiale este:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Eroarea standard a acestei cantități este (a se vedea Gerber and Green (2012) , eq. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

O comparație a eq. 4,6 și echivalenți. 4.8 arată că abordarea diferenței diferențiale va avea o eroare standard mai mică atunci când (vezi Gerber and Green (2012) , eq. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Aproximativ atunci când \(X_i\) este foarte predictivă pentru \(Y_i(1)\) și \(Y_i(0)\) , atunci puteți obține estimări mai precise din abordarea diferenței de diferențe, de-unu. O modalitate de a gândi acest lucru în contextul experimentului lui Restivo și a lui van de Rijt este că există o mare varietate naturală în cantitatea pe care oamenii o editează, ceea ce face dificilă compararea condițiilor de tratament și de control: este greu să detectezi o rudă efect mic în datele despre zgomotele rezultatelor. Dar dacă diferențiați această variabilitate naturală, atunci există o variabilitate mult mai mică și acest lucru face mai ușor să se detecteze un efect mic.

Vezi Frison and Pocock (1992) pentru o comparație precisă a diferențelor de diferențe, a diferențelor de diferențe și a abordărilor bazate pe ANCOVA în setarea mai generală în care există mai multe măsurători înainte și după tratament. În special, recomandă cu fermitate ANCOVA, pe care nu l-am abordat aici. Mai mult, a se vedea McKenzie (2012) pentru o discuție cu privire la importanța mai multor măsuri post-tratament.