У цьому додатку я підведу деякі ідеї щодо причинного висновку з неекспериментальних даних у трохи більш математичній формі. Існує два основних підходи: основа каузального графіка, більшість з яких пов'язана з Юдеєю Перл та колегами, і потенційні результати, основна частина яких пов'язана з Дональдом Рубін та колегами. Я познайомлюся з концепцією потенційних результатів, оскільки вона більш тісно пов'язана з ідеями в математичних нотатках в кінці розділів 3 та 4. Для отримання додаткової інформації про структуру причинних графів я рекомендую Pearl, Glymour, and Jewell (2016) (вступний ) і Pearl (2009) (передові). Для доведення довжини обробки причинно-наслідкових положень, що поєднує в собі основи потенційних результатів та структуру причинного графіка, я рекомендую Morgan and Winship (2014) .
Мета цього додатка - допомогти вам заспокоїти нотатки та стиль традицій потенційних результатів, щоб ви могли перейти до деяких більш технічних матеріалів, написаних на цю тему. По-перше, я описати основи потенційних результатів. Потім я буду використовувати це для подальшого обговорення природних експериментів, таких як Angrist (1990) про дію військової служби на заробітки. Цей додаток сильно залежить від Imbens and Rubin (2015) .
Потенційні результати
Система потенційних результатів має три основні елементи: одиниці , методи лікування та потенційні результати . Для того, щоб проілюструвати ці елементи, розглянемо стилізовану версію питання, що розглядається в Angrist (1990) : "Який вплив військової служби на заробітки?" У цьому випадку ми можемо визначити одиниці для людей, які мають право на проект 1970 року в США, і ми можемо індексувати цих людей за допомогою \(i = 1, \ldots, N\) . Лікування в даному випадку може бути "служити в армії" або "не служити в армії". Я називаю ці умови лікування та контролю, і я напишу \(W_i = 1\) якщо людина \(i\) знаходиться в стані лікування і \(W_i = 0\) якщо особа \(i\) перебуває в умовах керування. Нарешті, потенційні результати є дещо більш концептуально складними, оскільки вони включають "потенційні" результати; що могло статися. Для кожної людини, яка має право на 1970-й проект, ми можемо уявити собі суму, яку вони заробили б у 1978 році, якщо б вони служили у військовій \(Y_i(1)\) , яку я називаю \(Y_i(1)\) і сумою, яку вони заробили б 1978 р., Якщо вони не служили в військовій службі, яку я назву \(Y_i(0)\) . У рамках потенційних результатів \(Y_i(1)\) та \(Y_i(0)\) розглядаються фіксовані величини, а \(W_i\) - випадкова величина.
Вибір підрозділів, процедур та результатів є критичним, оскільки він визначає те, що можна і не може бути вивчено з дослідження. Вибір підрозділів - людей, що мають право на проект 1970 року, - не включає жінок, і тому без додаткових припущень це дослідження нічого не скаже нам про вплив військової служби на жінок. Важливі також рішення щодо визначення способів лікування та результатів. Наприклад, чи слід зосередити увагу на інтересах до служби у військових чи бойових діях? Чи має результат інтересу бути заробіток або задоволення від роботи? У кінцевому підсумку, вибір підрозділів, лікування та результатів має керуватися науковими та політичними цілями дослідження.
З огляду на вибір підрозділів, процедур та потенційних результатів, причинний ефект лікування на людину \(i\) , \(\tau_i\) , є
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
Іншими словами, ми порівнюємо, скільки людина \(i\) заробила б після відправлення, до того, скільки людина \(i\) заробила б без обслуговування. Мені, екв. 2.1 - це найяскравіший спосіб визначити причинний ефект, і, хоч і надзвичайно простий, ця схема виявляється узагальнюваною багатьма важливими та цікавими способами (Imbens and Rubin 2015) .
Використовуючи структуру потенційних результатів, я часто вважаю за доцільне написати таблицю, яка показує потенційні результати та ефекти лікування для всіх підрозділів (таблиця 2.5). Якщо ви не можете уявити собі такий стіл для навчання, то, можливо, вам потрібно буде точніше визначити ваші підрозділи, методи лікування та потенційні результати.
Особа | Прибуток у стані лікування | Прибуток в умовах управління | Ефект лікування |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
Середня | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Однак, визначаючи причинний ефект таким чином, ми зіткнулися з проблемою. Майже у всіх випадках ми не спостерігаємо як потенційні результати. Тобто конкретна особа або обслуговувала, або не служила. Тому ми спостерігаємо один з потенційних результатів - \(Y_i(1)\) або \(Y_i(0)\) - але не обидва. Неможливість спостерігати як потенційні результати є настільки великою проблемою, що Holland (1986) назвала його основною проблемою причинного висновку .
На щастя, коли ми проводимо дослідження, у нас не просто одна людина; Скоріше, у нас багато людей, і це дає можливість обійти основну проблему причинного висновку. Замість того, щоб намагатися оцінити ефект лікування окремих рівнів, ми можемо оцінити середній ефект лікування для всіх підрозділів:
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
Це рівняння все ще виражається в термінах \(\tau_i\) , які не спостерігаються, але з деякою алгебри (екв. 2.8 з Gerber and Green (2012) ), ми отримуємо
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
Це показує, що якщо ми зможемо оцінити середній потік результатів під час обробки ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) та середнього популяційного результату під контролем ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), то ми можемо оцінити середній ефект лікування, навіть не оцінюючи ефект лікування для конкретної людини.
Тепер, коли я визначив нашу оцінку - те, що ми намагаємося оцінити, я звернуся до того, як ми можемо реально оцінити його з даними. І тут ми безпосередньо звертаємось до проблеми, що ми спостерігаємо лише один з потенційних результатів для кожної людини; ми бачимо \(Y_i(0)\) або \(Y_i(1)\) (таблиця 2.6). Ми можемо оцінити середній ефект лікування, порівнюючи прибутки людей, які обслуговують заробітки людей, які не обслуговували:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
де \(N_t\) і \(N_c\) - це кількість людей в умовах лікування та контролю. Цей підхід буде добре працювати, якщо призначення лікування не залежить від потенційних результатів, яке іноді називають невмінням . На жаль, за відсутності експерименту ігноруваність часто не задовольняється, а це означає, що оцінка в еквіваленті. 2.4 навряд чи дасть хорошу оцінку. Один із способів думати про це полягає в тому, що за відсутності випадкового розподілу лікування, екв. 2.4 не порівнюється, як з подібним; це порівняння заробітку різних людей. Або виражено дещо інше, без випадкового розподілу лікування, розподіл лікування, мабуть, пов'язаний з потенційними наслідками.
У розділі 4 я опишу, як рандомізовані контрольовані експерименти можуть допомогти дослідникам зробити причинні оцінки, і тут я опишу, як дослідники можуть скористатися природними експериментами, такими як проект лотереї.
Особа | Прибуток у стані лікування | Прибуток в умовах управління | Ефект лікування |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
Середня | ? | ? | ? |
Природні експерименти
Одним з підходів до створення причинних оцінок без експерименту є пошук того, що відбувається у світі, який випадково призначив для вас лікування. Цей підхід називають природними експериментами . У багатьох ситуаціях, на жаль, природа не випадково доставляє лікування, яке ви хочете для інтересу населення. Але іноді природа випадково забезпечує відповідне лікування. Зокрема, я розгляну тим випадком, коли існує якась вторинна лінія, яка спонукає людей до первинного лікування . Наприклад, проект може розглядатися як випадкова, вторинна лінія, яка заохочує деяких людей до первинної медичної допомоги. Цю конструкцію іноді називають заохочувальним дизайном . І метод аналізу, який я опишу для розгляду цієї ситуації, іноді називають інструментальними змінами . У цьому випадку, за певних припущень, дослідники можуть використовувати заохочення, щоб дізнатись про ефект первинного лікування для певної підмножини одиниць.
Для того, щоб керувати двома різними процедурами - заохоченням і первинним лікуванням - нам потрібні нові позначення. Припустимо, що деякі люди випадково складені ( \(Z_i = 1\) ) або не готуються ( \(Z_i = 0\) ); У цій ситуації \(Z_i\) іноді називають інструментом .
Серед тих, хто був підготовлений, деякі подали ( \(Z_i = 1, W_i = 1\) ), а деякі не ( \(Z_i = 1, W_i = 0\) ). Подібним чином серед тих, хто не був підготовлений, деякі обслуговували ( \(Z_i = 0, W_i = 1\) ), а деякі не ( \(Z_i = 0, W_i = 0\) ). Потенційні результати для кожної людини тепер можуть бути розширені, щоб показати їх статус як для заохочення, так і для лікування. Наприклад, let \(Y(1, W_i(1))\) є доходом людини \(i\) якщо він був підготовлений, де \(W_i(1)\) - його статус служби, якщо він підготовлений. Далі, ми можемо розділити населення на чотири групи: компілятори, ніколи не приймають, відбуватиметься і завжди приймають (таблиця 2.7).
Тип | Служба, якщо вона підготовлена | Сервіс, якщо не складено |
---|---|---|
Комплекти | Так, \(W_i(Z_i=1) = 1\) | Ні, \(W_i(Z_i=0) = 0\) |
Ніколи не приймають | Ні, \(W_i(Z_i=1) = 0\) | Ні, \(W_i(Z_i=0) = 0\) |
Захисники | Ні, \(W_i(Z_i=1) = 0\) | Так, \(W_i(Z_i=0) = 1\) |
Завжди-приймачі | Так, \(W_i(Z_i=1) = 1\) | Так, \(W_i(Z_i=0) = 1\) |
Перш ніж ми обговоримо оцінку ефекту лікування (тобто, військової служби), ми спочатку визначимо два ефекти заохочення (тобто розробляється). По-перше, ми можемо визначити ефект заохочення до первинного лікування. По-друге, ми можемо визначити вплив заохочення на результат. Виявить, що ці два ефекти можуть бути об'єднані, щоб забезпечити оцінку ефекту лікування на певну групу людей.
По-перше, ефект заохочення на лікування може бути визначений для людини \(i\) as
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
Далі ця кількість може бути визначена по всьому населенню як
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
Нарешті, ми можемо оцінити \(\text{ITT} _{W}\) за допомогою даних:
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
де \(\bar{W}^{\text{obs}}_1\) - це спостережувана швидкість лікування для тих, хто був заохочений та \(\bar{W}^{\text{obs}}_0\) спостережувана швидкість лікування для тих, хто не був заохочений. \(\text{ITT}_W\) також іноді називають швидкістю поглинання .
Далі, ефект заохочення до результату може бути визначений для людини \(i\) як:
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
Далі ця кількість може бути визначена по всьому населенню як
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
Нарешті, ми можемо оцінити \(\text{ITT}_{Y}\) за допомогою даних:
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
де \(\bar{Y}^{\text{obs}}_1\) - це спостережуваний результат (наприклад, заробіток) для тих, кого заохочували (наприклад, складені) та \(\bar{W}^{\text{obs}}_0\) - спостережуваний результат для тих, хто не був заохочений.
Нарешті, ми звертаємо увагу на ефект інтересу: ефект первинної обробки (наприклад, військової служби) на результат (наприклад, заробіток). На жаль, виявляється, що взагалі не можна оцінити цей вплив на всі одиниці. Проте, з деякими припущеннями, дослідники можуть оцінити ефект лікування на компіляторів (тобто людей, які будуть служити, якщо їх буде складено, і тих, хто не буде служити, якщо не буде підготовлений, таблиця 2.7). Я називаю цю оцінку та середній причинний ефект компілятора (CACE) (який також іноді називають ефектом локального ефекту лікування , LATE):
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
де \(G_i\) пожертвувала групу осіб \(i\) (див. табл. 2.7), а \(N_{\text{co}}\) - це число компіляторів. Іншими словами, екв. 2.11 порівнює заробіток компіляторів, котрі складаються з \(Y_i(1, W_i(1))\) і не складаються \(Y_i(0, W_i(0))\) . Оцінка в еквіваленті 2.11 здається важко оцінити з даних, що спостерігаються, оскільки неможливо ідентифікувати компілятори, які використовують лише спостережувані дані (щоб дізнатись, чи є хтось компілятором, вам потрібно буде стежити за тим, чи він обслуговував його під час складання, і чи він обслуговував, коли він не був підготовлений).
Виявляється, дещо дивно, що якщо є які-небудь компілятори, то за наявності одного з трьох додаткових припущень можна оцінити CACE із спостережуваних даних. По-перше, слід припустити, що призначення до лікування є випадковим. У випадку лотереї, це розумно. Проте в деяких випадках, коли природні експерименти не покладаються на фізичну рандомізацію, це припущення може бути більш проблематичним. По-друге, треба припустити, що їх не є стрибками (це припущення іноді називають припущенням монотонності). У контексті проекту видається доцільним припустити, що дуже мало людей, які не будуть служити, якщо будуть складені та будуть служити, якщо вони не будуть підготовлені. По-третє, і, нарешті, належить найважливіше припущення, яке називається обмеженням виключення . Під обмеження виключення, слід припустити, що весь ефект призначення лікування відбувається через саму обробку. Іншими словами, слід припустити, що немає прямого ефекту заохочення результатів. Наприклад, у проекті лотереї слід припустити, що проект статусу не впливає на заробітки, крім військової служби (рис 2.11). Обмеження на виключення може бути порушено, якщо, наприклад, люди, яких було підготовлено, проводили більше часу в школі, щоб уникнути служби, або якщо роботодавці найімовірніше найматимуть людей, яких було підготовлено.
Якщо ці три умови (випадкове призначення лікування, відсутність захисника та обмеження виключення) виконуються, то
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
тому ми можемо оцінити CACE:
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
Один спосіб думати про CACE полягає в тому, що це різниця в результатах між тими, кого заохочували, а тих, кого не заохочували, наповнені швидкістю поглинання.
Існує два важливих застереження, про які слід пам'ятати. По-перше, обмеження виключення є сильним припущенням, і воно повинно бути обґрунтоване в кожному конкретному випадку, що часто вимагає експертизи предметної сфери. Обмеження виключення не може бути виправдане з рандомізацією заохочення. По-друге, загальний практичний виклик з аналізом інструментальної змінної настає тоді, коли заохочення мало впливає на поглинання лікування (коли \(\text{ITT}_W\) мале). Це називається слабким інструментом , і це призводить до різноманітних проблем (Imbens and Rosenbaum 2005; Murray 2006) . Один із способів думати про проблему з слабкими інструментами полягає в тому, що \(\widehat{\text{CACE}}\) може бути чутливим до малих упередженостей в \(\widehat{\text{ITT}_Y}\) потенційно через порушення обмеження виключення, оскільки ці зміщення збільшуються за допомогою малого \(\widehat{\text{ITT}_W}\) (див. екв.2.13). Приблизно, якщо лікування, яке природа надає, не має великого впливу на лікування, яке вас цікавить, тоді вам буде важко навчитися про лікування, яке вас цікавить.
Див. Imbens and Rubin (2015) 23 та 24 " Imbens and Rubin (2015) для більш формальної версії цієї дискусії. Традиційний економетричний підхід до інструментальних змінних, як правило, виражається в плані оцінки рівнянь, а не потенційних результатів. Для введення з цієї іншої точки зору див. Angrist and Pischke (2009) , а для порівняння двох підходів див. Розділ 24.6 Imbens and Rubin (2015) . Альтернатива, трохи менш офіційне представлення підходу інструментальних змінних, наведена в главі 6 Gerber and Green (2012) . Докладніше про обмеження виключення див. D. Jones (2015) . Aronow and Carnegie (2013) описують додатковий набір припущень, які можуть бути використані для оцінки АТЕ, а не КАС. Більш детальну інформацію про те, як природні експерименти можуть бути дуже складними для інтерпретації, див. Sekhon and Titiunik (2012) . Більш загальне введення в натуральні експерименти, яке виходить далеко за рамки простого інструментального змінного підходу, також включає такі конструкції, як регресійний розрив, див. Dunning (2012) .