Trong phụ lục này, tôi sẽ tóm tắt một số ý tưởng về việc đưa ra suy luận nhân quả từ dữ liệu phi thực nghiệm ở dạng toán học hơi hơn. Có hai cách tiếp cận chính: khung biểu đồ nhân quả, liên quan nhiều nhất với Judea Pearl và các đồng nghiệp, và khung kết quả tiềm năng, liên quan nhiều nhất với Donald Rubin và các đồng nghiệp. Tôi sẽ giới thiệu khuôn khổ kết quả tiềm năng vì nó được kết nối chặt chẽ hơn với các ý tưởng trong các ghi chú toán học ở cuối chương 3 và 4. Để biết thêm về khuôn khổ biểu đồ nhân quả, tôi khuyên bạn nên Pearl, Glymour, and Jewell (2016) (giới thiệu) ) và Pearl (2009) (nâng cao). Đối với một cuốn sách dài điều trị suy luận nhân quả kết hợp các khung kết quả tiềm năng và khuôn khổ biểu đồ nhân quả, tôi khuyên bạn nên Morgan and Winship (2014) .
Mục tiêu của phụ lục này là giúp bạn cảm thấy thoải mái với ký hiệu và phong cách của truyền thống kết quả tiềm năng để bạn có thể chuyển sang một số tài liệu kỹ thuật khác được viết về chủ đề này. Đầu tiên, tôi sẽ mô tả khung kết quả tiềm năng. Sau đó, tôi sẽ sử dụng nó để thảo luận thêm về các thí nghiệm tự nhiên như thí nghiệm của Angrist (1990) về ảnh hưởng của dịch vụ quân sự đối với thu nhập. Phụ lục này dựa nhiều vào Imbens and Rubin (2015) .
Khung kết quả tiềm năng
Khung kết quả tiềm năng có ba yếu tố chính: đơn vị , phương pháp điều trị và kết quả tiềm năng . Để minh họa cho các yếu tố này, chúng ta hãy xem xét một phiên bản cách điệu của câu hỏi được đề cập trong Angrist (1990) : Ảnh hưởng của dịch vụ quân sự đối với thu nhập là gì? Trong trường hợp này, chúng tôi có thể xác định các đơn vị là những người đủ điều kiện cho dự thảo năm 1970 tại Hoa Kỳ và chúng tôi có thể lập chỉ mục những người này bằng \(i = 1, \ldots, N\) . Các phương pháp điều trị trong trường hợp này có thể là "phục vụ trong quân đội" hoặc "không phục vụ trong quân đội." Tôi sẽ gọi những điều kiện điều trị và kiểm soát, và tôi sẽ viết \(W_i = 1\) nếu người \(i\) đang trong tình trạng điều trị và \(W_i = 0\) nếu người \(i\) đang trong tình trạng kiểm soát. Cuối cùng, các kết quả tiềm năng khó hơn một chút về khái niệm vì chúng liên quan đến các kết quả “tiềm năng”; những điều có thể đã xảy ra. Đối với mỗi người đủ điều kiện cho dự thảo năm 1970, chúng ta có thể tưởng tượng số tiền họ kiếm được vào năm 1978 nếu họ phục vụ trong quân đội, tôi sẽ gọi \(Y_i(1)\) , và số tiền họ kiếm được 1978 nếu họ không phục vụ trong quân đội, tôi sẽ gọi \(Y_i(0)\) . Trong khung kết quả tiềm năng, \(Y_i(1)\) và \(Y_i(0)\) được coi là số lượng cố định, trong khi \(W_i\) là một biến ngẫu nhiên.
Việc lựa chọn các đơn vị, phương pháp điều trị và kết quả là rất quan trọng bởi vì nó xác định những gì có thể và không thể học được từ nghiên cứu. Việc lựa chọn các đơn vị - những người hội đủ điều kiện cho dự thảo năm 1970 - không bao gồm phụ nữ, và vì vậy mà không có giả định bổ sung, nghiên cứu này sẽ không cho chúng tôi biết bất kỳ điều gì về hiệu quả của nghĩa vụ quân sự đối với phụ nữ. Các quyết định về cách xác định phương pháp điều trị và kết quả cũng rất quan trọng. Ví dụ, liệu việc xử lý sự quan tâm có tập trung vào việc phục vụ trong quân đội hay trải qua chiến đấu không? Nếu kết quả lợi ích là thu nhập hoặc sự hài lòng công việc? Cuối cùng, việc lựa chọn các đơn vị, phương pháp điều trị và kết quả cần được thúc đẩy bởi các mục tiêu khoa học và chính sách của nghiên cứu.
Với sự lựa chọn của các đơn vị, phương pháp điều trị, và kết quả tiềm năng, hiệu quả nhân quả của việc điều trị trên người \(i\) , \(\tau_i\) , là
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
Nói cách khác, chúng ta so sánh bao nhiêu người \(i\) sẽ thu được sau khi phục vụ cho bao nhiêu người \(i\) sẽ kiếm được mà không phục vụ. Với tôi, eq. 2.1 là cách rõ ràng nhất để xác định một hiệu ứng nhân quả, và mặc dù cực kỳ đơn giản, khuôn khổ này hóa ra theo nhiều cách quan trọng và thú vị (Imbens and Rubin 2015) .
Khi sử dụng khung kết quả tiềm năng, tôi thường thấy hữu ích khi viết ra một bảng hiển thị các kết quả tiềm năng và hiệu quả điều trị cho tất cả các đơn vị (bảng 2.5). Nếu bạn không thể tưởng tượng một bảng như thế này cho nghiên cứu của bạn, thì bạn có thể cần phải chính xác hơn trong các định nghĩa về đơn vị, phương pháp điều trị và kết quả tiềm năng của bạn.
Người | Thu nhập trong điều kiện điều trị | Thu nhập trong điều kiện kiểm soát | Hiệu quả điều trị |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
Nghĩa là | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Tuy nhiên, khi xác định hiệu quả nhân quả theo cách này, chúng tôi gặp phải vấn đề. Trong hầu hết các trường hợp, chúng tôi không nhận được cả hai kết quả tiềm năng. Đó là, một người cụ thể phục vụ hoặc không phục vụ. Do đó, chúng tôi quan sát một trong các kết quả tiềm \(Y_i(1)\) hoặc \(Y_i(0)\) —không phải cả hai. Không có khả năng quan sát cả hai kết quả tiềm năng là một vấn đề lớn mà Holland (1986) gọi đó là vấn đề cơ bản của Suy luận nhân quả .
May mắn thay, khi chúng tôi đang nghiên cứu, chúng tôi không chỉ có một người; thay vào đó, chúng ta có nhiều người, và điều này đưa ra một cách xung quanh vấn đề cơ bản của suy luận nhân quả. Thay vì cố gắng ước tính hiệu quả điều trị ở mức độ cá nhân, chúng tôi có thể ước tính hiệu quả điều trị trung bình cho tất cả các đơn vị:
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
Phương trình này vẫn được thể hiện dưới dạng \(\tau_i\) , không thể quan sát được, nhưng với một số đại số (eq 2.8 của Gerber and Green (2012) ), chúng ta nhận được
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
Điều này cho thấy rằng nếu chúng ta có thể ước tính kết quả trung bình của dân số dưới sự điều trị ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) và kết quả trung bình của dân số dưới sự kiểm soát ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), sau đó chúng ta có thể ước tính hiệu quả điều trị trung bình, thậm chí không ước lượng hiệu quả điều trị cho bất kỳ người cụ thể nào.
Bây giờ tôi đã xác định ước tính của chúng tôi - điều chúng tôi đang cố gắng ước tính — Tôi sẽ chuyển sang cách chúng tôi có thể ước tính nó với dữ liệu. Và ở đây chúng tôi chạy trực tiếp vào vấn đề mà chúng tôi chỉ quan sát một trong những kết quả tiềm năng cho mỗi người; chúng ta thấy \(Y_i(0)\) hoặc \(Y_i(1)\) (bảng 2.6). Chúng tôi có thể ước tính hiệu quả điều trị trung bình bằng cách so sánh thu nhập của những người phục vụ cho thu nhập của những người không phục vụ:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
trong đó \(N_t\) và \(N_c\) là số người trong điều kiện điều trị và kiểm soát. Cách tiếp cận này sẽ làm việc tốt nếu sự phân công điều trị không phụ thuộc vào kết quả tiềm năng, một tình trạng đôi khi được gọi ignorability. Thật không may, trong trường hợp không có một thử nghiệm, sự thiếu hiểu biết thường không được thỏa mãn, có nghĩa là bộ ước lượng theo phương trình. 2.4 không có khả năng sản xuất ước tính tốt. Một cách để suy nghĩ về nó là trong trường hợp không có phân công ngẫu nhiên của điều trị, eq. 2,4 không so sánh như với; nó so sánh thu nhập của các loại người khác nhau. Hoặc thể hiện hơi khác nhau, không phân bổ điều trị ngẫu nhiên, việc phân bổ điều trị có thể liên quan đến các kết cục tiềm năng.
Trong chương 4, tôi sẽ mô tả các thí nghiệm ngẫu nhiên có thể giúp các nhà nghiên cứu đưa ra ước tính nhân quả như thế nào, và ở đây tôi sẽ mô tả cách các nhà nghiên cứu có thể tận dụng các thí nghiệm tự nhiên như xổ số dự thảo.
Người | Thu nhập trong điều kiện điều trị | Thu nhập trong điều kiện kiểm soát | Hiệu quả điều trị |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
Nghĩa là | ? | ? | ? |
Thử nghiệm tự nhiên
Một cách tiếp cận để thực hiện ước tính nhân quả mà không cần chạy thử nghiệm là tìm kiếm một điều gì đó đang diễn ra trên thế giới đã chỉ định ngẫu nhiên một cách điều trị cho bạn. Cách tiếp cận này được gọi là thí nghiệm tự nhiên . Trong nhiều tình huống, thật không may, bản chất không phân phối ngẫu nhiên cách điều trị mà bạn muốn với số lượng người quan tâm. Nhưng đôi khi, thiên nhiên ngẫu nhiên cung cấp một điều trị liên quan. Đặc biệt, tôi sẽ xem xét trường hợp có một số phương pháp điều trị thứ cấp khuyến khích mọi người được điều trị chính . Ví dụ, dự thảo có thể được coi là một phương pháp điều trị thứ cấp được chỉ định ngẫu nhiên, khuyến khích một số người điều trị chính, phục vụ trong quân đội. Thiết kế này đôi khi được gọi là một thiết kế khuyến khích . Và phương pháp phân tích mà tôi sẽ mô tả để xử lý tình huống này đôi khi được gọi là các biến công cụ . Trong bối cảnh này, với một số giả định, các nhà nghiên cứu có thể sử dụng sự khuyến khích để tìm hiểu về hiệu quả của việc điều trị ban đầu cho một tập hợp con các đơn vị cụ thể.
Để xử lý hai phương pháp điều trị khác nhau — khuyến khích và điều trị chính — chúng ta cần một số ký hiệu mới. Giả sử một số người được soạn thảo ngẫu nhiên ( \(Z_i = 1\) ) hoặc không được soạn thảo ( \(Z_i = 0\) ); trong tình huống này, \(Z_i\) đôi khi được gọi là một công cụ .
Trong số những người đã được soạn thảo, một số phục vụ ( \(Z_i = 1, W_i = 1\) ) và một số không ( \(Z_i = 1, W_i = 0\) ). Tương tự như vậy, trong số những người không được soạn thảo, một số được phục vụ ( \(Z_i = 0, W_i = 1\) ) và một số không ( \(Z_i = 0, W_i = 0\) ). Các kết quả tiềm năng cho mỗi người bây giờ có thể được mở rộng để hiển thị tình trạng của họ cho cả sự khuyến khích và điều trị. Ví dụ, hãy để \(Y(1, W_i(1))\) là thu nhập của người \(i\) nếu anh ta được soạn thảo, trong đó \(W_i(1)\) là trạng thái dịch vụ của anh ta nếu được soạn thảo. Hơn nữa, chúng ta có thể phân chia dân số thành bốn nhóm: người khiếu nại, người không bao giờ, người khai phá và người làm việc (bảng 2.7).
Kiểu | Dịch vụ nếu được soạn thảo | Dịch vụ nếu không được soạn thảo |
---|---|---|
Khiếu nại | Có, \(W_i(Z_i=1) = 1\) | Không, \(W_i(Z_i=0) = 0\) |
Không bao giờ | Không, \(W_i(Z_i=1) = 0\) | Không, \(W_i(Z_i=0) = 0\) |
Defiers | Không, \(W_i(Z_i=1) = 0\) | Có, \(W_i(Z_i=0) = 1\) |
Người dự phòng | Có, \(W_i(Z_i=1) = 1\) | Có, \(W_i(Z_i=0) = 1\) |
Trước khi chúng ta thảo luận về ước tính hiệu quả của việc điều trị (nghĩa là dịch vụ quân sự), trước tiên chúng ta có thể xác định hai tác động của sự khuyến khích (tức là đang được soạn thảo). Đầu tiên, chúng ta có thể xác định hiệu quả của sự khuyến khích đối với việc điều trị ban đầu. Thứ hai, chúng ta có thể xác định hiệu quả của sự khích lệ về kết quả. Nó sẽ chỉ ra rằng hai hiệu ứng có thể được kết hợp để cung cấp một ước tính về hiệu quả của việc điều trị trên một nhóm người cụ thể.
Đầu tiên, hiệu quả của việc khuyến khích điều trị có thể được xác định cho người \(i\) như
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
Hơn nữa, số lượng này có thể được xác định trên toàn bộ dân số
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
Cuối cùng, chúng ta có thể ước tính \(\text{ITT} _{W}\) bằng cách sử dụng dữ liệu:
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
trong đó \(\bar{W}^{\text{obs}}_1\) là tỷ lệ điều trị quan sát được đối với những người được khuyến khích và \(\bar{W}^{\text{obs}}_0\) là tỷ lệ điều trị quan sát được đối với những người không được khuyến khích. \(\text{ITT}_W\) cũng đôi khi được gọi là tỷ lệ hấp thu .
Tiếp theo, hiệu quả của việc khuyến khích kết quả có thể được xác định cho người \(i\) như sau:
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
Hơn nữa, số lượng này có thể được xác định trên toàn bộ dân số
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
Cuối cùng, chúng ta có thể ước tính \(\text{ITT}_{Y}\) bằng cách sử dụng dữ liệu:
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
trong đó \(\bar{Y}^{\text{obs}}_1\) là kết quả quan sát được (ví dụ, thu nhập) cho những người được khuyến khích (ví dụ, được soạn thảo) và \(\bar{W}^{\text{obs}}_0\) là kết quả quan sát được đối với những người không được khuyến khích.
Cuối cùng, chúng tôi chuyển sự chú ý của chúng tôi đến hiệu quả quan tâm: hiệu quả của việc điều trị chính (ví dụ, dịch vụ quân sự) trên kết quả (ví dụ, thu nhập). Thật không may, nó chỉ ra rằng người ta không thể, nói chung, ước tính hiệu ứng này trên tất cả các đơn vị. Tuy nhiên, với một số giả định, các nhà nghiên cứu có thể ước tính hiệu quả của việc điều trị đối với người khiếu nại (tức là, những người sẽ phục vụ nếu được soạn thảo và những người sẽ không phục vụ nếu không được soạn thảo, bảng 2.7). Tôi sẽ gọi ước lượng này và hiệu ứng nhân quả trung bình của complier (CACE) (đôi khi còn được gọi là hiệu ứng điều trị trung bình cục bộ , LATE):
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
trong đó \(G_i\) quyên góp cho nhóm người \(i\) (xem bảng 2.7) và \(N_{\text{co}}\) là số người \(G_i\) . Nói cách khác, eq. 2,11 so sánh thu nhập của người \(Y_i(1, W_i(1))\) được soạn thảo \(Y_i(1, W_i(1))\) và không được soạn thảo \(Y_i(0, W_i(0))\) . Ước tính trong eq. 2.11 có vẻ khó ước tính từ dữ liệu quan sát bởi vì không thể xác định người khiếu nại chỉ sử dụng dữ liệu quan sát (để biết liệu người nào đó có tuân thủ hay không, bạn sẽ cần quan sát xem liệu anh ta có phục vụ khi được soạn thảo hay không và liệu anh ta có phục vụ khi không được soạn thảo) hay không.
Hóa ra - hơi ngạc nhiên - rằng nếu có bất kỳ người khiếu nại nào, thì một người đưa ra ba giả định bổ sung, có thể ước tính CACE từ dữ liệu quan sát được. Đầu tiên, người ta phải giả định rằng việc phân công điều trị là ngẫu nhiên. Trong trường hợp xổ số dự thảo, điều này là hợp lý. Tuy nhiên, ở một số nơi mà các thí nghiệm tự nhiên không dựa vào sự ngẫu nhiên vật lý, giả thiết này có thể có vấn đề hơn. Thứ hai, người ta phải giả định rằng họ không có người giải quyết (giả định này đôi khi cũng được gọi là giả định đơn điệu). Trong bối cảnh của dự thảo có vẻ hợp lý để giả định rằng có rất ít người sẽ không phục vụ nếu dự thảo và sẽ phục vụ nếu không được soạn thảo. Thứ ba, và cuối cùng, đưa ra giả định quan trọng nhất được gọi là hạn chế loại trừ . Theo giới hạn loại trừ, người ta phải giả định rằng tất cả các hiệu ứng của việc phân công điều trị được thông qua thông qua việc điều trị chính nó. Nói cách khác, người ta phải giả định rằng không có tác động trực tiếp của sự khuyến khích về kết quả. Trong trường hợp xổ số dự thảo, ví dụ, người ta cần giả định rằng tình trạng dự thảo không ảnh hưởng đến thu nhập khác ngoài dịch vụ quân sự (hình 2.11). Các hạn chế loại trừ có thể bị vi phạm nếu, ví dụ, những người đã được soạn thảo dành nhiều thời gian ở trường để tránh dịch vụ hoặc nếu người sử dụng lao động ít có khả năng thuê những người đã được soạn thảo.
Nếu ba điều kiện (phân công ngẫu nhiên để điều trị, không có defiers, và hạn chế loại trừ) được đáp ứng, sau đó
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
để chúng tôi có thể ước tính CACE:
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
Một cách để suy nghĩ về CACE là nó là sự khác biệt trong kết quả giữa những người được khuyến khích và những người không được khuyến khích, tăng cao bởi tỷ lệ hấp thu.
Có hai điều quan trọng cần lưu ý. Thứ nhất, hạn chế loại trừ là một giả định mạnh mẽ, và nó cần được chứng minh trên cơ sở từng trường hợp, thường xuyên đòi hỏi chuyên môn về lĩnh vực chủ đề. Giới hạn loại trừ không thể được biện minh bằng cách ngẫu nhiên khuyến khích. Thứ hai, một thách thức thực tế phổ biến với phân tích biến công cụ đến khi sự khuyến khích có ít ảnh hưởng đến sự hấp thu của điều trị (khi \(\text{ITT}_W\) là nhỏ). Điều này được gọi là một công cụ yếu , và nó dẫn đến một loạt các vấn đề (Imbens and Rosenbaum 2005; Murray 2006) . Một cách để suy nghĩ về vấn đề với các công cụ yếu là \(\widehat{\text{CACE}}\) có thể nhạy cảm với các thành kiến nhỏ trong \(\widehat{\text{ITT}_Y}\) —có khả năng là do vi phạm hạn chế loại trừ — bởi vì những thành kiến này được phóng đại bởi một \(\widehat{\text{ITT}_W}\) (xem trang 2.13). Nói chung, nếu việc điều trị mà tự nhiên gán không có tác động lớn đến việc điều trị mà bạn quan tâm, thì bạn sẽ khó có thể học được cách điều trị mà bạn quan tâm.
Xem chương 23 và 24 của Imbens and Rubin (2015) để có phiên bản chính thức hơn của cuộc thảo luận này. Cách tiếp cận kinh tế truyền thống đối với các biến công cụ thường được thể hiện dưới dạng ước lượng phương trình, chứ không phải kết quả tiềm năng. Để có một giới thiệu từ quan điểm khác này, xem Angrist and Pischke (2009) , và để so sánh giữa hai phương pháp tiếp cận, xem phần 24.6 của Imbens and Rubin (2015) . Một cách trình bày thay thế, ít chính thức hơn một chút về cách tiếp cận các biến công cụ được cung cấp trong chương 6 của Gerber and Green (2012) . Để biết thêm về hạn chế loại trừ, xem D. Jones (2015) . Aronow and Carnegie (2013) mô tả một bộ giả định bổ sung có thể được sử dụng để ước tính ATE thay vì CACE. Để biết thêm về cách các thí nghiệm tự nhiên có thể rất khó giải thích, hãy xem Sekhon and Titiunik (2012) . Để có một giới thiệu tổng quát hơn về các thí nghiệm tự nhiên — một thí nghiệm vượt xa chỉ là phương pháp biến công cụ cũng bao gồm các thiết kế như sự gián đoạn hồi quy — xem Dunning (2012) .