Tôi nghĩ cách tốt nhất để hiểu các thí nghiệm là khung kết quả tiềm năng (mà tôi đã thảo luận trong các ghi chú toán học trong chương 2). Khung kết quả tiềm năng có mối quan hệ chặt chẽ với các ý tưởng từ lấy mẫu dựa trên thiết kế mà tôi đã mô tả trong chương 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Phụ lục này đã được viết theo cách nhấn mạnh kết nối đó. Sự nhấn mạnh này hơi phi truyền thống, nhưng tôi nghĩ rằng kết nối giữa lấy mẫu và thử nghiệm là hữu ích: điều đó có nghĩa là nếu bạn biết gì về lấy mẫu thì bạn biết điều gì đó về thí nghiệm và ngược lại. Như tôi sẽ trình bày trong các ghi chú này, khung kết quả tiềm năng cho thấy sức mạnh của các thí nghiệm được kiểm soát ngẫu nhiên để ước lượng hiệu ứng nhân quả, và nó cho thấy những hạn chế của những gì có thể được thực hiện với các thí nghiệm được thực hiện hoàn hảo.
Trong phụ lục này, tôi sẽ mô tả khuôn khổ kết quả tiềm năng, sao chép một số tài liệu từ các ghi chú toán học trong chương 2 để làm cho các ghi chú này khép kín hơn. Sau đó, tôi sẽ mô tả một số kết quả hữu ích về độ chính xác của các ước tính về hiệu quả điều trị trung bình, bao gồm một cuộc thảo luận về phân bổ tối ưu và các ước tính khác biệt trong khác biệt. Phụ lục này dựa nhiều vào Gerber and Green (2012) .
Khung kết quả tiềm năng
Để minh họa khuôn khổ kết quả tiềm năng, chúng ta hãy trở lại thí nghiệm của Restivo và van de Rijt để ước tính hiệu quả của việc nhận được một barnstar về những đóng góp trong tương lai cho Wikipedia. Khung kết quả tiềm năng có ba yếu tố chính: đơn vị , phương pháp điều trị và kết quả tiềm năng . Trong trường hợp của Restivo và van de Rijt, các đơn vị là những người biên tập xứng đáng - những người trong top 1% những người đóng góp - những người chưa nhận được một barnstar. Chúng tôi có thể lập chỉ mục các biên tập viên này bằng \(i = 1 \ldots N\) . Các phương pháp điều trị trong thí nghiệm của họ là “barnstar” hoặc “no barnstar” và tôi sẽ viết \(W_i = 1\) nếu người \(i\) đang ở trong tình trạng điều trị và \(W_i = 0\) nếu không. Yếu tố thứ ba của khung kết quả tiềm năng là quan trọng nhất: các kết quả tiềm năng . Đây là một chút khó khăn về mặt khái niệm vì chúng liên quan đến các kết quả “tiềm năng” - những điều có thể xảy ra. Đối với mỗi trình soạn thảo Wikipedia, người ta có thể tưởng tượng số lần chỉnh sửa mà cô ấy sẽ thực hiện trong điều kiện điều trị ( \(Y_i(1)\) ) và số mà cô ấy sẽ thực hiện trong điều kiện kiểm soát ( \(Y_i(0)\) ).
Lưu ý rằng lựa chọn đơn vị, phương pháp điều trị và kết quả này xác định những gì có thể học được từ thử nghiệm này. Ví dụ, không có bất kỳ giả định bổ sung nào, Restivo và van de Rijt không thể nói bất cứ điều gì về hiệu ứng của barnstars trên tất cả các biên tập viên Wikipedia hoặc các kết quả như chất lượng chỉnh sửa. Nói chung, việc lựa chọn các đơn vị, phương pháp điều trị và kết quả phải dựa trên các mục tiêu của nghiên cứu.
Với những kết quả tiềm năng này - được tóm tắt trong bảng 4.5 - người ta có thể xác định hiệu quả nhân quả của việc điều trị cho người \(i\) như
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Đối với tôi, phương trình này là cách rõ ràng nhất để xác định một hiệu ứng nhân quả, và, mặc dù cực kỳ đơn giản, khung này hóa ra theo nhiều cách quan trọng và thú vị (Imbens and Rubin 2015) .
Người | Chỉnh sửa trong điều kiện điều trị | Chỉnh sửa trong điều kiện kiểm soát | Hiệu quả điều trị |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
nghĩa là | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Tuy nhiên, nếu chúng ta định nghĩa quan hệ nhân quả theo cách này, chúng ta sẽ gặp phải một vấn đề. Trong hầu hết các trường hợp, chúng tôi không nhận được cả hai kết quả tiềm năng. Đó là, một biên tập viên Wikipedia cụ thể hoặc đã nhận được một barnstar hay không. Do đó, chúng tôi quan sát một trong các kết quả tiềm \(Y_i(1)\) hoặc \(Y_i(0)\) —không phải cả hai. Không có khả năng quan sát cả hai kết quả tiềm năng là một vấn đề lớn mà Holland (1986) gọi đó là vấn đề cơ bản của Suy luận nhân quả .
May mắn thay, khi chúng tôi đang nghiên cứu, chúng tôi không chỉ có một người, chúng tôi có nhiều người, và điều này đưa ra một cách giải quyết vấn đề cơ bản của suy luận nhân quả. Thay vì cố gắng ước tính hiệu quả điều trị ở mức độ cá nhân, chúng tôi có thể ước tính hiệu quả điều trị trung bình:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Điều này vẫn được thể hiện dưới dạng \(\tau_i\) mà không thể \(\tau_i\) được, nhưng với một số đại số (Eq 2.8 của Gerber and Green (2012) ) chúng ta nhận được
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Phương trình 4.3 cho thấy rằng nếu chúng ta có thể ước tính kết quả trung bình của dân số trong điều trị ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) và kết quả trung bình của dân số dưới sự kiểm soát ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), sau đó chúng tôi có thể ước tính hiệu quả điều trị trung bình, thậm chí không ước tính hiệu quả điều trị cho bất kỳ người cụ thể nào.
Bây giờ tôi đã xác định ước tính của chúng tôi - điều chúng tôi đang cố gắng ước tính — Tôi sẽ chuyển sang cách chúng tôi có thể ước tính nó với dữ liệu. Tôi thích nghĩ về thử thách ước lượng này như một vấn đề lấy mẫu (suy nghĩ lại các ghi chú toán học trong chương 3). Hãy tưởng tượng rằng chúng tôi chọn ngẫu nhiên một số người để quan sát trong điều kiện điều trị và chúng tôi chọn ngẫu nhiên một số người để quan sát trong điều kiện kiểm soát, sau đó chúng tôi có thể ước tính kết quả trung bình trong từng điều kiện:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
trong đó \(N_t\) và \(N_c\) là số người trong điều kiện điều trị và kiểm soát. Phương trình 4.4 là một ước lượng khác biệt của phương tiện. Do thiết kế lấy mẫu, chúng ta biết rằng thuật ngữ đầu tiên là một ước lượng không thiên vị cho kết quả trung bình được xử lý và thuật ngữ thứ hai là một ước lượng không thiên vị được kiểm soát.
Một cách khác để suy nghĩ về những gì ngẫu nhiên cho phép là nó đảm bảo rằng sự so sánh giữa nhóm điều trị và kiểm soát là công bằng vì ngẫu nhiên đảm bảo rằng hai nhóm sẽ giống nhau. Sự tương đồng này chứa đựng những điều chúng tôi đã đo (nói số lần chỉnh sửa trong 30 ngày trước khi thử nghiệm) và những điều chúng tôi chưa đo lường (nói giới tính). Khả năng này để đảm bảo sự cân bằng trên cả hai yếu tố quan sát và không quan sát được là rất quan trọng. Để thấy sức mạnh của cân bằng tự động trên các yếu tố không được quan sát, hãy tưởng tượng rằng nghiên cứu trong tương lai thấy rằng nam giới phản ứng nhanh hơn với các giải thưởng hơn phụ nữ. Điều đó có làm mất hiệu lực kết quả của thí nghiệm Restivo và van de Rijt không? Không. Bằng cách ngẫu nhiên, họ đảm bảo rằng tất cả các vật không thể bảo vệ sẽ được cân bằng, trong kỳ vọng. Sự bảo vệ chống lại cái chưa biết này rất mạnh mẽ, và nó là một cách quan trọng mà các thí nghiệm khác với các kỹ thuật phi thực nghiệm được mô tả trong chương 2.
Ngoài việc xác định hiệu quả điều trị cho toàn bộ dân số, có thể xác định hiệu quả điều trị cho một tập hợp con người. Điều này thường được gọi là hiệu quả điều trị trung bình có điều kiện (CATE). Ví dụ, trong nghiên cứu của Restivo và van de Rijt, hãy tưởng tượng rằng \(X_i\) là liệu trình chỉnh sửa có cao hơn hoặc thấp hơn số lần chỉnh sửa trung bình trong 90 ngày trước khi thử nghiệm. Người ta có thể tính toán hiệu quả điều trị riêng biệt cho những người chỉnh sửa nhẹ và nặng này.
Khung kết quả tiềm năng là một cách mạnh mẽ để suy nghĩ về suy luận và thử nghiệm nhân quả. Tuy nhiên, có hai phức tạp bổ sung mà bạn nên ghi nhớ. Hai phức tạp này thường được gộp lại với nhau theo thuật ngữ Giá trị điều trị đơn vị ổn định (SUTVA). Phần đầu tiên của SUTVA là giả định rằng điều duy nhất mà quan trọng đối với người \(i\) kết quả 's là liệu người đó là trong điều kiện điều trị hoặc kiểm soát. Nói cách khác, người ta cho rằng người \(i\) không bị ảnh hưởng bởi việc điều trị cho người khác. Điều này đôi khi được gọi là "không can thiệp" hoặc "không có ngoại tác lan truyền", và có thể được viết là:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
trong đó \(\mathbf{W_{-i}}\) là một vectơ trạng thái xử lý cho tất cả mọi người ngoại trừ người \(i\) . Một cách mà điều này có thể bị vi phạm là nếu việc điều trị từ một người tràn vào người khác, hoặc là tích cực hoặc tiêu cực. Trở lại với thử nghiệm của Restivo và van de Rijt, hãy tưởng tượng hai người bạn \(i\) và \(j\) và người đó \(i\) nhận được một barnstar và \(j\) thì không. Nếu \(i\) nhận được barnstar gây ra \(j\) để chỉnh sửa nhiều hơn (ngoài ý nghĩa cạnh tranh) hoặc chỉnh sửa ít hơn (ngoài cảm giác tuyệt vọng), thì SUTVA đã bị vi phạm. Nó cũng có thể bị vi phạm nếu tác động của việc điều trị phụ thuộc vào tổng số người khác đang điều trị. Ví dụ, nếu Restivo và van de Rijt đã đưa ra 1.000 hoặc 10.000 barnstars thay vì 100, điều này có thể ảnh hưởng đến hiệu quả của việc nhận được một barnstar.
Vấn đề thứ hai được gộp vào SUTVA là giả định rằng điều trị duy nhất có liên quan là vấn đề mà nhà nghiên cứu cung cấp; giả định này đôi khi được gọi là không có phương pháp điều trị ẩn hoặc không bao gồm . Ví dụ, trong Restivo và van de Rijt, có thể là do việc đưa ra một barnstar các nhà nghiên cứu đã khiến các biên tập viên trở nên nổi bật trên một trang biên tập viên phổ biến và nó đang ở trên trang biên tập viên phổ biến — hơn là nhận một barnstar— đã gây ra thay đổi trong hành vi chỉnh sửa. Nếu điều này là đúng, thì hiệu ứng của barnstar không thể phân biệt được với hiệu ứng của việc ở trên trang trình chỉnh sửa phổ biến. Tất nhiên, nó không rõ ràng nếu, từ một quan điểm khoa học, điều này nên được coi là hấp dẫn hoặc không hấp dẫn. Đó là, bạn có thể tưởng tượng một nhà nghiên cứu nói rằng hiệu quả của việc tiếp nhận một barnstar bao gồm tất cả các phương pháp điều trị tiếp theo mà barnstar gây ra. Hoặc bạn có thể tưởng tượng một tình huống mà một nghiên cứu muốn cô lập hiệu ứng của barnstars từ tất cả những thứ khác. Một cách để suy nghĩ về nó là hỏi xem có điều gì dẫn đến những gì Gerber and Green (2012) (tr. 41) gọi là “sự phân chia đối xứng” không? Nói cách khác, liệu có điều gì khác ngoài việc điều trị làm cho con người trong điều trị và kiểm soát các điều kiện được đối xử khác nhau? Mối quan tâm về sự phá vỡ đối xứng là những gì dẫn bệnh nhân trong nhóm kiểm soát trong các thử nghiệm y tế để có một viên thuốc giả dược. Bằng cách đó, các nhà nghiên cứu có thể chắc chắn rằng sự khác biệt duy nhất giữa hai điều kiện là thuốc thực tế và không phải là kinh nghiệm của việc uống thuốc.
Để biết thêm về SUTVA, xem phần 2.7 của Gerber and Green (2012) , mục 2.5 của Morgan and Winship (2014) , và phần 1.6 của Imbens and Rubin (2015) .
Độ chính xác
Trong phần trước, tôi đã mô tả cách ước tính hiệu quả điều trị trung bình. Trong phần này, tôi sẽ cung cấp một số ý tưởng về sự thay đổi của các ước tính đó.
Nếu bạn nghĩ về việc ước lượng hiệu quả điều trị trung bình như ước lượng sự khác biệt giữa hai phương tiện mẫu, thì có thể thấy rằng lỗi chuẩn của hiệu quả điều trị trung bình là:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
nơi \(m\) người được chỉ định điều trị và \(Nm\) để kiểm soát (xem Gerber and Green (2012) , trang 3.4). Vì vậy, khi suy nghĩ về số lượng người được gán cho điều trị và số lượng người được giao để kiểm soát, bạn có thể thấy rằng nếu \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , sau đó bạn muốn \(m \approx N / 2\) , miễn là chi phí điều trị và kiểm soát là như nhau. Phương trình 4.6 làm rõ lý do tại sao thiết kế của thí nghiệm Bond và đồng nghiệp (2012) về tác động của thông tin xã hội lên biểu quyết (hình 4.18) không hiệu quả về mặt thống kê. Nhớ lại rằng nó có 98% người tham gia trong điều kiện điều trị. Điều này có nghĩa rằng hành vi trung bình trong điều kiện kiểm soát không được ước tính chính xác như nó có thể, điều này có nghĩa là sự khác biệt ước tính giữa điều kiện và điều kiện kiểm soát không được ước tính chính xác như nó có thể. Để biết thêm về phân bổ tối ưu người tham gia điều kiện, bao gồm khi chi phí khác nhau giữa các điều kiện, xem List, Sadoff, and Wagner (2011) .
Cuối cùng, trong văn bản chính, tôi đã mô tả cách một ước lượng khác biệt, thường được sử dụng trong một thiết kế hỗn hợp, có thể dẫn đến phương sai nhỏ hơn so với một bộ ước lượng khác biệt, thường được sử dụng ở giữa các đối tượng thiết kế. Nếu \(X_i\) là giá trị của kết quả trước khi xử lý, thì số lượng mà chúng tôi đang cố gắng ước tính với phương pháp khác biệt-trong-khác biệt là:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Sai số chuẩn của số lượng đó là (xem Gerber and Green (2012) , trang 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
So sánh eq. 4,6 và eq. 4.8 cho thấy rằng cách tiếp cận khác biệt khác biệt sẽ có một lỗi tiêu chuẩn nhỏ hơn khi (xem Gerber and Green (2012) , trang 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Roughly, khi \(X_i\) là rất tiên đoán của \(Y_i(1)\) và \(Y_i(0)\) , thì bạn có thể có được các ước tính chính xác hơn từ một phương pháp khác biệt khác biệt so với sự khác \(Y_i(0)\) của một phương tiện. Một cách để suy nghĩ về điều này trong bối cảnh của Restivo và thí nghiệm của van de Rijt là có rất nhiều biến đổi tự nhiên về số lượng mà mọi người chỉnh sửa, vì vậy điều này giúp so sánh điều kiện và điều kiện kiểm soát khó khăn. hiệu ứng nhỏ trong dữ liệu kết quả nhiễu. Nhưng nếu bạn phân biệt sự biến thiên tự nhiên này, thì có ít biến đổi hơn, và điều đó làm cho việc phát hiện một hiệu ứng nhỏ dễ dàng hơn.
Xem Frison and Pocock (1992) để so sánh chính xác các khác biệt về phương tiện, sự khác biệt khác biệt và phương pháp dựa trên ANCOVA trong bối cảnh chung hơn, nơi có nhiều phép đo tiền xử lý và sau xử lý. Đặc biệt, họ đặc biệt khuyên dùng ANCOVA, mà tôi chưa đề cập ở đây. Hơn nữa, xem McKenzie (2012) để thảo luận về tầm quan trọng của nhiều biện pháp kết quả sau điều trị.