من فکر می کنم بهترین راه برای درک آزمایشات، چارچوب نتایج بالقوه است (که من در یادداشت های ریاضی در فصل 2 آن را مورد بحث قرار دادم). چارچوب نتایج بالقوه روابط نزدیک با ایده های نمونه برداری مبتنی بر طراحی است که در فصل 3 توضیح داده شد (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . این ضمیمه نوشته شده است به طوری که تاکید بر این اتصال. این تأکید کمی غیر سنتی است، اما من فکر می کنم که ارتباط بین نمونه گیری و آزمایش ها مفید است: به این معنی است که اگر شما چیزی در مورد نمونه برداری بدانید، چیزی در مورد آزمایش ها می بینید و بالعکس. همانطور که در این یادداشت ها نشان خواهم داد، چارچوب نتایج بالقوه قدرت آزمایش های تصادفی کنترل شده برای برآورد اثرات علی را نشان می دهد و محدودیت هایی را که می توان با آزمایش های کاملا اعداد انجام داد، نشان می دهد.
در این ضمیمه، من چارچوب نتایج بالقوه را توصیف می کنم، برخی از مواد را از یادداشت های ریاضی در فصل 2 تکرار می کنم تا این یادداشت ها بیشتر خودمختار باشند. سپس من برخی از نتایج مفید را در مورد دقت برآوردها از اثرات درمان میانگین، از جمله بحث در مورد تخصیص بهینه و برآوردگرهای اختلاف اختلاف، شرح خواهم داد. این افزونه به شدت بر روی Gerber and Green (2012) تکیه دارد.
چارچوب نتایج بالقوه
برای نشان دادن چارچوب بالقوه نتایج، به آزمایش Restivo و Van de Rijt برای ارزیابی اثر دریافت برنستار برای کمک های بعدی به ویکی پدیا بازگردیم. چارچوب نتایج بالقوه دارای سه عنصر اصلی است: واحد ، درمان ، و نتایج بالقوه . در مورد Restivo و ون د ریت، واحدهای مستحق ویرایشگران بودند - کسانی که در 1٪ از همکاران برتر بودند - که هنوز برنستار دریافت نکرده بودند. ما می توانیم این ویراستاران را با \(i = 1 \ldots N\) . درمان در آزمایش آنها "barnstar" یا "no barnstar" بود و من \(W_i = 1\) اگر شخص \(i\) در وضعیت درمان باشد و \(W_i = 0\) در غیر این صورت عنصر سوم چارچوب نتایج بالقوه مهم ترین: نتایج بالقوه است . اینها به لحاظ مفهومی دشوارتر است، زیرا آنها شامل نتایج بالقوه هستند - چیزهایی که ممکن است اتفاق بیفتد. برای هر ویرایشگر ویکی پدیا، تعدادی از ویرایشهایی که او در شرایط درمان ( \(Y_i(1)\) می دهد را تصور کنید \(Y_i(1)\) و تعداد آن را در شرایط کنترل ( \(Y_i(0)\) )
توجه داشته باشید که این انتخاب واحدها، درمان ها و نتایج، آنچه را می توان از این آزمایش آموخت، تعریف می کند. به عنوان مثال، بدون هیچ گونه پیش فرض اضافی، Restivo و ون د ریج نمی توانند چیزی در مورد اثرات barnstars در تمام ویراستاران ویکیپدیا و یا در نتیجه مانند کیفیت ویرایش. به طور کلی انتخاب واحدها، درمان ها و نتایج باید بر اساس اهداف مطالعه باشد.
با در نظر گرفتن این نتایج بالقوه - که در جدول 4.5 خلاصه می شود، می توان اثر علمی درمان برای فرد \(i\) به عنوان
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
برای من، این معادله واضح ترین راه برای تعریف یک اثر علی است، و اگر چه بسیار ساده است، این چارچوب در بسیاری از مهم و جالب به نظر می رسد (Imbens and Rubin 2015) .
فرد | اصلاحات در وضعیت درمان | تغییرات در وضعیت کنترل | اثر درمان |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
منظور داشتن | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
با این وجود اگر ما این گونه علیت را تعریف کنیم، با این حال، ما یک مشکل روبرو هستیم. تقریبا در همه موارد، ما نمی توانیم هر دو نتایج بالقوه را مشاهده کنیم. به این معنا، ویرایشگر خاص ویکیپدیا یا یک برنستار را دریافت کرده یا نه. بنابراین، ما یکی از نتایج بالقوه را مشاهده می کنیم - \(Y_i(1)\) یا \(Y_i(0)\) اما نه هر دو. ناتوانی در رعایت هر دو نتیجه بالقوه، یک مشکل اساسی است که Holland (1986) آن را مسئله اساسی استنتاج عقلانی نامید.
خوشبختانه، هنگامی که ما تحقیق می کنیم، ما فقط یک نفر نداریم، ما بسیاری از مردم داریم، و این راه را در راه حل مشکالت اساسی استدلال های عقلانی ارائه می دهد. به جای تلاش برای برآورد اثر درمان در سطح فردی، می توانیم میانگین اثر درمان را تخمین بزنیم:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
این هنوز در مورد \(\tau_i\) که قابل مشاهده نیستند، اما با برخی از جبر (معادل 2.8 از Gerber and Green (2012) ) ما دریافت می کنیم
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
معادله 4.3 نشان می دهد که اگر می توانیم نتیجه میانگین میانگین تحت درمان ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) و نتیجه میانگین میانگین تحت کنترل ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) )، پس می توانیم میانگین اثر درمان را حتی بدون برآورد اثر درمان برای هر فرد مشخص کنیم.
حالا که من برآورد کرده ام - چیزی که ما در حال تلاش برای برآوردن آن هستیم - من به چگونگی واقعی آن را با داده ها ارزیابی خواهیم کرد. من دوست دارم در مورد این چالش برآورد به عنوان یک مشکل نمونه گیری فکر کنم (به یادداشت های ریاضی در فصل 3 فکر کنید). تصور کنید که ما به طور تصادفی برخی از افراد را در وضعیت درمان مشاهده می کنیم و ما به طور تصادفی برخی از افراد را در وضعیت کنترل مشاهده می کنیم، سپس می توان نتیجه میانگین را در هر شرایطی برآورد کرد:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
جایی که \(N_t\) و \(N_c\) تعداد افراد در شرایط درمان و کنترل است. معادله 4.4 یک برآوردگر اختلاف معنی است. به دلیل طراحی نمونه گیری، می دانیم که اولین اصطلاح، یک برآوردگر بی طرف برای نتیجه میانگین درمانی است و دوره دوم، برآوردگر بی طرفانه تحت کنترل است.
راه دیگری برای فکر کردن درباره اینکه چه چیزی تصادفی را قادر می سازد اینست که تضمین می کند که مقایسه بین گروه های درمان و کنترل عادلانه است، زیرا تصادفی بودن این امر را تضمین می کند که دو گروه به یکدیگر متقابل خواهند داشت. این شباهت برای چیزهایی است که ما اندازه گیری کرده ایم (می گویند تعدادی از ویرایش ها در 30 روز قبل از آزمایش) و چیزهایی که ما اندازه گیری نشده (می گویند جنسیت) نگه می دارد. این توانایی برای اطمینان از تعادل در هر دو عامل مشاهده شده و بدون مواجهه بسیار مهم است. برای دیدن قدرت متعادل کننده خودکار بر روی عوامل ناشناخته، بیایید تصور کنیم که تحقیقات آینده نشان می دهد که مردان نسبت به زنان نسبت به جوایز بیشتر واکنش نشان می دهند. آیا نتایج آزمایش Restivo و ون د ریت را معلوم می کند؟ نه. با تصادف، آنها اطمینان دادند که تمام انتظارات ناپایدار در حد انتظار باشد. این حفاظت در برابر ناشناخته بسیار قدرتمند است و روش مهمی است که آزمایشات از تکنیک های غیر تجربی در فصل 2 متفاوت است.
علاوه بر تعریف اثر درمان برای کل جمعیت، ممکن است یک اثر درمان برای یک زیرمجموعه از افراد تعریف شود. این معمولا به عنوان یک اثر درمان مرکزی شرطی (CATE) نامیده می شود. به عنوان مثال، در مطالعه توسط Restivo و ون د ریت، فرض کنید که \(X_i\) این است که آیا ویرایشگر در طول 90 روز قبل از آزمایش بالاتر یا کمتر از ویرایشهای متوسط بود. می توان اثر درمان را به صورت جداگانه برای این ویراستاران سبک و سنگین محاسبه کرد.
چارچوب نتایج بالقوه یک راه قدرتمند برای فکر کردن در مورد نتیجه گیری و آزمایشات علی است. با این حال، دو پیچیدگی اضافی وجود دارد که باید در نظر داشته باشید. این دو پیچیدگی اغلب در زیر اصطلاح پایدار واحد ارزش ارزش معیار (SUTVA) با هم توافق دارند. بخش اول SUTVA این فرض است که تنها چیزی که برای نتیجه فرد \(i\) دارد این است که آیا این شخص در شرایط درمان یا کنترل بوده است. به عبارت دیگر، تصور می شود که فرد \(i\) تحت درمان با سایر افراد قرار نگرفته است. این گاهی اوقات "بدون دخالت" یا "هیچ سرریز" نامیده می شود و می تواند به صورت زیر نوشته شود:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
where \(\mathbf{W_{-i}}\) یک بردار وضعیت درمان برای همه است به غیر از فرد \(i\) . یکی از راه هایی که می توان این را نقض کرد، این است که درمان یک نفر به فرد دیگری منتقل شود، مثبت یا منفی. بازگشت به آزمایش Restivo و ون د ریت، تصور کنید که دو دوست \(i\) و \(j\) و این فرد \(i\) یک barnstar دریافت کرده و \(j\) ندارد. اگر \(i\) دریافت barnstar باعث \(j\) برای ویرایش بیشتر (خارج از حس رقابت) و یا ویرایش کمتر (بدون احساس ناامیدی)، سپس SUTVA نقض شده است. همچنین می تواند نقض شود اگر تاثیر درمان بستگی به تعداد کل افراد دیگر که درمان دریافت می کنند. به عنوان مثال، اگر Restivo و Van de Rijt 1000 یا 10000 برنستار را به جای 100 داده بودند، این ممکن است تاثیر دریافت یک برنستار را داشته باشد.
مسئله دوم به SUTVA متضمن پیش بینی است که تنها درمان مناسب این است که محقق ارائه می کند؛ این فرض، گاهی اوقات بدون درمان مخفی یا محرومیت نامیده می شود . به عنوان مثال، در Restivo و ون د ریت ممکن است که با ارائه یک برنستار، محققان از ویراستاران در یک صفحه ویرایشگر محبوب برجسته شده و آن را در صفحه سردبیران محبوب قرار داده شده باشد، نه به دریافت یک برنستار - که تغییر در رفتار ویرایش را ایجاد کرد. اگر این درست باشد، اثر برنستار از اثر بودن در صفحه ویرایشگر محبوب قابل تشخیص نیست. البته، روشن نیست که آیا، از دیدگاه علمی، این باید جذاب یا غیر جذاب باشد. به عبارت دیگر، شما می توانید یک محقق را تصور کنید که تأثیر دریافت یک برنستار شامل تمام درمان های بعدی است که barnstar باعث می شود. یا شما می توانید موقعیتی را که در آن یک تحقیق می خواهد تاثیر برنشتار را از همه این موارد دیگر جدا کند، تصور کنید. یک راه برای فکر کردن به آن این است که بپرسید آیا چیزی است که منجر به آنچه Gerber and Green (2012) (ص 41) به «تقسیم تقارن» می گویند؟ به عبارت دیگر، آیا چیز دیگری غیر از درمان است که باعث می شود مردم در شرایط درمان و کنترل متفاوت با یکدیگر رفتار کنند؟ نگرانی در مورد تقارب متقارن، چه کسانی هستند که در گروه کنترل در آزمایشات پزشکی قرار دارند که یک قرص پلاسبو مصرف کنند. به این ترتیب، محققان می توانند مطمئن باشند که تنها تفاوت بین دو شرایط، دارو واقعی است و نه تجویز قرص.
برای اطلاعات بیشتر در مورد SUTVA، بخش 2.7 از Gerber and Green (2012) ، بخش 2.5 Morgan and Winship (2014) و بخش 1.6 Imbens and Rubin (2015) .
دقت
در بخش قبلی، من نحوه تخمین میانگین اثر درمان را شرح دادم. در این بخش، من بعضی از ایده ها را درباره تغییر پذیری این تخمین ها ارائه می دهم.
اگر شما در مورد برآورد میانگین اثر درمان به عنوان برآورد تفاوت بین دو روش نمونه، فکر کنید، می توانید نشان دهید که خطای استاندارد از اثر درمان متوسط است:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
در جایی که \(m\) افرادی که به درمان و \(Nm\) اختصاص داده می شوند، کنترل می شوند (see Gerber and Green (2012) ، معادل 3.4). بنابراین، هنگامی که فکر می کنید که چگونه بسیاری از افراد به درمان اختصاص داده می شوند و چند نفر به کنترل اختصاص می دهند، می بینید که اگر \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) ، سپس شما می خواهید \(m \approx N / 2\) ، تا زمانی که هزینه های درمان و کنترل یکسان هستند. معادله 4.6 توضیح می دهد که چرا طراحی آزمایش بوند و همکاران (2012) در مورد اثرات اطلاعات اجتماعی بر رای گیری (شکل 4.18) از نظر آماری ناکارآمد بود. به یاد بیاورید که 98 درصد شرکت کنندگان در وضعیت درمان بودند. این به این معنی است که میانگین رفتار در شرایط کنترل به اندازه دقیق آن محاسبه نمی شود، که در عوض به این معنی است که تفاوت تخمین بین درمان و شرایط کنترل به اندازه دقیق آن محاسبه نمی شود. برای کسب اطلاعات بیشتر در مورد توزیع بهینه شرکت کنندگان در شرایط، از جمله زمانی که هزینه ها در شرایط مختلف متفاوت است، به List, Sadoff, and Wagner (2011) .
در نهایت، در متن اصلی، من توضیح دادم که چگونه یک برآورد کننده اختلاف اختلاف، که معمولا در طراحی مخلوط استفاده می شود، می تواند منجر به واریس های کوچکتر از برآورد کننده تفاوت در معنی شود، که معمولا در میان افراد مورد استفاده قرار می گیرد طرح. اگر \(X_i\) مقدار نتیجه قبل از درمان است، مقدار که ما در حال تلاش برای برآورد با رویکرد تفاوت در تفاوت است:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
خطای استاندارد این مقدار (see Gerber and Green (2012) ، معادل 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
مقایسه مقادیر 4.6 و عدد 4.8 نشان می دهد که رویکرد تفاوت در تفاوت، یک خطای استاندارد کوچکتر دارد (see Gerber and Green (2012) ، معادل 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
تقریبا زمانی که \(X_i\) بسیار پیش بینی شده از \(Y_i(1)\) و \(Y_i(0)\) ، شما می توانید برآوردهای دقیق تر از یک روش تفاوت تفاوت را بدست آورید، از معنی یک یک راه برای فکر کردن در مورد این در زمینه آزمایش Restivo و ون د ریج این است که تغییرات طبیعی زیادی در مقدار که مردم ویرایش، وجود دارد، بنابراین این مقایسه شرایط درمان و کنترل دشوار است: آن را سخت تشخیص نسبی اثر کوچک در داده های نتایج پر سر و صدا. اما اگر تفاوت این تغییرات طبیعی را از بین ببرید، تغییرات بسیار کمتر وجود دارد و این باعث می شود که یک اثر کوچک را تشخیص دهید.
Frison and Pocock (1992) برای مقایسه دقیق اختلاف میان، تفاوت تفاوت ها و رویکردهای مبتنی بر ANCOVA در محیط عمومی تر که در آن قبل و بعد از درمان چندین اندازه گیری وجود دارد، مشاهده کنید. به طور خاص، آنها به شدت توصیه ANCOVA، که من در اینجا پوشش داده نشده است. علاوه بر این، McKenzie (2012) برای بحث در مورد اهمیت چندین نتیجه پس از درمان چندین بار مشاهده کنید.