أعتقد أن أفضل طريقة لفهم التجارب هي إطار النتائج المحتملة (والتي ناقشتها في الملاحظات الرياضية في الفصل 2). يحتوي إطار النتائج المحتملة على علاقات وثيقة مع الأفكار من أخذ العينات المستندة إلى التصميم والتي وصفتها في الفصل 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . تمت كتابة هذا التذييل بطريقة تؤكد على هذا الاتصال. هذا التشديد غير تقليدي إلى حد ما ، لكنني أعتقد أن العلاقة بين أخذ العينات والتجارب مفيدة ؛ فهي تعني أنه إذا كنت تعرف شيئًا عن أخذ العينات ، فأنت تعرف شيئًا عن التجارب والعكس صحيح. وكما سأوضح في هذه الملاحظات ، فإن إطار النتائج المحتملة يكشف عن قوة التجارب المعشاة ذات الشواهد لتقدير التأثيرات السببية ، ويوضح حدود ما يمكن عمله حتى بالتجارب المنجزة تمامًا.
في هذا التذييل ، سوف أصف إطار النتائج المحتملة ، مع تكرار بعض المواد من الملاحظات الرياضية في الفصل 2 من أجل جعل هذه الملاحظات أكثر احتواءًا على الذات. ثم سأشرح بعض النتائج المفيدة حول دقة تقديرات متوسط تأثيرات العلاج ، بما في ذلك مناقشة التقديرات المثلى ومقدرات الاختلاف في الاختلافات. يعتمد هذا الملحق بشكل كبير على Gerber and Green (2012) .
إطار النتائج المحتملة
من أجل توضيح إطار النتائج المحتملة ، دعنا نرجع إلى تجربة ريستيفو وفان دو ريجت لتقدير تأثير تلقي بارن ستار على المساهمات المستقبلية في ويكيبيديا. يشتمل إطار النتائج المحتملة على ثلاثة عناصر رئيسية: الوحدات والعلاجات والنتائج المحتملة . في حالة ريستيفو وفان دو ريجيت ، كانت الوحدات تستحق المحررين - أولئك الذين هم في أعلى 1٪ من المساهمين - الذين لم يتلقوا بعد اسم بارن ستار. يمكننا فهرسة هؤلاء المحررين بواسطة \(i = 1 \ldots N\) . كانت العلاجات في تجربتهم "barnstar" أو "no barnstar" ، وسأكتب \(W_i = 1\) إذا كان الشخص \(i\) في حالة المعالجة و \(W_i = 0\) خلاف ذلك. العنصر الثالث لإطار النتائج المحتملة هو الأهم: النتائج المحتملة . هذه أكثر صعوبة من الناحية المفاهيمية لأنها تنطوي على نتائج "محتملة" - أشياء يمكن أن تحدث. لكل محرر Wikipedia ، يمكن للمرء أن يتصور عدد التعديلات التي كانت ستقوم بها في حالة العلاج ( \(Y_i(1)\) ) والعدد الذي ستقوم \(Y_i(0)\) في حالة التحكم ( \(Y_i(0)\) ).
لاحظ أن اختيار الوحدات والعلاجات والنتائج يحدد ما يمكن تعلمه من هذه التجربة. على سبيل المثال ، بدون أي افتراضات إضافية ، لا يمكن لـ Restivo و van de Rijt قول أي شيء عن تأثيرات barnstars على جميع محرري Wikipedia أو على نتائج مثل جودة التعديل. بشكل عام ، يجب أن يعتمد اختيار الوحدات والعلاجات والنتائج على أهداف الدراسة.
بالنظر إلى هذه النتائج المحتملة - التي تم تلخيصها في الجدول 4-5 - يمكن للمرء تحديد التأثير السببي للعلاج للشخص \(i\)
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
بالنسبة لي ، هذه المعادلة هي أوضح طريقة لتحديد تأثير سببي ، وعلى الرغم من بساطته ، فإن هذا الإطار يتحول إلى تعميم في العديد من الطرق الهامة (Imbens and Rubin 2015) للاهتمام (Imbens and Rubin 2015) .
شخص | التعديلات في حالة العلاج | التعديلات في حالة التحكم | تأثير العلاج |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
تعني | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
إذا قمنا بتعريف السببية بهذه الطريقة ، فإننا نواجه مشكلة. في جميع الحالات تقريبًا ، لا نحترم كلا النتيجتين المحتملتين. هذا هو ، محرر ويكيبيديا محدد إما تلقى بارن ستار أم لا. لذلك ، نلاحظ واحدة من النتائج المحتملة - \(Y_i(1)\) أو \(Y_i(0)\) ولكن ليس كلاهما. إن عدم القدرة على مراقبة كلتا النتيجتين المحتملتين هو مشكلة رئيسية مثل Holland (1986) وصفتها بأنها المشكلة الأساسية للاستدلال السببي .
لحسن الحظ ، عندما نقوم بإجراء الأبحاث ، ليس لدينا شخص واحد فقط ، لدينا العديد من الناس ، وهذا يقدم طريقة حول المشكلة الأساسية للاستدلال السببي. بدلاً من محاولة تقدير تأثير العلاج على المستوى الفردي ، يمكننا تقدير متوسط تأثير المعالجة:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
لا يزال يتم التعبير عن ذلك من حيث \(\tau_i\) التي لا يمكن \(\tau_i\) ، ولكن مع بعض الجبر (المعادلة 2.8 من Gerber and Green (2012) ) نحصل على
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
توضح المعادلة 4-3 أنه إذا تمكنا من تقدير متوسط \(N^{-1} \sum_{i=1}^N Y_i(1)\) السكاني تحت المعالجة ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) \(N^{-1} \sum_{i=1}^N Y_i(1)\) السكاني تحت السيطرة ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) ، يمكننا تقدير متوسط تأثير المعالجة ، حتى بدون تقدير تأثير المعالجة لأي شخص معين.
الآن بعد أن حددت تقديرنا - الشيء الذي نحاول تقديره - سأنتقل إلى كيفية تقديره الفعلي للبيانات. أود أن أفكر في هذا التحدي التقدير كمشكلة أخذ العينات (التفكير في الملاحظات الرياضية في الفصل 3). تخيل أننا نختار بشكل عشوائي بعض الأشخاص لمراقبة حالتها ، ونختار بشكل عشوائي بعض الأشخاص لمراقبة حالتها ، ثم يمكننا تقدير متوسط النتائج في كل حالة:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
حيث \(N_t\) و \(N_c\) هي أعداد الأشخاص في ظروف العلاج والسيطرة. المعادلة 4.4 هي مقيم اختلاف الوسائل. ونظرًا لتصميم العينات ، نعلم أن المصطلح الأول هو مقيم غير متحيز لمتوسط النتائج تحت المعالجة ، أما المصطلح الثاني فهو مقيم غير متحيز تحت السيطرة.
هناك طريقة أخرى للتفكير في ما يتيحه التوزيع العشوائي هو أنه يضمن أن المقارنة بين مجموعات العلاج والرقابة أمر عادل لأن التوزيع العشوائي يضمن أن المجموعتين ستشبه بعضهما البعض. هذا التشابه ينطبق على الأشياء التي قمنا بقياسها (قل عدد التعديلات في الـ 30 يومًا قبل التجربة) والأشياء التي لم نقم بقياسها (قل الجنس). هذه القدرة على ضمان التوازن في كل من العوامل الملاحظة وغير المرصودة أمر بالغ الأهمية. لمعرفة قوة الموازنة التلقائية على العوامل غير الملحوظة ، دعونا نتخيل أن الأبحاث المستقبلية تجد أن الرجال أكثر استجابة للجوائز من النساء. هل هذا يبطل نتائج تجربة ريستو و فان دي ريجيت؟ من خلال التوزيع العشوائي ، تأكدوا من أن جميع الأشياء غير المرئية ستكون متوازنة ، في التوقع. هذه الحماية ضد المجهول قوية للغاية ، وهي طريقة مهمة تختلف عن التجارب غير التجريبية الموضحة في الفصل 2.
بالإضافة إلى تحديد تأثير العلاج لسكان بأكملها ، فمن الممكن تحديد تأثير العلاج لمجموعة فرعية من الناس. هذا هو عادة ما يسمى تأثير العلاج المتوسط المشروط (CATE). على سبيل المثال ، في الدراسة التي أجراها Restivo و van de Rijt ، دعنا نتخيل أن \(X_i\) هو ما إذا كان المحرر أعلى أو أقل من العدد الوسطي للتحرير خلال 90 يومًا قبل التجربة. يمكن للمرء أن يحسب تأثير العلاج بشكل منفصل لهذه المحررين الخفيفة والثقيلة.
إطار النتائج المحتملة هو وسيلة قوية للتفكير في الاستدلال السببي والتجارب. ومع ذلك ، هناك تعقيدات إضافية يجب أن تضعها في اعتبارك. غالباً ما يتم جمع هذين التعقيدين معاً تحت مصطلح "فصل قيمة وحدة المعالجة" الثابت (SUTVA). الجزء الأول من SUTVA هو افتراض أن الشيء الوحيد الذي يهم لشخص و \(i\) الصورة النتيجة هي ما إذا كان هذا الشخص في العلاج أو السيطرة الشرط. وبعبارة أخرى ، يفترض أن الشخص \(i\) لا يتأثر بالمعالجة الممنوحة لأشخاص آخرين. ويسمى هذا أحيانًا بـ "عدم التدخل" أو "عدم وجود آثار جانبية" ، ويمكن كتابته على النحو التالي:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
حيث \(\mathbf{W_{-i}}\) هو متجه لحالات المعالجة لكل شخص ما عدا الشخص \(i\) . إحدى الطرق التي يمكن أن ينتهك بها هذا هي إذا كان العلاج من شخص واحد ينتقل إلى شخص آخر ، سواء إيجابًا أو سلبًا. بالعودة إلى تجربة Restivo و van de Rijt ، تخيل صديقين \(i\) و \(j\) و ذلك الشخص \(i\) يتلقى barnstar و \(j\) لا. إذا كان \(i\) استلام barnstar يسبب \(j\) لتحرير أكثر (من منطلق المنافسة) أو تحرير أقل (من الإحساس باليأس) ، عندها تم انتهاك SUTVA. ويمكن أيضا أن تنتهك إذا كان تأثير العلاج يعتمد على العدد الإجمالي للأشخاص الآخرين الذين يتلقون العلاج. على سبيل المثال ، إذا كان ريستيفو وفان دي ريجيت قد أعطيا 1000 أو 10000 بارنستار بدلاً من 100 ، فقد يكون هذا قد أثر على تأثير تلقي بارنستار.
والقضية الثانية في SUTVA هي الافتراض بأن العلاج الوحيد ذو الصلة هو الذي يسلمه الباحث ؛ هذا الافتراض يسمى في بعض الأحيان لا يوجد علاج مخفي أو استبعاد . على سبيل المثال ، في Restivo و van de Rijt ، ربما كان السبب هو أنه من خلال إعطاء parnstar ، تسبب الباحثون في ظهور المحررين في صفحة المحررين الشائعة ، وأنه كان على صفحة المحررين الشعبية - بدلاً من تلقي barnstar— التي تسببت في التغيير في سلوك التحرير. إذا كان هذا صحيحًا ، فإن تأثير barnstar لا يمكن تمييزه عن تأثير التواجد على صفحة المحررين الشائعة. وبالطبع ، ليس من الواضح ما إذا كان ينبغي اعتبار ذلك من منظور علمي جذابًا أم غير جذاب. أي يمكنك تخيل أحد الباحثين أن تأثير تلقي barnstar يشمل جميع العلاجات اللاحقة التي يطلقها barnstar. أو يمكنك أن تتخيل موقفًا حيث يرغب البحث في عزل تأثير barnstars من كل هذه الأشياء الأخرى. طريقة واحدة للتفكير في الأمر هي أن نسأل ما إذا كان هناك أي شيء يؤدي إلى ما يدعوه Gerber and Green (2012) (ص 41) "انهيار التماثل"؟ وبعبارة أخرى ، هل هناك أي شيء آخر غير العلاج الذي يتسبب في معاملة الأشخاص في ظروف العلاج والسيطرة بطريقة مختلفة؟ مخاوف بشأن كسر التناظر هي ما يؤدي المرضى في المجموعة الضابطة في التجارب الطبية لأخذ حبوب الدواء الوهمي. بهذه الطريقة ، يمكن للباحثين التأكد من أن الاختلاف الوحيد بين الشرطين هو الدواء الفعلي وليس تجربة تناول حبوب منع الحمل.
لمعرفة المزيد عن SUTVA ، انظر القسم 2.7 من Gerber and Green (2012) ، القسم 2.5 من Morgan and Winship (2014) ، والجزء 1.6 من Imbens and Rubin (2015) .
الاحكام
في القسم السابق ، وصفت كيفية تقدير متوسط تأثير العلاج. في هذا القسم ، سأقدم بعض الأفكار حول تباين تلك التقديرات.
إذا كنت تفكر في تقدير متوسط تأثير المعالجة كتقدير الفرق بين اثنين من وسائل العينة ، عندئذ يمكن إظهار أن الخطأ المعياري لمتوسط تأثير المعالجة هو:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
حيث \(m\) الأشخاص المعينين للعلاج و \(Nm\) للسيطرة (انظر Gerber and Green (2012) ، eq. 3.4). وبالتالي ، عند التفكير في عدد الأشخاص الذين \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) للسيطرة ، يمكنك رؤية ذلك إذا كان \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) ، إذا كنت تريد \(m \approx N / 2\) ، طالما أن تكاليف العلاج والسيطرة هي نفسها. توضح المعادلة 4.6 لماذا كان تصميم تجربة بوند وزملائه (2012) حول تأثيرات المعلومات الاجتماعية على التصويت (الشكل 4.18) غير فعال من الناحية الإحصائية. أذكر أنه كان لديها 98 ٪ من المشاركين في حالة العلاج. وهذا يعني أن السلوك الوسطي في حالة التحكم لم يتم تقديره بدقة كما كان من الممكن أن يكون ، وهذا بدوره يعني أن الفرق المقدر بين المعاملة وشرط التحكم لم يتم تقديره بدقة كما يمكن أن يكون. لمعرفة المزيد عن التخصيص الأمثل للمشاركين في الظروف ، بما في ذلك عندما تختلف التكاليف بين الشروط ، راجع List, Sadoff, and Wagner (2011) .
أخيرًا ، في النص الرئيسي ، وصفت كيف أن مقيِّم اختلاف في الاختلافات ، والذي يتم استخدامه عادة في تصميم مختلط ، يمكن أن يؤدي إلى تباين أصغر من مقدر الاختلاف في الوسائل ، والذي يستخدم عادة في مادة بينية التصميم. إذا كانت \(X_i\) هي قيمة النتيجة قبل المعالجة ، فإن الكمية التي نحاول تقديرها باستخدام طريقة الاختلاف في الاختلافات هي:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
الخطأ المعياري لتلك الكمية هو (انظر Gerber and Green (2012) ، eq. 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
مقارنة مع مكافئ. 4.6 و eq. يوضح 4.8 أن نهج الاختلاف في الاختلافات سيكون خطأ معياريًا أصغر عندما ترى ( Gerber and Green (2012) ، eq. 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
بشكل \(X_i\) ، عندما تكون \(X_i\) للغاية بـ \(Y_i(1)\) و \(Y_i(0)\) ، يمكنك الحصول على تقديرات أكثر دقة من نهج الاختلاف من الاختلاف عن الاختلاف من يعني واحد. إحدى الطرق للتفكير في ذلك في سياق تجربة ريستيفو وفان دو ريجيت هي أن هناك الكثير من التباين الطبيعي في المقدار الذي يقوم الناس بتحريره ، وهذا يجعل المقارنة بين ظروف العلاج والسيطرة أمرًا صعبًا: من الصعب اكتشاف أحد الأقارب تأثير صغير في بيانات النتائج صاخبة. ولكن إذا كنت تفرز هذه التقلبية التي تحدث بشكل طبيعي ، فهناك تقلبات أقل بكثير ، وهذا يجعل من السهل اكتشاف تأثير صغير.
انظر Frison and Pocock (1992) لمقارنة دقيقة بين اختلاف الوسائل وفروق الاختلافات والنهج القائمة على ANCOVA في الإطار العام حيث توجد قياسات متعددة للمعالجة المسبقة وما بعد المعالجة. على وجه الخصوص ، فإنهم ينصحون بشدة ANCOVA ، التي لم أقم بتغطيتها هنا. علاوة على ذلك ، انظر McKenzie (2012) لمناقشة أهمية مقاييس النتائج المتعددة بعد المعالجة.