הערות מתמטיות

אני חושב שהדרך הטובה ביותר להבין ניסויים היא מסגרת התוצאות הפוטנציאלית (אשר דנתי בה הערות המתמטיות בפרק 2). למסגרת התוצאות הפוטנציאליות יש קשר הדוק לרעיונות מדגימה מבוססת-תכנון שתיארתי בפרק 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . נספח זה נכתב בצורה כזו כדי להדגיש את הקשר. הדגש הזה הוא קצת לא מסורתי, אבל אני חושב שהחיבור בין הדגימה לניסויים הוא מועיל: זה אומר שאם אתה יודע משהו על הדגימה אז אתה יודע משהו על ניסויים ולהיפך. כפי שאראה בפתקים אלה, מסגרת התוצאות הפוטנציאלית חושפת את עוצמת הניסוי המבוקר האקראי לאמידת השפעות סיבתיות, והיא מציגה את המגבלות של מה שניתן לעשות בניסויים שבוצעו באופן מושלם.

בנספח זה, אתאר את מסגרת התוצאות הפוטנציאלית, לשכפל חלק מהחומר מן ההערות המתמטיות בפרק 2 כדי להפוך את ההערות הללו ליותר עצמאיות. אחר כך אתאר כמה תוצאות מועילות לגבי הדיוק של האומדנים של השפעות הטיפול הממוצעות, כולל דיון בהקצאה אופטימלית ואומדן ההפרש-בהבדלים. נספח זה מושך בכבדות על Gerber and Green (2012) .

מסגרת תוצאות פוטנציאליות

כדי להמחיש את מסגרת התוצאות הפוטנציאלית, נחזור לניסוי של רסטיבו וואן דה רייט כדי להעריך את ההשפעה של קבלת barnstar על תרומות עתידיות לוויקיפדיה. מסגרת התוצאות הפוטנציאליות כוללת שלושה מרכיבים עיקריים: יחידות , טיפולים ותוצאות אפשריות . במקרה של רסטיבו ואן דה ריג'ט, היחידות היו ראויות לעורכים - אלה שהגיעו ל -1% הראשונים של התורמים - שעדיין לא קיבלו באנרסטאר. אנו יכולים ליצור אינדקס של העורכים האלה על ידי \(i = 1 \ldots N\) . הטיפולים בניסוי שלהם היו "barnstar" או "ללא barnstar", ואני אכתוב \(W_i = 1\) אם האדם \(i\) נמצא במצב הטיפול ו \(W_i = 0\) אחרת. המרכיב השלישי של מסגרת התוצאות הפוטנציאליות הוא החשוב ביותר: התוצאות הפוטנציאליות . אלה הם קצת יותר קונספטואלית קשה כי הם כרוכים "פוטנציאל" תוצאות - דברים שיכולים לקרות. עבור כל עורך ויקיפדיה, ניתן לדמיין את מספר העריכות שהיא תעשה במצב הטיפול ( \(Y_i(1)\) ) ואת המספר שהיא תעשה בתנאי השליטה ( \(Y_i(0)\) ).

שים לב כי בחירה זו של יחידות, טיפולים ותוצאות מגדירה מה ניתן ללמוד מניסוי זה. לדוגמה, ללא הנחות נוספות, Restivo ו van de Rijt לא יכולים לומר דבר על ההשפעות של barnstars על כל עורכי ויקיפדיה או על תוצאות כגון איכות עריכה. באופן כללי, בחירת היחידות, הטיפולים והתוצאות חייבת להתבסס על מטרות המחקר.

בהתחשב בתוצאות הפוטנציאליות הללו - המסוכמות בטבלה 4.5 - ניתן להגדיר את ההשפעה הסיבתית של הטיפול באדם \(i\)

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

עבורי, משוואה זו היא הדרך הברורה ביותר להגדרת אפקט סיבתי, ולמרות הפשוטה ביותר, מסגרת זו (Imbens and Rubin 2015) בדרכים חשובות ומעניינות רבות (Imbens and Rubin 2015) .

לוח: 4.5 לוח תוצאות פוטנציאליות
אדם עריכות במצב הטיפול עריכות במצב שליטה אפקט הטיפול
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
מתכוון \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

אם נגדיר סיבתיות בדרך זו, אנחנו נתקלים בבעיה. כמעט בכל המקרים, אנחנו לא מקבלים כדי לבחון את שתי התוצאות הפוטנציאליות. כלומר, עורך ויקיפדיה מסוים או קיבל barnstar או לא. לכן, אנו צופים באחת התוצאות הפוטנציאליות - \(Y_i(1)\) או \(Y_i(0)\) - אך לא את שניהם. חוסר היכולת לבחון את שתי התוצאות הפוטנציאליות הוא בעיה כה גדולה, Holland (1986) כינתה אותה " הבעיה הבסיסית של היקש סיבתי" .

למרבה המזל, כאשר אנו עושים מחקר, אנחנו לא רק יש אדם אחד, יש לנו הרבה אנשים, וזה מציע דרך סביב הבעיה הבסיסית של היסקוס סיבתי. במקום לנסות להעריך את השפעת הטיפול ברמת הפרט, ניתן לאמוד את השפעת הטיפול הממוצעת:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

זה עדיין בא לידי ביטוי במונחים של \(\tau_i\) אשר אינם נצפים, אבל עם כמה אלגברה (EQ 2.8 של Gerber and Green (2012) ) אנחנו מקבלים

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

משוואה 4.3 מראה כי אם אנו יכולים להעריך את התוצאה הממוצעת של האוכלוסייה תחת טיפול ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) והתוצאה הממוצעת של האוכלוסייה בשליטה ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), אזי ניתן לאמוד את השפעת הטיפול הממוצעת, גם מבלי להעריך את השפעת הטיפול עבור אדם מסוים.

עכשיו, אחרי שהגדרתי את האומדן שלנו - את מה שאנחנו מנסים להעריך - אני אפנה איך נוכל באמת להעריך את זה עם הנתונים. אני אוהב לחשוב על אתגר האמידה הזה כבעיית דגימה (חשוב על ההערות המתמטיות בפרק 3). תארו לעצמכם שאנחנו באופן אקראי לבחור כמה אנשים להתבונן במצב הטיפול ואנחנו באופן אקראי לבחור כמה אנשים להתבונן במצב שליטה, אז אנחנו יכולים להעריך את התוצאה הממוצעת בכל תנאי:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

שבו \(N_t\) ו- \(N_c\) הם מספר האנשים בתנאי הטיפול והבקרה. משוואה 4.4 היא אומדן ההפרש של האמצעים. בגלל תכנון הדגימה, אנו יודעים שהמונח הראשון הוא אומדן בלתי משוחד לתוצאה הממוצעת תחת טיפול והמונח השני הוא אומדן בלתי מוטה בשליטה.

דרך נוספת לחשוב על מה שהאקראמיזציה מאפשרת היא שהיא מבטיחה שההשוואה בין קבוצות הטיפול לקבוצת הביקורת תהיה הוגנת משום שהאקראיות מבטיחה ששתי הקבוצות יידמות זו לזו. דמיון זה מחזק את הדברים שנמדדו (למשל, מספר העריכות ב -30 הימים שקדמו לניסוי) ואת הדברים שלא למדנו (אומרים מגדר). יכולת זו כדי להבטיח איזון משני גורמים שנצפו ובין אם לא היא קריטית. כדי לראות את העוצמה של איזון אוטומטי על גורמים בלתי נצפים, נניח כי מחקר עתידי מגלה כי גברים מגיבים יותר פרסים מאשר נשים. האם זה יבטל את תוצאות הניסוי של רסטיבו וואן דה רייט? על ידי אקראיות, הם הבטיחו כי כל unobservables יהיה מאוזן, בציפייה. הגנה זו מפני הבלתי ידוע היא חזקה מאוד, וזו דרך חשובה כי ניסויים שונים מן הטכניקות הלא ניסיוני המתואר בפרק 2.

בנוסף להגדרת אפקט הטיפול לכלל האוכלוסייה, ניתן להגדיר אפקט טיפול עבור קבוצת משנה של אנשים. זה נקרא בדרך כלל אפקט טיפול ממוצע מותנה (CATE). לדוגמה, במחקר של Restivo ו- van de Rijt, נניח ש- \(X_i\) הוא אם העורך היה מעל או מתחת למספר החציוני של העריכות במהלך 90 הימים שלפני הניסוי. אפשר לחשב את אפקט הטיפול בנפרד עבור עורכי אור וכבדים אלה.

מסגרת התוצאות הפוטנציאליות היא דרך רבת עוצמה לחשוב על היקש סיבתי ועל ניסויים. עם זאת, יש שתי מורכבויות נוספות, כי אתה צריך לזכור. שתי המורכבויות הללו נחתכות לעתים קרובות תחת המונח Stable Unit טיפול ערך הנחה (SUTVA). החלק הראשון של SUTVA הוא ההנחה שהדבר היחיד שחשוב לתוצאה של אדם \(i\) הוא האם האדם נמצא במצב הטיפול או השליטה. במילים אחרות, ההנחה היא כי אדם \(i\) אינו מושפע מהטיפול שניתן לאנשים אחרים. זה נקרא לפעמים "ללא הפרעה" או "לא spillovers", והוא יכול להיות כתוב כמו:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

כאשר \(\mathbf{W_{-i}}\) הוא וקטור של סטטוסים של טיפול עבור כל אדם פרט לאדם \(i\) . אחת הדרכים לכך היא הפרה היא אם הטיפול מאדם אחד נשפך על גבי אדם אחר, באופן חיובי או שלילי. בחזרה לניסוי של רסטיבו וואן דה רייט, דמיינו שני חברים \(i\) ו- \(j\) והאדם \(i\) מקבל barnstar ו- \(j\) לא. אם \(i\) מקבל את barnstar גורם \(j\) לערוך יותר (מתוך תחושה של תחרות) או לערוך פחות (מתוך תחושה של ייאוש), אז SUTVA הופרה. זה יכול גם להיות מופרים אם ההשפעה של הטיפול תלוי במספר הכולל של אנשים אחרים מקבלים את הטיפול. לדוגמה, אם Restivo וואן דה Rijt נתנו 1,000 או 10,000 barnstars במקום 100, זה עשוי להשפיע על ההשפעה של קבלת barnstar.

הסוגיה השנייה שנכנסה לסוטבה היא ההנחה שהטיפול הרלוונטי היחיד הוא זה שמספק החוקר; הנחה זו נקראת לעיתים לא טיפולים נסתרים או אי- הכללה . לדוגמה, ב Restivo ו ואן דה Rijt, זה יכול להיות המקרה כי על ידי מתן barnstar החוקרים גרמו עורכים להיות מובלט על הדף עורכים פופולריים וכי זה היה להיות על הדף עורכים פופולריים - במקום קבלת barnstar- שגרמה לשינוי בהתנהגות העריכה. אם זה נכון, אז את ההשפעה של barnstar אינו נבדל מן ההשפעה של להיות על הדף עורכים פופולריים. כמובן, לא ברור אם מבחינה מדעית, זה צריך להיחשב אטרקטיבי או מושך. כלומר, אתה יכול לדמיין חוקר אומר כי ההשפעה של קבלת barnstar כולל את כל הטיפולים הבאים כי barnstar מעורר. או שאתה יכול לדמיין מצב שבו מחקר היה רוצה לבודד את ההשפעה של barnstars מכל הדברים האחרים. אחת הדרכים לחשוב על זה היא לשאול אם יש משהו שמוביל למה Gerber and Green (2012) (עמ '41) קוראים "התמוטטות בסימטריה"? במלים אחרות, האם יש טיפול אחר שמטפל באנשים בטיפול ובטיפול? דאגות לגבי שבירת סימטריה הן מה שמוביל את החולים בקבוצת הביקורת בניסויים רפואיים לקחת גלולת פלצבו. בדרך זו, החוקרים יכולים להיות בטוחים שההבדל היחיד בין שני התנאים הוא הרפואה בפועל ולא החוויה של נטילת הגלולה.

למידע נוסף על SUTVA ראו סעיף 2.7 לגרבר Gerber and Green (2012) , סעיף 2.5 Morgan and Winship (2014) וסעיף 1.6 של Imbens and Rubin (2015) .

דיוק

בפרק הקודם תיארתי כיצד לאמוד את השפעת הטיפול הממוצעת. בחלק זה, אני אספק כמה רעיונות לגבי השונות של הערכות אלה.

אם אתה חושב על אמידת אפקט הטיפול הממוצע כאומדן ההפרש בין שני אמצעי מדגם, ניתן להראות כי טעות תקן של אפקט הטיפול הממוצע היא:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

שבו \(m\) אנשים שהוקצו לטיפול ו \(Nm\) לשלוט (ראה Gerber and Green (2012) , eq 3.4). לכן, כאשר אתה חושב על כמה אנשים להקצות טיפול וכמה להקצות לשלוט, אתה יכול לראות כי אם \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , אז אתה רוצה \(m \approx N / 2\) , כל עוד עלויות הטיפול והשליטה זהים. משוואה 4.6 מבהירה מדוע תכנון הניסוי של בונד ועמיתיו (2012) על השפעת המידע החברתי על ההצבעה (איור 4.18) לא היה יעיל מבחינה סטטיסטית. נזכיר כי היו 98% מהמשתתפים במצב הטיפול. משמעות הדבר היתה כי ההתנהגות הממוצעת במצב הבקרה לא נאמדה בצורה מדויקת כפי שהיתה יכולה להיות, מה שאומר שההבדל המשוער בין הטיפול לבין מצב הבקרה לא נאמד בצורה מדויקת ככל שניתן. למידע נוסף על הקצאה אופטימלית של משתתפים לתנאים, כולל כאשר העלויות נבדלות בין התנאים, ראה List, Sadoff, and Wagner (2011) .

לבסוף, בטקסט הראשי, תיארתי כיצד אומדן הבדל-בהבדלים, המשמש בדרך כלל בתכנון מעורב, יכול להוביל לשונות קטנה יותר מאמידת הפרש- in-mean, המשמשת בדרך כלל בין נושאים לְעַצֵב. אם \(X_i\) הוא ערך התוצאה לפני הטיפול, אזי הכמות שאנחנו מנסים לאמוד בגישה של הפרש בין ההבדלים היא:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

השגיאה הסטנדרטית של כמות זו היא (ראה Gerber and Green (2012) , eq 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

השוואה של eq. 4.6 ו eq. 4.8 מגלה כי לגישת ההפרשים בהפרשים תהיה שגיאת תקן קטנה יותר (ראה Gerber and Green (2012) , eq 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

באופן כללי, כאשר \(X_i\) הוא ניבוי מאוד של \(Y_i(1)\) ו \(Y_i(0)\) , אזי ניתן לקבל אומדנים מדויקים יותר מהפרש של הבדלים מאשר בהבדל, של אחד. אחת הדרכים לחשוב על זה בהקשר של הניסוי של רסטיבו ואן דה רייט היא שיש הרבה וריאציה טבעית בכמות שאנשים עורכים, ולכן זה משווה את תנאי הטיפול והבקרה לקשה: קשה לזהות קרוב משפחה אפקט קטן בנתוני תוצאות רועשים. אבל אם אתה הבדל- out זה השתנות באופן טבעי, אז יש הרבה פחות השתנות, וזה מקל לזהות אפקט קטן.

ראו את Frison and Pocock (1992) עבור השוואה מדויקת של הבדלי האמצעים, הבדלי ההבדלים וגישות המבוססות על ANCOVA בסביבה הכללית יותר, שבה קיימים מדידות מרובות לפני הטיפול ופוסט הטיפול. בפרט, הם ממליצים בחום ANCOVA, אשר אני לא מכוסה כאן. יתר על כן, ראה McKenzie (2012) לדיון על החשיבות של מספר רב של תוצאות לאחר הטיפול אמצעים.