סעיף זה נועד לשמש כהפניה, ולא להיקרא כסיפור.
שאלות על סיבתיות במחקר החברתי הן בדרך כלל מורכבות ומסובכות. לקבלת גישה בסיסית לסיבתיות מבוסס על גרפים סיבתי, לראות Pearl (2009) , ובמשך גישה בסיסית המבוססת על תוצאות אפשריות, לראות Imbens and Rubin (2015) (ו בנספח טכני בפרק זה). להשוואה בין שתי גישות אלה, ראה Morgan and Winship (2014) . לקבלת גישה רשמית הגדרה מתערבת, לראות VanderWeele and Shpitser (2013) .
בפרק, יצרתי מה שנראה כמו קו בהיר בין היכולת שלנו לבצע הערכות סיבתי מנתוני ניסוי ולא ניסוי. במציאות, אני חושב שההבחנה היא blurrier. לדוגמא, כולם מקבלים שעישון גורם לסרטן למרות שמעולם לא עשינו ניסוי אקראי מבוקר אוכף על אנשים לעשן. לקבלת טיפולי אורך ספר מצוינים על בהערכות סיבתי מנתונים שאינם הניסיונות לראות Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , ו Dunning (2012) .
פרקים 1 ו -2 של Freedman, Pisani, and Purves (2007) מציעים הקדמה ברורה לתוך ההבדלים בין ניסויים, ניסויים מבוקרים אקראיים ניסויים מבוקרים.
Manzi (2012) מספק מבוא מרתק וקריא לתוך הבסיס הפילוסופי סטטיסטי של ניסויים אקראיים מבוקרים. הוא גם מספק דוגמאות מעולם האמיתי מעניינות של הכח של ניסויים בעסק.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) לספק היכרויות טובות להיבטים הסטטיסטיים של תכנון וניתוח ניסיוני. יתר על כן, ישנם טיפולים מצוינים לשימוש של ניסויים בתחומים שונים: כלכלה (Bardsley et al. 2009) , הסוציולוגי (Willer and Walker 2007; Jackson and Cox 2013) , פסיכולוגיה (Aronson et al. 1989) , מדעי מדינה (Morton and Williams 2010) , ומדיניות חברתית (Glennerster and Takavarasha 2013) .
החשיבות של גיוס משתתף (למשל, דגימה) היא לעתים קרובות מתחת להערכה במחקר ניסיוני. עם זאת, אם השפעת הטיפול היא הטרוגנית באוכלוסייה, אז הדגימה הוא קריטי. Longford (1999) , מבהירה נקודה זו באופן הברור ביותר כאשר הוא דוגל לחוקרים לחשוב ניסויים כסקר אוכלוסייה עם דגימה אקראית.
הדיכוטומיה שהצגתי בין ניסויי מעבדה ושדה היא קצת פשוט יותר. למעשה, חוקרים אחרים הציעו typologies מפורט יותר, אלה בפרט שמפרידים בין צורות שונות של ניסויי שדה (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . יתר על כן, ישנם שני סוגים אחרים של ניסויים שבוצעו על ידי מדעני חברה שאינו מתאימים יפה לתוך הדיכוטומיה המעבדה ושדה:. ניסויי סקר וניסויים חברתיים ניסויי סקר ניסויים משתמשים בתשתית של סקרים קיימים ולהשוות תגובות הגירסות חלופיות של אותן שאלות (כמה ניסויים בסקר מוצגים בפרק 3); לקבלת מידע נוסף על ניסויים סקר לראות Mutz (2011) . ניסויים חברתיים הם בניסויים שבם הטיפול הוא כמה מדיניות חברתית שניתן ליישם רק בפקודת ממשלה. ניסויים חברתיים קשורים זה לזה לתכנת הערכה. למידע נוסף על ניסויים מדיניות, ראה Orr (1998) , Glennerster and Takavarasha (2013) , ו Heckman and Smith (1995) .
מספר עיתונים השוו ניסויי מעבדה ושדה באופן מופשט (Falk and Heckman 2009; Cialdini 2009) והן מבחינת התוצאות של ניסויים ספציפיים במדעי המדינה (Coppock and Green 2015) , כלכלה (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) ופסיכולוגיה (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) מציעים עיצוב מחקר נחמד להשוואת תוצאות ניסוי מעבדה ושדה.
חששות לגבי משתתפים לשנות את התנהגותם כי הם יודעים שהם נמצאים נצפו מקרוב נקראים לפעמים תופעות ביקוש, והם נחקרו בפסיכולוגיה (Orne 1962) וכלכלה (Zizzo 2009) . למרות בעיקר קשורה ניסוי מעבדה, אותן בעיות אלו עלולות לגרום לבעיות עבור ניסויי שדה גם כן. למעשה, תופעות ביקוש גם המכונות לעתים תופעות הות'ורן, מונח השואב מניסוי שדה, במיוחד ניסויי התאורה המפורסמים שהחל בשנת 1924 במפעלי הות'ורן של חברת החשמל המערבית (Adair 1984; Levitt and List 2011) . שתי השפעות הביקוש ואפקטים עוזרר קשורים באופן הדוק לרעיון של מדידת תגובתי דנו בפרק 2 (ראה גם Webb et al. (1966) ).
ההיסטוריה של ניסויי שדה תוארה בכלכלה (Levitt and List 2009) , מדעי המדינה (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , פסיכולוגיה (Shadish 2002) , ומדיניות ציבורית (Shadish and Cook 2009) . אחד התחומים של מדעי החברה שבו ניסויי שדה במהירות הפך בולט הוא פיתוח בינלאומי. לסקירה חיובית של שעבודה בתוך כלכלה לראות Banerjee and Duflo (2009) , ובמשך הערכה ביקורתית לראות Deaton (2010) . לסקירה על עבודה זו במדעי המדינה לראות Humphreys and Weinstein (2009) . לבסוף, האתגרים האתיים הכרוכים עם ניסויי שדה נחקרו במדע המדינה (Humphreys 2015; Desposato 2016b) וכלכלת פיתוח (Baele 2013) .
בפרק, הצעתי מידע טרום הטיפול שניתן להשתמש בהם כדי לשפר את הדיוק של השפעות הטיפול מוערך, אבל יש איזשהו דיון לגבי גישה זו: Freedman (2008) , Lin (2013) , ואת Berk et al. (2013) ; לראות Bloniarz et al. (2016) לקבלת מידע נוסף.
בחרתי להתמקד בשלושה מושגים: תוקף, ההטרוגניות של שפעות טיפול, ומנגנונים. יש מושגים אלה שמות שונים בתחומים שונים. לדוגמא, פסיכולוגים נוטים לנוע מעבר ניסויים פשוטים ידי ההתמקדות מתווכת ומנחים (Baron and Kenny 1986) . הרעיון של מתווכים הוא נתפס על ידי מה שאני מכנה מנגנונים, והרעיון של מתווכים הוא נתפס על ידי מה שאני מכנה תוקף חיצוני (למשל, האם תוצאות הניסוי להיות שונות אם הרצתו במצבים שונים) ההטרוגניות של שפעות טיפול ( למשל, הן התופעות גדולות עבור אנשים מסוימים יותר מאשר אנשים אחרים).
הניסוי של Schultz et al. (2007) מראה כיצד תיאוריות חברתיות יכול לשמש עיצוב התערבויות יעילות. לקבלת טיעון כללי יותר על תפקידה של התיאוריה בעיצוב התערבות יעילה, לראות Walton (2014) .
המושגים של תוקף פנימי וחיצוני הוצגו לראשונה ב Campbell (1957) . ראה Shadish, Cook, and Campbell (2001) עבור היסטוריה מפורטת יותר וכן לעיבוד והשבחה של תוקף מסקנה סטטיסטי, תוקף פנימי, לבנות תוקף, ותוקף חיצוני.
לסקירה כללית של נושאים הקשורים תוקף מסקנה סטטיסטית בניסויים לראות Gerber and Green (2012) (פרספקטיבה מדעי החברה) ו Imbens and Rubin (2015) (עבור מבחינה סטטיסטית). כמה בעיות של תוקף מסקנה סטטיסטי שעולות במיוחד בניסויים בשדה באינטרנט כוללות נושאים כגון שיטות יעילות מחשוב ליצירת רווח סמך עם נתונים תלויים (Bakshy and Eckles 2013) .
תוקף פנימי יכול להיות קשה על מנת להבטיח בניסויי תחום מורכבים. ראה, למשל, Gerber and Green (2000) , Imai (2005) , ו Gerber and Green (2005) לדיון על יישום ניסוי תחום מורכב על ההצבעה. Kohavi et al. (2012) ואת Kohavi et al. (2013) לספק היכרות לתוך האתגרים של תוקף מרווח בניסויי שדה מקוונים.
אחת בעיות מרכזיות עם התוקף פנימי הן בעיות עם אקראיות. אחת דרכים לזהות בעיות פוטנציאליות עם אקראיות הן להשוות את קבוצות הטיפול וביקורת בתכונות חיצוניות. סוג של השוואה זו נקראת בדיקת האיזון. ראה Hansen and Bowers (2008) עבור גישה סטטיסטית לאזן צ'קים, ותראו Mutz and Pemantle (2015) עבור חששות לגבי בדיקות איזון. לדוגמא, באמצעות איזון לבדוק Allcott (2011) נמצא כי יש כמה עדויות כי האקראי לא יושם בצורה נכונה בשלושת הניסויים בחלק מניסויי OPower (ראה טבלה 2; אתרים 2, 6, ו -8). עבור גישות אחרות, לראות Imbens and Rubin (2015) , 21 פרק.
חששות חשובים אחרים הקשורים תוקף הפנימי הם: 1) חד-צדדי אי ציות, שבו לא כולם בקבוצת הטיפול למעשה קבל את הטיפול, 2) השנייה צדדי אי ציות, שבו לא כולם בקבוצת הטיפול מקבל את הטיפול וכמה אנשים בקבוצת הביקורת לקבל את הטיפול, 3) תשה, שבו תוצאות אינן נמדדות עבור חלק ממשתתפים, ו -4) הפרעות, שבו הטיפול גולש מאנשים במצב הטיפול לאנשים במצב השליטה. ראה Gerber and Green (2012) , פרק 5, 6, 7, ו -8 עבור יותר על כל אחד מהנושאים האלו.
למידע נוסף על תוקף מבנה, לראות Westen and Rosenthal (2003) , ובמשך יותר על תוקף מבנה במקורות נתונים גדולים, Lazer (2015) ופרק 2 של הספר הזה.
היבט אחד של תוקף חיצוני הוא ההגדרה שבו התערבות נבחנת. Allcott (2015) מספק טיפול תיאורטי ואמפירי זהיר של הטיית בחירת אתר. בעיה זו נדונה גם Deaton (2010) . בנוסף להיות משוכפל באתרים רבים, התערבות ראשי דיווחי אנרגיה גם נחקרה באופן עצמאי על ידי קבוצות מחקר רבות (למשל, Ayres, Raseman, and Shih (2013) ).
לסקירה כללית מעולה של ההטרוגניות של שפעות טיפול ב ניסויי שדה, ראה פרק 12 של Gerber and Green (2012) . עבור מבואות ההטרוגניות של השפעות הטיפול במחקרים רפואיים, לראות Kent and Hayward (2007) , Longford (1999) , ו Kravitz, Duan, and Braslow (2004) . הטרוגניות של שפעות טיפול בדרך כלל מתמקדת הבדלים על פי מאפייני טיפול מראש. אם אתם מעוניינים ההטרוגניות מבוססים על תוצאות שלאחר טיפול, אז approachs המורכבת יותר נדרשת כגון ריבוד העיקרי (Frangakis and Rubin 2002) ; לראות Page et al. (2015) לבדיקה.
חוקרים רבים מעריכים ההטרוגניות של שפעות טיפול באמצעות רגרסיה ליניארית, אבל שיטות חדשות מתבססות על למידת מכונה, למשל Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , ו Athey and Imbens (2016a) .
יש ספקנות לגבי ממצאי ההטרוגניות של תופעות בגלל בעיות השוואה מרובות "דיג". יש מגוון של גישות סטטיסטיות שיכול לעזור חששות כתובת על השוואה מרובה (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . גישה אחת חששות לגבי "דיג" הוא הרישום מראש, אשר הופך נפוץ יותר ויותר בפסיכולוגיה (Nosek and Lakens 2014) , מדעי המדינה (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , וכלכלה (Olken 2015) .
במחקר של Costa and Kahn (2013) רק כמחצית ממשקי בית הניסוי הצליחה להיות צמוד המידע הדמוגרפי. קוראים המעוניינים בפרטים ועוד בעיות אפשריות עם הניתוח הזה יכולים לעיין במאמר המקורי.
מנגנונים חשובים מאוד, אבל הם להתברר קשים מאוד ללמוד. מחקר על מנגנונים קשור קשר הדוק לחקר מתווך בפסיכולוגיה (אך ראה גם VanderWeele (2009) עבור השוואה מדויקת בין שני הרעיונות). גישות סטטיסטיות למנגנונים למצוא, כגון הגישה שפותחה Baron and Kenny (1986) , הם נפוצות למדי. למרבה הצער, מתברר כי הליכים אלה תלויים כמה הנחות חזקות (Bullock, Green, and Ha 2010) ולסבול כאשר ישנם מנגנונים מרובים, כפי שניתן היו לצפות במצבים רבים (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ו Imai and Yamamoto (2013) מציעים כמה שיטות סטטיסטיות משופרות. יתר על כן, VanderWeele (2015) מציע טיפול אורך-ספר עם מספר תוצאות חשובות, כולל גישה מקיפה ניתוח רגישות.
גישה נפרדת מתמקדת ניסויים שמנסים לתפעל את המנגנון ישירות (למשל, ויטמין C נותן מלחים). למרבה הצער, הגדרות מדעי חברה רבות יש לעתים קרובות מספר מנגנונים וקשה לעצב טיפולי משנים אחד מבלי לשנות את האחרים. כמה גישות מנגנוני שינוי ניסיוני מתוארים Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , ו Pirlott and MacKinnon (2016) .
לבסוף, מנגנונים יש גם היסטוריה ארוכה בפילוסופיה של המדע כפי שתואר על ידי Hedström and Ylikoski (2010) .
למידע נוסף על שימוש מחקרי התכתבות ומחקרי ביקורת למדוד אפליה לראות Pager (2007) .
הדרך הנפוצה ביותר לגייס משתתפים לניסויים שאתה בונה הוא הטורק המכנה אמזון (MTurk). בגלל היבטים מחקו MTurk של ניסויים משלמים במעבדה מסורתיות לאנשים להשלים משימות שהם לא יעשו לחוקרים חופשיים רבים כבר החל להשתמש Turkers (העובדים על MTurk) כמשתתפים בניסויים בבני אדם וכתוצאה מכך מהר ואיסוף נתונים זול יותר מאשר מסורתי בקמפוס ניסויי מעבדה (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
הכח הגדול ביותר של ניסויים עם משתתפים גויסו MTurk הוא לוגיסטיים: הם מאפשרים לחוקרים לגייס משתתף במהירות בהתאם לצורך. בעוד ניסויי מעבדה יכול לקחת שבועות כדי לרוץ ניסויי שדה יכול לקחת חודשים כדי הגדרת, ניסויים עם המשתתפים גויסו MTurk ניתן להריץ ימים. לדוגמא, Berinsky, Huber, and Lenz (2012) הצליח לגייס 400 נושאים ביום אחד כדי להשתתף בניסוי 8 דקות. יתר על כן, משתתפים אלה ניתן לגייס כמעט לכל מטרה (כולל סקרים ושיתוף פעולה המוני, כפי שפורט בפרקים 3 ו -5). קלות גיוס משמעות הדבר היא כי החוקרים יכולים להפעיל רצפים של ניסויים הקשורים ברצף מהיר.
לפני הגיוס משתתף מ MTurk לניסויים משלך, יש ארבעה דברים שחשובים לדעת. ראשית, חוקרים רבים ספקנות הלא ספציפית של ניסויים הכוללים Turkers. בגלל ספקנות זו אינה ספציפית, קשה להתמודד עם ראיות. עם זאת, לאחר מספר שנים של מחקרים באמצעות Turkers, עכשיו אנחנו יכולים להסיק כי ספקנות זו אין צורך במיוחד. נעשו מחקרים רבים משווים את הנתונים הדמוגרפיים של Turkers לאוכלוסיות אחרות ומחקרים רבים השוואת תוצאות של ניסויים עם Turkers לתוצאות מאוכלוסיות אחרות. בהתחשב בכל העבודה הזאת, אני חושב שהדרך הטובה ביותר עבורך לחשוב על זה כי Turkers הם מדגמים נוחות סבירה, בדומה לתלמידים אך מעט יותר מגוון (Berinsky, Huber, and Lenz 2012) . לכן, רק על ספסל לימודים הם אוכלוסייה סבירה עבור חלק אבל לא כל מחקר ניסיוני, Turkers הוא אוכלוסייה סבירה עבור חלק אבל לא את כל המחקר. אם אתה הולך לעבוד עם Turkers, אז זה הגיוני לקרוא רב של המחקרים ההשוואתיים האלה ולהבין ניואנסים שלהם.
שנית, חוקרים פתחו שיטות עבודה מומלצות עבור הגדלת התוקף פנימי של ניסויים טורקים, ואתה צריך ללמוד על ופעלת שיטות עבודה המומלצת הבא (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . לדוגמה, החוקרים באמצעות Turkers מעודדים להשתמש screeners להסיר המשתתפים קשוב (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (אך ראה גם DJ Hauser and Schwarz (2015b) ו DJ Hauser and Schwarz (2015a) ). אם אינך להסיר משתתפי קשוב, אז כל השפעה של הטיפול יכולה להיות דהויה על ידי רעש הציג ממשתתפי קשוב, ובפועל מספר המשתתפים קשוב יכול להיות משמעותי. בניסוי של הובר ועמיתיו (2012) כ -30% מהמשתתפים לא הצליחו screeners קשב בסיסי. עוד בעיה נפוצה עם Turkers הוא משתתפים שאינם תמימים (Chandler et al. 2015) .
שלישית, ביחס לכמה צורות אחרות של ניסויים דיגיטליים, ניסויי MTurk לא יכולים בהיקף; Stewart et al. (2015) מעריך כי בכל זמן נתון יש רק כ -7,000 אנשים על MTurk.
לבסוף, כדאי לדעת כי MTurk היא קהילה עם חוקים משלו ונורמות (Mason and Suri 2012) . באותו אופן שבו היית מנסה לברר על התרבות במדינה שבה הייתם הולך להפעיל ניסויים, כדאי לך לנסות לברר פרטים נוספים על התרבות והנורמות של Turkers (Salehi et al. 2015) . וגם, אתה צריך לדעת כי Turkers יהיה לדבר על הניסוי שלך אם אתה עושה משהו לא הולם או לא מוסרי (Gray et al. 2016) .
MTurk היא דרך נוחה להפליא כדי לגייס משתתפים לניסויים שלך, בין אם הם מעבדה דמוית, כגון Huber, Hill, and Lenz (2012) , או יותר בתחום דמוי, כגון Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , ואת Mao et al. (2016) .
אם אתה חושב לנסות ליצור מוצר משלך, אני ממליץ לך לקרוא את העצה המוצעות על ידי קבוצת MovieLens ב Harper and Konstan (2015) . תובנה מפתח מניסיונם הוא כי עבור כל פרויקט מוצלח ישנם כשלים רבים, רבים. לדוגמא, קבוצת MovieLens השיקה מוצרים אחרים כגון GopherAnswers שהיו כשלים מלאים (Harper and Konstan 2015) . דוגמה נוספת של חוקר כושלת תוך ניסיון לבנות מוצר הוא ניסיונו של אדוארד Castronova לבנות משחק מקוון בשם ארדן. למרות 250,000 $ במימון, הפרויקט היה כישלון (Baker 2008) . פרוייקטים כמו GopherAnswers ו ארדן הם למרבה הצער הרבה יותר נפוץ מאשר פרויקטים כמו MovieLens. לבסוף, כאשר אמרתי שאני לא יודע על שום חוקרים אחרים כי בנו מוצרים בהצלחה לניסויים חוזרים הנה הקריטריונים שלי: 1) המשתתף להשתמש במוצר בגלל מה שהיא מספקת להם (למשל, הם לא מקבלים שכר והם לא המתנדבים מסייעים מדע) ו -2) המוצר שימש במשך יותר מניסוי מובהק אחד (כלומר, מספר פעמים אותו ניסוי לא עם בריכות משתתף שונים). אם ידוע לכם על דוגמאות נוספות, בבקשה ליידע אותי.
שמעתי את הרעיון של Quadrant של פסטר דנו לעתים קרובות בחברות טק, וזה עוזר לארגן מאמצי המחקר בגוגל (Spector, Norvig, and Petrov 2012) .
בונד ו 'מחקר עמיתים (2012) גם מנסה לזהות את ההשפעה של טיפולים אלו על חברים של אלה שקיבלו אותם. בגלל העיצוב של הניסוי, גלישות אלה קשות לזהות למשעי; קוראים מעוניינים צריכים לראות Bond et al. (2012) לדיון מעמיק יותר. ניסוי זה הוא חלק ממסורת ארוכה של ניסויים במדע המדינה על המאמצים לעודד הצבעה (Green and Gerber 2015) . אלה ניסויים גט-אאוט לעידוד ההצבעה נפוצים בין השאר משום שהם נמצאים Quadrant של פסטר. כלומר, יש הרבה אנשים שיש להם מוטיבציה להגדיל הצבעת הצבעה יכולה להיות התנהגות מעניינת לבחון תאוריות כלליות יותר על שינוי התנהגות והשפעה חברתית.
חוקרים אחרים סיפקו ייעוץ לגבי הפעלת ניסויי שדה עם הארגונים השותפים כגון מפלגות, ארגונים לא ממשלתיים, ועסקים (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . אחרים הציעו עצות על איך שותפויות עם ארגונים יכולים להשפיע עיצובים מחקר (Green, Calfano, and Aronow 2014; King et al. 2007) . שותפות יכולה גם להוביל שאלות אתיות (Humphreys 2015; Nickerson and Hyde 2016) .
אם אתה הולך ליצור תוכנית ניתוח לפני הפעלת הניסוי שלך, אני מציע לך להתחיל בקריאת כללי הדיווח. קונסורט (תקן דיווח מאוחד של Trials) הנחיות אלו פותחו ברפואה (Schulz et al. 2010) ו שונה למחקר חברתי (Mayo-Wilson et al. 2013) . בסדרה קשורה של הנחיות פותחה על ידי העורכים של כתב העת למדע המדינה הניסיון (Gerber et al. 2014) (ראה גם Mutz and Pemantle (2015) ו Gerber et al. (2015) ). לבסוף, הנחיות לדיווח פותחו בפסיכולוגיה (Group 2008) , וראו גם Simmons, Nelson, and Simonsohn (2011) .
אם אתה יוצר תוכנית ניתוח כדאי לשקול מראש רישומה כי ברישום מוקדם יגביר את הביטחון שיש לאחרים בתוצאות שלך. יתר על כן, אם אתה עובד עם שותף, זה יהיה להגביל את היכולת של בן הזוג שלך כדי לשנות את הניתוח אחרי שראיתי את התוצאות. ברישום מוקדם הופך נפוץ יותר ויותר בפסיכולוגיה (Nosek and Lakens 2014) , מדעי המדינה (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , וכלכלה (Olken 2015) .
בעת יצירת תכנית טרום הניתוח שלך אתה צריך להיות מודע לכך שחוקרים מסוימים גם להשתמש רגרסיה גישות הקשורות לתהליך לשפר את הדיוק של שפעת הטיפול המוערכת, ויש איזשהו דיון לגבי גישה זו: Freedman (2008) , Lin (2013) , ו Berk et al. (2013) ; לראות Bloniarz et al. (2016) לקבלת מידע נוסף.
ייעוץ עיצוב במיוחד עבור ניסויי שדה מקוונים מוצג גם Konstan and Chen (2007) ו Chen and Konstan (2015) .
למידע נוסף על הניסויים MusicLab ראה Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , ו Salganik (2007) . למידע נוסף על השווקים המנצח לוקח את כל הקופה, ראה Frank and Cook (1996) . למידע נוסף על מזל ויכולת התרת סבך באופן כללי יותר, לראות Mauboussin (2012) , Watts (2012) , ואת Frank (2016) .
יש גישה אחרת ביטול תשלומי השתתף שחוקרים צריכים להשתמש בזהירות: גיוס. בניסויי שדה מקוונים רבים ממשתתפים הם בעצם גויסו ניסויים ולעולם פיצוי. דוגמאות של גישה זו כוללים ךסטיבו וואן דה Rijt של (2012) ניסוי על תגמולים ב ויקיפדיה בונד של עמית (2012) ניסוי בעידוד אנשים להצביע. ניסויים אלה לא באמת צריך אפס עלות משתנה, יש להם עלות משתנה אפס לחוקרים. למרות העלות של רבים של ניסויים אלה היא קטנה מאוד לכל משתתף, עלויות קטנות שהוטלו מספר עצום של משתתפים יכול לגדול במהירות. חוקרי הפעלת ניסויים באינטרנט מסיביים לעתים קרובות להצדיק את החשיבות של שפעות טיפול משוערות קטנות באומרו כי התופעות הקטנות האלה יכולים להיות חשובות כאשר מוחלים על אנשים רבים. החשיבה בדיוק חלה על עלויות שחוקרים להטיל על משתתפים. אם הניסויים שלך גורמים ממיליון אנשים לבזבז דקה אחת, הניסוי אינו מזיק מאוד לכל אדם מסוים, אבל במצטבר זה בזבז כמעט שנים של זמן.
גישה אחרת ליצירת תשלום עלות משתנה אפס למשתתפים היא להשתמש בהגרלה, גישה כמו כן נעשה שימוש במחקר סקר (Halpern et al. 2011) . לבסוף, לקבלת מידע נוסף על עיצוב-חוויות משתמש מהנה לראות Toomim et al. (2011) .
להלן גדרות המקוריות של השלושה R, מ Russell and Burch (1959) :
"החלפה אומרת אגב ההחלפה מודעת חי בעלי חיים עילאיים של חומר insentient. עקרון הצמצום דוגל צמצום מספרם של בעלי החיים המשמשים כדי לקבל מידע של כמות נתונה ודיוק. חידוד פירושו כל ירידה בהיארעות או חומרת נהלים לא אנושיים חלה על כל בעלי החיים אשר עדיין צריך לשמש. "
השלושה R של שאני מציע לא לעקוף את העקרונות האתיים המתואר בפרק 6. במקום זאת, הם גרסה משוכללת יותר אחד מאותם עקרונות-חסד-במיוחד עבור ההגדרה של ניסויים בבני אדם.
כאשר שוקלים הדבקה רגשית, ישנם שלושה נושאים שאינם אתיים לזכור כאשר לפרש את הניסוי הזה. ראשית, לא ברור איך את הפרטים בפועל של הניסוי להתחבר הטיעונים התיאורטיים; במילים אחרות, ישנן שאלות לגבי תוקף המבנה. לא ברור כי ספירת המילה החיובית ושלילית היא למעשה אינדיקטור טוב של המצב הרגשי של משתתפים כי 1) זה לא ברור כי המילים שאנשים מפרסמים הן אינדיקטור טוב של רגשותיהם ו 2) זה לא ברור כי טכניקת ניתוח הסנטימנט המסוימת כי החוקרים השתמשו הוא מסוגל להסיק רגשות באופן מהימן (Beasley and Mason 2015; Panger 2016) . במילים אחרות, ייתכן שיש מידה רעה של אות מוטה. שנית, התכנון והניתוח של הניסוי לא אומרים לנו כלום על מי שספג את הפגיעה העיקרית (כלומר, אין כל ניתוח של ההטרוגניות של שפעות טיפול) ומה המנגנון יכול להיות. במקרה זה, היה על החוקרים המון מידע על המשתתפים, אבל הם בעצם טופלו כמו יישומונים בניתוח. שלישית, גודל האפקט בניסוי הזה היה קטן מאוד; ההבדל בין תנאי הטיפול והביקורת הוא בערך 1 ל -1,000 מילים. במאמרם, קרמר ועמיתיו לטעון כי השפעה בסדר גודל כזה חשובה כי מאה מיליון בני אדם לגשת החדשות שלהם להאכיל בכל יום. במילים אחרות, הם טוענים כי אפילו אפקטים כי הם קטנים עבור כל אדם הם גדולים במצטבר. גם אם היית מקבל טענה זו, זה עדיין לא ברור אם האפקט של גודל זה חשוב בשאלה מדעית כללית יותר על הדבקה רגשית. למידע נוסף על מצבים שבהם השפעות קטנות חשובים לראות Prentice and Miller (1992) .
במונחים של R הראשון (החלפה), השוואת הניסוי הדבק הרגשי (Kramer, Guillory, and Hancock 2014) ואת הניסוי טבעי ההדבקה הרגשית (Coviello et al. 2014) מציעה כמה שיעורים כלליים אודות הפשרות מעורבות עם נע ניסויי ניסויים טבעיים (וגישות אחרות כמו התאמת הניסיון כי כדי להגיע לקירוב ניסויי נתונים שאינם הניסיונות, ראה פרק 2). בנוסף להטבות האתיות, מעבר בין ניסיוני ללימודים שאינם הניסיונות גם מאפשר לחוקרים לבחון טיפולים שהם אינם מסוגלים מבחינה לוגיסטית לפרוס. יתרונות אתיים ולוגיסטיים אלה באים במחיר, עם זאת. עם ניסויים טבעיים יש חוקרים פחות שליטת דברים כמו גיוס משתתפים, אקראי, ואת מהות הטיפול. לדוגמא, מגבלה אחת של גשמים כטיפול היא שזה שניהם מגביר חיובי ומפחיתה שלילית. במחקר הניסיוני, אולם קרמר ועמיתיו הצליחו להתאים חיובי ושלילי באופן עצמאי.
הגישה המסוימת שמוצגת Coviello et al. (2014) יעובדו נוסף Coviello, Fowler, and Franceschetti (2014) . לקבלת מבוא משתני העזר לראות Angrist and Pischke (2009) (פחות פורמלית) או Angrist, Imbens, and Rubin (1996) (יותר רשמי). לקבלת הערכה סקפטי של משתני עזר לראות Deaton (2010) , ובמשך מבוא משתני עזר עם מכשירים חלשים (גשם הוא מכשיר חלש), ראה Murray (2006) .
באופן כללי יותר, היכרות טובה ניסויים טבעיים היא Dunning (2012) , ו Rosenbaum (2002) , Rosenbaum (2009) , ו Shadish, Cook, and Campbell (2001) להציע רעיונות טובים על אמידת השפעות סיבתי בלי ניסויים.
במונחים של R השני (החידוד), יש מדעיות ולוגיסטיות פשרות כאשר שוקלים לשנות את העיצוב של הדבקה רגשית מחסימת הודעות לחיזוק הודעות. לדוגמא, זה יכול להיות במקרה כי היישום הטכני של ה"חדשות עושה את זה קל יותר באופן משמעותי כדי לעשות ניסוי עם חסימת הודעות ולא ניסוי עם הגדלת הודעות (לציין כי ניסוי עם חסימת הודעות יכול להיות מיושם כשכבה על החלק העליון של מערכת עדכוני חדשות ללא צורך בהתאמות של המערכת הבסיסית). מבחינה מדעית, אולם התיאוריה לטפל על ידי הניסוי לא מראים בבירור עיצוב אחד על פני השני.
למרבה הצער, אני לא מודע של מחקר קודם משמעותי על יתרונותיו וחסרונותיו של חסימה והגדלת תוכן בעדכון החדשות. כמו כן, לא ראיתי מחקרים רבים בנושא שיפור טיפולים כדי להפוך אותם פחות מזיק; חריג אחד הוא Jones and Feamster (2015) , אשר לוקחת בחשבון את המקרה של מדידת צנזורה באינטרנט (נושא שאדון בפרק 6 ביחס המחקר הדרן (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
במונחים של R השלישי (ההפחתה), היכרות טובה ניתוח כוח מסורתי היא Cohen (1988) . למשתנים טרום טיפול יכולים להיכלל בשלב התכנון ושלב הניתוח של ניסויים; פרק 4 של Gerber and Green (2012) מספק היכרות טובה שתי הגישות, ואת Casella (2008) מספק טיפול מעמיק יותר. טכניקות המשתמשות מידע טרום טיפול זה אקראי בדרך כלל נקראות גם חסמו עיצובים ניסיוניים או עיצובים ניסיוניים מרובדת (המינוח אינו משמש באופן עקבי על פני קהילות); אלה טכניקות קשורות עמוקות לטכניקות דגימה מרובדת דנו בפרק 3. ראה Higgins, Sävje, and Sekhon (2016) לקבלת מידע נוסף על השימוש עיצובים אלה בניסויים מסיבי. למשתנים טרום טיפול ניתן לכלול גם בשלב הניתוח. McKenzie (2012) בוחן את פרש ההבדלים בגישה לניתוח ניסויי שדה ביתר פירוט. ראה Carneiro, Lee, and Wilhelm (2016) במשך יותר על offs הסחר בין גישות שונות להגדיל את הדיוק באומדנים של שפעות טיפול. לבסוף, בבואו להחליט אם לנסות לכלול משתנים טרום הטיפול בשלב התכנון או ניתוח (או שניהם), יש כמה גורמים שצריך להתחשב בהם. בסביבה שבה החוקרים רוצים להראות שהם לא "דיג" (Humphreys, Sierra, and Windt 2013) , באמצעות משתנים טרום הטיפול בשלב התכנון יכול להיות מועיל (Higgins, Sävje, and Sekhon 2016) . במצבים בהם המשתתפים מגיעים ברצף, במיוחד ניסויי שדה באינטרנט, תוך שימוש במידע טרום הטיפול בשלב התכנון עשוי להיות קשה מבחינה לוגיסטית, ראה למשל Xie and Aurisset (2016) .
כדאי להוסיף קצת אינטואיציה לגבי מדוע פרש הבדלים יכול להיות כל כך הרבה יותר יעיל מאשר פרש האמצעים. יש תוצאות מקוונות רבות השונות מאוד גבוה (ראה, למשל, Lewis and Rao (2015) ו Lamb et al. (2015) ) ו יחסית יציבים לאורך זמן. במקרה זה, התוצאה לשינוי זה תהיה משמעותי שונה קטן, הגדלת כוחו של המבחן הסטטיסטי. אחת הסיבות זה ניגש אינו משמש לעתים קרובות יותר הוא כי לפני העידן הדיגיטלי זה לא היה נפוץ לקבל תוצאות טיפול מקדים. באופן קונקרטי יותר לחשוב על זה הוא לדמיין ניסוי כדי למדוד אם שגרת פעילות גופנית ספציפית גורמת לירידה במשקל. אם אתה עושה את ההבדל-ב-אמצעי גישה, הערכתך תהיה השתנות שנובעת השתנות משקולות באוכלוסייה. אם אתה עושה גישת פרש ההבדל, עם זאת, כי וריאציה טבעית במשקלות מקבל ושתוכל יותר בקלות לזהות בדל הנגרם על ידי הטיפול.
אחת חשובות דרך לצמצם את מספר משתתפים בניסוי שלך הוא לבצע ניתוח כוח, אשר קרמר ועמיתיו יכלו לעשות מבוססת על גודלי האפקט ציין מהניסוי הטבעי על ידי Coviello et al. (2014) או קודם לכן מחקר בלתי ניסיוני על ידי קרמר (2012) (למעשה אלה הם פעילויות בסוף הפרק זה). שימו לב כי שימוש זה של ניתוח הכוח הוא קצת שונה מהרגיל. בעידן האנלוגי, חוקרים עשו ניתוח כוח בדרך כלל לוודא כי המחקר שלהם לא היה קטן מדי (כלומר, תחת מופעל). עכשיו, עם זאת, החוקרים צריכים לעשות ניתוח הכוח לוודא כי המחקר שלהם הוא לא גדול מדי (כלומר, יתר לחשמל).
לבסוף, שקלתי הוספת R הרביעי: Repurpose. כלומר, אם חוקרים מוצאים את עצמם עם נתונים ניסיוניים יותר ממה שהם צריכים להתייחס לשאלת המחקר המקורית שלהם, הם צריכים לשנות את ייעוד הנתונים לשאול שאלות חדשות. לדוגמה, נניח כי קרמר ועמיתיו השתמשו אומד הפרש ההבדלים מצאו את עצמם עם יותר נתונים הדרושים כדי להתמודד עם שאלת המחקר שלהם. במקום לא באמצעות הנתונים במידה המלאה, הם יכלו לומדים את גודל ההשפעה כפונקציה טרום טיפול ביטוי רגשי. כשם Schultz et al. (2007) מצאו כי השפעת הטיפול היה שונה למשתמשים קלים וכבדים, אולי את ההשפעות של ה"חדשות היו שונים עבור אנשים שכבר נטו לפרסם שמח (או עצוב) הודעות. Repurposing שעלול להוביל "דיג" (Humphreys, Sierra, and Windt 2013) ו "p-פריצה" (Simmons, Nelson, and Simonsohn 2011) , אבל אלה הם למיעון בעיקר עם שילוב של לדיווח הוגן (Simmons, Nelson, and Simonsohn 2011) , בהרשמה מוקדמת (Humphreys, Sierra, and Windt 2013) , ושיטות לימוד מכונה המנסות למנוע יתר הולם.