שאלות על סיבתיות במחקר חברתי הן לעתים קרובות מורכבות ומורכבות. עבור גישה בסיסית לסיבתיות המבוססת על גרפים סיבתיים, ראו Pearl (2009) , ועל גישת יסוד המבוססת על תוצאות אפשריות, ראו Imbens and Rubin (2015) . להשוואה בין שתי הגישות, ראה Morgan and Winship (2014) . לקבלת גישה רשמית להגדרת מבלבל, ראו VanderWeele and Shpitser (2013) .
בפרק זה, יצרתי מה שנראה כמו קו מבריק בין היכולת שלנו לעשות הערכות סיבתי מ ניסיוני נתונים שאינם הניסוי. עם זאת, אני חושב כי במציאות, ההבחנה מטושטשת יותר. לדוגמה, כולם מסכימים כי עישון גורם לסרטן, למרות שאף ניסוי מבוקר אקראי שמכריח אנשים לעשן נעשה אי פעם. לטיפולים מצוינים באורך הספר על ביצוע אומדנים סיבתיים מנתונים שאינם ניסיוניים, ראו Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) ו- Dunning (2012) .
פרקים 1 ו -2 של Freedman, Pisani, and Purves (2007) מציעים מבוא ברור ההבדלים בין ניסויים, ניסויים מבוקרים, ניסויים מבוקרים אקראיים.
Manzi (2012) מספק מבוא מרתק וקריא לתשתית הפילוסופית והסטטיסטית של ניסויים אקראיים מבוקרים. הוא גם מספק דוגמאות מעשיות בעולם האמיתי של כוח הניסויים בעסקים. Issenberg (2012) מספק מבוא מרתק לשימוש בניסויים בקמפיינים פוליטיים.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, and Athey and Imbens (2016b) מספקים היכרות טובה עם ההיבטים הסטטיסטיים של תכנון וניתוח ניסיוני. יתר על כן, ישנם טיפולים מצוינים לשימוש של ניסויים בתחומים שונים: כלכלה (Bardsley et al. 2009) , הסוציולוגי (Willer and Walker 2007; Jackson and Cox 2013) , פסיכולוגיה (Aronson et al. 1989) , מדעי מדינה (Morton and Williams 2010) , ומדיניות חברתית (Glennerster and Takavarasha 2013) .
החשיבות של גיוס המשתתפים (למשל, דגימה) הוא לעתים קרובות under-appreciated במחקר ניסיוני. עם זאת, אם ההשפעה של הטיפול הוא הטרוגני באוכלוסייה, ואז הדגימה היא קריטית. Longford (1999) עושה את הנקודה הזו בבירור כאשר הוא תומך בחוקרים החוקרים על ניסויים כסקר אוכלוסייה עם דגימה אקראית.
הצעתי שיש רצף בין ניסויים מעבדה לניסויים בשטח, וחוקרים אחרים הציעו טיפולוגיות מפורטות יותר, ובמיוחד אלו המפרידות בין צורות שונות של ניסויים שדה (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
מספר מחקרים ביצעו השוואות בין ניסויים מעבדה וניסויים שדהיים (Falk and Heckman 2009; Cialdini 2009) ומבחינת תוצאות ניסויים ספציפיים במדע המדינה (Coppock and Green 2015) , כלכלה (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) ופסיכולוגיה (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) מציעים עיצוב מחקר נחמד להשוואת תוצאות ניסויים מעבדה ו שדה. Parigi, Santana, and Cook (2017) מתארים כיצד ניסויים מקוונים בתחום יכולים לשלב חלק מהמאפיינים של ניסויים במעבדה ובניסויים בשטח.
הדאגות לגבי המשתתפים לשנות את ההתנהגות שלהם, כי הם יודעים שהם מקרוב שנצפו נקראים לפעמים תופעות הביקוש , והם כבר למדו בפסיכולוגיה (Orne 1962) וכלכלה (Zizzo 2010) . למרות שמדובר בעיקר בניסויים במעבדה, אותן בעיות יכולות לגרום לבעיות גם בניסויים בתחום. למעשה, השפעות הביקוש נקראות גם השפעות הות'ורן , מונח שמקורו בניסויים של תאורה מפורסמת שהתחילה ב -1924 בעבודות הות'ורן של חברת החשמל המערבית (Adair 1984; Levitt and List 2011) . שתי השפעות הביקוש והשפעות הות'ורן קשורות קשר הדוק לרעיון המדידה הריאקטיבית הנדונה בפרק 2 (ראה גם Webb et al. (1966) ).
ניסויי שדה הם בעלי היסטוריה ארוכה בכלכלה (Levitt and List 2009) , מדע המדינה (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , פסיכולוגיה (Shadish 2002) ומדיניות ציבורית (Shadish and Cook 2009) . תחום אחד של מדעי החברה שבו ניסויים שדה במהירות הפך בולט הוא פיתוח בינלאומי. לבדיקה חיובית של עבודה זו בתוך הכלכלה ראה Banerjee and Duflo (2009) , ועל הערכה קריטית ראה Deaton (2010) . לסקירה של עבודה זו במדע המדינה, ראו Humphreys and Weinstein (2009) . לבסוף, האתגרים האתיים הנובעים מניסויים בתחום נחקרו בהקשר של מדע המדינה (Humphreys 2015; Desposato 2016b) הפיתוח (Baele 2013) .
בסעיף זה הצעתי שניתן להשתמש במידע לפני הטיפול כדי לשפר את הדיוק של השפעות הטיפול המשוער, אך יש ויכוח על גישה זו; ראה Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , ו Bloniarz et al. (2016) לקבלת מידע נוסף.
לבסוף, ישנם שני סוגים אחרים של ניסויים שבוצעו על ידי מדענים חברתיים שאינם מתאימים בצורה מסודרת לאורך מימד שדה המעבדה: ניסויים בסקר וניסויים חברתיים. ניסויי סקר הם ניסויים המשתמשים בתשתית של סקרים קיימים ומשווים תגובות לגרסאות חלופיות של אותן שאלות (כמה ניסויים בסקר מוצגים בפרק 3); עבור יותר על ניסויים בסקר לראות Mutz (2011) . ניסויים חברתיים הם ניסויים שבהם הטיפול הוא חלק ממדיניות חברתית שיכולה להיות מיושמת רק על ידי ממשלה. ניסויים חברתיים קשורים קשר הדוק להערכת התוכנית. למידע נוסף על ניסויים במדיניות, ראה Heckman and Smith (1995) , Orr (1998) ו- @ glennerster_running_2013.
בחרתי להתמקד בשלושה מושגים: תוקף, הטרוגניות של השפעות טיפול ומנגנונים. למושגים אלה יש שמות שונים בתחומים שונים. לדוגמה, פסיכולוגים נוטים לעבור מעבר לניסויים פשוטים על ידי התמקדות במתווכים ובמנהלים (Baron and Kenny 1986) . הרעיון של מתווכים נתפס על ידי מה שאני מכנה מנגנונים, והרעיון של מנהלים מתרחש במה שאני מכנה תוקף חיצוני (למשל, האם תוצאות הניסוי יהיו שונות אם הן היו מופעלות במצבים שונים) וההטרוגניות של השפעות הטיפול ( למשל, הם ההשפעות הגדולות עבור אנשים מסוימים יותר מאשר לאחרים).
הניסוי של Schultz et al. (2007) מראה כיצד ניתן להשתמש בתיאוריות חברתיות כדי לעצב התערבויות יעילות. לטיעון כללי יותר על תפקיד התיאוריה בעיצוב התערבויות יעילות, ראו Walton (2014) .
המושגים של תוקף פנימי וחיצוני הוצגו לראשונה על ידי Campbell (1957) . ראו Shadish, Cook, and Campbell (2001) על היסטוריה מפורטת יותר והרחבה מדוקדקת של תוקף המסקנה הסטטיסטית, תוקף פנימי, תוקף המבנה ותוקף חיצוני.
לסקירה כללית של נושאים הקשורים למסקנות המסקנה הסטטיסטית בניסויים ראו Gerber and Green (2012) (מנקודת מבט של מדעי החברה) ו- Imbens and Rubin (2015) (מנקודת מבט סטטיסטית). כמה נושאים של תקפות המסקנה הסטטיסטית המתעוררים במיוחד בניסויים בתחום המקוון כוללים נושאים כגון שיטות יעילות חישובית ליצירת רווחי ביטחון עם נתונים תלויים (Bakshy and Eckles 2013) .
תוקף פנימי יכול להיות קשה כדי להבטיח בניסויים שדה מורכבים. ראו, למשל, Gerber and Green (2000) , Imai (2005) , Gerber and Green (2005) לדיון על יישום ניסוי שדה מורכב על ההצבעה. Kohavi et al. (2012) ו Kohavi et al. (2013) לספק מבוא לאתגרים של תוקף interval בניסויים בתחום המקוון.
אחד האיומים העיקריים על התוקף הפנימי הוא האפשרות של אקראיות כושלת. אחת הדרכים האפשריות לזהות בעיות עם אקראיות היא להשוות את הטיפול ואת קבוצות שליטה על תכונות נצפות. סוג זה של השוואה נקרא בדיקת איזון . ראה Hansen and Bowers (2008) לגישה סטטיסטית לאיזון ההמחאות Mutz and Pemantle (2015) בנוגע לחששות בנוגע לבדיקת האיזון. לדוגמה, באמצעות בדיקת איזון, Allcott (2011) מצאו כמה ראיות לכך Allcott (2011) לא יושמה בצורה נכונה בשלושה מהניסויים של Opower (ראה טבלה 2, אתרים 2, 6 ו -8). עבור גישות אחרות, ראה פרק 21 של Imbens and Rubin (2015) .
חששות מרכזיים אחרים הקשורים לתוקף הפנימי הם:) 1 (אי - ציות חד - צדדי, כאשר לא כל המשתתפים בקבוצת הטיפול קיבלו בפועל את הטיפול,) 2 (אי - ציות דו - צדדי, כאשר לא כולם בקבוצת הטיפול מקבלים את הטיפול וחלק מהאנשים קבוצת הביקורת מקבלת את הטיפול, (3) שחיקה, כאשר התוצאות אינן נמדדות עבור חלק מהמשתתפים, וכן (4) הפרעה, כאשר הטיפול נשפך מאנשים במצב הטיפול לאנשים במצב שליטה. ראה פרק 5, 6, 7, ו 8 של Gerber and Green (2012) עבור יותר על כל אחד מהנושאים האלה.
לקבלת מידע נוסף על תקפות המבנה, ראו Westen and Rosenthal (2003) , וכן על מנת לבנות תוקף במקורות מידע גדולים, Lazer (2015) ופרק 2 בספר זה.
היבט אחד של תוקף חיצוני הוא ההגדרה שבה נבדקת התערבות. Allcott (2015) מספק טיפול תיאורטי אמפירי זהיר של הטיה הבחירה באתר. נושא זה נדון גם על ידי Deaton (2010) . היבט נוסף של תוקף חיצוני הוא האם ליישומים חלופיים של אותה התערבות יהיו השפעות דומות. במקרה זה, השוואה בין Schultz et al. (2007) ו- Allcott (2011) מראה כי בניסוי של Opower הייתה השפעה משוערת קטנה יותר מאשר הניסויים המקוריים של Schultz ועמיתיו (1.7% לעומת 5%). Allcott (2011) העריכו Allcott (2011) המעקב הייתה השפעה קטנה יותר בשל הדרכים שבהן הטיפול שונה: סמיילי בכתב יד כחלק ממחקר בחסות אוניברסיטה, בהשוואה Allcott (2011) דו"ח של חברת חשמל.
לקבלת סקירה מצוינת של ההטרוגניות של השפעות הטיפול בניסויים שדה, ראה פרק 12 של Gerber and Green (2012) . עבור היכרות עם הטרוגניות של השפעות הטיפול בניסויים רפואיים, ראה Kent and Hayward (2007) , Longford (1999) , Kravitz, Duan, and Braslow (2004) . שיקולים של ההטרוגניות של השפעות הטיפול מתמקדים בדרך כלל בהבדלים המבוססים על מאפייני טרום טיפול. אם אתם מעוניינים בהטרוגניות המבוססת על תוצאות לאחר הטיפול, יש צורך בגישות מורכבות יותר, כגון ריבוד עיקרי (Frangakis and Rubin 2002) ; ראה Page et al. (2015) לבדיקה.
חוקרים רבים מעריכים את ההטרוגניות של השפעות הטיפול באמצעות רגרסיה ליניארית, אך שיטות חדשות יותר מסתמכות על למידה ממוחשבת; ראו למשל, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , Athey and Imbens (2016a) .
יש כמה ספקנות לגבי ממצאי ההטרוגניות של ההשפעות בגלל בעיות השוואה מרובות ו"דיג ". קיימות מגוון של גישות סטטיסטיות שיכולות לסייע בהתייחסות לחששות לגבי השוואה מרובה (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . גישה אחת לחששות לגבי "דיג" היא הרשמה מוקדמת (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) נפוצה יותר ויותר בפסיכולוגיה (Nosek and Lakens 2014) , מדע המדינה (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , וכלכלה (Olken 2015) .
במחקרם של Costa and Kahn (2013) רק כמחצית ממשקי הבית בניסוי עשויים להיות קשורים למידע הדמוגרפי. קוראים המעוניינים בפרטים אלה צריכים להתייחס לעיתון המקורי.
מנגנונים הם חשובים מאוד, אבל הם מסתבר להיות מאוד קשה ללמוד. מחקר על מנגנונים קשור קשר הדוק לחקר המגשרים בפסיכולוגיה (אך ראה גם VanderWeele (2009) להשוואה מדויקת בין שני הרעיונות). גישות סטטיסטיות למציאת מנגנונים, כגון הגישה שפותחה Baron and Kenny (1986) , שכיחים למדי. למרבה הצער, מתברר כי נהלים אלה תלויים כמה הנחות חזקה (Bullock, Green, and Ha 2010) וסובלים כאשר ישנם מנגנונים מרובים, כפי שניתן לצפות במצבים רבים (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ו Imai and Yamamoto (2013) מציעים כמה שיטות סטטיסטיות משופרות. יתר על כן, VanderWeele (2015) מציע טיפול אורך הספר עם מספר תוצאות חשובות, כולל גישה מקיפה לניתוח רגישות.
גישה נפרדת מתמקדת בניסויים המנסים לתמרן את המנגנון ישירות (למשל, מתן המלחים ויטמין C). למרבה הצער, בהגדרות רבות במדעי החברה, יש לעתים קרובות מספר מנגנונים וקשה לעצב טיפולים שמשנים אחד מבלי לשנות את האחרים. כמה גישות לשינוי מנגנונים מתוארים על ידי Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) ו- Pirlott and MacKinnon (2016) .
חוקרים הפועלים במלואם ניסויי מעבדה יצטרכו להיות מודאגים לגבי בדיקות ההשערה מרובות; ראה Fink, McConnell, and Vollmer (2014) List, Shaikh, and Xu (2016) לקבלת מידע נוסף.
לבסוף, מנגנונים גם יש היסטוריה ארוכה בפילוסופיה של המדע כפי שתואר על ידי Hedström and Ylikoski (2010) .
למידע נוסף על השימוש במחקרי התכתבות ובמחקרי ביקורת על מנת למדוד אפליה, ראה Pager (2007) .
הדרך הנפוצה ביותר לגייס משתתפים לניסויים שאתה בונה היא אמזון טורקית (MTurk). מכיוון ש- MTurk מחקה היבטים של ניסויים מעבדתיים מסורתיים - משלמים לאנשים כדי להשלים משימות שהם לא יעשו עבור חוקרים רבים ללא תשלום כבר החלו להשתמש בטורקים (העובדים ב- MTurk) כמשתתפים ניסיוניים, וכתוצאה מכך איסוף נתונים מהיר וזול יותר מאשר ניתן להשיג בניסויי מעבדה מסורתיים בקמפוס (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
בדרך כלל, היתרונות הגדולים ביותר של שימוש במשתתפים שגויסו מ MTurk הם לוגיסטיים. בעוד שבניסויי מעבדה עשויים להימשך שבועות עד להפעלת ניסויים בשטח, ייתכן שיבוצעו חודשים להגדרה, אך ניסויים עם משתתפים שגויסו מ- MTurk ניתנים להפעלה בימים. לדוגמה, Berinsky, Huber, and Lenz (2012) הצליחו לגייס 400 נושאים ביום אחד להשתתף בניסוי 8 דקות. בנוסף, ניתן לגייס משתתפים אלו לכל מטרה שהיא (כולל סקרים ושיתוף פעולה המוני, כפי שנדון בפרקים 3 ו -5). זה הקלות של גיוס פירושו החוקרים יכולים לרוץ רצפים של ניסויים קשורים ברצף מהיר.
לפני גיוס המשתתפים מ MTurk עבור הניסויים שלך, ישנם ארבעה דברים חשובים שאתה צריך לדעת. ראשית, חוקרים רבים יש ספקנות ספציפית של ניסויים מעורבים טורקים. מכיוון שספקנות זו אינה ספציפית, קשה להיאבק בראיות. עם זאת, לאחר מספר שנים של מחקרים באמצעות טורקים, אנו יכולים כעת להסיק כי ספקנות זו אינה מוצדקת במיוחד. מחקרים רבים משווים את הדמוגרפיה של הטורקים עם אוכלוסיות אחרות, ומחקרים רבים משווים את תוצאות הניסויים עם שני אנשים אחרים. בהתחשב בכל העבודה הזאת, אני חושב שהדרך הטובה ביותר לחשוב על זה היא שהטורקים הם מדגם נוחות סביר, בדומה לתלמידים, אבל קצת יותר מגוונים (Berinsky, Huber, and Lenz 2012) . לכן, כשם שהסטודנטים הם אוכלוסייה סבירה עבור חלק מהמחקרים, אך לא כולם, הטורקים הם אוכלוסייה סבירה למחקר, אך לא לכולם. אם אתה מתכוון לעבוד עם טורקים, אז זה הגיוני לקרוא רבים של מחקרים השוואתיים אלה ולהבין את הניואנסים שלהם.
שנית, חוקרים פיתחו שיטות עבודה מומלצות להגדלת התוקף הפנימי של ניסויים של MTurk, ועליך ללמוד על שיטות עבודה מומלצות אלו (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . לדוגמה, חוקרים המשתמשים בטורקים מעודדים להשתמש בסורקים כדי להסיר משתתפים ללא תשומת לב (Berinsky, Margolis, and Sances 2014, 2016) (אך ראו גם את DJ Hauser and Schwarz (2015b) ואת DJ Hauser and Schwarz (2015a) ). אם לא תסיר משתתפים לא קשובים, כל אפקט של הטיפול יכול להישטף על ידי הרעש שהם מציגים, ולמעשה מספר המשתתפים הלא קשובים יכול להיות משמעותי. בניסוי של הובר ועמיתיו (2012) , כ -30% מהמשתתפים נכשלו במסנני תשומת הלב הבסיסיים. בעיות אחרות שבדרך כלל מתעוררות כאשר הטורקים משמשים הם משתתפים לא נאיבים (Chandler et al. 2015) והתשה (Zhou and Fishbach 2016) .
שלישית, יחסית למספר צורות אחרות של ניסויים דיגיטליים, ניסויים של MTurk אינם יכולים להשתנות; Stewart et al. (2015) מעריכים כי בכל זמן נתון יש רק על 7,000 אנשים על MTurk.
לבסוף, אתה צריך לדעת כי MTurk היא קהילה עם הכללים שלה ואת הנורמות (Mason and Suri 2012) . באותו אופן שבו תנסו לברר על תרבותה של מדינה שבה אתם מתכוונים לנהל את הניסויים שלכם, כדאי שתנסו לברר פרטים נוספים על התרבות ועל הנורמות של התורכים (Salehi et al. 2015) . ואתה צריך לדעת כי הטורקים יהיה לדבר על הניסוי שלך אם אתה עושה משהו לא הולם או לא מוסרי (Gray et al. 2016) .
MTurk היא דרך נוחה להפליא לגייס משתתפים לניסויים שלכם, בין אם הם דומים למעבדה, כגון אלה של Huber, Hill, and Lenz (2012) , או יותר כמו שדות, כגון אלה של Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , ו Mao et al. (2016) .
אם אתה חושב לנסות ליצור את המוצר שלך, אני ממליץ לך לקרוא את העצה המוצעת על ידי קבוצת MovieLens ב Harper and Konstan (2015) . תובנה מרכזית מהניסיון שלהם היא כי עבור כל פרוייקט מוצלח יש הרבה, כשלים רבים. לדוגמה, קבוצת MovieLens השיקה מוצרים אחרים, כגון GopherAnswers, שהיו כשלים מוחלטים (Harper and Konstan 2015) . דוגמה נוספת של חוקר נכשל בעת שניסה לבנות מוצר הוא הניסיון של אדוארד Castronova לבנות משחק מקוון בשם ארדן. למרות המימון של 250,000 $, הפרויקט היה פלופ (Baker 2008) . פרויקטים כמו GopherAnswers ו Arden הם למרבה הצער הרבה יותר נפוץ מאשר פרויקטים כמו MovieLens.
שמעתי את הרעיון של רבעון של פסטר, שנדון לעתים קרובות בחברות טכנולוגיה, והוא מסייע בארגון מאמצי מחקר ב- Google (Spector, Norvig, and Petrov 2012) .
המחקר של בונד ועמיתיו (2012) גם מנסה לזהות את ההשפעה של טיפולים אלה על החברים של אלה שקיבלו אותם. בגלל העיצוב של הניסוי, אלה spillovers קשה לזהות בצורה נקייה; הקוראים המעוניינים צריכים לראות את Bond et al. (2012) לדיון מעמיק יותר. ג 'ונס ועמיתיו (2017) ניהל גם ניסוי דומה מאוד במהלך הבחירות 2012. ניסויים אלה הם חלק ממסורת ארוכה של ניסויים במדע המדינה על המאמצים לעידוד ההצבעה (Green and Gerber 2015) . אלה לקבל את ההצבעה-ניסויים נפוצים, בין השאר משום שהם של רבע פסטר. כלומר, ישנם אנשים רבים המניעים להגדיל את ההצבעה ואת ההצבעה יכול להיות התנהגות מעניינת לבחון תיאוריות כלליות יותר על שינוי התנהגות והשפעה חברתית.
לקבלת ייעוץ לגבי ריצת ניסויים בשטח עם ארגונים שותפים כגון מפלגות פוליטיות, ארגונים לא ממשלתיים ועסקים, ראה Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) ו- Gueron (2002) . לקבלת מחשבות על איך שותפויות עם ארגונים יכולים להשפיע על עיצובים מחקר, ראה King et al. (2007) ואת Green, Calfano, and Aronow (2014) . שותפות יכולה גם להוביל לשאלות אתיות, כפי שנדון על ידי Humphreys (2015) ו Nickerson and Hyde (2016) .
אם אתה עומד ליצור תכנית ניתוח לפני הפעלת הניסוי שלך, אני מציע שתתחיל בקריאת הנחיות הדיווח. הקואורדינטות (Console Standard Reporting of Trials) פותחו ברפואה (Schulz et al. 2010) ושונו למחקר חברתי (Mayo-Wilson et al. 2013) . קבוצה קשורה של קווים מנחים פותחה על ידי עורכי כתב העת של Journal of Experimental Science Science (Gerber et al. 2014) (ראה גם Mutz and Pemantle (2015) ו- Gerber et al. (2015) ). לבסוף, הנחיות הדיווח פותחו בפסיכולוגיה (APA Working Group 2008) , וראו גם Simmons, Nelson, and Simonsohn (2011) .
אם אתה יוצר תוכנית ניתוח, כדאי לשקול מראש רישום זה כי רישום מראש יגדיל את האמון כי אחרים יש את התוצאות. יתר על כן, אם אתה עובד עם שותף, זה יגביל את היכולת של השותף שלך לשנות את הניתוח לאחר שראה את התוצאות. ההרשמה מראש נעשית נפוצה יותר בפסיכולוגיה (Nosek and Lakens 2014) , מדע המדינה (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , וכלכלה (Olken 2015) .
ייעוץ עיצובי במיוחד עבור ניסויים שדה מקוון מוצג גם Konstan and Chen (2007) ו Chen and Konstan (2015) .
מה שכיניתי את אסטרטגיית הארמדה נקרא לפעמים מחקר פרוגרמטי ; ראה Wilson, Aronson, and Carlsmith (2010) .
למידע נוסף על הניסויים של MusicLab, ראו Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) Salganik (2007) . לקבלת מידע נוסף על שווקי הזוכים, ראו Frank and Cook (1996) . לקבלת מידע נוסף על untangling מזל ומיומנות באופן כללי יותר, ראה Mauboussin (2012) , Watts (2012) , Frank (2016) .
יש גישה נוספת לחיסול תשלומי המשתתפים שעל החוקרים להשתמש בהם בזהירות: גיוס חובה. בניסויי שדה מקוונים רבים המשתתפים מנוסחים ביסודם בניסויים ומעולם לא פיצויים. דוגמאות לגישה זו כוללות את הניסוי של Restivo ו- Van de Rijt (2012) על התגמולים בניסוי של ויקיפדיה ובונד ועמית (2012) על עידוד אנשים להצביע. ניסויים אלה לא ממש יש אפס עלות משתנה - אלא, יש להם אפס עלות משתנה לחוקרים . בניסויים כאלה, גם אם העלות לכל משתתף הוא קטן מאוד, העלות המצטברת יכולה להיות גדולה למדי. חוקרים המפעילים ניסויים מקוונים מסיביים לעתים קרובות להצדיק את החשיבות של השפעות טיפול מוערך קטן באומרו כי אלה השפעות קטנות יכול להיות חשוב כאשר מיושמים על אנשים רבים. החשיבה המדויקת חלה על עלויות שהחוקרים מטילים על המשתתפים. אם הניסוי שלך גורם למיליון אנשים לבזבז דקה אחת, הניסוי אינו מזיק מאוד לאדם מסוים, אך במצטבר הוא בזבז כמעט שנתיים.
גישה נוספת ליצירת אפס תשלום עלות משתנה למשתתפים היא להשתמש בהגרלה, גישה ששימשה גם במחקר הסקר (Halpern et al. 2011) . למידע נוסף על עיצוב חוויות משתמש מהנות, ראה Toomim et al. (2011) . למידע נוסף על השימוש בבוטים ליצירת אפס ניסויים בעלות משתנים, ראה ( ??? ) .
שלושתם של ר 'כפי שהוצעו במקור על ידי Russell and Burch (1959) הם כדלקמן:
"החלפה אומרת אגב ההחלפה מודעת חי בעלי חיים עילאיים של חומר insentient. עקרון הצמצום דוגל צמצום מספרם של בעלי החיים המשמשים כדי לקבל מידע של כמות נתונה ודיוק. חידוד פירושו כל ירידה בהיארעות או חומרת נהלים לא אנושיים חלה על כל בעלי החיים אשר עדיין צריך לשמש. "
שלושת העקרונות שאני מציע אינם פוסלים את העקרונות האתיים המתוארים בפרק 6. במקום זאת, הם מהווים גרסה מורכבת יותר של אחד העקרונות האלה - תועלת - במיוחד בקביעת ניסויים אנושיים.
במונחים של R הראשון ("החלפה"), השוואת הניסוי ההדבקה הרגשית (Kramer, Guillory, and Hancock 2014) והניסוי הטבעי של הדבקה (Lorenzo Coviello et al. 2014) מציע כמה שיעורים כלליים על ההתמחויות המעורבות במעבר מניסויים לניסויים טבעיים (וגישות אחרות כמו התאמת ניסיון לניסוי ניסויים בנתונים שאינם ניסיוניים, ראה פרק 2). בנוסף ליתרונות האתיים, המעבר ממחקרים ניסיוניים למחקרים שאינם ניסיוניים מאפשר לחוקרים גם ללמוד טיפולים שהם אינם מסוגלים לפרוס באופן לוגיסטי. אבל היתרונות האתיים והלוגיסטיים הללו עולים במחיר. עם ניסויים טבעיים החוקרים יש פחות שליטה על דברים כמו גיוס של המשתתפים, אקראיות, ואת אופי הטיפול. לדוגמה, מגבלה אחת של גשמים כטיפול היא כי הן מגדילות את החיוביות והן מקטינות את השליליות. במחקר הניסוי, עם זאת, קרמר ועמיתיו היו מסוגלים להתאים את החיוביות ואת השליליות באופן עצמאי. הגישה המיוחדת של Lorenzo Coviello et al. (2014) עוד יותר על ידי L. Coviello, Fowler, and Franceschetti (2014) . עבור מבוא למשתנים אינסטרומנטליים, המהווה את הגישה המשמשת Lorenzo Coviello et al. (2014) , ראה Angrist and Pischke (2009) (פחות פורמלי) או Angrist, Imbens, and Rubin (1996) (פורמליים יותר). עבור הערכה ספקנית של משתנים אינסטרומנטליים, ראה Deaton (2010) , וכן עבור מבוא למשתנים אינסטרומנטליים עם מכשירים חלשים (הגשם הוא מכשיר חלש), ראה Murray (2006) . באופן כללי יותר, מבוא טוב לניסויים טבעיים ניתן על ידי Dunning (2012) , בעוד Rosenbaum (2002) , ( ??? ) Shadish, Cook, and Campbell (2001) מציעים רעיונות טובים לגבי הערכת השפעות סיבתיות ללא ניסויים.
במונחים של R השני ("עידון"), יש מסחרית הלוגיסטית- offs כאשר שוקלים לשנות את העיצוב של רגשית הדבקה מ חסימת הודעות כדי להגדיל את ההודעות. לדוגמה, ייתכן שהטמעה הטכנית של עדכון החדשות מקלה על ביצוע ניסוי שבו פוסטים חסומים במקום אחת שבה הם משופרים (שים לב שניתן לבצע ניסוי של חסימת פוסטים כמו שכבה על גבי מערכת News Feed ללא צורך בשינויים של המערכת הבסיסית). אולם, מבחינה מדעית, התיאוריה שניסתה הניסוי לא הציעה בבירור עיצוב אחד על פני השני. למרבה הצער, אני לא מודע למחקרים קודמים על היתרונות היחסיים של חסימה והגברת תוכן בעדכון החדשות. כמו כן, לא ראיתי הרבה מחקר על טיפולים זיקוק כדי לגרום להם פחות מזיקים; חריג אחד הוא B. Jones and Feamster (2015) , הרואה את מקרה המדידה של צנזורה באינטרנט (נושא שעליו אני דן בפרק 6 ביחס למחקר הדרן (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
במונחים של ה - R השלישי ("צמצום,") ניתנים הכרות טובות לניתוח הכוח המסורתי על ידי Cohen (1988) (book) and Cohen (1992) (article), בעוד Gelman and Carlin (2014) מציגים פרספקטיבה שונה במקצת. ניתן לשלב משתנים קדם-טיפוליים בשלב התכנון והניתוח של הניסויים; פרק 4 של Gerber and Green (2012) מספק מבוא טוב שתי הגישות, ואת Casella (2008) מספק טיפול מעמיק יותר. טכניקות המשתמשות במידע זה לפני הטיפול באקראיות נקראות בדרך כלל דגמים ניסיוניים חסומים או עיצובים ניסיוניים מרובדים (המינוח אינו משמש באופן עקבי על פני קהילות); טכניקות אלה קשורות קשר הדוק לטכניקות הדגימה מרובדת שנדונו בפרק 3. ראה Higgins, Sävje, and Sekhon (2016) על שימוש נוסף בעיצובים מסיביים. ניתן לשלב גם משתנים קדם-ניתוחיים בשלב הניתוח. McKenzie (2012) בוחנת את ההבדל ההבדל בגישה לניתוח ניסויים שדה בפירוט רב יותר. ראה Carneiro, Lee, and Wilhelm (2016) על אודות הסחר בין גישות שונות להגברת הדיוק באומדנים של השפעות הטיפול. לבסוף, כאשר מחליטים אם לנסות לכלול משתנים לפני הטיפול בשלב התכנון או הניתוח (או שניהם), ישנם מספר גורמים שיש לקחת בחשבון. בסביבה שבה החוקרים רוצים להראות שהם אינם "דיג" (Humphreys, Sierra, and Windt 2013) , שימוש בשוברי טיפול מקדימים בשלב התכנון יכול להיות מועיל (Higgins, Sävje, and Sekhon 2016) . במצבים בהם המשתתפים מגיעים ברצף, במיוחד ניסויי שדה מקוונים, שימוש במידע לפני הטיפול בשלב התכנון עשוי להיות קשה מבחינה לוגיסטית; ראה, למשל, Xie and Aurisset (2016) .
כדאי להוסיף קצת אינטואיציה על כך שגישה של הבדלים בהבדלים יכולה להיות יעילה הרבה יותר מאשר הבדל- in- פירושו אחד. לתוצאות מקוונות רבות יש שונות גבוהה מאוד (ראו למשל, RA Lewis and Rao (2015) ו- Lamb et al. (2015) ) והן יציבות יחסית לאורך זמן. במקרה זה, לשינוי הציון תהיה שונות קטנה יותר באופן משמעותי, ובכך יגביר את עוצמת המבחן הסטטיסטי. סיבה אחת לגישה זו אינה בשימוש לעתים קרובות יותר היא כי לפני העידן הדיגיטלי, זה לא היה נפוץ יש תוצאות טרום טיפול. דרך קונקרטית יותר לחשוב על זה היא לדמיין ניסוי כדי למדוד אם שגרת תרגיל מסוים גורם לירידה במשקל. אם אתם מאמצים גישה של הפרש- in-mean, ההערכה שלכם תהיה שונות המשתנה מהשונות במשקלות באוכלוסייה. אם אתה עושה את ההבדל הבדל בגישה, עם זאת, כי וריאציה באופן טבעי משקולות מוסר, ואתה יכול בקלות רבה יותר לזהות הבדל שנגרם על ידי הטיפול.
לבסוף, שקלתי להוסיף ר 'רביעי: "repurpose". כלומר, אם החוקרים מוצאים את עצמם עם נתונים ניסיוניים יותר ממה שהם צריכים כדי לענות על שאלת המחקר המקורית שלהם, הם צריכים repurpose הנתונים לשאול שאלות חדשות. לדוגמה, דמיינו כי קרמר ועמיתיו השתמשו באמידת הבדל בהבדלים ומצאו את עצמם עם נתונים רבים יותר מהנדרש כדי לענות על שאלת המחקר שלהם. במקום להשתמש בנתונים במלואם, הם יכלו ללמוד את גודל ההשפעה כפונקציה של ביטוי רגשי לפני הטיפול. בדיוק כמו Schultz et al. (2007) מצאו כי ההשפעה של הטיפול היה שונה עבור משתמשים אור וכבד, אולי את ההשפעות של חדשות להאכיל היו שונים עבור אנשים שכבר נטו לכתוב הודעות מאושר (או עצוב). Repposing יכול להוביל "דיג" (Humphreys, Sierra, and Windt 2013) ו "p- פריצה" (Simmons, Nelson, and Simonsohn 2011) , אבל אלה ניתנים בעיקר עם שילוב של דיווח כנה (Simmons, Nelson, and Simonsohn 2011) , רישום מראש (Humphreys, Sierra, and Windt 2013) , ושיטות למידה של מכונות המנסות להימנע (Humphreys, Sierra, and Windt 2013) יתר.