מַפְתֵחַ:
[ , ] Berinsky ועמיתיו (2012) מעריכה מכני טורק בחלקו על ידי שכפול שלושה ניסויים קלאסיים. לשכפל את הניסוי מסגור מחלות קלאסי אסיה ידי Tversky and Kahneman (1981) . האם תוצאות התואמות שלך טברסקי וכהנמן של? האם תוצאות התואמות שלך Berinsky ועמיתיו? מה-אם בכלל-זה בא ללמדנו על השימוש מכונה טורקים לניסויי סקר?
[ , ] במאמר הלשון- In- הלחי מעט שכותרתו "אנחנו חייבים להיפרד," הפסיכולוג החברתי רוברט Cialdini, אחד ממחברי Schultz et al. (2007) , כתב כי הוא פורש מוקדם מעבודתו כפרופסור, בין השאר בשל האתגרים הרבים שניצבו בפניו עושה ניסויים בשדה משמעת (פסיכולוגיה) כי בעיקר מבצעת ניסויי מעבדה (Cialdini 2009) . קרא את מאמרו של Cialdini, ולכתוב לו מייל דוחק בו מחדש פרידתו לאור האפשרויות של ניסויים דיגיטליים. השתמש בדוגמאות ספציפיות של המחקר כי לטפל בבעיותיו.
[ ] כדי לקבוע אם הצלחות ראשונות קטנות לנעול-ב או להתפוגג, van de Rijt ו ועמיתיו (2014) התערבו לארבע מערכות שונות הענקה הצלחה על משתתפים שנבחרו באקראי, ולאחר מכן מדדו את ההשפעות לטווח הארוך של הצלחה זה שרירותי. אתה יכול לחשוב על מערכות אחרות שבהן אתה יכול להריץ ניסויים דומים? להעריך את המערכות האלה במונחים של בעיות ערך מדעי, מבלבלים אלגוריתמיים (ראה פרק 2), ואתיקה.
[ , ] התוצאות של ניסוי יכול לסמוך על המשתתפים. צור ניסוי ואז להפעיל אותו באמזון מכאני טורק (MTurk) שימוש בשתי אסטרטגיות גיוס שונות. נסה לבחור את אסטרטגיות ניסוי וגיוס כך התוצאות תהיינה שונות ככל האפשר. לדוגמא, אסטרטגיות הגיוס שלך יכולות להיות לגייס המשתתפים בבוקר ובערב או לפצות המשתתפים עם שכר גבוה ונמוך. אלו סוגים של הבדלים באסטרטגיית גיוס יכולים להוביל ברכות שונות של משתתפים ותוצאות ניסוי שונים. איך התוצאות שונות שלך להתברר? מה זה לחשוף לגבי הפעלת ניסויים על MTurk?
[ , , , ] תאר לעצמכם שאתם תכננתם המחקר הדבק הרגשי (Kramer, Guillory, and Hancock 2014) . השתמש בתוצאות ממחקר תצפיתי קודם לכן על ידי Kramer (2012) להחליט על מספר המשתתפים בכל מצב. שני המחקרים הללו אינם תואמים באופן מושלם כדי להיות בטוח רשימת במפורש כל ההנחות שתבצע:
[ , , , ] לענות על השאלה לעיל, אך במקום להשתמש במחקר תצפיתי קודם לכן על ידי Kramer (2012) להשתמש בתוצאות מניסוי טבעי קודם לכן על ידי Coviello et al. (2014) .
[ ] שניהם Rijt et al. (2014) ו Margetts et al. (2011) הן לבצע ניסויים ללמוד את התהליך של אנשים שחתמו על עצומה. השווה לעומת בעיצוב ממצאי המחקרים הללו.
[ ] Dwyer, Maki, and Rothman (2015) נערכו שני ניסויי שדה על הקשר בין נורמות חברתיות והתנהגות proenvironmental. הנה התקציר של במאמרם:
"איך ייתכן מדע פסיכולוגי להיות מנוצל כדי לעודד התנהגות proenvironmental? בשני מחקרים, התערבויות שמטרתן לקדם התנהגות שימור אנרגיה בחדרי אמבטיה לציבור שנבדקו ההשפעות של נורמות תיאורים ואחריות אישית. במחקר 1, מעמד האור (כלומר, פועל או כבוי) עבר מניפולציה לפני שמישהו נכנס לשירותים ציבוריים פנויים, מסמן את הנורמה תיאורי עבור הגדרה זו. משתתפים היו באופן משמעותי יותר סבירים לכבות את האור אם נסתלק כשנכנסו. במחקר 2, תנאי נוסף נכלל בה הנורמה של כיבוי האור הודגמה על ידי קונפדרציה, אך המשתתפים לא היו עצמם אחראים הפעלתו. אחריות אישית מיתנו את השפעת הנורמות החברתיות על התנהגות; כאשר המשתתפים לא היו אחראים להדליק את האור, את ההשפעה של הנורמה פחתה. תוצאות אלו מצביעות על איך נורמות תיאורים ואחריות אישית רשאיים להסדיר את האפקטיביות של התערבויות proenvironmental. "
קראו במאמרם ולעצב שכפול של מחקר 1.
[ , ] הבניין על השאלה הקודמת, עכשיו לבצע את העיצוב שלך.
[ ] יש כבר דיון מהותי על ניסויים באמצעות המשתתפים גויסו אמזון מכונות טורק. במקביל, גם חלה דיון מהותי על ניסויים באמצעות המשתתפים גויסו מאוכלוסיות סטודנט לתואר ראשון. כתוב תזכיר שני עמודי השוואה והנגדה את Turkers ו סטודנטים כמשתתפי חוקרים. ההשוואה שלך צריכה לכלול דיון בשתי סוגיות מדעיות ולוגיסטיות.
[ ] ספרו של ג'ים מנזי מבוקרת (2012) הוא מבוא נפלא לתוך הכוח של ניסויים בעסק. בספר הוא העביר את הסיפור הבא:
"פעם הייתי בפגישה עם גאון עסקי נכון, מיליארדר שבנה את עצמו שהיה לו בלשון המעטה עמוקה, אינטואיטיבית של הכח של ניסויים. החברה שלו בילתה משאבים רבים מנסה ליצור מציגה בחלון ראווה גדולה שתמשוך צרכנים ומכירים עליות, כמו דעה רווחת אמרה שהם אמורים להיות. מומחים בזהירות נבדקים עיצוב לאחר עיצוב, וב הפעלות ביקורת בדיקה אישית על פני תקופה של שנים שמרה מראה שום השפעה סיבתי משמעותית של כל עיצוב תצוגה חדש על מכירות. שיווק סחורה מנהלים בכירים נפגשו עם מנכ"ל לסקור תוצאות הבדיקה ההיסטוריים האלה בשלמותם. לאחר הצגת כל נתוני הניסוי, הם הגיעו למסקנה כי הדעה הרווחת טעה-כי כעת ייפתח חלון לא לעודד מכירות. הפעולה המומלצת שלהם היתה לצמצם עלויות ומאמץ בתחום זה. זה דרמטי הודגמה יכולתה של ניסויים כדי להפוך הדעה הרווחת. תגובת המנכ"ל הייתה פשוטה: "מסקנתי היא כי המעצבים שלך הם לא כל כך טובים." הפתרון שלו היה להגדיל מאמץ בעיצוב התצוגה בחנות, וכדי לקבל אנשים חדשים לעשות את זה. " (Manzi 2012, 158–9)
איזה סוג של תוקף הוא החשש של המנכ"ל?
[ ] הבניין על השאלה הקודמת, לדמיין שהיית בפגישה שבה תוצאות הניסויים נדונו. מהן ארבע שאלות שאתה יכול לשאול, אחד לכל סוג של תוקף (סטטיסטי, לבנות, פנימי וחיצוני)?
[ ] Bernedo, Ferraro, and Price (2014) בוחנים את ההשפעה של שבע שנים של ההתערבות לחסכון במים המתואר Ferraro, Miranda, and Price (2011) (ראה איור 4.10). במאמר זה, Bernedo ועמיתיו גם מבקשים להבין את המנגנון עומד מאחורי האפקט ידי השוואת ההתנהגות של משקי בית שיש ולא זזו לאחר הטיפול נמסר. כלומר, פחות או יותר, הם מנסים לראות האם הטיפול השפיע על הבית או בעל הבית.
[ ] בשנת מעקב כדי Schultz et al. (2007) , שולץ ועמיתיו לבצע סדרה של שלושה ניסויים על השפעת נורמות תיאורי צו מניעה על התנהגות סביבתית שונה (שימוש חוזר מגבת) בשני קשרים (מלון ו משותף שעה) (Schultz, Khazian, and Zaleski 2008) .
[ ] בתגובה Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) ניהל סדרת ניסויים דמוי מעבדה ללמוד את העיצוב של חשבונות חשמל. הנה איך שהם מתארים אותו באופן מופשט:
"בניסוי מבוסס סקר, כל משתתף ראה חשבון חשמל היפותטי עבור מש' עם צריכת חשמל גבוהה יחסית, המכסים מידע אודות (א) שימוש היסטורי, (ב) השוואות לשכנים, ו- (ג) שימוש היסטורי עם התמוטטות מכשיר. משתתפים ראו את כל סוגי המידע באחד משלושה פורמטים כלל (א) טבלאות, (ב) גרפים ברים, ו- (ג) גרפי סמל. אנו מדווחים על שלושה ממצאים עיקריים. ראשית, צרכנים הבינו זה סוג של מידע חשמל לשימוש ביותר כאשר הוא הוצג בטבלה, אולי בגלל שולחנות להקל על קריאת נקודה פשוטה. שנית, העדפות וכוונות לחסוך בחשמל היו חזקות על מידע שימוש ההסטורי, ללא תלות בפורמט. שלישית, אנשים עם אוריינות אנרגיה נמוכה יותר הבין את כל הפרטים פחות. "
בשונה ממחקרים ומעקב אחרים, התוצאה העיקרית של עניין Canfield, Bruin, and Wong-Parodi (2016) מדווחת התנהגות לא התנהגות בפועל. מהן נקודות החוזק והחולשה של סוג זה של מחקר בתוכנית מחקר רחבה לקידום חיסכון באנרגיה?
[ , ] Smith and Pell (2003) הוא מטה-אנליזה הסאטירי של מחקרים הוכחת היעילות של מצנחים. הם מסיקים:
"כמו עם התערבויות רבות שנועדו למנוע בריאות לקויה, את האפקטיביות של מצנחים לא היו נתון הערכה קפדנית באמצעות מחקרים אקראיים מבוקרים. תומכי רפואה מבוססת ראיות מתחו ביקורת על האימוץ של התערבויות הערכה באמצעות נתונים תצפיתיים בלבד. אנחנו חושבים שכולם עשויים להפיק תועלת אם הגיבורים הקיצוניים ביותר של רפואה מבוססת ראיות מאורגנים השתתפו כפולה סמיות, אקראי, מבוקר פלסבו, בדיקה מוצלבת של המצנח. "
כתוב דעות מתאימות עיתון קוראים רחב, כגון ניו יורק טיימס, טוען נגד הפטישיזם של ראיה נסיונית. לספק דוגמאות ספציפיות, בטון. רמז: ראה גם, Bothwell et al. (2016) ו Deaton (2010)
[ , , ] פרש ההבדלים אומדים של שפעת טיפול יכול להיות יותר מדויק מאשר אומדי פרש ממוצע. כתוב תזכיר מהנדס אחראי על בדיקת A / B בחברת מדיה חברתית הזניקי המסבירה את הערך של גישת פרש הבדלים לביצוע ניסוי באינטרנט. התזכיר צריך לכלול הצהרה של הבעיה, הרגשה כלשהי בקשר התנאים שבהם הפרש הבדל אומד ישיג ביצועים העולים על הפרש ממוצע אומד, וכן מחקר סימולציה פשוטה.
[ , ] גארי Loveman היה פרופסור בבית הספר לעסקים של הרווארד לפני שהפך למנכ"ל האראס, אחת מחברות הקזינו הגדולות בעולם. כשעבר האראס, Loveman שינה את החברה עם תכנית הנאמנות טייס דמוי תכופה שנאספה כמויות עצומות של נתונים על התנהגות לקוחות. על גבי מערכת המדידה תמיד על זה, החלה החברה להפעיל ניסויי. לדוגמא, הם עלולים להפעיל ניסוי כדי להעריך את ההשפעה של קופון למשך לילה במלון חינם ללקוחות עם דפוס הימורים ספציפי. הנה כמה Loveman תאר את החשיבות של ניסויים כדי הפרקטיקות העסקיות היומיומיות של Harrah:
"זה כמו שאתה לא להטריד נשים, אתה לא גונב, ואתה מוכרח כלל קבוצת ביקורת. זהו אחד הדברים שאתה יכול לאבד את מקום העבודה שלך במשך Harrah's-לא מפעיל קבוצת ביקורת. " (Manzi 2012, 146)
כתוב דוא"ל אל עובד חדש המסביר מדוע Loveman חושב שזה כל כך חשוב כלל קבוצת ביקורת. אתה צריך לנסות כדי לכלול דוגמא-בין אם אמיתית או מורכב-כדי להמחיש את הנקודה שלך.
[ , ] ניסוי חדש שמטרתו לאמוד את השפעת קבלת תזכורות הודעת טקסט על ספיגת חיסון. 150 מרפאות, כל אחד עם 600 חולים שנמצאו מתאימים, מוכנות להשתתף. יש עלות קבועה של 100 דולר עבור כל מרפאה אתה רוצה לעבוד עם, וזה עולה 1 דולר עבור כל הודעת טקסט שאתה רוצה לשלוח. יתר על כן, כל המרפאות כי אתה עובד עם יהיה למדוד את התוצאה (אם מישהו קיבל חיסון) בחינם. נניח שיש לך תקציב של 1000 דולר.
[ , ] בעיה גדולה עם קורסים מקוונים הוא התשה; תלמידים רבים שמתחילים קרס בסופו של דבר נשיר. תאר לעצמכם שאתם עובדים על פלטפורמה ללמידה מקוונת, לבין מעצב ברציף יצר מד התקדמות ויזואלית שהיא חושבת תעזור למנוע נשירת סטודנטים מן הקורס. אתה רוצה לבדוק את ההשפעה של סרגל התקדמות על תלמידים בקורס במדעי החברה חישובית גדול. לאחר טיפול בכל סוגיות אתיות שעלולות להתעורר בניסוי, אתה וחבריך דואגים כי כמובן לא יכול להיות מספיק תלמידים כדי לזהות את ההשפעות מהימנות של סרגל ההתקדמות. בחישובים למטה ניתן להניח כי מחצית התלמידים יקבלו את סרגל התקדמות וחצי לא. יתר על כן, ניתן להניח כי אין הפרעות. במילים אחרות, ניתן להניח כי המשתתפים מושפעים רק אם הם קיבלו את הטיפול או שליטה; הם לא יושגו על ידי אם אנשים אחרים שקיבלו את הטיפול או שליטה (עבור הגדרה פורמלית יותר, לראות Gerber and Green (2012) , Ch. 8). אנא לעקוב אחר כל הנחות נוספות שתבצעו.
[ , ] במאמר מקסים, Lewis and Rao (2015) בבהירות להמחיש מגבלה סטטיסטית יסוד של ניסויים מסיביים אפילו. העיתון-שבמקור היה הכותרת הפרובוקטיבית "על האפשרות-קרוב של מדידת התשואות על פרסום" -מופעים כמה קשה למדוד את ההחזר על ההשקעה של מודעות מקוונות, אפילו עם ניסויים דיגיטלי מעורבים מיליוני לקוחות. באופן כללי יותר, העיתון עולה בבירור כי קשה להעריך את שפעת טיפול קטנה בתוך נתוני תוצאה רועשים. האור קבע diffently, העיתון עולה כי שפעות טיפול משוערות תהיינה רווחיות סמך גדול כאשר ההשפעה ל-התקן-הסטייה (\ (\ frac {\ delta \ בר {y}} {\ sigma} \)) יחס הוא קטן. הלקח הכללי החשוב ממסמך זה הוא שתוצאות מניסויים עם יחס השפעה ל-תקן-סטייה קטן (למשל, החזר על ההשקעה של מסעות פרסום) תהיינה מספקות. האתגר שלך יהיה לרשום תזכיר מישהו במחלקת השיווק של החברה שלך evaluting ניסוי מתוכנן למדוד את ההחזר על ההשקעה של מסע פרסום. התזכיר שלך צריך להיות נתמך עם גרפים של התוצאות של סימולציות מחשב.
הנה קצת מידע רקע כי ייתכן שיהיה עליך. כל הערכים המספריים הללו אופייניים של הניסויים האמיתיים שדווחו Lewis and Rao (2015) :
החזר על השקעה, מדד מפתח עבור מסעות פרסום מקוונים, מוגדר להיות הרווח הנקי מהקמפיין (הרווח גולמי עלות מינוס קמפיין של קמפיין) מחולק עלות הקמפיין. לדוגמא מערכה לא הייתה השפעה על מכירות תצטרך החזר השקעה של 100% וקמפיין שבו רווחים שהופקו היו שווים עלויות יצטרך החזר על 0.
המכירות הממוצעות לכל לקוח הן 7 $ עם סטיית תקן של 75 $.
הקמפיין צפוי להגדיל את המכירות ב -0.35 $ לכל לקוח אשר תואם מגידול ברווח של 0.175 $ לכל לקוח. במילים אחרות, הרווח הגולמי הוא 50%.
בגודל המתוכנן של הניסוי הוא 200,000 איש, חצי בקבוצת הטיפול וחצי בקבוצת הביקורת.
עלות הקמפיין היא 0.14 $ למשתתף.
כתוב תזכיר evaluting הניסוי הזה. האם היית ממליץ משיקה ניסוי זה כמתוכנן? אם כן, מדוע? אם לא, אילו שינויים היית ממליץ?
תזכיר טוב יעסוק במקרה הספציפי הזה; תזכיר טוב יהיה להכליל ממקרה זה בדרך זו (למשל, להראות כיצד משתנה ההחלטה כפונקציה של יחס השפעה ל-תקן-סטייה); ו תזכיר גדול יציג תוצאה כללית מלא.
[ , ] לעשות את אותו הדבר כמו בשאלה הקודמת, אך במקום סימולציה עליך להשתמש תוצאות אנליטית.
[ , , ] לעשות את אותו הדבר כמו בשאלה הקודמת, אבל להשתמש בשני סימולציה ותוצאות אנליטית.
[ , , ] תארו לעצמכם שכתבת במזכר שתוארו לעיל-באף סימולציה, תוצאות אנליטית, או-ושניהם מישהו ממחלקת שיווק ממליצה להשתמש אומד הפרש ההבדלים ולא הבדל אומד אמצעי (ראה סעיף 4.6.2) . כתוב תזכיר חדש קצר המסביר כיצד 0.4 קורלציה בין מכירות לפני הניסוי ומכיר לאחר הניסוי הייתה משנה את המסקנה שלך.
[ , ] על מנת להעריך את האפקטיביות של שירות קריירה מבוסס אינטרנט חדש, משרד שירותי קריירה באונ' ערך מחקר שליטה אקראי בקרב 10,000 תלמידים נכנסים שנת הלימודים האחרונה שלהם. מנוי חינם עם מידע ייחודי לצורך התחברות נשלח באמצעות הזמנה באימייל בלעדי ל -5,000 התלמידים שנבחרו באקראי, כשהתלמידים 5,000 האחרים נמצאים בקבוצת הביקורת ו אין מנוי. שנתי עשרה חודשים לאחר מכן, סקר מעקב (ללא אי-שבה) מראה כי בשתי קבוצות הטיפול ובקרה, 70% מהתלמידים יש מאובטחים תעסוקה במשרה מלאה בתחום הנבחר שלהם (לוח 4.5). לפיכך, נראה כי השירות מבוסס האינטרנט לא הייתה השפעה.
עם זאת, מדען נתונים חכם באוניברסיטה בחנו את הנתונים קצת יותר מקרוב ומצא כי רק 20% מהתלמידים בקבוצת הטיפול פעם להתחבר לחשבון לאחר קבלת הדוא"ל. יתר על כן, וקצת מפתיע, בקרב מי שנכנס באתר רק 60% השיגו תעסוקה במשרה מלאה בתחום הנבחר שלהם, אשר היה נמוך משיעור לאנשים שלא להיכנס ולקרוא נמוך משיעור עבור אנשים התנאי המלא (לוח 4.6).
רמז: שאלה זו חורגת החומר הנכלל בפרק זה, אך מטפלת בבעיות נפוצות בניסויים. סוג זה של תכנון הניסוי נקרא לפעמים עיצוב עידוד כי המשתתפים מעודדים לעסוק בטיפול. בעיה זו היא דוגמה של מה שנקרא חד צדדי אי עמידה (ראה Gerber and Green (2012) , Ch. 5)
[ ] לאחר בדיקה נוספת, מתברר כי הניסוי המתואר בשאלה הקודמת היה אפילו יותר מסובך. מתברר כי 10% מהאנשים בקבוצת ביקורת תשלום עבור גישה לשירות, והם בסופו של דבר עם שיעור תעסוקה של 65% (לוח 4.7).
רמז: שאלה זו חורגת החומר הנכלל בפרק זה, אך מטפלת בבעיות נפוצות בניסויים. בעיה זו היא דוגמה של מה שנקרא דו-צדדית אי עמידה (ראה Gerber and Green (2012) , Ch. 6)
קְבוּצָה | גודל | שיעור תעסוקה |
---|---|---|
ניתנה גישה לאתר | 5,000 | 70% |
לא מקבל גישה לאתר | 5,000 | 70% |
קְבוּצָה | גודל | שיעור תעסוקה |
---|---|---|
אמנם גישה לאתר ו מחובר | 1,000 | 60% |
אמנם גישה לאתר ולעולם מחובר | 4,000 | 85% |
לא מקבל גישה לאתר | 5,000 | 70% |
קְבוּצָה | גודל | שיעור תעסוקה |
---|---|---|
אמנם גישה לאתר ו מחובר | 1,000 | 60% |
אמנם גישה לאתר ולעולם מחובר | 4,000 | 72.5% |
לא מקבלת גישה לאתר ושילם על כך | 500 | 65% |
לא מקבל גישה לאתר ולא לשלם עבורו | 4,500 | 70.56% |