[ , ] Berinsky ועמיתיו (2012) העריכו את MTurk בין השאר על ידי שכפול שלושה ניסויים קלאסיים. לשכפל את הניסויים הקלאסיים לחקר מחלת אסיה על ידי Tversky and Kahneman (1981) . האם התוצאות שלך מתאימות לטברסקי ולכהנמן? האם התוצאות שלך תואמות את ברינסקי ועמיתיו? מה, אם בכלל, עושה את זה ללמד אותנו על שימוש MTurk לניסויים הסקר?
[ , ] ב לשון in-chek נייר קצת שכותרתו "אנחנו צריכים להיפרד", הפסיכולוג החברתי רוברט Cialdini, אחד מחברי Schultz et al. (2007) , כתב כי הוא פורש מוקדם מעבודתו כפרופסור, בין השאר בגלל האתגרים שעמדו בפני ביצוע ניסויים בתחום בדיסציפלינה (פסיכולוגיה) שמנהלת בעיקר ניסויים במעבדה (Cialdini 2009) . קרא את העיתון של Cialdini, ולכתוב לו דוא"ל דוחקים בו לשקול מחדש את הפרידה שלו לאור האפשרויות של ניסויים דיגיטליים. השתמש בדוגמאות ספציפיות של מחקר המטפל בדאגותיו.
[ כדי לקבוע אם ההצלחות הראשוניות הקטנות נעולות או נמוגות, ואן דה רייט ועמיתיו (2014) התערבו לארבע מערכות שונות שהעניקו הצלחה למשתתפים שנבחרו באקראי, ולאחר מכן בחנו את ההשפעות ארוכות הטווח של הצלחה שרירותית זו. האם אתה יכול לחשוב על מערכות אחרות שבהן אתה יכול לנהל ניסויים דומים? להעריך מערכות אלה במונחים של נושאים בעלי ערך מדעי, בלבול אלגוריתמי (ראה פרק 2), ואתיקה.
[ , ] תוצאות הניסוי יכולות להיות תלויות במשתתפים. יצירת ניסוי ולאחר מכן להפעיל אותו על MTurk באמצעות שתי אסטרטגיות גיוס שונים. נסו לבחור את הניסוי ואת אסטרטגיות הגיוס, כך שהתוצאות יהיו שונות ככל האפשר. לדוגמה, אסטרטגיות הגיוס שלך יכול להיות לגייס משתתפים בבוקר ובערב או לפצות את המשתתפים עם שכר גבוה ונמוך. הבדלים אלה באסטרטגיית הגיוס עשויים להוביל לבריכות שונות של המשתתפים ולתוצאות הניסוי השונות. כמה שונה התוצאות שלך? מה זה לחשוף על הפעלת ניסויים על MTurk?
[ , , ] דמיינו שאתם מתכננים את הניסוי הדמיוני (Kramer, Guillory, and Hancock 2014) . השתמש בתוצאות ממחקר תצפיתי קודם של Kramer (2012) כדי להחליט על מספר המשתתפים בכל מצב. שני מחקרים אלה אינם תואמים באופן מושלם, לכן הקפד לציין במפורש את כל ההנחות שאתה מבצע:
[ , , ] תשובה על השאלה הקודמת שוב, אבל הפעם במקום להשתמש במחקר התצפית קודם על ידי Kramer (2012) , להשתמש בתוצאות מניסוי טבעי מוקדם יותר על ידי Lorenzo Coviello et al. (2014) .
[ ] שניהם Margetts et al. (2011) ואן דה רייט ואח '. (2014) ביצע ניסויים לומדים את תהליך החתימה על העצומה. השווה וניגב את העיצובים ואת הממצאים של מחקרים אלה.
[ ] Dwyer, Maki, and Rothman (2015) ערכו שני ניסויים שדה על הקשר בין הנורמות החברתיות והתנהגות פרו-סביבתי. הנה תקציר של המאמר שלהם:
"כיצד ניתן להשתמש במדע הפסיכולוגי כדי לעודד התנהגות פרו-אבנית? בשני מחקרים, התערבויות שנועדו לקדם את שימור האנרגיה בחדרי אמבטיה ציבוריים בדקו את ההשפעות של נורמות תיאוריות ואחריות אישית. במחקר 1, מצב האור (כלומר, on או off) היה מניפולציה לפני שמישהו נכנס לשירותים ציבוריים פנויים, מאותת על הנורמה תיאורי עבור הגדרה זו. המשתתפים היו הרבה יותר סביר לכבות את האורות אם הם היו כבויים כאשר הם נכנסו. במחקר 2, נכלל תנאי נוסף שבו הנורמה של כיבוי האור הודגמה על ידי קונפדרציה, אך המשתתפים לא היו אחראים להפעלתו. האחריות האישית מיתנה את השפעת הנורמות החברתיות על ההתנהגות; כאשר המשתתפים לא היו אחראים להדלקת האור, השפעתה של הנורמה פחתה. תוצאות אלו מראות כיצד נורמות תיאוריות ואחריות אישית עשויות להסדיר את היעילות של התערבויות פרו-סביבתיות ".
קרא את העיתון שלהם ועצב שכפול של מחקר 1.
[ , ] בניין על השאלה הקודמת, עכשיו לבצע את העיצוב שלך.
[ ] היה דיון משמעותי על ניסויים באמצעות המשתתפים גויסו מ MTurk. במקביל, היה גם דיון משמעותי על ניסויים באמצעות המשתתפים גויסו סטודנטים סטודנט לתואר ראשון. כתוב תזכיר בן שני עמודים, המשווה בין הטורקים לבין הסטודנטים לתואר ראשון, כמחקרי מחקר. ההשוואה שלך צריכה לכלול דיון בנושאים מדעיים ולוגיסטיים כאחד.
[ ] הספר של ג'ים מנזי בלתי מבוקרת (2012) הוא מבוא נפלא לכוח הניסויים בעסקים. בספר הוא סיפר את הסיפור הבא:
"פעם הייתי בפגישה עם גאון עסקי אמיתי, מיליארדר שעבד בעצמו, שהיה בעל אינטואיציה עמוקה ואינטואיטיבית של כוח הניסויים. החברה שלו בילה משאבים משמעותיים מנסה ליצור חלון גדול מציג חלון זה ימשוך הצרכנים ומגדיל את המכירות, כמו חוכמה קונבנציונלית אמר שהם צריכים. מומחים נבדקו בקפידה עיצוב לאחר העיצוב, וכן בודדים בודקים ביקורת בודדת על פני תקופה של שנים כל הזמן מראה שום השפעה סיבתית משמעותית של כל עיצוב התצוגה החדש על המכירות. בכירים שיווק שיווק merchandising נפגש עם המנכ"ל כדי לסקור את תוצאות הבדיקה ההיסטורית ב toto. לאחר הצגת כל הנתונים הניסויים, הם הגיעו למסקנה כי החוכמה המקובלת היתה שגויה - כי תצוגות החלון לא מניבות מכירות. הפעולה המומלצת שלהם הייתה לצמצם עלויות ומאמץ בתחום זה. זה הוכיח באופן דרמטי את היכולת של הניסויים להפוך את החוכמה המקובלת. תגובת המנכ"ל היתה פשוטה: "המסקנה שלי היא שהמעצבים שלך לא כל כך טובים". הפתרון שלו היה להגדיל את המאמץ בעיצוב התצוגה בחנות, וכדי לקבל אנשים חדשים לעשות את זה. " (Manzi 2012, 158–9)
איזה סוג של תוקף הוא החשש של המנכ"ל?
[ ] על סמך השאלה הקודמת, דמיינו שאתם בפגישה שבה נדונו תוצאות הניסויים. מהן ארבע שאלות שתוכל לשאול - אחת עבור כל סוג של תקפות (סטטיסטית, מבנה, פנימי וחיצוני)?
[ ] Bernedo, Ferraro, and Price (2014) חקרו את השפעת שבע השנים של התערבות החיסכון במים המתוארת Ferraro, Miranda, and Price (2011) (ראה איור 4.11). במאמר זה, ברנדו ועמיתיו ביקשו גם להבין את המנגנון שמאחורי ההשפעה על ידי השוואת התנהגותם של משקי הבית אשר לא זזו ולא לאחר העברת הטיפול. כלומר, בערך, הם ניסו לראות אם הטיפול השפיע על הבית או בעל הבית.
[ ] במעקב אחר Schultz et al. (2007) , ביצעו שולץ ועמיתיו סדרה של שלושה ניסויים על ההשפעה של נורמות תיאורטיות וצו על התנהגות סביבתית אחרת (שימוש חוזר במגבת) בשני הקשרים (מלון ובית (Schultz, Khazian, and Zaleski 2008) מגורים) (Schultz, Khazian, and Zaleski 2008) .
[ ] בתגובה Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) רץ סדרה של ניסויים כמו מעבדה ללמוד את העיצוב של חשבונות חשמל. כך הם מתארים את זה בצורה מופשטת:
בניסוי מבוסס סקר, כל משתתף ראה חשבון חשמל היפותטי למשפחה בעלת חשמל גבוה יחסית, המכסה מידע על (א) שימוש היסטורי, (ב) השוואות לשכנים, ו- (ג) שימוש היסטורי עם התפלגות מכשירים. המשתתפים ראו את כל סוגי המידע באחד משלושת הפורמטים, כולל (א) טבלאות, (b) גרפים של עמודות, וכן (c) גרפים של סמלים. אנו מדווחים על שלושה ממצאים עיקריים. ראשית, הצרכנים הבינו כל סוג של מידע על שימוש בחשמל הכי הרבה כאשר הוא הוצג בטבלה, אולי בגלל טבלאות להקל על נקודת קריאה פשוטה. שנית, ההעדפות והכוונות לחסוך בחשמל היו החזקות ביותר במידע ההיסטורי, ללא תלות בתבנית. שלישית, אנשים עם אוריינות אנרגיה נמוכה יותר הבינו את כל המידע פחות ".
שלא כמו במחקרי מעקב אחרים, התוצאה העיקרית של העניין Canfield, Bruin, and Wong-Parodi (2016) מדווחת על התנהגות, לא על התנהגות ממשית. מהן נקודות החוזק והחולשות של סוג זה של מחקר בתוכנית מחקר רחבה יותר המקדמת חיסכון באנרגיה?
[ , ] Smith and Pell (2003) הציגו מטה-אנליזה סאטירית של מחקרים המדגימים את יעילות המצנחים. הם סיכמו:
"כמו עם התערבויות רבות שנועדו למנוע בריאות חולה, האפקטיביות של מצנחים לא היה נתון להערכה קפדנית באמצעות ניסויים מבוקרים אקראיים. עורכי הדין של הרפואה מבוססת ראיות מתחו ביקורת על אימוץ התערבויות המוערכות על ידי שימוש בנתוני תצפית בלבד. אנחנו חושבים שכולם עשויים להפיק תועלת אם הגיבורים הרדיקליים ביותר של הרפואה המבוססת על ראיות מאורגנים ומשתתפים בניסוי כפול, אקראי, אקראי, מבוקר פלצבו, של המצנח ".
כתבו מאמר מתאים לעיתון של קוראים, כמו ה"ניו יורק טיימס" , וטענו נגד הפטישיזציה של ראיות ניסיוניות. ספק דוגמאות ספציפיות ומוחשיות. רמז: ראה גם Deaton (2010) ו Bothwell et al. (2016) .
[ , , ] הפרש- in- הבדלים אומדנים של אפקט הטיפול יכול להיות מדויק יותר מאשר אומדנים ההבדל ב-הממוצע. כתוב תזכיר למהנדס הממונה על בדיקת A / B בחברת סטארט-אפ מדיה חברתית, המסבירה את הערך של גישת הפרש ההפרשים להפעלת ניסוי מקוון. התזכיר צריך לכלול הצהרה על הבעיה, באינטואיציה מסוימת לגבי התנאים שבהם הפרש ההבדל ב-ההבדל יעבור את האומדן ההפרש-הממוצע, ואת מחקר הסימולציה הפשוט.
[ , ] גארי לובמן היה פרופסור בבית הספר לעסקים בהרווארד לפני שהפך למנכ"ל Harrah's, אחת מחברות הקזינו הגדולות בעולם. כשעבר ל"הארה", הפך לאומן את החברה לתוכנית נאמנות מתמדת, שאספה כמויות עצומות של נתונים על התנהגות הלקוחות. נוסף על מערכת המדידה התמידית הזאת, החלה החברה לערוך ניסויים. לדוגמה, הם עשויים להפעיל ניסוי כדי להעריך את ההשפעה של שובר עבור לילה במלון ללא תשלום עבור לקוחות עם תבנית הימורים מסוימת. כך תיאר לובמן את החשיבות של ניסויים לשיטות העסקיות היומיומיות של הארה:
"זה כאילו שאתה לא מטריד נשים, אתה לא לגנוב, ואתה חייב להיות קבוצת ביקורת. זה אחד הדברים שאתה יכול לאבד את העבודה שלך ב Harrah's - לא פועל קבוצת שליטה. " (Manzi 2012, 146)
כתוב דוא"ל לעובד חדש המסביר מדוע לובמן חושב שזה כל כך חשוב שיש קבוצת שליטה. אתה צריך לנסות לכלול דוגמה - אמיתי או מורכב - להמחיש את הנקודה.
[ , ] ניסוי חדש נועד להעריך את ההשפעה של קבלת תזכורות הודעות טקסט על ספיגת החיסון. מאה וחמישים מרפאות, כל אחת עם 600 חולים זכאים, מוכנים להשתתף. יש עלות קבועה של 100 $ עבור כל מרפאה אתה רוצה לעבוד עם, וזה עולה $ 1 עבור כל הודעת טקסט שאתה רוצה לשלוח. יתר על כן, כל מרפאות שאתה עובד עם יהיה למדוד את התוצאה (אם מישהו קיבל חיסון) בחינם. נניח שיש לך תקציב של $ 1,000.
[ , ] בעיה רצינית עם קורסים מקוונים היא attrition: סטודנטים רבים אשר מתחילים קורסים בסופו של דבר נשירה. תארו לעצמכם שאתם עובדים על פלטפורמת למידה מקוונת, ומעצבת בפלטפורמה יצרה סרגל התקדמות חזותי שלדעתה תסייע למנוע מהתלמידים לנשור מהקורס. אתה רוצה לבדוק את ההשפעה של סרגל התקדמות על התלמידים בקורס מדעי המחשב החישובית גדולה. לאחר טיפול בכל סוגיות אתיות שעשויות להתעורר בניסוי, אתה ועמיתיך מודאגים כי הקורס אולי לא יהיה מספיק תלמידים כדי לזהות באופן מהימן את ההשפעות של סרגל התקדמות. בחישובים הבאים ניתן להניח כי מחצית מהסטודנטים יקבלו את שורת ההתקדמות ואת המחצית. יתר על כן, ניתן להניח כי אין הפרעה. במילים אחרות, ניתן להניח כי המשתתפים מושפעים רק אם הם קיבלו את הטיפול או השליטה; הם אינם מושפעים אם אנשים אחרים קיבלו את הטיפול או השליטה (להגדרה רשמית יותר, ראה פרק 8 של Gerber and Green (2012) . עקוב אחר כל ההנחות הנוספות שאתה מבצע.
[ , , ] תאר לעצמך שאתה עובד בתור מדען נתונים בחברת טק. מישהו ממחלקת השיווק מבקש את עזרתך בהערכת ניסוי שהוא מתכנן כדי למדוד את ההחזר על ההשקעה (ROI) עבור מסע פרסום חדש באינטרנט. החזר ROI מוגדר כרווח הנקי ממסע הפרסום חלקי עלות מסע הפרסום. לדוגמה, למסע פרסום שלא הייתה לו השפעה על המכירות היה החזר ROI של -100%; מסע פרסום שבו רווחים שנוצר היו שווים לעלויות יהיה ההחזר על ההשקעה של 0; מסע פרסום שבו רווחים שנוצר היו כפולים העלות תהיה החזר השקעה של 200%.
לפני השקת הניסוי, מחלקת השיווק מספקת לך את המידע הבא על סמך המחקר הקודם שלהם (למעשה, ערכים אלה אופייניים למסעות הפרסום המקוונים האמיתיים המדווחים ב- Lewis ו- Rao (2015) :
כתוב תזכיר המעריך את הניסוי המוצע. התזכיר שלך צריך להשתמש בראיות מסימולציה שאתה יוצר, ועליו להתייחס לשתי בעיות עיקריות: (1) האם אתה ממליץ להפעיל את הניסוי הזה כמתוכנן? אם כך, למה? אם לא, למה לא? הקפד להיות ברור לגבי הקריטריונים שבהם אתה משתמש כדי לקבל החלטה זו. (2) איזה גודל מדגם היית ממליץ עבור ניסוי זה? שוב, הקפד להיות ברור לגבי הקריטריונים שבהם אתה משתמש כדי לקבל החלטה זו.
תזכיר טוב יטפל במקרה הספציפי הזה; תזכיר טוב יותר יכליל במקרה זה בדרך אחת (למשל, להראות כיצד ההחלטה משתנה כפונקציה של גודל ההשפעה של הקמפיין); ואת תזכיר גדול יציג תוצאה כללית לחלוטין. התזכיר שלך צריך להשתמש בתרשימים כדי להמחיש את התוצאות שלך.
הנה שתי רמזים. ראשית, מחלקת השיווק אולי סיפקה לך כמה מידע מיותר, והם אולי לא הצליחו לספק לך כמה פרטים הדרושים. שנית, אם אתה משתמש R, להיות מודע לכך rlnorm () הפונקציה לא עובד בדרך שאנשים רבים מצפים.
פעילות זו תיתן לך להתאמן עם ניתוח כוח, יצירת סימולציות, ותקשורת התוצאות שלך עם מילים וגרפים. זה אמור לעזור לך לבצע ניתוח כוח עבור כל סוג של ניסוי, לא רק ניסויים שנועדו להעריך את ההחזר על ההשקעה. פעילות זו מניחה שיש לך ניסיון עם בדיקות סטטיסטיות וניתוח כוח. אם אינכם מכירים את ניתוח הכוח, אני ממליץ לכם לקרוא את "A Primer Power" מאת Cohen (1992) .
פעילות זו קיבלה השראה מנייר מקסים של RA Lewis and Rao (2015) , אשר ממחישה היטב את המגבלה הסטטיסטית הבסיסית של ניסויים מסיביים אפילו. העיתון שלהם, אשר במקור היה בעל הכותרת הפרובוקטיבית "על האפשרות הלא-אפשרית של מדידת ההחזרות לפרסום" - מראה כמה קשה למדוד את ההחזר על ההשקעה של מודעות מקוונות, אפילו בניסויים דיגיטליים של מיליוני לקוחות. באופן כללי יותר, RA Lewis and Rao (2015) ממחישים עובדה סטטיסטית בסיסית שחשובה במיוחד לניסויים בניסויים דיגיטליים: קשה להעריך השפעות טיפול קטנות בתוך נתוני תוצאות רועשים.
[ , ] לעשות את אותו הדבר כמו השאלה הקודמת, אבל, במקום סימולציה, אתה צריך להשתמש תוצאות אנליטיות.
[ , , ] לעשות את אותו הדבר כמו השאלה הקודמת, אבל להשתמש הן סימולציה ותוצאות אנליטיות.
[ , , ] תארו לעצמכם שכתבתם את התזכיר המתואר למעלה, ומישהו ממחלקת השיווק מספק מידע חדש אחד: הם מצפים למתאם 0.4 בין מכירות לפני הניסוי ואחריו. איך זה משנה את ההמלצות בתזכיר? (רמז: ראה סעיף 4.6.2 ליותר על אומדן ההפרש של האומדן והאומדן ההפרש-בהבדלים).
[ , ] על מנת להעריך את האפקטיביות של תוכנית סיוע תעסוקתי חדשה, ערכה האוניברסיטה מבחן בקרה אקראי בין 10,000 תלמידים שנכנסו לשנת הלימודים האחרונה שלהם. מנוי חינם עם מידע כניסה ייחודי נשלח דרך הזמנה בדוא"ל בלעדי ל -5,000 תלמידים שנבחרו באקראי, בעוד שאר 5,000 הסטודנטים היו בקבוצת הביקורת ולא היה להם מנוי. 12 חודשים לאחר מכן, סקר מעקב (ללא תגובה) הראה כי הן בקבוצת הטיפול והן בקבוצת הביקורת, 70% מהסטודנטים קיבלו תעסוקה מלאה במשרה שנבחרה (לוח 4.6). לכן, נראה כי שירות מבוסס אינטרנט לא היתה השפעה.
עם זאת, מדען נתונים חכם באוניברסיטה הביט בנתונים קצת יותר מקרוב ומצא כי רק 20% מהסטודנטים בקבוצת הטיפול אי פעם נכנס לחשבון לאחר קבלת דוא"ל. יתר על כן, באופן מפתיע במקצת, בין אלה אשר נכנסו לאתר האינטרנט, רק 60% קיבלו עבודה במשרה מלאה בתחום הנבחר שלהם, אשר היה נמוך יותר מאשר שיעור עבור אנשים שלא נכנסו ו נמוך יותר מאשר שיעור עבור אנשים בתנאי השליטה (טבלה 4.7).
רמז: שאלה זו חורגת מעבר לחומר המכוסה בפרק זה, אך מתייחסת לנושאים הנפוצים בניסויים. סוג זה של עיצוב ניסיוני נקרא לפעמים עיצוב עידוד, כי המשתתפים מעודדים לעסוק בטיפול. בעיה זו היא דוגמה למה שמכונה אי-ציות חד-צדדי (ראה פרק 5 של Gerber and Green (2012) ).
[ ] לאחר בדיקה נוספת, התברר כי הניסוי המתואר בשאלה הקודמת היה מסובך עוד יותר. התברר כי 10% מהאנשים בקבוצת הביקורת שילמו עבור גישה לשירות, והם בסופו של דבר עם שיעור התעסוקה של 65% (טבלה 4.8).
רמז: שאלה זו חורגת מעבר לחומר המכוסה בפרק זה, אך מתייחסת לנושאים הנפוצים בניסויים. בעיה זו היא דוגמה למה שמכונה אי-ציות דו-צדדי (ראה פרק 6 של Gerber and Green (2012) ).
קְבוּצָה | גודל | שיעור תעסוקה |
---|---|---|
הענקת גישה לאתר | 5,000 | 70% |
לא ניתנה גישה לאתר | 5,000 | 70% |
קְבוּצָה | גודל | שיעור תעסוקה |
---|---|---|
הענקת גישה לאתר ולמחבר | 1,000 | 60% |
הענקת גישה לאתר ולא נכנסת למערכת | 4,000 | 72.5% |
לא ניתנה גישה לאתר | 5,000 | 70% |
קְבוּצָה | גודל | שיעור תעסוקה |
---|---|---|
הענקת גישה לאתר ולמחבר | 1,000 | 60% |
הענקת גישה לאתר ולא נכנסת למערכת | 4,000 | 72.5% |
לא ניתנה גישה לאתר ושילמה עבורו | 500 | 65% |
לא ניתנה גישה לאתר ולא שילמה על זה | 4,500 | 70.56% |