תוקף מתייחס כמה תוצאות ניסוי לתמוך במסקנה כללית יותר.
לא הניסוי אינו מושלם, החוקרים פיתחו אוצר מילים נרחב לתיאור בעיות אפשריות. תוקף מתייחס למידה שבה התוצאות של ניסוי מסוים לתמוך לאיזו שהיא מסקנה כללית יותר. מדעני החברה מצאו שתוכנית זו יעילה לפצל תוקף לארבעה סוגים עיקריים: תוקף המסקנה הסטטיסטית, התוקף הפנימי, לבנות תוקף, ותוקף חיצוני (Shadish, Cook, and Campbell 2001, Ch 2) . מאסטרינג מושגים אלה יספקו לך checklist נפשית critiquing ושיפור תכנון וניתוח של ניסוי, וזה יעזור לך לתקשר עם חוקרים אחרים.
תוקף מסקנה סטטיסטי שבמרכזה אם הניתוח הסטטיסטי של הניסוי בוצע כהלכה. בהקשר של Schultz et al. (2007) שאלה כזאת עשויה למרכז בשאלה האם הם מחושבים p-ערכיהם כראוי. ניתוח סטטיסטי הוא מעבר להיקף של ספר זה, אבל אני יכול לומר כי העקרונות הסטטיסטיים הדרושים כדי לתכנן ולנתח ניסויים לא השתנו בעידן הדיגיטלי. עם זאת, סביבת הנתונים השונה בניסויים דיגיטליים יוצרת הזדמנויות סטטיסטיות חדשות (למשל, באמצעות שיטות לימוד מכונה להעריך ההטרוגניות של שפעות טיפול (Imai and Ratkovic 2013) ) ואתגרים חישובית חדשים (למשל, חסימה בניסויים מסיביים (Higgins, Sävje, and Sekhon 2016) ).
תוקף פנימי שבמרכזה אם הפרוצדורות בוצעו כהלכה. חוזרים על הניסוי של Schultz et al. (2007) , שאלות על התוקף פנימי יכולות במרכז סביב האקראי, משלוח של הטיפול, ומדידה של תוצאות. לדוגמא, אתה יכול להיות מודאג כי עוזרי המחקר לא לקרוא את שעוני החשמל באופן מהימן. למעשה, שולץ ועמיתיו היו מודאגים בעיה זו והם היו מדגם של מטרים לקרוא פעמיים; למרבה המזל, התוצאות היו למעשה זהות. באופן כללי, שולץ ולהתנסות 'עמיתים נראה שיהיה תוקף פנימי גבוה, אבל זה לא תמיד המקרה; תחום מורכב ניסויים באינטרנט לעתים קרובות נתקלו בבעיות בעצם מסירת הטיפול הנכון לאנשים הנכונים ומדידת התוצאות עבור כולם. למרבה המזל, בעידן הדיגיטלי יכול לעזור להפחית חששות לגבי התוקף הפנימי כי זה מקל על מנת להבטיח כי הטיפול מועבר כמו נועד אלה שאמורים לקבל אותו למדוד תוצאות עבור כל המשתתפים.
לבנות מרכזי תוקף ברחבי ההתאמה בין הנתונים ואת המבנים התיאורטיים. כפי שנאמר בפרק 2, בונה הם מושגים מופשטים כי מדעני חברת סיבה על. למרבה הצער, מושגים מופשטים אלה לא תמיד יש הגדרות ברורות ומדידות. בשובו Schultz et al. (2007) , טוענים כי צו מניעה נורמות חברתיות יכולה להפחית את השימוש בחשמל דורש חוקרים לתכנן טיפול היה לתפעל "נורמות חברתיות צו מניעה" (למשל, הבעה) וכדי למדוד "את צריכת החשמל". בניסויים אנלוגיים, חוקרים רבים שנועדו טיפולים שלהם נמדדים תוצאות שלהם. גישה זו מבטיחה כי, ככל האפשר, את הניסויים להתאים את המבנים המופשטים נלמדים. בניסויים דיגיטליים שבו שותף חוקרים עם חברות או ממשלות לספק טיפולים ולהשתמש תמיד-על מערכות נתונים למדוד תוצאות, במשחק בין הניסוי לבין המבנים התיאורטיים עשוי להיות פחות חזק. לפיכך, אני מצפה כי תוקף מבנה ייטו להיות חשש גדול בניסויים דיגיטליים מאשר ניסויים אנלוגיים.
לבסוף, תוקף חיצוני שבמרכזה אם התוצאות של ניסוי זה הייתה להכליל למצבים אחרים. בשובו Schultz et al. (2007) , אפשר לשאול, האם זה אותו מידע לאנשים מתן מושג על צריכת האנרגיה שלהם ביחס לבני גילם ואיתות של נורמות צו מניעה (למשל, הבעה) צריכת האנרגיה -reduce אם זה נעשה בצורה שונה ב הגדרה שונה? עבור רוב מעוצב היטב היטב להריץ ניסויים, חששות לגבי התוקף החיצוני הם הכי קשה להתמודד. בעבר, הוויכוחים האלה על תוקף חיצוני היו לעתים קרובות פשוט חבורה של אנשים יושבים בחדר מנסה לדמיין מה היה קורה אם ההליכים נעשו בצורה שונה, או במקום אחר, או עם אנשים שונים. למרבה המזל, בעידן הדיגיטלי מאפשר לחוקרים להתקדם מעבר ספקולציות נתונים אלה ללא ולהעריך תוקף חיצוני באופן אמפירי.
מאחר שהתוצאות מ Schultz et al. (2007) היו כל כך מרגשים, חברה בשם Opower שותפות עם שירות בארצות הברית לפרוס את הטיפול באופן נרחב יותר. בהתבסס על העיצוב של Schultz et al. (2007) , Opower נוצר אישית דוחות הבית אנרגיה כי היו שני מודולים עיקריים, אחד מראה קרוב משפחה צריכת החשמל של משקי הבית שכנותיה עם סמיילי ואחד מתן טיפים להורדת צריכת האנרגיה (איור 4.6). לאחר מכן, בשיתוף עם חוקרים, Opower רץ אקראי ניסויים מבוקרים כדי להעריך את ההשפעה של דוחות בית האנרגיה. למרות הטיפולים בניסויים אלה בדרך כלל נמסרו פיזית-בדרך כלל באמצעות חילזון ישן נושן דואר התוצאה נמדדה באמצעות מכשירים דיגיטליים בעולם הפיזי (למשל, מדי חשמל). במקום באופן ידני איסוף המידע הזה עם עוזרי מחקר לבקר בכל בית, ניסויי Opower כל נעשו בשותפות עם חברות כוח שמאפשרות לחוקרים לגשת קריאות הכח. לפיכך, ניסויים בתחום הדיגיטל חלקית אלה נוהלו בקנה מידה מסיבי בעלות משתנה נמוכה.
בתוך סט ראשון של ניסויים הכוללים 600,000 בתי אב מוגש על ידי 10 חברות שירות ברחבי ארצות הברית, Allcott (2011) מצא את דוח צריכת חשמל הבית הוריד את צריכת חשמל ב -1.7%. במילים אחרות, התוצאות של הרבה, גדול יותר גיאוגרפית מחקר מגוונים היו איכותית דומות לתוצאות מ Schultz et al. (2007) . אבל, גודל האפקט היה קטן: ב Schultz et al. (2007) ממשקי הבית במצב נורמות תיאורי injective (אחד עם סמיילי) מופחת השימוש בחשמל שלהם ב -5%. הסיבה המדויקת להבדל זה אינה ידועה, אך Allcott (2011) העריכו כי קבלת סמיילי בכתב יד במסגרת מחקר בחסות אוניברסיטה עשוי להיות בעל השפעה גדולה יותר על התנהגות מאשר קבלת סמיילי מודפס כחלק דו"ח בייצור המוני של חברת החשמל.
יתר על כן, מחקרים מאוחרים יותר, Allcott (2015) דיווחו על 101 ניסויים נוספים שמעורבים בהם משקי בית נוספים -8 מיליון. בשנת 101 הניסויים הבאים אלה בדוח בית האנרגיה המשיך לגרום לאנשים להוריד את צריכת החשמל שלהם, אך ההשפעות היו אפילו קטנות יותר. הסיבה המדויקת לירידה זו אינה ידועה, אך Allcott (2015) העריך כי האפקטיבי של הדו"ח הופיע להיות ירידה לאורך זמן, כי זה באמת היה להיות מיושם על סוגים שונים של משתתפים. באופן ספציפי יותר, שירות באזורים יותר איכות הסביבה היו בסבירות גבוהה יותר לאמץ את התוכנית מוקדם יותר ולקוחותיהם היו קשובים יותר לטיפול. כמו שירות עם לקוחות פחות הסביבה אימץ את התוכנית, יעילותו הופיע לרדת. וכך, כשם אקראי בניסויים מבטיח כי בקבוצת הטיפול ובקרה דומה, אקראי באתרי מחקר מבטיח כי האומדנים ניתן להכליל מקבוצה אחת של משתתפי אוכלוסייה כללית יותר (חושב חזרה פרק 3 על דגימה). אם אתרי מחקר אינם שנדגמו באופן אקראי, ולאחר מכן הכללה-גם מעוצב להפליא וערכו ניסוי-יכול להיות בעייתי.
יחד, 111 ניסויים אלה 10 ב Allcott (2011) ו -101 ב Allcott (2015) -involved כ -8.5 מיליון משקי בית מכל רחבי ארצות הברית. הם מראים בעקביות כי בית אנרגיה דוחה להפחית את צריכת חשמל ממוצעת, מכך שתומך ממצאים המקוריים של שולץ ועמיתיו מ -300 בתים בקליפורניה. מעבר פשוט משכפל תוצאות המקורות אלה, הניסויים והמעקב גם להראות שגודל האפקט משתנה בהתאם למיקום. זו קבוצה של ניסויים גם מדגימה שתי נקודות יותר כלליות על ניסויים בתחום הדיגיטל חלקית. ראשית, חוקרים יוכלו אמפירית חששות כתובת על תוקף חיצוני כאשר עלות הפעלת ניסויים היא נמוכה, ודבר זה יכול להתרחש אם התוצאה כבר נמדדה על ידי מערכת תמיד-על נתונים. לכן, זה מצביע על כך כי המחקר אמור להיות על התצפיתן להתנהגויות מעניינות וחשובות אחרות שכבר מתועדות, ולאחר מכן לתכנן את הניסויים על גבי תשתית מדידה קיימת זה. שנית, זו קבוצה של ניסויים מזכירה לנו כי ניסויים בתחום הדיגיטל הם לא רק באינטרנט; יותר ויותר אני מצפה שהם יהיו בכל מקום עם תוצאות רבות נמדדות חיישני הסביבה הבנויה.
ארבעת סוגי תוקף מסקנה תוקף-סטטיסטי, תוקף פנימי, לבנות תוקף, תוקף-מספק חיצוני רשימת תיוג נפשית כדי לסייע לחוקרים להעריך האם התוצאות מניסוי מסוים לתמוך במסקנה כללית יותר. לעומת ניסויי גיל אנלוגיים, בניסויים דיגיטליים גיל זה צריך להיות קל יותר לטפל תוקף חיצוני באופן אמפירי וזה אמור להיות קל יותר להבטיח תוקף פנימי. מצד השני, בעיות של תוקף מבנה כנראה תהיינה מאתגרות יותר בניסויים בעידן דיגיטליים (למרות שזה לא היה המקרה עם ניסויי Opower).