תוקף מתייחס כמה תוצאות ניסוי לתמוך במסקנה כללית יותר.
אין ניסוי מושלם, וחוקרים פיתחו אוצר מילים נרחב כדי לתאר בעיות אפשריות. תוקף מתייחס למידה שבה תוצאות ניסוי מסוים תומכות במסקנה כללית יותר. מדעני החברה מצאו כי מועיל לפצל את תוקפם לארבעה סוגים עיקריים: תוקף המסקנה הסטטיסטית, תוקף פנימי, תוקף המבנה ותוקף חיצוני (Shadish, Cook, and Campbell 2001, chap. 2) . מאסטרינג מושגים אלה יספק לך רשימה נפשית לביקורת ולשפר את העיצוב והניתוח של הניסוי, וזה יעזור לך לתקשר עם חוקרים אחרים.
תוקף סטטיסטי מסקנות תקיפות סביב אם ניתוח סטטיסטי של הניסוי נעשה בצורה נכונה. בהקשר של Schultz et al. (2007) , שאלה כזו עשויה להתרכז בשאלה האם הם מחשבים את ה \(p\) values שלהם בצורה נכונה. העקרונות הסטטיסטיים צריכים לעצב ולנתח ניסויים הם מעבר להיקף הספר הזה, אבל הם לא השתנו בעיקרון בעידן הדיגיטלי. מה שהשתנה, עם זאת, הוא כי סביבת הנתונים בניסויים דיגיטליים יצרה הזדמנויות חדשות כגון שימוש בשיטות למידה של מכונות כדי להעריך את ההטרוגניות של השפעות הטיפול (Imai and Ratkovic 2013) .
התוקף הפנימי מתמקד סביב האם ההליכים הניסיוניים בוצעו בצורה נכונה. חזרה לניסוי של Schultz et al. (2007) , שאלות לגבי תוקף פנימי יכולות להתרכז סביב אקראיות, מתן טיפול ומדידת התוצאות. לדוגמה, אתה עלול להיות מודאג כי עוזרי המחקר לא קרא את מטר חשמלי אמין. למעשה, שולץ ועמיתיו היו מודאגים מבעיה זו, והם היו מדגם של מטרים לקרוא פעמיים; למרבה המזל, התוצאות היו זהות במהותן. ככלל, הניסוי של שולץ ועמיתיו נראה בעל תוקף פנימי גבוה, אבל זה לא תמיד המקרה: ניסויים מורכבים בתחום ובאינטרנט מתמודדים לעיתים קרובות בבעיות המספקות למעשה את הטיפול הנכון לאנשים הנכונים ומודדים את התוצאות עבור כולם. למרבה המזל, הגיל הדיגיטלי יכול לעזור להפחית את החששות לגבי תוקף פנימי, כי עכשיו זה קל יותר להבטיח את הטיפול מועבר לאלה שאמורים לקבל אותו ולמדוד את התוצאות עבור כל המשתתפים.
בניית מרכזי תקפות סביב התאמה בין הנתונים לבין המבנים התיאורטיים. כפי שפורט בפרק 2, מבנים הם מושגים מופשטים שמדענים חברתיים חושבים עליהם. לרוע המזל, למושגים מופשטים אלה אין תמיד הגדרות ומידות ברורות. חזרה אל Schultz et al. (2007) , הטענה כי נורמות חברתיות חוקיות יכולות להוריד את צריכת החשמל מחייבת את החוקרים לעצב טיפול שיטפל ב"נורמות חברתיות "(למשל, בסמלי הבעה) וכדי למדוד" שימוש בחשמל ". בניסויים אנלוגיים, חוקרים רבים תכננו את הטיפולים שלהם ומדדו את התוצאות שלהם. גישה זו מבטיחה, ככל האפשר, את הניסויים להתאים את המבנים מופשטים הנלמד. בניסויים דיגיטליים שבהם חוקרים שותפים עם חברות או ממשלות כדי לספק טיפולים ולהשתמש תמיד על מערכות נתונים כדי למדוד את התוצאות, את ההתאמה בין הניסוי לבין מבנים תיאורטיים עשוי להיות פחות הדוק. לכן, אני מצפה שתוקף הבניה יהיה נוטה להיות דאגה גדולה יותר בניסויים דיגיטליים מאשר בניסויים אנלוגיים.
לבסוף, תוקף חיצוני מרכז סביב אם את התוצאות של הניסוי הזה ניתן להכליל למצבים אחרים. חזרה אל Schultz et al. (2007) , אפשר היה לשאול אם אותו רעיון - מתן מידע לאנשים על השימוש באנרגיה שלהם ביחס לבני גילם וסימן של נורמות ציות (למשל, סמיילי) - יצמצם את צריכת האנרגיה אם ייעשה בצורה אחרת בסביבה אחרת. עבור רוב הניסויים המעוצבים היטב והנוהלים היטב, החששות לגבי תוקף חיצוני הם הקשים ביותר להתייחסות. בעבר, הוויכוחים הללו על תוקף חיצוני לא היו מעורבים רק בקבוצות של אנשים היושבים בחדר המנסים לדמיין מה היה קורה אילו נהלים נעשו בצורה אחרת, או במקום אחר, או עם משתתפים שונים . למרבה המזל, העידן הדיגיטלי מאפשר לחוקרים להתקדם מעבר לספקולציות ללא נתונים ולהעריך את התוקף החיצוני באופן אמפירי.
בגלל התוצאות של Schultz et al. (2007) היו כל כך מרגש, חברה בשם Opower שותפות עם כלי עזר בארצות הברית כדי לפרוס את הטיפול באופן נרחב יותר. בהתבסס על העיצוב של Schultz et al. (2007) , Opower יצרו דוחות מותאמים אישית של אנרגיה ביתית, אשר היו להם שני מודולים עיקריים: האחד מראה שימוש בחשמל של משק הבית ביחס לשכניו עם סמלים, ואחד מהם מספק עצות להפחתת צריכת האנרגיה (איור 4.6). לאחר מכן, בשיתוף עם חוקרים, ניהל אופור ניסויים אקראיים מבוקרים כדי להעריך את השפעתם של דוחות האנרגיה הביתיים. למרות שהטיפולים בניסויים אלו נמסרו בדרך כלל פיזית - בדרך כלל באמצעות דואר של חילזון מיושן - התוצאה נמדדה באמצעות מכשירים דיגיטליים בעולם הפיזי (למשל, מדי הספק). יתר על כן, במקום לאסוף מידע זה באופן ידני עם עוזרי מחקר המבקרים בכל בית, הניסויים של Opower נעשו כולם בשיתוף עם חברות כוח המאפשר לחוקרים לגשת לקריאות הכוח. לכן, אלה ניסויי שדה דיגיטליים חלקית היו לרוץ בקנה מידה מסיבי בעלות נמוכה משתנה.
במערך הראשון של ניסויים של 600,000 משקי בית מ -10 אתרים שונים, Allcott (2011) מצא כי דו"ח האנרגיה הביתית הוריד את צריכת החשמל. במילים אחרות, התוצאות ממחקר הרבה יותר גדול, גיאוגרפית יותר היו דומים מבחינה איכותית לתוצאות של Schultz et al. (2007) . יתר על כן, במחקר מאוחר יותר, שכלל 8 מיליון משקי בית נוספים מ -101 אתרים שונים, Allcott (2015) שוב כי דו"ח האנרגיה הביתית הוריד באופן קבוע את צריכת החשמל. קבוצה גדולה זו של ניסויים גילתה גם דפוס חדש מעניין שלא יהיה גלוי בניסוי יחיד: גודל ההשפעה ירד בניסויים המאוחרים יותר (איור 4.7). Allcott (2015) העריכו כי הירידה הזו התרחשה משום שבמשך הזמן הופעל הטיפול על סוגים שונים של משתתפים. באופן ספציפי יותר, שירותים עם לקוחות ממוקדים יותר לסביבה היו יותר סביר לאמץ את התוכנית מוקדם יותר, והלקוחות שלהם היו קשובים יותר לטיפול. כמו שירותים עם לקוחות פחות ממוקד לסביבה אימצו את התוכנית, האפקטיביות שלה נראה ירידה. לכן, בדיוק כמו אקראיות בניסויים מבטיחה כי קבוצת הטיפול והשליטה דומים, אקראיות באתרי המחקר מבטיחה שניתן יהיה להכליל את האומדנים מקבוצת משתתפים אחת לאוכלוסייה כללית יותר (חשוב פרק 3 על הדגימה). אם אתרי מחקר לא נדגמים באופן אקראי, אז הכללה - אפילו מניסוי מתוכנן ומבוצע לחלוטין - יכולה להיות בעייתית.
יחד, אלה 111 ניסויים - 10 ב Allcott (2011) ו 101 ב Allcott (2015) התפתחה כ 8.5 מיליון משקי בית מכל רחבי ארצות הברית. הם מראים בעקביות כי דוחות אנרגיה ביתיים מפחיתים את צריכת החשמל הממוצעת, דבר התומך בממצאים המקוריים של שולץ ועמיתיו מ -300 בתים בקליפורניה. מעבר לשכפול התוצאות המקוריות בלבד, ניסויי המעקב מראים גם שהגודל של האפקט משתנה בהתאם למיקום. סדרה זו של ניסויים גם ממחישה שתי נקודות כלליות יותר על ניסויי שדה דיגיטליים. ראשית, החוקרים יוכלו לטפל באופן אמפירי בחששות לגבי תוקף חיצוני כאשר עלות הניסויים הפועלים נמוכה, והדבר עלול להתרחש אם התוצאה כבר נמדדת על ידי מערכת נתונים תמידית. לכן, הוא מציע כי החוקרים צריכים להיות על המשמר אחר התנהגויות מעניינות וחשובות שכבר נרשמו, ולאחר מכן לעצב ניסויים על גבי תשתית זו מדידה קיימים. שנית, קבוצה זו של ניסויים מזכירה לנו כי ניסויים בתחום הדיגיטלי הם לא רק באינטרנט; יותר ויותר, אני מצפה שהם יהיו בכל מקום עם תוצאות רבות הנמדדות על ידי חיישנים בסביבה הבנויה.
ארבעת סוגי התקפות - תוקף המסקנה הסטטיסטית, תוקף פנימי, תוקף המבנה ותוקף חיצוני - מספקים רשימת פעולות מנטליות כדי לסייע לחוקרים להעריך האם התוצאות מניסוי מסוים תומכות במסקנה כללית יותר. בהשוואה לניסויי גיל אנלוגי, בניסויים של גיל דיגיטלי, זה צריך להיות קל יותר לטפל בתוקף חיצוני אמפירית, וגם זה צריך להיות קל יותר כדי להבטיח תוקף פנימי. מאידך גיסא, סוגיות של תקפות בנייה יהיו כנראה מאתגרות יותר בניסויי גיל דיגיטלי, ובמיוחד ניסויים בתחום דיגיטלי, הכוללים שותפויות עם חברות.