ตั้งแต่วันที่หมายถึงวิธีการมากผลของการทดสอบการสนับสนุนข้อสรุปทั่วไปมากขึ้น
ไม่มีการทดสอบที่สมบูรณ์แบบและนักวิจัยได้พัฒนาคำศัพท์ที่กว้างขวางเพื่ออธิบายปัญหาที่เป็นไปได้. ตั้งแต่วันที่หมายถึงขอบเขตที่ผลของการทดลองโดยเฉพาะอย่างยิ่งการสนับสนุนบางส่วนสรุปทั่วไปมากขึ้น นักวิทยาศาสตร์สังคมได้พบว่าเป็นประโยชน์ในการแยกความถูกต้องเป็นสี่ประเภทหลัก: ความถูกต้องสรุปสถิติความถูกต้องภายในสร้างความถูกต้องและความถูกต้องภายนอก (Shadish, Cook, and Campbell 2001, Ch 2) การเรียนรู้แนวคิดเหล่านี้จะช่วยให้คุณมีรายการตรวจสอบจิตวิจารณ์และการปรับปรุงการออกแบบและการวิเคราะห์การทดลองและมันจะช่วยให้คุณติดต่อสื่อสารกับนักวิจัยอื่น ๆ
ความถูกต้องสรุปสถิติศูนย์รอบไม่ว่าจะเป็นการวิเคราะห์ทางสถิติของการทดสอบกระทำอย่างถูกต้อง ในบริบทของ Schultz et al. (2007) คำถามดังกล่าวอาจจะมุ่งเน้นที่ว่าพวกเขาคำนวณ P-ค่าของพวกเขาได้อย่างถูกต้อง การวิเคราะห์ทางสถิติอยู่นอกเหนือขอบเขตของหนังสือเล่มนี้ แต่ผมสามารถพูดได้ว่าหลักการทางสถิติที่จำเป็นในการออกแบบและวิเคราะห์การทดลองยังไม่ได้เปลี่ยนในยุคดิจิตอล อย่างไรก็ตามข้อมูลสภาพแวดล้อมที่แตกต่างกันในการทดลองดิจิตอลไม่สร้างโอกาสทางสถิติใหม่ (เช่นการใช้วิธีการเรียนรู้ของเครื่องที่จะประเมินความแตกต่างของผลการรักษา (Imai and Ratkovic 2013) ) และความท้าทายในการคำนวณใหม่ (เช่นการปิดกั้นในการทดลองขนาดใหญ่ (Higgins, Sävje, and Sekhon 2016) )
ความถูกต้องภายในศูนย์รอบไม่ว่าจะเป็นขั้นตอนการทดลองได้ดำเนินการอย่างถูกต้อง กลับมาที่การทดสอบของ Schultz et al. (2007) , คำถามเกี่ยวกับความถูกต้องภายในศูนย์รอบจะสุ่มจัดส่งของการรักษาและการวัดผลลัพธ์ ตัวอย่างเช่นคุณอาจจะกังวลว่าผู้ช่วยวิจัยไม่ได้อ่านเมตรไฟฟ้าได้อย่างน่าเชื่อถือ ในความเป็นจริงชูลท์ซและเพื่อนร่วมงานเป็นกังวลเกี่ยวกับปัญหานี้และพวกเขามีตัวอย่างของการอ่านเมตรละสองครั้ง; โชคดีที่ผลที่ได้ก็เหมือนกันเป็นหลัก โดยทั่วไปความหนาแน่นและการทดสอบเพื่อนร่วมงาน 'ดูเหมือนจะมีความถูกต้องสูงภายใน แต่นี้ไม่เสมอกรณี; ซับซ้อนภาคสนามและการทดลองออนไลน์มักจะเกิดปัญหาขึ้นจริงการส่งมอบการรักษาที่เหมาะสมกับคนที่เหมาะสมและการวัดผลลัพธ์สำหรับทุกคน โชคดีที่ยุคดิจิตอลสามารถช่วยลดความกังวลเกี่ยวกับความถูกต้องภายในเพราะมันจะทำให้มันง่ายขึ้นเพื่อให้แน่ใจว่าการรักษาจะถูกส่งเป็นที่ออกแบบมาเพื่อผู้ที่ควรจะได้รับมันและการวัดผลลัพธ์สำหรับผู้เข้าร่วมทั้งหมด
สร้างศูนย์ความถูกต้องรอบการแข่งขันระหว่างข้อมูลและโครงสร้างทางทฤษฎี ตามที่กล่าวไว้ในบทที่ 2 โครงสร้างเป็นแนวคิดที่เป็นนามธรรมที่นักวิทยาศาสตร์ทางสังคมเกี่ยวกับเหตุผล แต่น่าเสียดายที่แนวคิดที่เป็นนามธรรมเหล่านี้ไม่เคยมีคำจำกัดความที่ชัดเจนและการวัด กลับไป Schultz et al. (2007) , อ้างว่าคำสั่งศาลบรรทัดฐานของสังคมสามารถลดการใช้ไฟฟ้าต้องมีนักวิจัยในการออกแบบการรักษาที่จะจัดการกับ "คำสั่งศาลบรรทัดฐานทางสังคม" (เช่นไอคอนแสดงอารมณ์) และการวัด "การใช้ไฟฟ้า" ในการทดลองแบบอะนาล็อกนักวิจัยหลายคนได้รับการออกแบบการรักษาของตัวเองและวัดผลลัพธ์ของตัวเอง วิธีการนี้จะทำให้มั่นใจได้ว่ามากที่สุดเท่าที่เป็นไปได้การทดลองตรงกับโครงสร้างนามธรรมการศึกษา ในการทดลองดิจิตอลที่พันธมิตรนักวิจัยกับ บริษัท หรือรัฐบาลในการส่งมอบการรักษาและการใช้งานตลอดเวลาในระบบข้อมูลการวัดผลลัพธ์การแข่งขันระหว่างการทดลองและสร้างทฤษฎีอาจจะแน่นน้อย ดังนั้นผมคาดหวังว่าการสร้างความถูกต้องจะมีแนวโน้มที่จะเป็นความกังวลที่ใหญ่กว่าในการทดลองดิจิตอลกว่าการทดลองแบบอะนาล็อก
ในที่สุดศูนย์ความถูกต้องภายนอกรอบไม่ว่าจะเป็นผลของการทดลองนี้จะคุยกับสถานการณ์อื่น ๆ กลับไป Schultz et al. (2007) ใครจะถามว่าจะข้อมูลเดียวกันนี้ความคิดให้ผู้ที่เกี่ยวกับการใช้พลังงานของพวกเขาในความสัมพันธ์กับเพื่อนร่วมงานของพวกเขาและสัญญาณของบรรทัดฐานคำสั่งศาล (เช่นไอคอนแสดงอารมณ์) การใช้พลังงาน -reduce ถ้ามันทำในทางที่แตกต่างกันใน การตั้งค่าที่แตกต่างกันอย่างไร มากที่สุดสำหรับการออกแบบที่ดีและดีทำงานทดลองความกังวลเกี่ยวกับความถูกต้องภายนอกที่ยากที่สุดที่จะอยู่ ในอดีตที่ผ่านมาการอภิปรายเกี่ยวกับความถูกต้องเหล่านี้ภายนอกบ่อยเพียงพวงของคนนั่งอยู่ในห้องพยายามที่จะจินตนาการถึงสิ่งที่จะเกิดขึ้นถ้าวิธีการที่ได้ทำในทางที่แตกต่างกันหรือในสถานที่ที่แตกต่างกันหรือกับคนที่แตกต่างกัน โชคดีที่ยุคดิจิตอลช่วยให้นักวิจัยที่จะย้ายที่อยู่นอกเหนือการคาดเดาเหล่านี้ข้อมูลฟรีและประเมินความถูกต้องสังเกตุภายนอก
เพราะผลที่ได้จาก Schultz et al. (2007) เป็นที่น่าตื่นเต้นเช่นนั้น บริษัท ชื่อ Opower ร่วมมือกับสาธารณูปโภคในประเทศสหรัฐอเมริกาในการปรับใช้การรักษาอย่างกว้างขวางมากขึ้น ขึ้นอยู่กับการออกแบบของ Schultz et al. (2007) , การปรับแต่ง Opower สร้างบ้านพลังงานรายงานว่ามีสองโมดูลหลักหนึ่งที่แสดงให้เห็นการใช้ไฟฟ้าในครัวเรือนญาติของไปยังประเทศเพื่อนบ้านที่มีไอคอนแสดงอารมณ์และเป็นหนึ่งในการให้คำแนะนำสำหรับการลดการใช้พลังงาน (รูปที่ 4.6) จากนั้นในความร่วมมือกับนักวิจัย Opower วิ่งควบคุมแบบสุ่มทดลองเพื่อประเมินผลกระทบของรายงานพลังงานหลัก แม้ว่าการรักษาในการทดลองเหล่านี้มักจะถูกส่งทางร่างกายมักจะผ่านล้าสมัยหอยทากเก่าจดหมายผลก็คือวัดโดยใช้อุปกรณ์ดิจิตอลในโลกทางกายภาพ (เช่นพลังงานเมตร) มากกว่าการเก็บรวบรวมข้อมูลนี้กับผู้ช่วยนักวิจัยการเยี่ยมชมแต่ละบ้านด้วยตนเองการทดลอง Opower ได้ทำทั้งหมดในความร่วมมือกับ บริษัท พลังงานที่ช่วยให้นักวิจัยในการเข้าถึงการอ่านอำนาจ ดังนั้นเหล่านี้ทดลองดิจิตอลบางส่วนได้รับการทำงานในระดับมากที่ต้นทุนผันแปรต่ำ
ในชุดแรกของการทดลองที่เกี่ยวข้องกับ 600,000 ครัวเรือนเสิร์ฟโดย 10 บริษัท ยูทิลิตี้ทั่วประเทศสหรัฐอเมริกา, Allcott (2011) พบรายงานพลังงานหลักลดลงปริมาณการใช้ไฟฟ้า 1.7% ในคำอื่น ๆ ผลที่ได้จากที่มีขนาดใหญ่มากการศึกษาอื่น ๆ ที่มีความหลากหลายทางภูมิศาสตร์มีคุณภาพคล้ายกับผลที่ได้จาก Schultz et al. (2007) แต่ขนาดของผลมีขนาดเล็กใน Schultz et al. (2007) ผู้ประกอบการในเชิงพรรณนาและบรรทัดฐานนึงสภาพ (หนึ่งที่มีไอคอนแสดงอารมณ์) ลดการใช้ไฟฟ้าของพวกเขาโดย 5% เหตุผลที่แม่นยำสำหรับความแตกต่างนี้ไม่เป็นที่รู้จัก แต่ Allcott (2011) สันนิษฐานว่าได้รับอิโมติคอนที่เขียนด้วยลายมือเป็นส่วนหนึ่งของการศึกษาการสนับสนุนจากมหาวิทยาลัยอาจจะมีผลขนาดใหญ่ที่มีต่อพฤติกรรมกว่าที่ได้รับเป็นอารมณ์ที่พิมพ์ออกมาเป็นส่วนหนึ่งของรายงานมวลผลิตจาก บริษัท พลังงาน
นอกจากนี้ในการวิจัยต่อมา Allcott (2015) รายงานเมื่อวันเพิ่มอีก 101 ที่เกี่ยวข้องกับการทดลองอีก 8 ล้านครัวเรือน 101 การทดลองเหล่านี้ต่อไปรายงานพลังงานหลักอย่างต่อเนื่องเพื่อทำให้คนที่จะลดการใช้ไฟฟ้าของพวกเขา แต่ผลก็ยังมีขนาดเล็ก เหตุผลที่แม่นยำสำหรับการลดลงนี้ไม่เป็นที่รู้จัก แต่ Allcott (2015) สันนิษฐานว่าประสิทธิผลของการรายงานที่ปรากฏจะลดลงเมื่อเวลาผ่านไปเพราะมันเป็นความจริงที่ถูกนำไปใช้กับประเภทที่แตกต่างกันของผู้เข้าร่วม โดยเฉพาะอย่างยิ่งในพื้นที่สาธารณูปโภคสิ่งแวดล้อมมากขึ้นมีแนวโน้มที่จะนำมาใช้โปรแกรมก่อนหน้านี้และลูกค้าของพวกเขาตอบสนองต่อการรักษา ในฐานะที่เป็นสาธารณูปโภคกับลูกค้าสิ่งแวดล้อมน้อยนำโปรแกรมที่มีประสิทธิภาพที่ดูเหมือนจะลดลง ดังนั้นเช่นเดียวกับการสุ่มในการทดลองเพื่อให้แน่ใจว่าการรักษาและการควบคุมกลุ่มที่มีความคล้ายคลึงสุ่มในเว็บไซต์เพื่อให้แน่ใจว่าการวิจัยประมาณการที่สามารถทั่วไปจากกลุ่มหนึ่งของผู้เข้าร่วมกับประชาชนทั่วไปมากขึ้น (คิดว่ากลับไปบทที่ 3 เกี่ยวกับการสุ่มตัวอย่าง) หากเว็บไซต์วิจัยยังไม่ได้สุ่มแล้วทั่วไปแม้กระทั่งจากการออกแบบอย่างลงตัวและดำเนินการทดสอบอาจเป็นปัญหาได้
ร่วมกันเหล่านี้ทดลอง 111-10 ใน Allcott (2011) และ 101 ใน Allcott (2015) -involved ประมาณ 8.5 ล้านครัวเรือนจากทั่วทุกมุมของประเทศสหรัฐอเมริกา พวกเขาอย่างต่อเนื่องแสดงให้เห็นว่ารายงานพลังงานหลักลดการใช้ไฟฟ้าเฉลี่ยผลที่สนับสนุนผลการวิจัยเดิมของชูลท์ซและเพื่อนร่วมงานจาก 300 บ้านในแคลิฟอร์เนีย กว่าเพียงแค่การจำลองผลเดิมเหล่านี้ทดลองติดตามยังแสดงให้เห็นว่าขนาดของผลกระทบที่แตกต่างกันไปตามสถานที่ ชุดของการทดลองนี้แสดงให้เห็นถึงอีกสองจุดทั่วไปเกี่ยวกับการทดลองดิจิตอลบางส่วน ครั้งแรกที่นักวิจัยจะสามารถสังเกตุความกังวลเกี่ยวกับความถูกต้องอยู่ภายนอกเมื่อค่าใช้จ่ายของการทำงานการทดลองอยู่ในระดับต่ำและนี้สามารถเกิดขึ้นได้หากผลอยู่แล้วจะถูกวัดโดยเสมอในระบบข้อมูล ดังนั้นจึงแสดงให้เห็นว่าการวิจัยควรจะอยู่ในลักษณะออกสำหรับพฤติกรรมที่น่าสนใจและสำคัญอื่น ๆ ที่มีการบันทึกไว้แล้วและจากนั้นออกแบบการทดลองด้านบนของโครงสร้างพื้นฐานที่มีอยู่วัดนี้ ประการที่สองชุดของการทดลองนี้เตือนเราว่าทดลองดิจิตอลไม่ได้ออนไลน์เพียง; มากขึ้นเรื่อย ๆ ผมคาดหวังว่าพวกเขาจะได้ทุกที่ที่มีผลหลายวัดจากเซ็นเซอร์ในการสร้างสภาพแวดล้อม
สี่ประเภทของความถูกต้องทางสถิติความถูกต้องสรุปความถูกต้องภายในสร้างความถูกต้อง, ความถูกต้องภายนอก-ให้การตรวจสอบทางจิตที่จะช่วยให้นักวิจัยประเมินว่าผลที่ได้จากการทดลองโดยเฉพาะอย่างยิ่งการสนับสนุนข้อสรุปทั่วไปมากขึ้น เมื่อเทียบกับการทดลองอายุอนาล็อกในการทดลองกับยุคดิจิตอลมันควรจะเป็นเรื่องง่ายที่จะอยู่ตรงภายนอกสังเกตุและมันควรจะง่ายขึ้นเพื่อให้แน่ใจว่าถูกต้องตามกฎหมายภายใน บนมืออื่น ๆ , ปัญหาของการสร้างความถูกต้องอาจจะเป็นความท้าทายมากขึ้นในการทดลองกับยุคดิจิตอล ( แต่ที่ไม่ได้กรณีที่มีการทดลอง Opower)