4.4.1 ตั้งแต่วันที่

ตั้งแต่วันที่หมายถึงวิธีการมากผลของการทดสอบการสนับสนุนข้อสรุปทั่วไปมากขึ้น

การทดลองไม่สมบูรณ์แบบและนักวิจัยได้พัฒนาคำศัพท์ที่ครอบคลุมเพื่ออธิบายถึงปัญหาที่เป็นไปได้ ความถูกต้อง หมายถึงขอบเขตที่ผลของการทดลองบางอย่างสนับสนุนข้อสรุปทั่วไปเพิ่มเติมบางอย่าง นักวิทยาศาสตร์ทางสังคมพบว่าการแยกความถูกต้องออกเป็น 4 ประเภทหลักคือความสมบูรณ์เชิงสถิติความตรงภายในความถูกต้องของโครงสร้างและความถูกต้องภายนอก (Shadish, Cook, and Campbell 2001, chap. 2) การควบคุมแนวคิดเหล่านี้จะช่วยให้คุณมีรายการตรวจสอบจิตสำหรับประเมินและปรับปรุงการออกแบบและการวิเคราะห์การทดสอบและจะช่วยให้คุณสามารถสื่อสารกับนักวิจัยคนอื่น ๆ ได้

สรุปความถูกต้อง ทางสถิติเกี่ยวกับการวิเคราะห์ทางสถิติของการทดลองได้อย่างถูกต้อง ในบริบทของ Schultz et al. (2007) คำถามดังกล่าวอาจให้ความสำคัญกับว่าพวกเขาคำนวณค่า \(p\) ตนเองอย่างถูกต้องหรือไม่ หลักการทางสถิติต้องมีการออกแบบและวิเคราะห์การทดลองอยู่นอกเหนือขอบเขตของหนังสือเล่มนี้ แต่ก็ยังไม่ได้มีการเปลี่ยนแปลงในยุคดิจิทัล อย่างไรก็ตามสิ่งที่เปลี่ยนแปลงไปคือสภาพแวดล้อมของข้อมูลในการทดลองแบบดิจิตอลได้สร้างโอกาสใหม่ ๆ เช่นการใช้วิธีการเรียนรู้ด้วยเครื่องเพื่อประเมินความไม่สม่ำเสมอของผลการรักษา (Imai and Ratkovic 2013)

ความถูกต้องภายใน เกี่ยวกับว่าขั้นตอนการทดลองดำเนินการอย่างถูกต้องหรือไม่ กลับไปสู่การทดลองของ Schultz et al. (2007) คำถามเกี่ยวกับความถูกต้องภายในอาจเป็นศูนย์กลางเกี่ยวกับการสุ่มการจัดส่งการรักษาและการวัดผลลัพธ์ ตัวอย่างเช่นคุณอาจกังวลว่าผู้ช่วยวิจัยไม่ได้อ่านเมตรไฟฟ้าอย่างน่าเชื่อถือ ในความเป็นจริง Schultz และเพื่อนร่วมงานต่างกังวลเกี่ยวกับปัญหานี้และพวกเขามีตัวอย่างของเครื่องวัดที่อ่านได้สองครั้ง โชคดีที่ผลที่ได้เป็นหลักเหมือนกัน โดยทั่วไปแล้วการทดลองของ Schultz และเพื่อนร่วมงานดูเหมือนจะมีความถูกต้องภายในสูง แต่ก็ไม่เป็นเช่นนั้นเสมอไป: สนามที่ซับซ้อนและการทดลองออนไลน์มักใช้เป็นปัญหาในการส่งมอบการรักษาที่เหมาะสมกับคนที่ใช่และการวัดผลลัพธ์สำหรับทุกคน โชคดีที่ยุคดิจิทัลสามารถช่วยลดความกังวลเกี่ยวกับความถูกต้องภายในได้เนื่องจากตอนนี้ง่ายต่อการตรวจสอบว่าการรักษาได้รับการจัดส่งให้กับผู้ที่ควรจะได้รับและเพื่อวัดผลลัพธ์สำหรับผู้เข้าร่วมทั้งหมด

สร้าง ศูนย์กลาง ความถูกต้อง ระหว่างการจับคู่ระหว่างข้อมูลและโครงสร้างเชิงทฤษฎี ดังที่กล่าวไว้ในบทที่ 2 โครงสร้างเป็นแนวคิดที่เป็นนามธรรมที่นักวิทยาศาสตร์ทางสังคมให้ความสำคัญ แต่น่าเสียดายที่แนวคิดเชิงนามธรรมเหล่านี้มักไม่มีคำจำกัดความและการวัดที่ชัดเจน กลับไปที่ Schultz et al. (2007) การอ้างว่าบรรทัดฐานทางสังคม injunctive สามารถลดการใช้ไฟฟ้าต้องใช้นักวิจัยในการออกแบบการรักษาที่จะจัดการ "injunctive บรรทัดฐานทางสังคม" (เช่นอีโมติคอน) และการวัด "การใช้ไฟฟ้า" ในการทดลองแบบอนาล็อกนักวิจัยจำนวนมากได้ออกแบบวิธีการรักษาของตนเองและวัดผลลัพธ์ของตนเอง วิธีนี้ทำให้แน่ใจได้ว่าการทดลองนี้ตรงกับโครงสร้างที่เป็นนามธรรมมากที่สุดเท่าที่จะเป็นไปได้ ในการทดลองแบบดิจิทัลซึ่งนักวิจัยร่วมมือกับ บริษัท หรือรัฐบาลในการส่งมอบการรักษาและใช้ระบบข้อมูลตลอดเวลาในการวัดผลลัพธ์การจับคู่ระหว่างการทดสอบและโครงสร้างทางทฤษฎีอาจไม่แน่น ดังนั้นฉันคาดหวังว่าความถูกต้องในการสร้างจะเป็นความกังวลที่ใหญ่กว่าในการทดลองแบบดิจิทัลมากกว่าการทดลองอะนาล็อก

สุดท้าย ความถูกต้องด้านนอก เกี่ยวกับว่าผลลัพธ์ของการทดลองนี้สามารถสรุปเป็นสถานการณ์อื่นได้หรือไม่ กลับไปที่ Schultz et al. (2007) หนึ่งสามารถถามว่าแนวคิดเดียวกันนี้ - การให้ข้อมูลเกี่ยวกับการใช้พลังงานของพวกเขาในความสัมพันธ์กับเพื่อนของพวกเขาและเป็นสัญญาณของบรรทัดฐานในการสั่งการ (เช่นอีโมติคอน) - จะลดการใช้พลังงานถ้าทำในรูปแบบอื่น ในการตั้งค่าอื่น สำหรับการทดลองที่ได้รับการออกแบบมาเป็นอย่างดีและได้รับการดูแลเป็นอย่างดีความกังวลเกี่ยวกับความถูกต้องภายนอกเป็นเรื่องที่ยากที่สุด ในอดีตการอภิปรายเกี่ยวกับความถูกต้องภายนอกนี้มักเกี่ยวข้องกับอะไรมากกว่ากลุ่มคนที่นั่งอยู่ในห้องพยายามจินตนาการว่าจะเกิดอะไรขึ้นถ้าขั้นตอนได้ดำเนินการในลักษณะที่แตกต่างหรือในที่อื่นหรือกับผู้เข้าร่วมที่แตกต่างกัน . โชคดีที่ยุคดิจิทัลช่วยให้นักวิจัยสามารถก้าวข้ามข้อสันนิษฐานที่ปราศจากข้อมูลเหล่านี้และประเมินความถูกต้องตามกฎหมายในเชิงปฏิบัติได้

เนื่องจากผลจาก Schultz et al. (2007) เป็นที่น่าตื่นเต้นมาก บริษัท Opower ร่วมมือกับสาธารณูปโภคในประเทศสหรัฐอเมริกาเพื่อปรับใช้การรักษาอย่างกว้างขวางมากขึ้น ขึ้นอยู่กับการออกแบบของ Schultz et al. (2007) , Opower สร้างรายงานพลังงานที่กำหนดเองซึ่งมีโมดูลสองโมดูลหลัก: หนึ่งแสดงการใช้ไฟฟ้าของครัวเรือนเทียบกับเพื่อนบ้านด้วยไอคอนแสดงอารมณ์และคำแนะนำเพื่อลดการใช้พลังงาน (รูปที่ 4.6) จากนั้นในความร่วมมือกับนักวิจัย Opower ได้ทดลองการทดลองแบบสุ่มควบคุมเพื่อประเมินผลกระทบของรายงานพลังงานหน้าแรกเหล่านี้ แม้ว่าการรักษาในการทดลองเหล่านี้มักจะได้รับการส่งผ่านทางร่างกายโดยปกติจะผ่านทางจดหมายหอยทากแบบเก่าผลการวัดโดยใช้อุปกรณ์ดิจิทัลในโลกทางกายภาพ (เช่นมาตรวัดกำลัง) นอกจากนี้แทนที่จะเก็บรวบรวมข้อมูลด้วยตนเองด้วยผู้ช่วยวิจัยที่มาเยี่ยมเยียนแต่ละห้องการทดลองของ Opower ได้ดำเนินการเสร็จสิ้นโดยร่วมมือกับ บริษัท พลังงานซึ่งทำให้นักวิจัยสามารถเข้าถึงการอ่านพลังงานได้ ดังนั้นการทดลองภาคสนามดิจิทัลบางส่วนจึงใช้งานได้ในระดับมากที่ต้นทุนผันแปรต่ำ

รูปที่ 4.6: รายงานพลังงานภายในบ้านมีโมดูลเปรียบเทียบทางสังคมและโมดูลขั้นตอนการดำเนินการ ทำซ้ำโดยได้รับอนุญาตจาก Allcott (2011), รูปที่ 1 และ 2

รูปที่ 4.6: รายงานพลังงานภายในบ้านมีโมดูลเปรียบเทียบทางสังคมและโมดูลขั้นตอนการดำเนินการ ทำซ้ำโดยได้รับอนุญาตจาก Allcott (2011) , รูปที่ 1 และ 2

ในชุดแรกของการทดลองที่เกี่ยวข้องกับ 600,000 ครัวเรือนจาก 10 ไซต์ที่แตกต่างกัน Allcott (2011) พบว่ารายงานการใช้พลังงานภายในบ้านลดการใช้พลังงานลง กล่าวอีกนัยหนึ่งผลจากการศึกษาที่มีขนาดใหญ่กว่ามากทางภูมิศาสตร์มีคุณภาพคล้ายคลึงกับผลจาก Schultz et al. (2007) นอกจากนี้ในการวิจัยที่ตามมาเกี่ยวกับแปดล้านครัวเรือนเพิ่มเติมจาก 101 เว็บไซต์ที่แตกต่างกัน Allcott (2015) อีกครั้งพบว่ารายงานพลังงานที่บ้านอย่างสม่ำเสมอลดการใช้ไฟฟ้า การทดลองชุดใหญ่กว่านี้ยังแสดงให้เห็นรูปแบบใหม่ที่น่าสนใจซึ่งจะมองไม่เห็นในการทดลองเพียงครั้งเดียวขนาดของผลกระทบลดลงในการทดลองในภายหลัง (รูปที่ 4.7) Allcott (2015) สันนิษฐานว่าการลดลงนี้เกิดขึ้นเนื่องจากเมื่อเวลาผ่านไปการรักษาถูกนำไปใช้กับผู้เข้าร่วมประเภทต่างๆ โดยเฉพาะอย่างยิ่งระบบสาธารณูปโภคกับลูกค้าที่ใส่ใจสิ่งแวดล้อมมากขึ้นมีแนวโน้มที่จะยอมรับโครงการก่อนหน้านี้และลูกค้าของพวกเขาได้รับการตอบสนองต่อการรักษามากขึ้น เนื่องจากระบบสาธารณูปโภคที่มีลูกค้าที่ให้ความสำคัญกับสภาพแวดล้อมน้อยจึงเป็นผู้ริเริ่มโครงการนี้ทำให้ประสิทธิผลของโครงการลดลง ดังนั้นการสุ่มตัวอย่างในการทดลองทำให้กลุ่มการรักษาและควบคุมมีความคล้ายคลึงกันการสุ่มตัวอย่างในพื้นที่การวิจัยช่วยให้มั่นใจได้ว่าการประมาณการสามารถสรุปจากกลุ่มผู้เข้าร่วมกลุ่มหนึ่งไปสู่ประชากรทั่วไปได้มากขึ้น (ย้อนกลับไปยังบทที่ 3 เกี่ยวกับการสุ่มตัวอย่าง) หากไซต์วิจัยไม่ได้สุ่มตัวอย่างแบบสุ่มแล้วการสรุป - แม้แต่จากการทดลองที่ได้รับการออกแบบและดำเนินการอย่างสมบูรณ์ - อาจเป็นปัญหาได้

รูปที่ 4.7: ผลการทดสอบ 111 ครั้งที่ทดสอบผลกระทบจากรายงานการใช้พลังงานไฟฟ้าภายในบ้าน ที่ไซต์ที่มีการนำมาใช้ในภายหลังก็มีแนวโน้มที่จะมีผลเล็กลง Allcott (2015) ระบุว่าแหล่งที่มาที่สำคัญของรูปแบบนี้คือไซต์ที่มีลูกค้าที่มุ่งเน้นสภาพแวดล้อมมากขึ้นมีแนวโน้มที่จะยอมรับโครงการก่อนหน้านี้ ดัดแปลงมาจาก Allcott (2015), รูปที่ 3

รูปที่ 4.7: ผลการทดสอบ 111 ครั้งที่ทดสอบผลกระทบจากรายงานการใช้พลังงานไฟฟ้าภายในบ้าน ที่ไซต์ที่มีการนำมาใช้ในภายหลังก็มีแนวโน้มที่จะมีผลเล็กลง Allcott (2015) ระบุว่าแหล่งที่มาที่สำคัญของรูปแบบนี้คือไซต์ที่มีลูกค้าที่มุ่งเน้นสภาพแวดล้อมมากขึ้นมีแนวโน้มที่จะยอมรับโครงการก่อนหน้านี้ ดัดแปลงมาจาก Allcott (2015) , รูปที่ 3

ร่วมกันเหล่านี้ 111 การทดลอง -10 ใน Allcott (2011) และ 101 ใน Allcott (2015) เกี่ยวกับ 8.5 ล้านครัวเรือนจากทั่วทั้งสหรัฐอเมริกา พวกเขาแสดงให้เห็นอย่างสม่ำเสมอว่ารายงานการใช้พลังงานในบ้านลดการใช้ไฟฟ้าโดยเฉลี่ยซึ่งเป็นผลที่สนับสนุนผลการวิจัยเดิมของชูลท์ซและเพื่อนร่วมงานจาก 300 บ้านในแคลิฟอร์เนีย นอกเหนือจากเพียงแค่ทำซ้ำผลลัพธ์ต้นฉบับเหล่านี้แล้วการทดสอบติดตามผลยังแสดงให้เห็นว่าขนาดของผลแตกต่างกันตามสถานที่ ชุดการทดลองนี้ยังแสดงให้เห็นอีกสองประเด็นทั่วไปเกี่ยวกับการทดลองภาคสนามดิจิทัลบางส่วน ประการแรกนักวิจัยจะสามารถระบุถึงความกังวลเกี่ยวกับความถูกต้องภายนอกได้เมื่อค่าใช้จ่ายในการทดลองใช้งานต่ำและอาจเกิดขึ้นได้หากผลลัพธ์ถูกวัดโดยระบบข้อมูลตลอดเวลา ดังนั้นจึงขอแนะนำให้นักวิจัยควรมองหาพฤติกรรมที่น่าสนใจและมีความสำคัญอื่น ๆ ที่ได้รับการบันทึกแล้วจากนั้นจึงออกแบบการทดลองด้านโครงสร้างพื้นฐานด้านการวัดที่มีอยู่ ประการที่สองชุดการทดลองนี้เตือนเราว่าการทดลองในฟิลด์แบบดิจิทัลไม่ได้ออนไลน์เพียงอย่างเดียว มากขึ้นผมคาดหวังว่าพวกเขาจะได้ทุกที่มีผลหลายวัดโดยเซ็นเซอร์ในสภาพแวดล้อมที่สร้างขึ้น

การตรวจสอบความถูกต้องตามกฎหมายทั้งสี่แบบความถูกต้องภายในความมีเหตุผลในการสร้างและความถูกต้องจากภายนอกให้เป็นรายการตรวจสอบทางจิตเพื่อช่วยให้นักวิจัยประเมินว่าผลลัพธ์จากการทดลองหนึ่ง ๆ สนับสนุนข้อสรุปทั่วไปมากขึ้นหรือไม่ เมื่อเปรียบเทียบกับการทดลองแบบอะนาล็อกในการทดลองในยุคดิจิทัลควรทำความเข้าใจกับความถูกต้องของข้อมูลภายนอกได้ง่ายขึ้นและควรตรวจสอบความถูกต้องภายในด้วย ในอีกด้านหนึ่งปัญหาในการสร้างความถูกต้องอาจเป็นความท้าทายในการทดลองในยุคดิจิทัลมากขึ้นโดยเฉพาะการทดลองภาคสนามดิจิทัลที่เกี่ยวข้องกับการเป็นพันธมิตรกับ บริษัท