คำถามเกี่ยวกับความเป็นเหตุเป็นผลในการวิจัยทางสังคมมักจะซับซ้อนและสลับซับซ้อน สำหรับวิธีพื้นฐานในการสร้างความสัมพันธ์เชิงสาเหตุบนพื้นฐานของกราฟสาเหตุให้ดู Pearl (2009) และสำหรับแนวทางพื้นฐานที่อิงจากผลลัพธ์ที่เป็นไปได้โปรดดู Imbens and Rubin (2015) สำหรับการเปรียบเทียบระหว่างสองวิธีนี้ดู Morgan and Winship (2014) สำหรับวิธีการอย่างเป็นทางการในการกำหนด VanderWeele and Shpitser (2013) โปรดดูที่ VanderWeele and Shpitser (2013)
ในบทนี้ผมได้สร้างสิ่งที่ดูเหมือนเป็นเส้นสายระหว่างความสามารถในการประมาณค่าเชิงสาเหตุจากข้อมูลการทดลองและข้อมูลที่ไม่ใช่การทดลอง อย่างไรก็ตามผมคิดว่าในความเป็นจริงความแตกต่างจะเบลอมากขึ้น ตัวอย่างเช่นทุกคนยอมรับว่าการสูบบุหรี่ทำให้เกิดมะเร็งแม้ว่าจะไม่มีการทดลองแบบสุ่มควบคุมที่บังคับให้คนสูบบุหรี่ได้รับการปฏิบัติ สำหรับการรักษาความยาวหนังสือที่ยอดเยี่ยมในการประมาณการสาเหตุจากข้อมูลที่ไม่ได้ทดลองให้ดู Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) และ Dunning (2012)
บทที่ 1 และ 2 ของ Freedman, Pisani, and Purves (2007) เสนอบทนำที่ชัดเจนเกี่ยวกับความแตกต่างระหว่างการทดลองการควบคุมการทดลองและการทดลองที่มีการควบคุมแบบสุ่ม
Manzi (2012) นำเสนอบทแนะนำที่น่าสนใจและสามารถอ่านได้เพื่อพื้นฐานทางปรัชญาและสถิติของการทดลองที่มีการควบคุมแบบสุ่ม นอกจากนี้ยังมีตัวอย่างที่น่าสนใจในโลกแห่งความเป็นจริงของการทดลองในธุรกิจด้วย Issenberg (2012) เป็นบทนำที่น่าสนใจสำหรับการใช้การทดลองในแคมเปญทางการเมือง
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 และ Athey and Imbens (2016b) ให้ข้อมูลเบื้องต้นเกี่ยวกับการออกแบบและวิเคราะห์เชิงสถิติ (Bardsley et al. 2009) , สังคมวิทยา (Willer and Walker 2007; Jackson and Cox 2013) , จิตวิทยา (Aronson et al. 1989) , Political science (Morton and Williams 2010) และนโยบายทางสังคม (Glennerster and Takavarasha 2013)
ความสำคัญของการรับสมัครผู้เข้าร่วมงาน (เช่นการสุ่มตัวอย่าง) มักไม่ค่อยชื่นชมในการวิจัยเชิงทดลอง อย่างไรก็ตามหากผลของการรักษาเป็นแบบไม่เหมือนกันในประชากรการสุ่มตัวอย่างเป็นสิ่งสำคัญ Longford (1999) ทำให้จุดนี้ชัดเจนเมื่อเขาสนับสนุนให้นักวิจัยคิดว่าการทดลองเป็นแบบสำรวจประชากรด้วยการสุ่มตัวอย่างอย่างสุ่ม
ผมได้แนะนำว่ามีความต่อเนื่องระหว่างการทดลองในแล็บและสนามและนักวิจัยคนอื่น ๆ ก็ได้เสนอแบบการจัดประเภทโดยละเอียดโดยเฉพาะอย่างยิ่งที่แยกแยะรูปแบบต่างๆของการทดลองภาคสนาม (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013)
(Falk and Heckman 2009; Cialdini 2009) และในแง่ของผลลัพธ์ของการทดลองเฉพาะทางด้านรัฐศาสตร์ (Coppock and Green 2015) , เศรษฐศาสตร์ (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) และจิตวิทยา (Mitchell 2012) Jerit, Barabas, and Clifford (2013) เสนอการออกแบบการวิจัยที่ดีสำหรับการเปรียบเทียบผลลัพธ์จากการทดลองในแล็บและสนาม Parigi, Santana, and Cook (2017) อธิบายว่าการทดลองในสนามแบบออนไลน์สามารถรวมคุณลักษณะเฉพาะบางอย่างของการทดลองในห้องทดลองได้อย่างไร
ความกังวลเกี่ยวกับผู้เข้าร่วมการเปลี่ยนแปลงพฤติกรรมของพวกเขาเพราะพวกเขารู้ว่าพวกเขากำลังได้รับการสังเกตอย่างใกล้ชิดบางครั้งเรียกว่า ผลกระทบความต้องการ และพวกเขาได้รับการศึกษาในด้านจิตวิทยา (Orne 1962) และเศรษฐศาสตร์ (Zizzo 2010) แม้ว่าส่วนใหญ่เกี่ยวข้องกับการทดลองในแล็บปัญหาเดียวกันนี้อาจทำให้เกิดปัญหากับการทดลองภาคสนามได้เช่นกัน ในความเป็นจริง ความต้องการผลกระทบ บางครั้งก็เรียกว่า ผลฮอว์ ธ อร์น คำที่เกิดขึ้นในการทดลองการส่องสว่างที่มีชื่อเสียงซึ่งเริ่มขึ้นในปีพ. ศ. 2467 ในงาน Hawthorne Works of the Western Electric Company (Adair 1984; Levitt and List 2011) ทั้ง ผลกระทบความต้องการ และ ผลกระทบของ ฮอว์ ธ อร์น มีความสัมพันธ์อย่างใกล้ชิดกับแนวคิดเรื่องการวัดปฏิกิริยาที่กล่าวไว้ในบทที่ 2 (ดูที่ Webb et al. (1966) )
การทดลองภาคสนามมีประวัติอันยาวนานทางด้านเศรษฐศาสตร์ (Levitt and List 2009) , รัฐศาสตร์ (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , Psychology (Shadish 2002) และนโยบายสาธารณะ (Shadish and Cook 2009) . สาขาวิชาสังคมศาสตร์ซึ่งการทดลองภาคสนามได้รับความสนใจอย่างรวดเร็วคือการพัฒนาระหว่างประเทศ สำหรับการทบทวนผลงานในเชิงเศรษฐศาสตร์ในเชิงเศรษฐศาสตร์ดู Banerjee and Duflo (2009) และสำหรับการประเมินที่สำคัญดู Deaton (2010) สำหรับการทบทวนงานด้านวิทยาศาสตร์ทางการเมืองนี้ดู Humphreys and Weinstein (2009) ในที่สุดความท้าทายทางจริยธรรมที่เกิดจากการทดลองภาคสนามได้รับการสำรวจในบริบทของวิทยาศาสตร์ทางการเมือง (Humphreys 2015; Desposato 2016b) และเศรษฐศาสตร์การพัฒนา (Baele 2013)
ในส่วนนี้ผมขอแนะนำให้ใช้ข้อมูลก่อนการรักษาเพื่อปรับปรุงความแม่นยำของผลการรักษาโดยประมาณ แต่มีข้อโต้แย้งเกี่ยวกับแนวทางนี้ ดู Freedman (2008) , W. Lin (2013) , Berk et al. (2013) และ Bloniarz et al. (2016) สำหรับข้อมูลเพิ่มเติม
สุดท้ายมีการทดลองสองประเภทที่นักวิทยาศาสตร์ทางสังคมดำเนินการซึ่งไม่เหมาะสมกับมิติข้อมูลของห้องทดลอง: การทดลองการสำรวจและการทดลองทางสังคม การทดลองการสำรวจ คือการทดลองใช้โครงสร้างพื้นฐานของการสำรวจที่มีอยู่และเปรียบเทียบการตอบสนองต่อคำถามทางเลือกอื่น ๆ (การทดลองสำรวจบางส่วนมีอยู่ในบทที่ 3); สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการทดลองสำรวจดู Mutz (2011) การทดลองทางสังคม คือการทดลองที่การรักษาเป็นนโยบายทางสังคมบางอย่างที่รัฐบาลสามารถดำเนินการได้ การทดลองทางสังคมเกี่ยวข้องกับการประเมินโครงการ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการทดลองด้านนโยบายให้ดูที่ Heckman and Smith (1995) , Orr (1998) และ @ glennerster_running_2013
ฉันเลือกที่จะมุ่งเน้นไปที่สามแนวคิด: ความถูกต้องความหลากหลายของผลการรักษาและกลไกต่างๆ แนวคิดเหล่านี้มีชื่อแตกต่างกันในสาขาต่างๆ ตัวอย่างเช่นนักจิตวิทยามีแนวโน้มที่จะก้าวไปไกลกว่าการทดลองง่ายๆโดยมุ่งเน้นที่ ผู้ไกล่เกลี่ย และ ผู้ดูแล (Baron and Kenny 1986) ความคิดของผู้ไกล่เกลี่ยจะถูกจับโดยสิ่งที่ฉันเรียกกลไกและความคิดของผู้ดูแลจะถูกจับโดยสิ่งที่ฉันเรียกความถูกต้องจากภายนอก (เช่นผลลัพธ์ของการทดลองจะแตกต่างกันหรือไม่ถ้ามันถูกเรียกใช้ในสถานการณ์ที่ต่างกัน) และความไม่สม่ำเสมอของผลการรักษา เช่นผลกระทบที่มีขนาดใหญ่สำหรับบางคนมากกว่าคนอื่น)
การทดลองโดย Schultz et al. (2007) แสดงให้เห็นว่าทฤษฎีทางสังคมสามารถใช้เพื่อออกแบบการแทรกแซงที่มีประสิทธิภาพ สำหรับอาร์กิวเมนต์ทั่วไปเกี่ยวกับบทบาทของทฤษฎีในการออกแบบการแทรกแซงที่มีประสิทธิภาพดู Walton (2014)
แนวคิดเรื่องความถูกต้องภายในและภายนอกถูกนำมาใช้ครั้งแรกโดย Campbell (1957) ดู Shadish, Cook, and Campbell (2001) สำหรับประวัติที่ละเอียดและรอบคอบในการสรุปความถูกต้องของข้อสรุปทางสถิติความถูกต้องภายในความมีเหตุผลในการสร้างและความถูกต้องภายนอก
สำหรับภาพรวมของประเด็นที่เกี่ยวข้องกับความถูกต้องเชิงสถิติในการทดลองดู Gerber and Green (2012) (จากมุมมองทางสังคมศาสตร์) และ Imbens and Rubin (2015) (จากมุมมองเชิงสถิติ) บางประเด็นเกี่ยวกับความถูกต้องทางสถิติที่เกิดขึ้นโดยเฉพาะในการทดลองภาคสนามออนไลน์รวมถึงประเด็นต่างๆเช่นวิธีที่มีประสิทธิภาพในการคำนวณเพื่อสร้างช่วงความเชื่อมั่นด้วยข้อมูลที่เกี่ยวข้อง (Bakshy and Eckles 2013)
ความถูกต้องภายในอาจเป็นเรื่องยากที่จะมั่นใจได้ในการทดลองในสนามที่ซับซ้อน ดูตัวอย่างเช่น Gerber and Green (2000) , Imai (2005) และ Gerber and Green (2005) สำหรับการอภิปรายเกี่ยวกับการดำเนินการทดลองเขตข้อมูลที่ซับซ้อนเกี่ยวกับการลงคะแนน Kohavi et al. (2012) และ Kohavi et al. (2013) ให้คำแนะนำในความท้าทายของช่วงเวลาที่ถูกต้องในการทดลองภาคสนามออนไลน์
ภัยคุกคามสำคัญประการหนึ่งของความถูกต้องภายในคือความเป็นไปได้ที่จะเกิด randomization วิธีหนึ่งที่เป็นไปได้ในการตรวจหาปัญหาเกี่ยวกับการสุ่มตัวอย่างคือการเปรียบเทียบกลุ่มการรักษาและกลุ่มควบคุมกับลักษณะที่สังเกตได้ การเปรียบเทียบนี้เรียกว่าการ ตรวจสอบยอดคงเหลือ ดู Hansen and Bowers (2008) สำหรับวิธีการทางสถิติในการตรวจสอบยอดเงินและ Mutz and Pemantle (2015) สำหรับข้อกังวลเกี่ยวกับการตรวจสอบยอดคงเหลือ ยกตัวอย่างเช่นการตรวจสอบยอดคงเหลือ Allcott (2011) พบหลักฐานว่าการสุ่มตัวอย่างไม่ได้รับการดำเนินการอย่างถูกต้องในการทดลอง Opower 3 แห่ง (ดูตารางที่ 2 ไซต์ 2, 6 และ 8) สำหรับแนวทางอื่น ๆ ดูบทที่ 21 ของ Imbens and Rubin (2015)
ความกังวลหลักอื่น ๆ ที่เกี่ยวข้องกับความถูกต้องภายในคือ (1) การไม่ปฏิบัติตามด้านเดียวซึ่งทุกคนในกลุ่มบำบัดไม่ได้รับการรักษาจริง (2) การไม่ปฏิบัติตามแบบสองด้านโดยที่ทุกคนในกลุ่มบำบัดไม่ได้รับการรักษาและบางคนใน กลุ่มควบคุมได้รับการรักษา (3) การขัดสีซึ่งผลลัพธ์จะไม่ได้รับการวัดสำหรับผู้เข้าร่วมบางคนและ (4) การแทรกแซงซึ่งการรักษาจะแพร่กระจายจากผู้ที่อยู่ในสภาพการรักษาต่อคนที่อยู่ในภาวะควบคุม ดูบทที่ 5, 6, 7, และ 8 ของ Gerber and Green (2012) สำหรับข้อมูลเพิ่มเติมในแต่ละประเด็นเหล่านี้
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับความถูกต้องของโครงสร้างโปรดดู Westen and Rosenthal (2003) และสำหรับข้อมูลเพิ่มเติมเกี่ยวกับการสร้างความถูกต้องในแหล่งข้อมูลขนาดใหญ่ Lazer (2015) และบทที่ 2 ของหนังสือเล่มนี้
ด้านหนึ่งของความถูกต้องภายนอกคือการตั้งค่าที่มีการทดสอบการแทรกแซง Allcott (2015) ให้การรักษาเชิงทฤษฎีและเชิงประจักษ์อย่างรอบคอบในการคัดเลือกอคติในการเลือกสถานที่ ปัญหานี้ได้รับการกล่าวถึงโดย Deaton (2010) อีกด้านของความถูกต้องภายนอกคือการดำเนินการทางเลือกของการแทรกแซงเดียวกันจะมีผลเช่นเดียวกัน ในกรณีนี้การเปรียบเทียบระหว่าง Schultz et al. (2007) และ Allcott (2011) แสดงให้เห็นว่าการทดลองของ Opower มีผลการรักษาโดยประมาณน้อยกว่าการทดลองเดิมของ Schultz และเพื่อนร่วมงาน (1.7% เมื่อเทียบกับ 5%) Allcott (2011) สันนิษฐานว่าการทดลองติดตามมีผลน้อยลงเนื่องจากวิธีการที่การรักษาต่างกัน: อีโมติคอนที่เขียนด้วยลายมือเป็นส่วนหนึ่งของการศึกษาที่ได้รับการสนับสนุนจากมหาวิทยาลัยเมื่อเทียบกับ emoticon พิมพ์เป็นส่วนหนึ่งของมวลผลิต รายงานจาก บริษัท พลังงาน
สำหรับภาพรวมที่ยอดเยี่ยมของความหลากหลายของผลการรักษาในการทดลองภาคสนามดูบทที่ 12 ของ Gerber and Green (2012) สำหรับการแนะนำความหลากหลายของผลการรักษาในการทดลองทางการแพทย์ให้ดูที่ Kent and Hayward (2007) , Longford (1999) และ Kravitz, Duan, and Braslow (2004) ข้อพิจารณาเกี่ยวกับความไม่สม่ำเสมอของผลการรักษามักมุ่งเน้นไปที่ความแตกต่างตามลักษณะก่อนการรักษา หากคุณสนใจในความหลากหลายตามผลลัพธ์หลังการรักษาก็จำเป็นต้องใช้วิธีการที่ซับซ้อนมากขึ้นเช่นการแบ่งกลุ่มหลัก (Frangakis and Rubin 2002) ; ดู Page et al. (2015) เพื่อรับการตรวจทาน
นักวิจัยหลายคนคาดการณ์ความไม่สม่ำเสมอของผลการรักษาโดยใช้การถดถอยเชิงเส้น แต่วิธีการใหม่ ๆ ขึ้นอยู่กับการเรียนรู้ด้วยเครื่อง ดูตัวอย่างเช่น Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) และ Athey and Imbens (2016a)
มีปัญหาเกี่ยวกับการค้นพบความหลากหลายของผลกระทบเนื่องจากปัญหาการเปรียบเทียบหลายครั้งและ "การตกปลา" มีวิธีการทางสถิติที่หลากหลายซึ่งสามารถช่วยแก้ปัญหาความกังวลเกี่ยวกับการเปรียบเทียบได้หลายแบบ (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) วิธีหนึ่งที่เกี่ยวกับ "การประมง" คือการลงทะเบียนล่วงหน้าซึ่งกำลังเป็นที่นิยมมากขึ้นในด้านจิตวิทยา (Nosek and Lakens 2014) , วิทยาศาสตร์ทางการเมือง (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , และเศรษฐศาสตร์ (Olken 2015)
ในการศึกษาโดย Costa and Kahn (2013) มีเพียงประมาณครึ่งหนึ่งของครัวเรือนในการทดลองเท่านั้นที่สามารถเชื่อมโยงกับข้อมูลประชากรได้ ผู้อ่านที่สนใจในรายละเอียดเหล่านี้ควรอ้างอิงจากเอกสารต้นฉบับ
กลไกต่าง ๆ มีความสำคัญอย่างมาก แต่ก็ยากที่จะศึกษา การวิจัยเกี่ยวกับกลไกต่างๆเกี่ยวข้องกับการศึกษาผู้ไกล่เกลี่ยในด้านจิตวิทยา (แต่ดู VanderWeele (2009) เพื่อเปรียบเทียบความแตกต่างระหว่างสองแนวคิดนี้) วิธีการทางสถิติในการหากลไกเช่นวิธีที่พัฒนาขึ้นใน Baron and Kenny (1986) เป็นเรื่องปกติธรรมดา อย่างไรก็ตามน่าเสียดายที่ขั้นตอนเหล่านี้ขึ้นอยู่กับสมมติฐานที่แข็งแกร่ง (Bullock, Green, and Ha 2010) และประสบปัญหาเมื่อมีกลไกหลายอย่างที่คาดไว้ในหลาย ๆ สถานการณ์ (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) Imai et al. (2011) และ Imai and Yamamoto (2013) เสนอวิธีทางสถิติที่ดีขึ้น นอกจากนี้ VanderWeele (2015) ยังเสนอการรักษาด้วยหนังสือเป็นเวลานานด้วยผลลัพธ์ที่สำคัญจำนวนมากรวมถึงแนวทางที่ครอบคลุมในการวิเคราะห์ความไว
วิธีการแยกต่างหากมุ่งเน้นไปที่การทดลองที่พยายามจะจัดการกับกลไกโดยตรง (เช่นการให้ลูกเรือวิตามินซี) แต่น่าเสียดายที่ในการตั้งค่าทางสังคมศาสตร์จำนวนมากมักมีกลไกหลายอย่างและยากที่จะออกแบบวิธีการรักษาที่สามารถเปลี่ยนแปลงได้โดยไม่ต้องเปลี่ยนวิธีการอื่น ๆ วิธีการบางอย่างในการปรับเปลี่ยนกลไกการทดลองได้อธิบายโดย Imai, Tingley, and Yamamoto (2013) Ludwig, Kling, and Mullainathan (2011) และ Pirlott and MacKinnon (2016)
นักวิจัยที่ใช้การทดสอบ factorial อย่างเต็มที่จะต้องกังวลเกี่ยวกับการทดสอบสมมติฐานหลายข้อ ดูข้อมูลเพิ่มเติมที่ Fink, McConnell, and Vollmer (2014) และ List, Shaikh, and Xu (2016)
สุดท้ายกลไกยังมีประวัติอันยาวนานในปรัชญาวิทยาศาสตร์ตามที่ Hedström and Ylikoski (2010) อธิบายไว้
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้การศึกษาเกี่ยวกับการติดต่อและการศึกษาด้านการตรวจสอบเพื่อวัดการเลือกปฏิบัติโปรดดูที่ Pager (2007)
วิธีที่พบมากที่สุดในการรับสมัครผู้เข้าร่วมการทดลองที่คุณสร้างคือ Amazon Mechanical Turk (MTurk) เนื่องจาก MTurk เลียนแบบแง่มุมของการทดลองในห้องปฏิบัติการโดยจ่ายเงินให้กับงานที่พวกเขาไม่ได้ทำเพื่อนักวิจัยอิสระจำนวนมากได้เริ่มใช้ Turkers (คนงานใน MTurk) เป็นผู้เข้าร่วมการทดลองแล้วส่งผลให้มีการรวบรวมข้อมูลที่รวดเร็วและถูกกว่าที่สามารถทำได้ ในการทดลองในห้องทดลองในมหาวิทยาลัย (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012)
โดยทั่วไปข้อได้เปรียบที่ใหญ่ที่สุดในการใช้ผู้เข้าร่วมที่ได้รับคัดเลือกจาก MTurk คือโลจิสติกส์ ในขณะที่การทดลองในห้องปฏิบัติการสามารถใช้เวลาหลายสัปดาห์ในการทำงานและการทดสอบภาคสนามอาจใช้เวลาหลายเดือนในการตั้งค่าการทดลองกับผู้เข้าร่วมที่คัดเลือกจาก MTurk อาจทำงานได้หลายวัน ตัวอย่างเช่น Berinsky, Huber, and Lenz (2012) สามารถรับ 400 คนในหนึ่งวันเพื่อเข้าร่วมการทดลอง 8 นาที นอกจากนี้ผู้เข้าร่วมเหล่านี้สามารถคัดเลือกมาเพื่อวัตถุประสงค์ใด ๆ (รวมถึงการสำรวจและการทำงานร่วมกันตามที่กล่าวไว้ในบทที่ 3 และ 5) ความง่ายในการสรรหาบุคลากรนี้หมายความว่านักวิจัยสามารถเรียกใช้ลำดับการทดลองที่เกี่ยวข้องได้อย่างต่อเนื่อง
ก่อนที่จะสรรหาผู้เข้าร่วมจาก MTurk เพื่อการทดลองของคุณเองมีสี่สิ่งสำคัญที่คุณต้องรู้ ประการแรกนักวิจัยหลายคนมีความสงสัยในการทดลองที่เกี่ยวข้องกับเติร์กเมอร์ เนื่องจากความสงสัยนี้ไม่เฉพาะเจาะจงเป็นการยากที่จะโต้แย้งกับหลักฐาน อย่างไรก็ตามหลังจากหลายปีของการศึกษาโดยใช้ Turkers ตอนนี้เราสามารถสรุปได้ว่าแนวคิดเรื่องนี้ไม่เป็นที่ชอบธรรมโดยเฉพาะ มีการศึกษาจำนวนมากเปรียบเทียบประชากรของชาวเตอร์กกับประชากรอื่น ๆ และการศึกษาจำนวนมากเปรียบเทียบผลของการทดลองกับ Turkers ปัญญาที่มาจากประชากรอื่น ๆ จากงานทั้งหมดนี้ผมคิดว่าวิธีที่ดีที่สุดสำหรับคุณในการคิดเกี่ยวกับเรื่องนี้ก็คือชาวเติร์กเตอร์เป็นตัวอย่างที่สะดวกสบายเหมือนนักศึกษา แต่มีความหลากหลายมากขึ้นเล็กน้อย (Berinsky, Huber, and Lenz 2012) ดังนั้นเช่นเดียวกับนักเรียนเป็นประชากรที่เหมาะสมสำหรับบางคน แต่ไม่ทั้งหมดการวิจัย Turkers เป็นประชากรที่เหมาะสมสำหรับบางคน แต่ไม่ทั้งหมดการวิจัย หากคุณกำลังจะไปทำงานกับชาวเติร์กเมอร์แล้วการอ่านเปรียบเทียบการศึกษาจำนวนมากเหล่านี้และเข้าใจความแตกต่างของพวกเขาเป็นเรื่องที่เหมาะสม
ประการที่สองนักวิจัยได้พัฒนาแนวทางปฏิบัติที่ดีที่สุดเพื่อเพิ่มความถูกต้องภายในของการทดลอง MTurk และคุณควรเรียนรู้และปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดเหล่านี้ (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) ตัวอย่างเช่นนักวิจัยที่ใช้ Turkers ควรใช้ Screeners เพื่อลบผู้เข้าร่วมที่ไม่ตั้งใจ (Berinsky, Margolis, and Sances 2014, 2016) (แต่ดู DJ Hauser and Schwarz (2015b) และ DJ Hauser and Schwarz (2015a) ) ถ้าคุณไม่ลบผู้เข้าร่วมไม่ตั้งใจผลของการบำบัดสามารถล้างออกด้วยเสียงที่พวกเขาแนะนำและในทางปฏิบัติจำนวนของผู้เข้าร่วมไม่ตั้งใจสามารถเป็นรูปธรรม ในการทดลองโดย Huber และเพื่อนร่วมงาน (2012) ประมาณ 30% ของผู้เข้าร่วมไม่สามารถคัดกรองพื้นฐานได้ ปัญหาอื่น ๆ ที่มักเกิดขึ้นเมื่อใช้ Turkers เป็นผู้เข้าร่วมที่ไม่ได้ไร้เดียงสา (Chandler et al. 2015) และการขัดสี (Zhou and Fishbach 2016)
ประการที่สามเมื่อเทียบกับรูปแบบอื่น ๆ ของการทดลองระบบดิจิทัลการทดลองของ MTurk ไม่สามารถวัดได้ Stewart et al. (2015) คาดการณ์ว่าในเวลาใดก็ตามที่มีอยู่ประมาณ 7,000 คนใน MTurk
สุดท้ายคุณควรรู้ว่า MTurk เป็นชุมชนที่มีกฎและบรรทัดฐาน (Mason and Suri 2012) เช่นเดียวกับที่คุณจะพยายามหาข้อมูลเกี่ยวกับวัฒนธรรมของประเทศที่คุณกำลังจะไปทำการทดลองของคุณคุณควรพยายามหาข้อมูลเพิ่มเติมเกี่ยวกับวัฒนธรรมและบรรทัดฐานของชาวเติร์กเตอร์ (Salehi et al. 2015) และคุณควรทราบว่าชาวเติร์กเมอร์จะพูดถึงการทดสอบของคุณหากคุณทำสิ่งที่ไม่เหมาะสมหรือผิดจรรยาบรรณ (Gray et al. 2016)
MTurk เป็นวิธีที่สะดวกอย่างเหลือเชื่อในการรับสมัครผู้เข้าร่วมการทดลองของคุณไม่ว่าจะเป็นห้องปฏิบัติการเช่น Huber, Hill, and Lenz (2012) หรือมากกว่าฟิลด์เช่น Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) และ Mao et al. (2016)
หากคุณคิดจะพยายามสร้างผลิตภัณฑ์ของตนเองเราขอแนะนำให้คุณอ่านคำแนะนำจากกลุ่ม MovieLens ใน Harper and Konstan (2015) ความเข้าใจที่สำคัญจากประสบการณ์ของพวกเขาคือการที่แต่ละโครงการประสบความสำเร็จมีหลายความล้มเหลวจำนวนมาก ตัวอย่างเช่นกลุ่ม MovieLens เปิดตัวผลิตภัณฑ์อื่น ๆ เช่น GopherAnswers ซึ่งเป็นความล้มเหลวที่สมบูรณ์ (Harper and Konstan 2015) อีกตัวอย่างหนึ่งของนักวิจัยที่ล้มเหลวในขณะพยายามสร้างผลิตภัณฑ์คือความพยายามของ Edward Castronova ในการสร้างเกมออนไลน์ที่เรียกว่า Arden แม้จะมีการระดมทุน 250,000 ดอลลาร์โครงการนี้ก็เป็นความล้มเหลว (Baker 2008) โครงการเช่น GopherAnswers และ Arden เป็นที่น่าเสียดายมากกว่าปกติเช่นโครงการ MovieLens
ฉันเคยได้ยินแนวคิดเกี่ยวกับ Quadrant ของ Pasteur ที่ได้รับการกล่าวถึงเป็นประจำใน บริษัท ด้านเทคโนโลยีและช่วยจัดระเบียบงานวิจัยที่ Google (Spector, Norvig, and Petrov 2012)
การศึกษาพันธบัตรและเพื่อนร่วมงาน (2012) ยังพยายามที่จะตรวจสอบผลของการรักษาเหล่านี้ต่อเพื่อนของบรรดาผู้ที่ได้รับพวกเขา เนื่องจากการออกแบบของการทดสอบนี้ spillovers เหล่านี้เป็นเรื่องยากที่จะตรวจสอบได้อย่างหมดจด; ผู้อ่านที่สนใจควรจะเห็น Bond et al. (2012) สำหรับการอภิปรายอย่างละเอียดมากขึ้น Jones และเพื่อนร่วมงาน (2017) ยังได้ทำการทดลองที่คล้ายกันมากในช่วงการเลือกตั้งในปี 2012 การทดลองเหล่านี้เป็นส่วนหนึ่งของประเพณีการทดลองทางวิทยาศาสตร์ทางวิทยาศาสตร์ที่ยาวนานเกี่ยวกับความพยายามในการสนับสนุนการลงคะแนน (Green and Gerber 2015) เหล่านี้ได้รับการทดลองออก - โหวตเป็นส่วนหนึ่งเพราะพวกเขาอยู่ใน Pasteur 's Quadrant นั่นคือมีหลายคนที่มีแรงจูงใจในการเพิ่มการลงคะแนนและการออกเสียงลงคะแนนอาจเป็นพฤติกรรมที่น่าสนใจในการทดสอบทฤษฎีทั่วไปเกี่ยวกับการเปลี่ยนแปลงพฤติกรรมและอิทธิพลทางสังคม
สำหรับคำแนะนำเกี่ยวกับการทดลองใช้ภาคสนามกับองค์กรพันธมิตรเช่นพรรคการเมืองเอ็นจีโอและธุรกิจโปรดดูที่ Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) และ Gueron (2002) สำหรับความคิดเกี่ยวกับการร่วมมือกับองค์กรต่างๆสามารถส่งผลต่อการออกแบบงานวิจัยได้อย่างไรให้ดูที่ King et al. (2007) และ Green, Calfano, and Aronow (2014) ความร่วมมือยังสามารถนำไปสู่คำถามทางจริยธรรมตามที่ Humphreys (2015) และ Nickerson and Hyde (2016) กล่าว
หากคุณกำลังสร้างแผนการวิเคราะห์ก่อนใช้งานการทดสอบของคุณเราขอแนะนำให้คุณเริ่มอ่านหลักเกณฑ์การรายงาน แนวทาง CONSORT (การรายงานมาตรฐานของการทดลองใช้) ได้รับการพัฒนาขึ้นในด้านการแพทย์ (Schulz et al. 2010) และแก้ไขเพื่อการวิจัยทางสังคม (Mayo-Wilson et al. 2013) ชุดคำแนะนำที่เกี่ยวข้องได้รับการพัฒนาโดยบรรณาธิการของ Journal of Experimental Political Science (Gerber et al. 2014) (ดู Mutz and Pemantle (2015) และ Gerber et al. (2015) ) ในที่สุดแนวทางการรายงานได้รับการพัฒนาขึ้นในด้านจิตวิทยา (APA Working Group 2008) รวมถึง Simmons, Nelson, and Simonsohn (2011)
หากคุณสร้างแผนการวิเคราะห์คุณควรพิจารณาการลงทะเบียนล่วงหน้าเนื่องจากการลงทะเบียนล่วงหน้าจะช่วยเพิ่มความมั่นใจให้กับผู้อื่นในผลลัพธ์ของคุณ นอกจากนี้หากคุณกำลังทำงานร่วมกับคู่ค้าก็จะจำกัดความสามารถในการเปลี่ยนการวิเคราะห์หลังจากที่ได้เห็นผลลัพธ์แล้ว การลงทะเบียนล่วงหน้ากลายเป็นเรื่องปกติธรรมดาในด้านจิตวิทยา (Nosek and Lakens 2014) , วิทยาศาสตร์ทางการเมือง (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) และเศรษฐศาสตร์ (Olken 2015)
คำแนะนำในการออกแบบสำหรับการทดลองภาคสนามออนไลน์ยังมีการนำเสนอใน Konstan and Chen (2007) และ Chen and Konstan (2015)
สิ่งที่ฉันเรียกว่ายุทธศาสตร์ของกองเรือรบคือบางครั้งเรียกว่า การเขียนโปรแกรม (programmatic research ) เห็น Wilson, Aronson, and Carlsmith (2010)
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการทดลอง MusicLab โปรดดูที่ Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) และ Salganik (2007) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตลาดที่ผู้ชนะรับไปทั้งหมดดู Frank and Cook (1996) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการคลี่คลายความโชคดีและทักษะโดยทั่วไปดู Mauboussin (2012) , Watts (2012) และ Frank (2016)
มีแนวทางอื่นในการขจัดการชำระเงินของผู้เข้าร่วมซึ่งนักวิจัยควรใช้ด้วยความระมัดระวัง: การเกณฑ์ทหาร ในการทดลองภาคสนามจำนวนมากผู้เข้าร่วมโครงการจะถูกร่างเข้าสู่การทดลองและไม่เคยได้รับการชดเชย ตัวอย่างของวิธีการนี้ ได้แก่ การทดลองของ Restivo and van de Rijt (2012) เกี่ยวกับรางวัลในวิกิพีเดียและพันธบัตรและการทดสอบของเพื่อนร่วมงาน (2012) ในการส่งเสริมให้คนลงคะแนน การทดลองเหล่านี้ไม่ได้มีค่าตัวแปรเป็นศูนย์เท่า แต่ก็มีค่าใช้จ่ายเป็นศูนย์ สำหรับนักวิจัย ในการทดลองดังกล่าวแม้ว่าค่าใช้จ่ายสำหรับผู้เข้าร่วมแต่ละรายจะมีขนาดเล็กมาก แต่ค่าใช้จ่ายรวมก็จะค่อนข้างใหญ่ นักวิจัยที่ดำเนินการทดลองออนไลน์จำนวนมากมักจะให้เหตุผลถึงความสำคัญของผลการรักษาโดยประมาณโดยบอกว่าผลกระทบเล็ก ๆ เหล่านี้จะมีความสำคัญเมื่อใช้กับคนจำนวนมาก ความคิดเดียวกันนี้ใช้กับค่าใช้จ่ายที่นักวิจัยกำหนดให้กับผู้เข้าอบรม หากการทดสอบของคุณทำให้คนหนึ่งล้านคนเสียเวลาหนึ่งนาทีการทดสอบจะไม่เป็นอันตรายกับบุคคลใดบุคคลหนึ่ง แต่โดยรวมแล้วเสียเวลาเกือบสองปี
อีกวิธีหนึ่งในการสร้างการชำระเงินค่าใช้จ่ายผันแปรให้กับผู้เข้าร่วมศูนย์คือการใช้วิธีจับสลากวิธีการที่ใช้ในการวิจัยเชิงสำรวจ (Halpern et al. 2011) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการออกแบบประสบการณ์การใช้งานที่สนุกสนานให้ดูที่ Toomim et al. (2011) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้บอทเพื่อสร้างการทดลองต้นทุนผันแปรเป็นศูนย์ดูที่ ( ??? )
สาม R ของที่เสนอโดย Russell and Burch (1959) มีดังนี้:
"หมายความว่าการเปลี่ยนทดแทนสำหรับที่อยู่อาศัยที่ใส่ใจสัตว์ที่สูงขึ้นของวัสดุ insentient ลดลงหมายถึงการลดในจำนวนของสัตว์ที่ใช้ในการได้รับข้อมูลของจำนวนที่กำหนดและความแม่นยำ โสรัจจะหมายถึงการลดลงของใด ๆ ในอุบัติการณ์หรือความรุนแรงของขั้นตอนการปฏิบัติที่ไร้มนุษยธรรมนำไปใช้กับสัตว์เหล่านั้นซึ่งยังคงต้องนำมาใช้. "
ทั้งสามข้อที่ฉันเสนอไม่ได้แทนที่หลักจริยธรรมที่อธิบายไว้ในบทที่ 6 แต่ก็เป็นแบบจำลองที่ละเอียดมากขึ้นซึ่งเป็นหนึ่งในหลักการเหล่านี้ซึ่งเป็นประโยชน์โดยเฉพาะในการตั้งค่าการทดลองของมนุษย์
ในแง่ของ R ("ทดแทน") เป็นครั้งแรกการเปรียบเทียบการทดสอบการติดเชื้ออารมณ์ (Kramer, Guillory, and Hancock 2014) และการทดสอบทางธรรมชาติที่เกิดจากการติดเชื้อทางอารมณ์ (Lorenzo Coviello et al. 2014) นำเสนอบทเรียนทั่วไปเกี่ยวกับการค้าที่ไม่เกี่ยวข้อง ในการย้ายจากการทดลองไปสู่การทดลองตามธรรมชาติ (และวิธีอื่น ๆ เช่นการจับคู่ที่พยายามทดลองโดยประมาณในข้อมูลที่ไม่ใช่ข้อมูลทดลองดูในบทที่ 2) นอกจากผลประโยชน์ด้านจริยธรรมแล้วการเปลี่ยนจากการทดลองไปเป็นการทดลองยังช่วยให้นักวิจัยสามารถศึกษาวิธีการรักษาที่ไม่สามารถนำไปใช้ในทางลอจิสติกได้ ผลประโยชน์ด้านจริยธรรมและการขนส่งเหล่านี้มาเสีย แต่ ด้วยการทดลองแบบธรรมชาตินักวิจัยมีการควบคุมน้อยกว่าสิ่งต่างๆเช่นการรับสมัครผู้เข้าร่วมการสุ่มเลือกและลักษณะของการรักษา ตัวอย่างเช่นข้อ จำกัด ของปริมาณน้ำฝนที่ใช้ในการรักษาคือการเพิ่มความเป็นบวกและลดการปฏิเสธ อย่างไรก็ตามในการศึกษาทดลอง Kramer และเพื่อนร่วมงานสามารถปรับความเป็นบวกและลบได้อย่างอิสระ วิธีการเฉพาะที่ใช้โดย Lorenzo Coviello et al. (2014) ได้ถูกจัดทำขึ้นโดย L. Coviello, Fowler, and Franceschetti (2014) สำหรับการแนะนำตัวแปรเครื่องมือซึ่งเป็นแนวทางที่ใช้โดย Lorenzo Coviello et al. (2014) ดู Angrist and Pischke (2009) (ไม่เป็นทางการ) หรือ Angrist, Imbens, and Rubin (1996) (เป็นทางการมากขึ้น) สำหรับการประเมินความเชื่อของตัวแปรที่เป็นประโยชน์ดู Deaton (2010) และการแนะนำตัวแปรที่มีประโยชน์กับเครื่องมือที่อ่อนแอ (ฝนเป็นเครื่องมือที่อ่อนแอ) ให้ดู Murray (2006) โดยทั่วไปการแนะนำที่ดีสำหรับการทดลองตามธรรมชาติจะได้รับจาก Dunning (2012) ในขณะที่ Rosenbaum (2002) , ( ??? ) และ Shadish, Cook, and Campbell (2001) เสนอแนวคิดที่ดีเกี่ยวกับการประเมินผลกระทบเชิงสาเหตุโดยไม่มีการทดลอง
ในแง่ของ R ("การปรับแต่ง") ครั้งที่สองมีการเปลี่ยนแปลงทางวิทยาศาสตร์และโลจิสติกส์เมื่อพิจารณาการเปลี่ยนแปลงการออกแบบการติดต่อทางอารมณ์จากการบล็อกโพสต์เพื่อเพิ่มตำแหน่ง ตัวอย่างเช่นอาจเป็นไปได้ว่าการดำเนินการด้านเทคนิคของฟีดข่าวทำให้การทดสอบที่โพสต์ถูกปิดกั้นมากกว่าการที่โพสต์ถูกบล็อกอย่างง่ายยิ่งขึ้น (โปรดสังเกตว่าอาจมีการดำเนินการทดสอบเกี่ยวกับการบล็อกโพสต์ เป็นชั้นบนสุดของระบบ News Feed โดยไม่จำเป็นต้องปรับเปลี่ยนระบบต้นทาง) อย่างไรก็ตามทางวิทยาศาสตร์ทฤษฎีที่กล่าวถึงในการทดลองนี้ไม่ได้บ่งชี้ถึงการออกแบบใด ๆ เหนือสิ่งอื่นใด น่าเสียดายที่ฉันไม่ได้รับทราบถึงการวิจัยก่อนหน้านี้อย่างมากเกี่ยวกับข้อดีของการปิดกั้นและการส่งเสริมเนื้อหาในฟีดข่าว นอกจากนี้ฉันยังไม่ได้เห็นการวิจัยมากเกี่ยวกับการบำบัดรักษาเพื่อให้พวกเขาเป็นอันตรายน้อยกว่า; ข้อยกเว้นประการหนึ่งคือ B. Jones and Feamster (2015) ซึ่งพิจารณากรณีการวัดการเซ็นเซอร์อินเทอร์เน็ต (หัวข้อที่ฉันพูดถึงในบทที่ 6 เกี่ยวกับการศึกษา Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) )
ในแง่ของการที่สาม R ("ลด") การแนะนำที่ดีในการวิเคราะห์พลังงานแบบดั้งเดิมจะได้รับจาก Cohen (1988) (book) และ Cohen (1992) (article) ในขณะที่ Gelman and Carlin (2014) มีมุมมองที่แตกต่างกันเล็กน้อย การแปรปรวนร่วมล่วงหน้าสามารถรวมอยู่ในขั้นตอนการออกแบบและการวิเคราะห์ของการทดลอง บทที่ 4 ของ Gerber and Green (2012) ให้คำแนะนำที่ดีสำหรับทั้งสองวิธีและ Casella (2008) ให้การรักษาในเชิงลึกมากขึ้น เทคนิคที่ใช้ข้อมูลก่อนการรักษาในการสุ่มตัวอย่างนี้มักเรียกว่าการออกแบบการทดลองที่ถูกบล็อคหรือการออกแบบเชิงทดลองแบบแบ่งชั้น (คำศัพท์ไม่ได้ใช้กันอย่างแพร่หลายในชุมชน) เทคนิคเหล่านี้เกี่ยวข้องกับเทคนิคการสุ่มตัวอย่างแบบแบ่งชั้นซึ่งกล่าวถึงในบทที่ 3 ดู Higgins, Sävje, and Sekhon (2016) สำหรับการใช้แบบนี้ในการทดลองขนาดใหญ่ สามารถรวมตัวแปรร่วมพื้นฐานก่อนการรักษาได้ในขั้นตอนการวิเคราะห์ McKenzie (2012) สำรวจวิธีการที่แตกต่างกันในการวิเคราะห์การทดลองภาคสนามอย่างละเอียดมากขึ้น ดู Carneiro, Lee, and Wilhelm (2016) เพื่อหาแนวทางในการลดความแตกต่างระหว่างวิธีการต่างๆเพื่อเพิ่มความแม่นยำในการประมาณผลการรักษา สุดท้ายเมื่อพิจารณาว่าจะพยายามรวมตัวแปรร่วมกันก่อนการรักษาในขั้นตอนการออกแบบหรือการวิเคราะห์ (หรือทั้งสองอย่าง) มีปัจจัยบางประการที่ต้องพิจารณา ในการตั้งค่าที่นักวิจัยต้องการแสดงให้เห็นว่าไม่ใช่ "การประมง" (Humphreys, Sierra, and Windt 2013) ใช้ตัวแปรร่วมกันก่อนการรักษาในขั้นตอนการออกแบบจะเป็นประโยชน์ (Higgins, Sävje, and Sekhon 2016) ในกรณีที่ผู้เข้าอบรมประสบความสำเร็จโดยเฉพาะการทดลองภาคสนามโดยการใช้ข้อมูลก่อนการรักษาในขั้นตอนการออกแบบอาจเป็นเรื่องยากในทางลอจิสติก ดูตัวอย่างเช่น Xie and Aurisset (2016)
เป็นมูลค่าเพิ่มเล็กน้อยของปรีชาญาณเกี่ยวกับสาเหตุที่วิธีการแตกต่างในความแตกต่างได้มากมีประสิทธิภาพมากกว่าแตกต่างในหมายหนึ่ง ผลลัพธ์ออนไลน์จำนวนมากมีความแปรปรวนที่สูงมาก (ดูตัวอย่าง RA Lewis and Rao (2015) และ Lamb et al. (2015) ) และค่อนข้างมีเสถียรภาพเมื่อเวลาผ่านไป ในกรณีนี้คะแนนการเปลี่ยนแปลงจะมีความแปรปรวนน้อยมากเพิ่มพลังของการทดสอบทางสถิติ เหตุผลหนึ่งที่ไม่ได้ใช้วิธีนี้บ่อยๆก็คือก่อนยุคดิจิทัลจะไม่มีผลก่อนการรักษา วิธีที่เป็นรูปธรรมมากขึ้นในการคิดเกี่ยวกับเรื่องนี้คือการจินตนาการถึงการทดลองเพื่อวัดว่าการออกกำลังกายที่เฉพาะเจาะจงทำให้น้ำหนักลดลงหรือไม่ หากคุณใช้วิธีการที่แตกต่างกันหมายความว่าค่าประมาณของคุณจะมีความแปรปรวนที่เกิดขึ้นจากความแปรปรวนของน้ำหนักในประชากร ถ้าคุณทำวิธีแตกต่างกันในความแตกต่างกันจะเกิดการผันแปรของน้ำหนักที่เกิดขึ้นตามธรรมชาติและคุณสามารถตรวจพบความแตกต่างที่เกิดจากการรักษาได้ง่ายขึ้น
สุดท้ายฉันคิดเพิ่มอันดับที่สี่: "repurpose" นั่นคือถ้านักวิจัยพบว่าตัวเองมีข้อมูลการทดลองมากกว่าที่พวกเขาต้องการเพื่อตอบคำถามการวิจัยเดิมของพวกเขาพวกเขาควรจะนำข้อมูลมาใช้ใหม่เพื่อตั้งคำถามใหม่ ๆ ตัวอย่างเช่นสมมติว่า Kramer และเพื่อนร่วมงานใช้ตัวประมาณค่าความแตกต่างในความแตกต่างและพบว่าตัวเองมีข้อมูลมากกว่าที่ต้องการเพื่อตอบคำถามการวิจัยของตน แทนที่จะใช้ข้อมูลไม่มากนักพวกเขาอาจศึกษาขนาดของผลกระทบที่เกิดจากการแสดงออกทางอารมณ์ก่อนการรักษา เช่นเดียวกับ Schultz et al. (2007) พบว่าผลของการรักษานั้นแตกต่างกันสำหรับผู้ใช้ที่มีน้ำหนักเบาและหนักอาจมีผลต่อฟีดข่าวที่แตกต่างกันสำหรับผู้ที่มีแนวโน้มจะโพสต์ข้อความที่มีความสุข (หรือเศร้า) การทำ Repurposing อาจนำไปสู่ "fishing" (Humphreys, Sierra, and Windt 2013) และ "p-hacking" (Simmons, Nelson, and Simonsohn 2011) แต่เหล่านี้ส่วนใหญ่เป็นที่ตั้งของรายงานที่ซื่อสัตย์ (Simmons, Nelson, and Simonsohn 2011) , การลงทะเบียนล่วงหน้า (Humphreys, Sierra, and Windt 2013) และวิธีการเรียนรู้ด้วยเครื่องซึ่งพยายามหลีกเลี่ยงการติดตั้ง