4.6.2 แทนที่สินค้าที่นี่และลด

ทำให้การทดสอบของคุณมีมนุษยธรรมมากขึ้นโดยการเปลี่ยนการทดลองกับการศึกษาไม่ใช่การทดลองปรับแต่งการรักษาและการลดจำนวนของผู้เข้าร่วม

ชิ้นที่สองของคำแนะนำที่ผมอยากจะนำเสนอเกี่ยวกับการออกแบบการทดลองดิจิตอลกังวลจริยธรรม ในฐานะที่เป็น Restivo และฟานเดอทดลอง Rijt บน barnstars วิกิพีเดียในการแสดงค่าใช้จ่ายลดลงหมายความว่าจริยธรรมจะกลายเป็นส่วนสำคัญมากขึ้นของการออกแบบการวิจัย นอกจากนี้ยังมีกรอบจริยธรรมแนวทางการวิจัยวิชามนุษย์ที่ผมจะอธิบายในบทที่ 6 นักวิจัยออกแบบการทดลองดิจิตอลยังสามารถวาดบนความคิดทางจริยธรรมจากแหล่งที่แตกต่างกัน: หลักจริยธรรมเพื่อเป็นแนวทางในการพัฒนาที่เกี่ยวข้องกับสัตว์ทดลอง โดยเฉพาะอย่างยิ่งในหลักการหนังสือสถานที่สำคัญของพวกเขาจากเทคนิคการทดลองอย่างมีมนุษยธรรม Russell and Burch (1959) เสนอสามหลักการที่ควรจะเป็นแนวทางในการวิจัยสัตว์: แทนที่ปรับแต่งและลด ผมอยากจะเสนอว่าทั้งสามอาร์เอสนอกจากนี้ยังสามารถนำมาใช้ในการแก้ไขเล็กน้อยรูปแบบเพื่อเป็นแนวทางในการออกแบบการทดลองมนุษย์ โดยเฉพาะอย่างยิ่ง

  • แทนที่: แทนที่การทดลองด้วยวิธีการรุกรานน้อยถ้าเป็นไปได้
  • ปรับแต่ง: ปรับการรักษาจะทำให้มันเป็นอันตรายที่สุดเท่าที่ทำได้
  • ลด: ลดจำนวนผู้เข้าร่วมในการทดสอบมากที่สุดเท่าที่เป็นไปได้

เพื่อที่จะทำให้เป็นรูปธรรมทั้งสาม R และแสดงให้เห็นว่าพวกเขาอาจจะนำไปสู่​​การออกแบบการทดลองที่ดีขึ้นและมีมนุษยธรรมมากขึ้นผมจะอธิบายการทดลองภาคสนามออนไลน์ที่สร้างจริยธรรม แล้วฉันจะอธิบายวิธีที่สามอาร์แนะนำการเปลี่ยนแปลงที่เป็นรูปธรรมและการปฏิบัติเพื่อการออกแบบการทดลอง

หนึ่งในการถกเถียงกันมากที่สุดมีจริยธรรมทดลองดิจิตอลคือ "อารมณ์ Contagion" ซึ่งได้ดำเนินการโดยอดัมเครเมอเจมี่ Gillroy และเจฟฟรีย์แฮนค็อก (2014) การทดลองที่เกิดขึ้นบน Facebook และได้รับแรงบันดาลใจจากการผสมผสานของคำถามทางวิทยาศาสตร์และการปฏิบัติ ในขณะที่วิธีการที่โดดเด่นที่ผู้ใช้โต้ตอบกับ Facebook เป็นฟีดข่าว, ชุด curated อัลกอริทึมของ Facebook ปรับปรุงสถานะจากเพื่อนใน Facebook ของผู้ใช้ นักวิจารณ์บางคนของ Facebook ได้แนะนำว่าเป็นเพราะฟีดข่าวมีการโพสต์ส่วนใหญ่เป็นบวกเพื่อนแสดงปิดล่า​​สุดของพวกเขาบุคคลก็อาจทำให้ผู้ใช้รู้สึกเสียใจเพราะชีวิตของพวกเขาดูเหมือนน่าตื่นเต้นน้อยลงเมื่อเทียบ ในทางกลับกันอาจจะมีผลเป็นตรงข้าม; อาจจะได้เห็นเพื่อนของคุณมีช่วงเวลาที่ดีจะทำให้คุณรู้สึกมีความสุข? เพื่อที่อยู่เหล่านี้แข่งขันสมมติฐานและจะก้าวไปสู่​​ความเข้าใจในวิธีอารมณ์ของคนที่ได้รับผลกระทบโดยเพื่อน ๆ ของเธอ 'ของเราอารมณ์ Kramer และเพื่อนร่วมงานวิ่งการทดลอง นักวิจัยได้วางไว้ประมาณ 700,000 ผู้ใช้เป็นสี่กลุ่มหนึ่งสัปดาห์: "การปฏิเสธที่ลดลง" กลุ่มสำหรับผู้ที่โพสต์ด้วยคำพูดเชิงลบ (เช่นเศร้า) ถูกปิดกั้นโดยการสุ่มจากปรากฏฟีดข่าว; เป็น "บวกลดลง" กลุ่มสำหรับผู้ที่โพสต์ด้วยคำพูดในเชิงบวก (เช่นมีความสุข) ถูกบล็อกแบบสุ่ม และทั้งสองกลุ่มควบคุม ในกลุ่มควบคุมสำหรับการ "ปฏิเสธลดลง" กลุ่มโพสต์ถูกบล็อกสุ่มในอัตราเดียวกันเป็น "ปฏิเสธลดลง" แต่กลุ่มโดยไม่คำนึงถึงเนื้อหาทางอารมณ์ กลุ่มควบคุมสำหรับ "positivity ลดลง" เป็นกลุ่มที่สร้างขึ้นในแบบคู่ขนาน การออกแบบการทดลองนี้แสดงให้เห็นว่ากลุ่มควบคุมที่เหมาะสมไม่ได้เสมอหนึ่งโดยไม่มีการเปลี่ยนแปลง แต่บางครั้งกลุ่มควบคุมที่ได้รับการรักษาเพื่อสร้างการเปรียบเทียบได้อย่างแม่นยำว่าคำถามการวิจัยต้อง ในทุกกรณีการโพสต์ที่ถูกปิดกั้นจากฟีดข่าวก็ยังคงใช้ได้กับผู้ใช้ผ่านส่วนอื่น ๆ ของเว็บไซต์ Facebook

เครเมอและเพื่อนร่วมงานพบว่าสำหรับผู้เข้าร่วมอยู่ในสภาพ positivity ลดลงร้อยละของคำพูดในเชิงบวกในการปรับปรุงสถานะของพวกเขาลดลงและร้อยละของคำพูดในเชิงลบที่เพิ่มขึ้น บนมืออื่น ๆ , สำหรับผู้เข้าร่วมอยู่ในสภาพที่ปฏิเสธลดลงร้อยละของคำพูดในเชิงบวกที่เพิ่มขึ้นและร้อยละของคำพูดเชิงลบลดลง (รูปที่ 4.23) อย่างไรก็ตามผลกระทบเหล่านี้มีขนาดเล็กมาก: ความแตกต่างในคำพูดเชิงบวกและลบระหว่างการรักษาและการควบคุมมีประมาณ 1 ใน 1,000 คำ

รูปที่ 4.23: หลักฐานของการติดเชื้อทางอารมณ์ (เครเมอ Guillory และแฮนค็อก 2014) ร้อยละของคำพูดในเชิงบวกและเชิงลบคำโดยสภาพการทดลอง แถบแสดงประมาณข้อผิดพลาดมาตรฐาน

รูปที่ 4.23: หลักฐานของการติดเชื้อทางอารมณ์ (Kramer, Guillory, and Hancock 2014) ร้อยละของคำพูดในเชิงบวกและเชิงลบคำโดยสภาพการทดลอง แถบแสดงประมาณข้อผิดพลาดมาตรฐาน

ฉันได้ใส่อภิปรายในแง่มุมทางวิทยาศาสตร์ของการทดลองนี้ในส่วนการอ่านเพิ่มเติมในตอนท้ายของบท แต่น่าเสียดายที่การทดลองนี้เป็นที่รู้จักกันมากที่สุดสำหรับการสร้างจริยธรรม เพียงไม่กี่วันหลังจากที่บทความนี้ถูกตีพิมพ์ในการดำเนินการของสถาบันวิทยาศาสตร์แห่งชาติมีการร้องอย่างมากจากทั้งนักวิจัยและกด ความชั่วร้ายรอบกระดาษที่มุ่งเน้นไปที่สองจุดหลักคือ 1) ผู้เข้าร่วมไม่ได้ให้ความยินยอมใด ๆ ที่เกินกว่ามาตรฐานที่ Facebook แง่ของการให้บริการสำหรับการรักษาที่บางคนคิดว่าอาจจะทำให้เกิดอันตรายต่อผู้เข้าร่วมและ 2) การศึกษาไม่ได้รับการของบุคคลที่สามจริยธรรม รีวิว (Grimmelmann 2015) คำถามจริยธรรมเติบโตในการอภิปรายครั้งนี้เกิดจากวารสารเผยแพร่ได้อย่างรวดเร็วที่หายาก "การแสดงออกของกองบรรณาธิการของความกังวล" เกี่ยวกับจริยธรรมและกระบวนการตรวจสอบจริยธรรมในการวิจัย (Verma 2014) ในปีต่อ ๆ มาทดลองยังคงเป็นแหล่งที่มาของการอภิปรายที่รุนแรงและความขัดแย้งและความขัดแย้งนี้อาจจะมีผลกระทบที่ไม่ได้ตั้งใจขับรถเข้าไปในเงาทดลองอื่น ๆ ที่มีการดำเนินการโดย บริษัท (Meyer 2014)

มีประสบการณ์มากมายเกี่ยวกับการติดเชื้อทางอารมณ์ที่ตอนนี้ผมต้องการที่จะแสดงให้เห็นว่า 3 อาร์เอสสามารถแนะนำที่เป็นรูปธรรมในการปรับปรุงการปฏิบัติสำหรับการศึกษาที่แท้จริง (สิ่งที่คุณเองอาจจะคิดเกี่ยวกับจริยธรรมของการทดลองนี้โดยเฉพาะ) ครั้งแรกที่ R คือแทนที่: นักวิจัยควรพยายามที่จะเข้ามาแทนที่การทดลองกับเทคนิคน้อยรุกรานและมีความเสี่ยงถ้าเป็นไปได้ ตัวอย่างเช่นแทนที่จะใช้การทดสอบนักวิจัยจะได้ใช้ประโยชน์จากการทดลองธรรมชาติ ตามที่อธิบายไว้ในบทที่ 2 การทดลองธรรมชาติที่มีสถานการณ์ที่สิ่งที่เกิดขึ้นในโลกที่ใกล้เคียงกับการกำหนดแบบสุ่มของการรักษา (เช่นการจับสลากในการตัดสินใจที่จะเข้าไปในร่างของทหาร) ข้อได้เปรียบของการทดลองธรรมชาติคือการที่นักวิจัยไม่ได้มีการส่งมอบการรักษา; สภาพแวดล้อมไม่ว่าสำหรับคุณ ในคำอื่น ๆ ที่มีการทดลองธรรมชาตินักวิจัยจะไม่ได้จำเป็นที่จะทดลองจัดการคนของฟีดข่าว

ในความเป็นจริงเกือบจะพร้อมกับการทดลอง Contagion อารมณ์ Coviello et al. (2014) ได้รับการใช้ประโยชน์จากสิ่งที่อาจจะเรียกว่าอารมณ์ Contagion ทดลองทางธรรมชาติ แนวทางของพวกเขาซึ่งใช้เทคนิคที่เรียกว่าตัวแปรบรรเลงเป็นบิตซับซ้อนถ้าคุณไม่เคยเห็นมันมาก่อน ดังนั้นเพื่อที่จะอธิบายว่าทำไมมันเป็นสิ่งที่จำเป็นขอสร้างขึ้นไป ความคิดแรกที่นักวิจัยบางคนอาจจะมีการศึกษาการติดเชื้อทางอารมณ์จะเปรียบเทียบข้อความของคุณในวันที่ฟีดข่าวของคุณเป็นบวกมากในการตอบกระทู้ของคุณในวันที่ฟีดข่าวของคุณเป็นเชิงลบมาก วิธีการนี​​้จะดีถ้าเป้าหมายเป็นเพียงการทำนายเนื้อหาทางอารมณ์จากการโพสของคุณ แต่วิธีนี้คือปัญหาถ้าเป้าหมายคือการศึกษาผลกระทบเชิงสาเหตุของฟีดข่าวของคุณกับบทความของคุณ จะมองปัญหาด้วยการออกแบบนี้พิจารณาวันขอบคุณพระเจ้า ในสหรัฐอเมริกามีการโพสต์ในเชิงบวกขัดขวางและโพสต์เชิงลบดิ่งในวันขอบคุณพระเจ้า ดังนั้นในวันขอบคุณพระเจ้านักวิจัยจะได้เห็นว่าฟีดข่าวของคุณเป็นบวกมากและที่คุณโพสต์สิ่งที่เป็นบวกเช่นกัน แต่โพสต์ในเชิงบวกของคุณอาจมีสาเหตุมาจากวันขอบคุณพระเจ้าไม่ได้โดยเนื้อหาของฟีดข่าวของคุณ แต่เพื่อที่จะประเมินสาเหตุนักวิจัยผลกระทบต้องการสิ่งที่มีการเปลี่ยนแปลงเนื้อหาของฟีดข่าวของคุณโดยไม่ต้องเปลี่ยนอารมณ์ของคุณโดยตรง โชคดีที่มีสิ่งที่ต้องการที่เกิดขึ้นตลอดเวลา: สภาพอากาศ

Coviello และเพื่อนร่วมงานพบว่าวันที่ฝนตกในเมืองของใครบางคนจะโดยเฉลี่ยลดสัดส่วนของโพสต์ที่เป็นบวกประมาณร้อยละ 1 จุดและเพิ่มสัดส่วนของโพสต์ที่เป็นลบประมาณ 1 จุดเปอร์เซ็นต์ จากนั้น Coviello และเพื่อนร่วมงานเอาเปรียบความเป็นจริงนี้เพื่อศึกษาการติดเชื้อทางอารมณ์โดยไม่จำเป็นต้องทดลองจัดการกับทุกคนฟีดข่าว ในสาระสำคัญสิ่งที่พวกเขาเป็นตัวชี้วัดว่าการโพสต์ของคุณได้รับผลกระทบจากสภาพอากาศในเมืองที่เพื่อนของคุณมีชีวิตอยู่ เพื่อดูว่าทำไมนี้ทำให้รู้สึกลองจินตนาการว่าคุณอาศัยอยู่ในมหานครนิวยอร์กและคุณมีเพื่อนที่อาศัยอยู่ในซีแอตเติ ตอนนี้คิดว่าวันหนึ่งก็เริ่มมีฝนในซีแอตเติ ฝนตกลงมาในซีแอตเตินี้จะไม่ส่งผลโดยตรงต่ออารมณ์ของคุณ แต่มันจะทำให้ฟีดข่าวของคุณจะน้อยบวกและลบมากขึ้นเพราะจากการโพสของเพื่อนของคุณ ดังนั้นฝนตกลงมาในซีแอตเติสุ่มปรุงแต่งฟีดข่าวของคุณ เปิดสัญชาตญาณนี้เป็นขั้นตอนทางสถิติที่เชื่อถือได้มีความซับซ้อน (และวิธีการที่แน่นอนใช้โดย Coviello และเพื่อนร่วมงานเป็นบิตที่ไม่ได้มาตรฐาน) เพื่อให้ฉันได้ใส่การอภิปรายรายละเอียดเพิ่มเติมในส่วนการอ่านเพิ่มเติม สิ่งที่สำคัญที่สุดที่จะจำเกี่ยวกับ Coviello และวิธีการของเพื่อนร่วมงานก็คือว่ามันช่วยให้พวกเขาในการศึกษาการติดเชื้อทางอารมณ์โดยไม่จำเป็นต้องเรียกใช้การทดสอบที่อาจเป็นอันตรายต่อผู้เข้าร่วมและมันอาจเป็นกรณีที่ในการตั้งค่าอื่น ๆ อีกมากมายคุณสามารถแทนที่การทดลองกับคนอื่น ๆ เทคนิค

สองใน 3 อาร์เอสเป็นสินค้าที่นี่: นักวิจัยควรพยายามที่จะปรับแต่งการรักษาของพวกเขาเพื่อที่จะทำให้เกิดอันตรายที่มีขนาดเล็กที่สุดที่เป็นไปได้ ตัวอย่างเช่นแทนที่จะปิดกั้นเนื้อหาที่เป็นทั้งบวกหรือลบนักวิจัยจะได้แรงหนุนจากเนื้อหาที่เป็นบวกหรือลบ การออกแบบการส่งเสริมจะมีการเปลี่ยนแปลงเนื้อหาทางอารมณ์ของผู้เข้าร่วมฟีดข่าว แต่ก็จะได้รับการแก้ไขอย่างใดอย่างหนึ่งของความกังวลที่นักวิจารณ์แสดง: การทดลองที่จะเกิดจากการเข้าร่วมในการพลาดข้อมูลสำคัญในฟีดข่าวของพวกเขา ด้วยการออกแบบที่ใช้โดยเครเมอและเพื่อนร่วมงานจะมีข้อความที่มีความสำคัญคือเป็นโอกาสที่จะถูกปิดกั้นเป็นหนึ่งที่ไม่ได้เป็น แต่ด้วยการออกแบบที่ส่งเสริมข้อความที่จะถูกแทนที่จะเป็นผู้ที่มีความสำคัญน้อยกว่า

สุดท้ายที่สาม R คือ Reduce: นักวิจัยควรพยายามที่จะลดจำนวนของผู้เข้าร่วมในการทดลองของพวกเขาถ้าเป็นไปได้ ในอดีตที่ผ่านมาลดลงนี้เกิดขึ้นตามธรรมชาติเพราะต้นทุนผันแปรของการทดลองแบบอะนาล็อกอยู่ในระดับสูงซึ่งได้รับการสนับสนุนการวิจัยเพื่อเพิ่มประสิทธิภาพการออกแบบและการวิเคราะห์ของพวกเขา แต่เมื่อมีศูนย์ข้อมูลต้นทุนผันแปรนักวิจัยไม่ต้องเผชิญกับข้อ จำกัด ค่าใช้จ่ายเกี่ยวกับขนาดของการทดลองของพวกเขาและนี้มีศักยภาพที่จะนำไปสู่​​การทดลองขนาดใหญ่โดยไม่จำเป็น

ยกตัวอย่างเช่นเครเมอและเพื่อนร่วมงานจะได้ใช้ข้อมูลการรักษาก่อนเกี่ยวกับผู้เข้าร่วมประชุมดังกล่าวของพวกเขาเช่นการรักษาก่อนโพสต์พฤติกรรมที่จะทำให้การวิเคราะห์ของพวกเขามีประสิทธิภาพมากขึ้น โดยเฉพาะอย่างยิ่งมากกว่าเมื่อเปรียบเทียบสัดส่วนของคำพูดในเชิงบวกในเงื่อนไขการรักษาและการควบคุมเครเมอและเพื่อนร่วมงานจะได้เมื่อเทียบกับการเปลี่ยนแปลงในสัดส่วนของคำพูดเชิงบวกระหว่างเงื่อนไข; วิธีการที่มักจะเรียกว่าความแตกต่างในความแตกต่างและที่เกี่ยวข้องอย่างใกล้ชิดกับการออกแบบผสมที่ผมอธิบายไว้ก่อนหน้าในบท (รูปที่ 4.5) นั่นคือสำหรับผู้เข้าร่วมแต่ละนักวิจัยจะได้สร้างการเปลี่ยนแปลงคะแนน (พฤติกรรมหลังการรักษา - พฤติกรรมการรักษาก่อน) แล้วเมื่อเทียบกับคะแนนของผู้เข้าร่วมการเปลี่ยนแปลงในเงื่อนไขการรักษาและการควบคุม วิธีนี้ความแตกต่างในความแตกต่างที่มีประสิทธิภาพมากขึ้นทางสถิติซึ่งหมายความว่านักวิจัยสามารถบรรลุความเชื่อมั่นทางสถิติเดียวกันโดยใช้กลุ่มตัวอย่างที่มีขนาดเล็กมาก ในคำอื่น ๆ โดยไม่ได้เข้าร่วมการรักษาเช่น "Widgets" นักวิจัยสามารถมักจะได้รับการประมาณการที่แม่นยำมากขึ้น

โดยไม่ต้องมีข้อมูลดิบมันเป็นเรื่องยากที่จะรู้ว่าวิธีการที่มีประสิทธิภาพมากขึ้นวิธีการที่แตกต่างกันในความแตกต่างที่จะได้รับในกรณีนี้ แต่ Deng et al. (2013) รายงานว่าในการทดลองสามออนไลน์บนเครื่องมือค้นหาของ Bing พวกเขาก็สามารถที่จะลดความแปรปรวนของประมาณการของพวกเขาโดยประมาณ 50% และผลที่คล้ายกันได้รับการรายงานสำหรับการทดลองออนไลน์บางที่ Netflix (Xie and Aurisset 2016) นี้ลดความแปรปรวน 50% หมายความว่านักวิจัย Contagion ทางอารมณ์ที่อาจได้รับสามารถที่จะตัดตัวอย่างของพวกเขาในช่วงครึ่งปีถ้าพวกเขาได้ใช้วิธีการวิเคราะห์ที่แตกต่างกันเล็กน้อย ในคำอื่น ๆ ที่มีการเปลี่ยนแปลงเล็ก ๆ ในการวิเคราะห์ 350,000 คนอาจได้รับการงดเว้นการมีส่วนร่วมในการทดลอง

ณ จุดนี้คุณอาจสงสัยว่าทำไมนักวิจัยควรดูแลถ้า 350,000 คนอยู่ในอารมณ์ Contagion โดยไม่จำเป็น มีสองคุณสมบัติเฉพาะของ Contagion ทางอารมณ์ที่ทำให้ความกังวลที่มีขนาดมากเกินไปเหมาะสมและคุณสมบัติเหล่านี้จะใช้ร่วมกันโดยหลายทดลองดิจิตอล: 1) มีความไม่แน่นอนเกี่ยวกับว่าการทดสอบจะทำให้เกิดอันตรายต่ออย่างน้อยบางส่วนเข้าร่วมและ 2) การมีส่วนร่วมไม่ได้ สมัครใจ ในการทดลองกับทั้งสองลักษณะที่ดูเหมือนว่าแนะนำให้เลือกเพื่อให้ทดลองขนาดเล็กที่สุดเท่าที่เป็นไปได้

ในการสรุปสาม R's แทนที่ปรับแต่งและลด-ให้หลักการที่สามารถช่วยให้นักวิจัยสร้างจริยธรรมในการออกแบบการทดลองของพวกเขา แน่นอนแต่ละของการเปลี่ยนแปลงที่เป็นไปได้เหล่านี้เพื่อ Contagion อารมณ์แนะนำไม่ชอบการค้า ยกตัวอย่างเช่นหลักฐานจากการทดลองธรรมชาติไม่เคยเป็นที่สะอาดเป็นหลักฐานจากการทดลองแบบสุ่มและการส่งเสริมการอาจได้รับไว้เพิ่มเติมยากที่จะใช้กว่าบล็อก ดังนั้นวัตถุประสงค์ของการแนะนำการเปลี่ยนแปลงเหล่านี้ไม่ได้สองเดาการตัดสินใจของนักวิจัยอื่น ๆ แต่มันก็แสดงให้เห็นถึงวิธีการที่สามอาร์เอสสามารถนำไปใช้ในสถานการณ์จริง