รางวัล Netflix ใช้การเรียกเปิดให้คาดการณ์ที่ภาพยนตร์คนจะชอบ
โครงการเปิดกว้างที่รู้จักกันดีคือ Netflix Prize Netflix เป็น บริษัท เช่าภาพยนตร์ออนไลน์และในปี 2543 ได้เปิดตัว Cinematch ซึ่งเป็นบริการแนะนำภาพยนตร์ให้กับลูกค้า ตัวอย่างเช่น Cinematch อาจสังเกตเห็นว่าคุณชอบ Star Wars และ The Empire Strikes Back และขอแนะนำให้คุณดู Return of the Jedi ในขั้นแรก Cinematch ทำงานไม่ดี แต่ในช่วงหลายปีที่ผ่านมามันยังคงพัฒนาความสามารถในการทำนายว่าภาพยนตร์เรื่องใดที่ลูกค้าจะพึงพอใจ อย่างไรก็ตามในปี 2549 ความคืบหน้าเกี่ยวกับ Cinematch มีมากขึ้น นักวิจัยของ Netflix ได้พยายามทุกอย่างที่พวกเขาคิดได้ แต่ในขณะเดียวกันพวกเขาก็สงสัยว่ามีแนวคิดอื่น ๆ ที่อาจช่วยปรับปรุงระบบของพวกเขาได้ ดังนั้นพวกเขามากับสิ่งที่เป็นในเวลาที่เป็นทางออกที่รุนแรง: โทรเปิด
ความสำคัญต่อความสำเร็จในท้ายที่สุดของรางวัล Netflix คือวิธีการเปิดการโทรออกแบบและการออกแบบนี้มีบทเรียนที่สำคัญสำหรับวิธีการเปิดการโทรสามารถใช้สำหรับการวิจัยทางสังคม Netflix ไม่ได้เพียงแค่นำออกคำขอที่ไม่มีโครงสร้างสำหรับความคิดซึ่งเป็นสิ่งที่หลาย ๆ คนนึกถึงเมื่อพวกเขาพิจารณาเปิดการโทรครั้งแรก Netflix เป็นปัญหาที่ชัดเจนในขั้นตอนการประเมินแบบง่ายๆ: พวกเขาท้าให้ผู้คนใช้ชุดการจัดอันดับภาพยนตร์ 100 ล้านชุดเพื่อคาดการณ์การจัดอันดับที่จัดขึ้น 3 ล้านรายการ (การให้คะแนนที่ผู้ใช้ทำไว้ แต่ Netflix ไม่ได้ออก) คนแรกที่สร้างอัลกอริธึมที่คาดการณ์ว่าการจัดอันดับที่ถูกจัดเรต 3 ล้านครั้งจะดีกว่า Cinematch ถึง 10 ล้านเหรียญ ขั้นตอนการประเมินผลที่ชัดเจนและง่ายในการเปรียบเทียบการจัดอันดับที่คาดการณ์ไว้กับการให้คะแนนที่จัดขึ้นนั่นหมายความว่า Netflix Prize ได้รับการจัดทำขึ้นเพื่อให้การตรวจสอบง่ายกว่าการสร้าง มันกลายเป็นความท้าทายของการปรับปรุง Cinematch เป็นปัญหาที่เหมาะสมสำหรับการเปิดสาย
ในเดือนตุลาคมปี 2006 Netflix ได้เผยแพร่ชุดข้อมูลที่มีการจัดเรตภาพยนตร์ 100 ล้านเรื่องจากลูกค้าประมาณ 500,000 ราย (เราจะพิจารณาข้อมูลส่วนบุคคลของข้อมูลนี้ในบทที่ 6) ข้อมูล Netflix สามารถใช้เป็นเมทริกซ์ขนาดใหญ่ซึ่งมีลูกค้าประมาณ 500,000 รายโดยภาพยนตร์ 20,000 เรื่อง ภายในเมตริกซ์นี้มีการจัดอันดับประมาณหนึ่งร้อยห้าดาว (ตารางที่ 5.2) ประมาณ 100 ล้านคะแนน ความท้าทายคือการใช้ข้อมูลที่ได้จากการสังเกตในเมทริกซ์เพื่อทำนายการจัดอันดับ 3 ล้านครั้ง
ภาพยนตร์ 1 | ภาพยนตร์ 2 | ภาพยนตร์ 3 | ... | ภาพยนตร์ 20,000 | |
---|---|---|---|---|---|
ลูกค้า 1 | 2 | 5 | ... | ? | |
ลูกค้า 2 | 2 | ? | ... | 3 | |
ลูกค้า 3 | ? | 2 | ... | ||
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | |
ลูกค้า 500,000 | ? | 2 | ... | 1 |
นักวิจัยและแฮกเกอร์ทั่วโลกต่างก็ได้รับความท้าทายและในปี 2551 มีผู้ร่วมงานกว่า 30,000 คน (Thompson 2008) ในระหว่างการแข่งขัน Netflix ได้รับโซลูชันที่นำเสนอกว่า 40,000 รายการจากกว่า 5,000 ทีม (Netflix 2009) เห็นได้ชัดว่า Netflix ไม่สามารถอ่านและทำความเข้าใจกับโซลูชันที่เสนอทั้งหมดนี้ สิ่งที่ทั้งสองวิ่งได้อย่างราบรื่น แต่เนื่องจากมีการแก้ปัญหาได้ง่าย Netflix อาจมีคอมพิวเตอร์เปรียบเทียบการจัดอันดับที่คาดการณ์ไว้กับการให้คะแนนที่จัดขึ้นโดยใช้เมตริกที่กำหนดไว้ล่วงหน้า (เมตริกเฉพาะที่พวกเขาใช้คือรากที่สองของข้อผิดพลาดกำลังสองเฉลี่ย) นี่คือความสามารถในการประเมินโซลูชันที่เปิดใช้งาน Netflix ได้อย่างรวดเร็วเพื่อยอมรับโซลูชันจากทุกคนซึ่งกลายเป็นสิ่งสำคัญเนื่องจากความคิดที่ดีมาจากสถานที่ที่น่าแปลกใจบางอย่าง ในความเป็นจริงโซลูชันที่ชนะได้ส่งโดยทีมงานที่เริ่มต้นโดยนักวิจัยสามคนที่ไม่มีประสบการณ์ในการสร้างระบบแนะนำภาพยนตร์ก่อนหน้านี้ (Bell, Koren, and Volinsky 2010)
ด้านหนึ่งที่สวยงามของรางวัล Netflix คือการเปิดใช้งานโซลูชันที่นำเสนอทั้งหมดได้รับการประเมินอย่างเป็นธรรม นั่นคือเมื่อผู้ใช้อัปโหลดการให้คะแนนตามที่คาดการณ์ไว้พวกเขาไม่จำเป็นต้องอัปโหลดข้อมูลรับรองทางวิชาการอายุเชื้อชาติเพศรสนิยมทางเพศหรืออะไรเกี่ยวกับตัวเอง การให้คะแนนที่คาดการณ์ไว้ของศาสตราจารย์ชื่อดังจาก Stanford ได้รับการปฏิบัติเหมือนกับเด็กวัยรุ่นที่อยู่ในห้องนอนของเธอ น่าเสียดายที่เรื่องนี้ไม่เป็นความจริงในงานวิจัยทางสังคมส่วนใหญ่ นั่นคือสำหรับการวิจัยทางสังคมส่วนใหญ่การประเมินผลเป็นเรื่องที่ต้องใช้เวลามากและบางส่วน ดังนั้นความคิดในการวิจัยส่วนใหญ่จะไม่ได้รับการประเมินอย่างจริงจังและเมื่อมีการประเมินความคิดจึงเป็นการยากที่จะแยกการประเมินออกจากผู้สร้างแนวคิด ในทางกลับกันโปรเจ็กต์แบบเปิดมีการประเมินผลที่ง่ายและยุติธรรมเพื่อให้พวกเขาสามารถค้นพบไอเดียที่อาจพลาดได้
ตัวอย่างเช่นเมื่อถึงจุดหนึ่งในระหว่างรางวัล Netflix ใครบางคนที่มีชื่อว่า Simon Funk ได้โพสต์บล็อกของเขาบนโซลูชันที่เสนอโดยอิงตามการสลายตัวของค่าเอกพจน์วิธีการจากพีชคณิตเชิงเส้นที่ไม่เคยใช้โดยผู้เข้าร่วมรายอื่นมาก่อน โพสต์บล็อกของ Funk เป็นไปในทางเทคนิคและแปลกประหลาดอย่างไม่เป็นทางการ โพสต์บล็อกนี้อธิบายถึงทางออกที่ดีหรือไม่ก็เสียเวลา? นอกโครงการโทรเปิดการแก้ปัญหาอาจไม่ได้รับการประเมินอย่างจริงจัง หลังจากที่ทุกคน Simon Funk ไม่ได้เป็นศาสตราจารย์ที่ MIT; เขาเป็นนักพัฒนาซอฟต์แวร์ซึ่งตอนนั้นกำลังเดินทางกลับประเทศนิวซีแลนด์ (Piatetsky 2007) ถ้าเขาส่งอีเมลนี้ไปให้วิศวกรคนหนึ่งที่ Netflix เกือบจะไม่ได้อ่านเลย
โชคดีที่เกณฑ์การประเมินเป็นที่ชัดเจนและใช้งานง่ายคะแนนที่คาดการณ์ไว้ของเขาได้รับการประเมินและเห็นได้ชัดว่าวิธีการของเขามีประสิทธิภาพมาก: เขาพุ่งขึ้นเป็นอันดับ 4 ในการแข่งขันซึ่งเป็นผลอย่างมากต่อทีมอื่น ๆ ทำงานเป็นเวลาหลายเดือนกับปัญหา ในท้ายที่สุดส่วนของวิธีการของเขาถูกใช้โดยเกือบทั้งหมดคู่แข่งที่ร้ายแรง (Bell, Koren, and Volinsky 2010)
ความจริงที่ว่า Simon Funk ได้เลือกที่จะเขียนบล็อกโพสต์อธิบายแนวทางของเขาแทนที่จะพยายามเก็บความลับไว้แสดงให้เห็นว่าผู้เข้าร่วมหลายคนใน Netflix Prize ไม่ได้รับแรงบันดาลใจจากรางวัลล้านดอลลาร์เท่านั้น ผู้เข้าร่วมประชุมหลายคนดูเหมือนจะมีความสุขกับความท้าทายทางปัญญาและชุมชนที่พัฒนาปัญหา (Thompson 2008) ความรู้สึกที่ฉันคาดหวังให้นักวิจัยหลายคนเข้าใจได้
รางวัล Netflix เป็นตัวอย่างคลาสสิกของการโทรแบบเปิด Netflix โพสต์คำถามโดยมีเป้าหมายเฉพาะ (การคาดการณ์การจัดเรตภาพยนตร์) และการแก้ปัญหาจากหลาย ๆ คน Netflix สามารถประเมินโซลูชันเหล่านี้ทั้งหมดได้เนื่องจากสามารถตรวจสอบได้ง่ายกว่าที่จะสร้างและในที่สุด Netflix ก็เลือกโซลูชันที่ดีที่สุด ต่อไปฉันจะแสดงให้คุณเห็นว่าวิธีเดียวกันนี้สามารถใช้ในทางชีววิทยาและกฎหมายได้อย่างไรและไม่มีรางวัลล้านดอลลาร์