สวนสัตว์ Galaxy รวมความพยายามของอาสาสมัครที่ไม่ใช่ผู้เชี่ยวชาญจำนวนมากในการจำแนกล้านกาแลคซี
สวนสัตว์ Galaxy งอกออกมาจากปัญหาที่ต้องเผชิญกับเควิน Schawinski นักศึกษาระดับบัณฑิตศึกษาในดาราศาสตร์ที่มหาวิทยาลัยฟอร์ดในปี 2007 ลดความซับซ้อนไม่น้อย Schawinski มีความสนใจในกาแลคซีและกาแลคซีสามารถจำแนกตามลักษณะทางสัณฐานวิทยาของพวกเขา-รูปไข่หรือเกลียวและ โดยพวกเขาสีฟ้าหรือสีแดง ในขณะที่ภูมิปัญญาดั้งเดิมในหมู่นักดาราศาสตร์ได้ว่ากาแลคซีเกลียวเหมือนทางช้างเผือกของเรามีสีฟ้า (ระบุเยาวชน) และกาแลคซีรูปไข่มีสีแดง (ระบุอายุ) Schawinski สงสัยภูมิปัญญาดั้งเดิมนี้ เขาสงสัยว่าในขณะที่รูปแบบนี้อาจจะเป็นจริงโดยทั่วไปอาจจะมีขนาดใหญ่จำนวนมากของข้อยกเว้นและโดยการศึกษาจำนวนมากกาแลคซีที่ผิดปกติเหล่านี้คนที่ไม่พอดีกับที่คาดว่าจะรูปแบบที่เขาจะได้เรียนรู้อะไรเกี่ยวกับกระบวนการที่ กาแลคซีที่เกิดขึ้น
ดังนั้นสิ่งที่ Schawinski จำเป็นเพื่อที่จะคว่ำภูมิปัญญาดั้งเดิมเป็นชุดใหญ่ของกาแลคซีประกาศสัณฐาน; นั่นคือกาแลคซีที่ได้รับการจัดเป็นทั้งเกลียวหรือรูปไข่ แต่ปัญหาคือการที่มีอยู่วิธีการอัลกอริทึมสำหรับการจำแนกประเภทยังไม่ดีพอที่จะนำมาใช้สำหรับการวิจัยทางวิทยาศาสตร์ ในคำอื่น ๆ แบ่งประเภทของกาแลคซีในเวลานั้นปัญหาที่เป็นเรื่องยากสำหรับคอมพิวเตอร์ ดังนั้นสิ่งที่ถูกต้องเป็นจำนวนมากของกาแลคซีของมนุษย์จัด Schawinski มารับปัญหาการจัดหมวดหมู่นี้กับความกระตือรือร้นของนักศึกษาระดับบัณฑิตศึกษาที่ ในเซสชั่นมาราธอนเจ็ดวัน 12 ชั่วโมงเขาก็สามารถที่จะจำแนก 50,000 กาแลคซี ในขณะที่ 50,000 กาแลคซีอาจจะชอบมากมันเป็นจริงเพียงประมาณ 5% ของเกือบหนึ่งล้านกาแลคซีที่ได้รับการถ่ายภาพในสโลนดิจิทัลสำรวจท้องฟ้า Schawinski ตระหนักว่าเขาจำเป็นต้องมีวิธีการขยายขีดความสามารถมากขึ้น
โชคดีที่มันปรากฎว่างานของกาแลคซีจำแนกไม่จำเป็นต้องมีการฝึกอบรมขั้นสูงในดาราศาสตร์; คุณสามารถสอนคนที่จะทำสวยได้อย่างรวดเร็ว ในคำอื่น ๆ แม้ว่าการจำแนกกาแลคซีเป็นงานที่ยากสำหรับคอมพิวเตอร์มันก็สวยง่ายสำหรับมนุษย์ ดังนั้นในขณะนั่งอยู่ในผับใน Oxford, Schawinski และเพื่อนนักดาราศาสตร์คริส Lintott ฝันขึ้นเว็บไซต์ที่อาสาสมัครจะจำแนกภาพของกาแลคซี ไม่กี่เดือนต่อมาสวนสัตว์ Galaxy เกิด
ได้ที่เว็บไซต์ของสวนสัตว์ Galaxy อาสาสมัครจะได้รับไม่กี่นาทีของการฝึกอบรม ตัวอย่างเช่นการเรียนรู้ที่แตกต่างระหว่างเกลียวและกาแล็คซี่รูปไข่ (รูปที่ 5.2) หลังจากการฝึกอบรมนี้อาสาสมัครจะต้องผ่านการตอบคำถามได้อย่างถูกต้อง-ค่อนข้างง่ายแบ่งประเภท 11 15 กาแลคซีที่รู้จักกันด้วยการจำแนกประเภทและจากนั้นอาสาสมัครจะเริ่มการจัดหมวดหมู่ที่แท้จริงของกาแลคซีที่ไม่รู้จักผ่านเว็บอินเตอร์เฟสที่ใช้ง่าย (รูปที่ 5.3) การเปลี่ยนแปลงจากอาสาสมัครนักดาราศาสตร์ที่จะเกิดขึ้นในเวลาน้อยกว่า 10 นาทีและเพียงต้องผ่านอุปสรรคที่ต่ำสุดของการตอบคำถามง่ายๆ
สวนสัตว์ Galaxy ดึงดูดอาสาสมัครเริ่มต้นหลังจากที่โครงการได้รับการให้ความสำคัญในบทความข่าวและในประมาณหกเดือนโครงการขยายตัวจะมีส่วนร่วมมากกว่า 100,000 นักวิทยาศาสตร์พลเมืองคนที่เข้าร่วมเพราะพวกเขามีความสุขกับงานและพวกเขาต้องการที่จะช่วยดาราศาสตร์ล่วงหน้า ร่วมกันเหล่านี้ 100,000 อาสาสมัครส่วนร่วมรวมกว่า 40 ล้านจำแนกประเภทกับส่วนใหญ่ของการจำแนกประเภทที่มาจากที่ค่อนข้างเล็กกลุ่มแกนของผู้เข้าร่วม (Lintott et al. 2008)
นักวิจัยที่มีประสบการณ์การจ้างงานผู้ช่วยนักวิจัยระดับปริญญาตรีทันทีอาจจะสงสัยเกี่ยวกับข้อมูลที่มีคุณภาพ ในขณะที่ความสงสัยนี้เป็นที่เหมาะสม, สวนสัตว์ Galaxy แสดงให้เห็นว่าเมื่อผลงานอาสาสมัครมีการทำความสะอาดอย่างถูกต้อง debiased และรวมพวกเขาสามารถให้ผลลัพธ์ที่มีคุณภาพสูง (Lintott et al. 2008) เคล็ดลับที่สำคัญสำหรับการเดินทางฝูงชนในการสร้างข้อมูลคุณภาพระดับมืออาชีพเป็นซ้ำซ้อน; ว่ามีที่มีงานเดียวกันที่ดำเนินการโดยคนที่แตกต่างกัน กาแล็กซี่ในสวนสัตว์มีอยู่ประมาณ 40 การจำแนกประเภทต่อกาแล็คซี่; นักวิจัยใช้ผู้ช่วยนักวิจัยระดับปริญญาตรีไม่สามารถจ่ายได้ระดับความซ้ำซ้อนนี้และดังนั้นจึงจำเป็นต้องมีมากขึ้นที่เกี่ยวข้องกับคุณภาพของแต่ละบุคคลการจัดหมวดหมู่ สิ่งที่อาสาสมัครขาดในการฝึกอบรมพวกเขาทำขึ้นสำหรับการที่มีความซ้ำซ้อน
ถึงแม้จะมีการจำแนกประเภทหลายต่อกาแล็คซี่ แต่การรวมชุดของการจำแนกประเภทอาสาสมัครในการผลิตการจัดหมวดหมู่ความเห็นเป็นเอกฉันท์เป็นเรื่องยุ่งยาก เพราะความท้าทายที่คล้ายกันมากที่สุดเกิดขึ้นในโครงการการคำนวณของมนุษย์จะเป็นประโยชน์ในการตรวจสอบในเวลาสั้น ๆ สามขั้นตอนที่นักวิจัยสวนสัตว์กาแล็กซี่ใช้ในการผลิตการจำแนกประเภทฉันทามติของพวกเขา ครั้งแรกที่นักวิจัย "ทำความสะอาด" ข้อมูลโดยการเอาการจำแนกประเภทปลอม ตัวอย่างเช่นคนที่ซ้ำ ๆ จัดประเภทเดียวกันกาแล็คซี่บางสิ่งบางอย่างที่จะเกิดขึ้นถ้าพวกเขากำลังพยายามที่จะจัดการกับผลที่มีการจำแนกประเภทของพวกเขาทั้งหมดทิ้ง และอื่น ๆ ที่คล้ายกันทำความสะอาดเอาออกประมาณ 4% ของการจำแนกประเภท
ประการที่สองหลังจากการทำความสะอาดนักวิจัยที่จำเป็นในการลบอคติระบบในการจำแนกประเภท ผ่านชุดของการศึกษาการตรวจสอบอคติที่ฝังอยู่ภายในเช่นโครงการเดิมแสดงอาสาสมัครบางกาแล็คซี่ในขาวดำแทนสีที่นักวิจัยค้นพบอคติระบบหลายอย่างเช่นระบบอคติในการจำแนกกาแลคซีที่อยู่ห่างไกลเกลียวเป็นกาแล็กซีรูปไข่ (Bamford et al. 2009) ปรับระบบอคติเหล่านี้เป็นสิ่งสำคัญมากเพราะเฉลี่ยมีส่วนร่วมมากไม่เอาระบบอคติ; มันมี แต่จะเอาข้อผิดพลาดแบบสุ่ม
ในที่สุดหลังจาก debiasing นักวิจัยที่จำเป็นในวิธีการที่จะรวมการจำแนกประเภทของแต่ละบุคคลในการผลิตการจัดหมวดหมู่ความเห็นเป็นเอกฉันท์ วิธีที่ง่ายที่สุดที่จะรวมการจำแนกประเภทสำหรับแต่ละกาแล็กซีจะมีการเลือกการจัดหมวดหมู่ที่พบมากที่สุด แต่วิธีนี้จะให้อาสาสมัครแต่ละคนน้ำหนักที่เท่ากันและนักวิจัยสงสัยว่าอาสาสมัครบางคนที่ดีกว่าในการจัดหมวดหมู่กว่าคนอื่น ๆ ดังนั้นนักวิจัยพัฒนาขั้นตอนที่ซับซ้อนมากขึ้นน้ำหนักซ้ำที่พยายามที่จะตรวจสอบโดยอัตโนมัติลักษณนามที่ดีที่สุดและให้พวกเขามีน้ำหนักมากกว่า
ดังนั้นหลังจากสามขั้นตอนทำความสะอาด debiasing, และน้ำหนักทีมวิจัยสวนสัตว์ Galaxy แปลง 40 ล้านจำแนกประเภทอาสาสมัครเข้ามาในชุดของฉันทามติการจำแนกประเภทก้าน เมื่อจำแนกประเภทเหล่านี้สวนสัตว์กาแล็กซี่ถูกเมื่อเทียบกับก่อนหน้านี้สามพยายามที่มีขนาดเล็กระดับโดยนักดาราศาสตร์มืออาชีพรวมทั้งการจัดหมวดหมู่โดย Schawinski ที่ช่วยในการสร้างแรงบันดาลใจสวนสัตว์กาแล็กซี่ที่มีข้อตกลงที่แข็งแกร่ง ดังนั้นอาสาสมัครในการรวมก็สามารถที่จะจัดให้มีการจำแนกประเภทที่มีคุณภาพสูงและในระดับที่นักวิจัยไม่สามารถจับคู่ (Lintott et al. 2008) ในความเป็นจริงโดยมีการจำแนกประเภทของมนุษย์สำหรับการดังกล่าวเป็นจำนวนมากของกาแลคซี Schawinski, Lintott และคนอื่น ๆ ก็สามารถที่จะแสดงให้เห็นว่ามีเพียงประมาณ 80% ของกาแลคซีเป็นไปตามที่คาดว่าจะเกลียวรูปแบบสีฟ้าและทรงกลมและสีแดงเอกสารจำนวนมากได้รับการเขียนเกี่ยวกับ การค้นพบนี้ (Fortson et al. 2011)
ได้รับพื้นหลังนี้ตอนนี้เราสามารถดูวิธีการสวนสัตว์กาแล็กซี่ตามแยกใช้-รวมสูตรเดียวกับที่ถูกนำมาใช้มากที่สุดสำหรับโครงการการคำนวณของมนุษย์ ครั้งแรกที่เป็นปัญหาใหญ่จะถูกแบ่งออกเป็นชิ้น ในกรณีนี้ปัญหาของการจำแนกล้านกาแลคซีถูกแบ่งออกเป็นล้านปัญหาการจำแนกชนิดหนึ่งกาแล็คซี่ ถัดไปการดำเนินการถูกนำไปใช้ในแต่ละก้อนอิสระ ในกรณีนี้เป็นอาสาสมัครจะจำแนกแต่ละกาแล็กซีเป็นทั้งเกลียวหรือรูปไข่ สุดท้ายผลจะรวมกันเพื่อสร้างผลลัพธ์ฉันทามติ ในกรณีนี้ขั้นตอนรวมรวมการทำความสะอาด debiasing และน้ำหนักในการผลิตการจัดหมวดหมู่ฉันทามติสำหรับแต่ละกาแล็คซี่ แม้ว่าโครงการส่วนใหญ่ใช้สูตรนี้โดยทั่วไปแต่ละขั้นตอนจะต้องมีการปรับแต่งเพื่อให้ปัญหาได้รับการแก้ไข ยกตัวอย่างเช่นในโครงการการคำนวณของมนุษย์อธิบายไว้ด้านล่างสูตรเดียวกันจะตามมา แต่นำมาใช้และรวมขั้นตอนจะแตกต่างกันมาก
สำหรับทีมสวนสัตว์กาแล็กซี่, โครงการแรกนี้เป็นเพียงการเริ่มต้น อย่างรวดเร็วพวกเขาตระหนักว่าถึงแม้พวกเขามีความสามารถที่จะจัดใกล้กับล้านกาแล็กซีขนาดนี้ไม่เพียงพอที่จะทำงานกับที่ใหม่กว่าการสำรวจท้องฟ้าดิจิตอลซึ่งสามารถผลิตภาพประมาณ 10 พันล้านกาแลคซี (Kuminski et al. 2014) เพื่อจัดการกับการเพิ่มขึ้นของ 1,000,000-10000000000-ปัจจัย 10,000 Galaxy-สวนสัตว์จะต้องมีการรับสมัครประมาณ 10,000 ครั้งเข้าร่วมมากขึ้น แม้ว่าจำนวนของอาสาสมัครบนอินเทอร์เน็ตที่มีขนาดใหญ่ก็ไม่ได้ไม่มีที่สิ้นสุด ดังนั้นนักวิจัยจึงตระหนักว่าถ้าพวกเขาจะไปจัดการกับจำนวนเงินที่เคยเติบโตของข้อมูลใหม่ที่สามารถปรับขนาดได้มากขึ้นแม้กระทั่งวิธีการที่ถูกต้อง
ดังนั้นมันดา Banerji ทำงานกับเควิน Schawinski คริส Lintott และสมาชิกคนอื่น ๆ ของสวนสัตว์กาแล็กซี่ทีมเริ่มต้นการเรียนการสอนคอมพิวเตอร์ในการจำแนกกาแลคซี โดยเฉพาะอย่างยิ่งการใช้การจำแนกประเภทของมนุษย์ที่สร้างขึ้นโดยสวนสัตว์กาแล็กซี่, Banerji et al. (2010) สร้างรูปแบบการเรียนรู้เครื่องที่สามารถทำนายการจัดหมวดหมู่ของมนุษย์ในจักรวาลขึ้นอยู่กับลักษณะของภาพ หากรูปแบบการเรียนรู้ของเครื่องนี้สามารถทำซ้ำการจำแนกประเภทของมนุษย์ที่มีความแม่นยำสูงก็สามารถนำมาใช้โดยนักวิจัยสวนสัตว์กาแล็กซี่ในการจำแนกจำนวนอนันต์หลักของกาแลคซี
หลักของ Banerji และเพื่อนร่วมงาน 'วิธีการที่เป็นจริงสวยคล้ายกับเทคนิคที่ใช้กันทั่วไปในการวิจัยทางสังคมแม้จะมีความคล้ายคลึงกันที่อาจจะไม่ชัดเจนได้อย่างรวดเร็วก่อน แรก Banerji และเพื่อนร่วมงานแปลงภาพในแต่ละชุดของคุณลักษณะตัวเลขที่สรุปมันเป็นคุณสมบัติ ตัวอย่างเช่นสำหรับภาพของกาแลคซีอาจจะมีสามคุณสมบัติ: ปริมาณของสีฟ้าในภาพที่แปรปรวนในความสว่างของพิกเซลและสัดส่วนของพิกเซลที่ไม่ใช่สีขาว การเลือกของคุณสมบัติที่ถูกต้องเป็นส่วนสำคัญของปัญหาและมันมักจะต้องใช้ความเชี่ยวชาญเรื่องพื้นที่ ขั้นตอนแรกนี้เรียกกันว่าวิศวกรรมคุณลักษณะผลในข้อมูลที่มีเมทริกซ์หนึ่งแถวต่อภาพแล้วสามคอลัมน์อธิบายภาพว่า ได้รับเมทริกซ์ข้อมูลและผลลัพธ์ที่ต้องการ (เช่นไม่ว่าจะเป็นภาพที่ถูกจัดขึ้นโดยมนุษย์เป็นกาแล็กซีรูปไข่ก) ผู้วิจัยได้ประมาณการค่าพารามิเตอร์ของตัวอย่างรูปแบบสำหรับสถิติบางอย่างเช่นโลจิสติกการถดถอยที่คาดการณ์การจัดหมวดหมู่ของมนุษย์ขึ้นอยู่ เกี่ยวกับคุณสมบัติของภาพ ในที่สุดผู้วิจัยใช้พารามิเตอร์ในแบบจำลองทางสถิตินี้ในการผลิตจำแนกประเภทโดยประมาณของกาแลคซีใหม่ (รูปที่ 5.4) ที่จะคิดว่าอะนาล็อกทางสังคมคิดว่าคุณมีข้อมูลประชากรประมาณล้านนักเรียนและคุณรู้ว่าพวกเขาจบการศึกษาจากวิทยาลัยหรือไม่ คุณอาจจะพอดีกับการถดถอยโลจิสติกข้อมูลนี้และจากนั้นคุณสามารถใช้พารามิเตอร์แบบที่เกิดขึ้นที่จะคาดการณ์ว่านักศึกษาใหม่ที่กำลังจะจบการศึกษาจากวิทยาลัย ในการเรียนรู้เครื่องวิธีการที่ใช้นี้ตัวอย่างที่มีข้อความในการสร้างแบบจำลองทางสถิตินั้นสามารถฉลากใหม่ข้อมูลจะเรียกว่าการกำกับดูแลการเรียนรู้ (Hastie, Tibshirani, and Friedman 2009)
คุณสมบัติใน Banerji et al. (2010) รูปแบบการเรียนรู้ของเครื่องมีความซับซ้อนมากขึ้นกว่าในของเล่นของฉันตัวอย่างเช่นเธอใช้คุณสมบัติเช่น "เด Vaucouleurs พอดีอัตราส่วนแกน" และอื่นรูปแบบของเธอไม่ได้ถดถอยโลจิสติมันเป็นเครือข่ายประสาทเทียม การใช้คุณสมบัติของเธอรูปแบบของเธอและฉันทามติการจำแนกประเภทสวนสัตว์กาแล็กซี่เธอก็สามารถที่จะสร้างน้ำหนักในแต่ละคุณลักษณะและจากนั้นใช้น้ำหนักเหล่านี้เพื่อทำให้การคาดการณ์เกี่ยวกับการจำแนกประเภทของกาแลคซี ยกตัวอย่างเช่นการวิเคราะห์ของเธอพบว่าภาพที่มีต่ำ "เด Vaucouleurs พอดีอัตราส่วนแกน" มีแนวโน้มที่จะเป็นกาแลคซีเกลียว ได้รับน้ำหนักเหล่านี้เธอก็สามารถที่จะคาดการณ์การจัดหมวดหมู่ของมนุษย์ของดาราจักรที่มีความถูกต้องเหมาะสม
การทำงานของ Banerji et al. (2010) เปิดสวนสัตว์กาแล็กซี่เป็นสิ่งที่ฉันจะเรียกรุ่นที่สองระบบการคำนวณของมนุษย์ วิธีที่ดีที่สุดที่จะคิดเกี่ยวกับระบบรุ่นที่สองเหล่านี้ก็คือแทนที่จะมีมนุษย์แก้ปัญหาที่พวกเขามีมนุษย์สร้างชุดข้อมูลที่สามารถใช้ในการฝึกอบรมคอมพิวเตอร์ในการแก้ปัญหา ปริมาณของข้อมูลที่จำเป็นในการฝึกอบรมคอมพิวเตอร์อาจมีขนาดใหญ่เพื่อที่จะต้องมีการทำงานร่วมกันของมวลมนุษย์ในการสร้าง ในกรณีของกาแล็กซี่สวนสัตว์, เครือข่ายประสาทที่ใช้โดย Banerji et al. (2010) ต้องมีจำนวนมากของมนุษย์ตัวอย่างป้ายเพื่อสร้างรูปแบบที่สามารถเชื่อถือได้ในการทำซ้ำการจัดหมวดหมู่ของมนุษย์
ข้อดีของวิธีใช้คอมพิวเตอร์ช่วยนี้ก็คือว่ามันช่วยให้คุณสามารถจัดการกับจำนวนเงินที่ไม่มีที่สิ้นสุดของข้อมูลเป็นหลักโดยใช้เพียงจำนวน จำกัด ของความพยายามของมนุษย์ ยกตัวอย่างเช่นนักวิจัยที่มีล้านกาแลคซีจำแนกมนุษย์สามารถสร้างแบบจำลองการคาดการณ์ที่สามารถนำมาใช้ในการจำแนกพันล้านหรือแม้กระทั่งล้านล้านกาแลคซี หากมีจำนวนมหาศาลของกาแลคซีแล้วชนิดของไฮบริดคอมพิวเตอร์ของมนุษย์นี้เป็นจริงการแก้ปัญหาที่เป็นไปได้เท่านั้น นี้ scalability อนันต์ไม่ฟรี แต่ การสร้างรูปแบบการเรียนรู้เครื่องที่ถูกต้องสามารถทำซ้ำการจำแนกประเภทของมนุษย์ตัวเองเป็นปัญหาหนัก แต่โชคดีที่มีอยู่แล้วหนังสือที่ยอดเยี่ยมที่ทุ่มเทให้กับหัวข้อนี้ (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013)
สวนสัตว์ Galaxy แสดงให้เห็นถึงวิวัฒนาการของหลายโครงการการคำนวณของมนุษย์ ครั้งแรกที่นักวิจัยพยายามโครงการด้วยตัวเองหรือกับทีมงานเล็ก ๆ ของผู้ช่วยวิจัย (เช่นความพยายามจัดหมวดหมู่ของ Schawinski เริ่มต้น) หากวิธีนี้ไม่ได้ดีขนาดผู้วิจัยสามารถย้ายไปยังโครงการการคำนวณของมนุษย์ที่หลายคนมีส่วนร่วมในการจำแนกประเภท แต่สำหรับปริมาณบางอย่างของข้อมูลความพยายามของมนุษย์ที่บริสุทธิ์จะไม่เพียงพอ ณ จุดที่นักวิจัยจะต้องสร้างระบบรุ่นที่สองที่จำแนกประเภทของมนุษย์ถูกนำมาใช้ในการฝึกอบรมการเรียนรู้แบบเครื่องจากนั้นจะสามารถนำไปใช้ในปริมาณที่ไม่ จำกัด ของข้อมูล