Galaxy Zoo ได้รวมความพยายามของอาสาสมัครหลายคนที่ไม่เชี่ยวชาญเพื่อจัดการ์กาแลคซี่หลายล้านชนิด
สวนสัตว์กาแล็กซีได้เติบโตขึ้นจากปัญหาที่ Kevin Schawinski ซึ่งเป็นนักศึกษาระดับบัณฑิตศึกษาสาขาดาราศาสตร์แห่งมหาวิทยาลัยออกซ์ฟอร์ดในปี 2550 กล่าวว่าความสนใจในกาแลคซีได้ง่ายและกาแลคซีสามารถจำแนกตามรูปสัณฐานวิทยารูปไข่หรือเกลียวและ โดยสีฟ้าหรือสีแดง ในขณะนั้นความรู้ทั่วไปของนักดาราศาสตร์คือกาแลคซีเกลียวเช่นทางช้างเผือกของเรามีสีน้ำเงิน (แสดงถึงเยาวชน) และกาแลคซีรูปไข่เป็นสีแดง (ระบุอายุ) Schawinski สงสัยเรื่องนี้ภูมิปัญญาดั้งเดิม เขาสงสัยว่าในขณะที่รูปแบบนี้อาจเป็นความจริงโดยทั่วไปอาจมีข้อยกเว้นจำนวนมากและจากการศึกษากาแลคซีที่ผิดปกติเหล่านี้ซึ่งไม่เหมาะกับรูปแบบที่คาดไว้เขาสามารถเรียนรู้บางอย่างเกี่ยวกับกระบวนการที่ผ่าน กาแลคซีก่อตัวขึ้น
ดังนั้นสิ่งที่ Schawinski จำเป็นในการที่จะคว่ำภูมิปัญญาดั้งเดิมเป็นชุดใหญ่ของกาแลคซีที่ถูกจำแนก morphologically; นั่นคือกาแลคซีที่ถูกจัดเป็นเกลียวหรือรูปไข่ อย่างไรก็ตามปัญหาคือว่าวิธีการจัดประเภทแบบอัลกอริธึมที่มีอยู่ยังไม่ดีพอที่จะใช้สำหรับการวิจัยทางวิทยาศาสตร์ กล่าวคือการจำแนกกาแลคซีคือในเวลานั้นปัญหาที่ยากสำหรับคอมพิวเตอร์ ดังนั้นสิ่งที่ต้องการคือกาแลคซีที่จัดอยู่ในกลุ่ม มนุษย์ จำนวนมาก Schawinski รับหน้าที่ปัญหาการจำแนกประเภทนี้ด้วยความกระตือรือร้นของนักศึกษาระดับบัณฑิตศึกษา ในเซสชั่นมาราธอนเจ็ดวัน 12 ชั่วโมงเขาสามารถจำแนกกาแลคซี 50,000 รูปได้ ในขณะที่กาแลคซี 50,000 แห่งอาจฟังดูได้ แต่ก็เป็นเพียงประมาณ 5% ของเกือบหนึ่งล้านกาแลคซีที่ถ่ายในการสำรวจ Sloan Digital Sky Survey Schawinski ตระหนักว่าเขาต้องการวิธีการปรับขนาดได้มากขึ้น
โชคดีที่มันปรากฎว่างานของกาแลคซีจำแนกไม่จำเป็นต้องมีการฝึกอบรมขั้นสูงในดาราศาสตร์; คุณสามารถสอนคนที่จะทำสวยได้อย่างรวดเร็ว ในคำอื่น ๆ แม้ว่าการจำแนกกาแลคซีเป็นงานที่ยากสำหรับคอมพิวเตอร์มันก็สวยง่ายสำหรับมนุษย์ ดังนั้นในขณะนั่งอยู่ในผับใน Oxford, Schawinski และเพื่อนนักดาราศาสตร์คริส Lintott ฝันขึ้นเว็บไซต์ที่อาสาสมัครจะจำแนกภาพของกาแลคซี ไม่กี่เดือนต่อมาสวนสัตว์ Galaxy เกิด
ที่เว็บไซต์ Galaxy Zoo อาสาสมัครจะได้รับการฝึกอบรมไม่กี่นาที ตัวอย่างเช่นการเรียนรู้ความแตกต่างระหว่างกาแลคซีเกลียวและรูปไข่ (รูปที่ 5.2) หลังจากการฝึกอบรมครั้งนี้อาสาสมัครแต่ละคนต้องผ่านการทดสอบอย่างเป็นรูปธรรมซึ่งสามารถจัดกาซากานุกรมได้อย่างถูกต้อง 11-15 กาแลคซี่ที่มีการจำแนกประเภทที่รู้จักกันดีและจะเริ่มจำแนกประเภทของกาแลคซีที่ไม่รู้จักโดยใช้อินเทอร์เฟซแบบเว็บที่เรียบง่าย (รูปที่ 5.3) การเปลี่ยนจากอาสาสมัครไปเป็นนักดาราศาสตร์จะเกิดขึ้นภายในเวลาไม่ถึง 10 นาทีและต้องผ่านขั้นต่ำสุดของอุปสรรค
Galaxy Zoo ดึงดูดอาสาสมัครเริ่มต้นของโครงการหลังจากที่โครงการได้ให้ความสำคัญในบทความข่าวและในเวลาประมาณหกเดือนโครงการนี้เริ่มเกี่ยวข้องกับนักวิทยาศาสตร์มากกว่า 100,000 คนที่เข้าร่วมเพราะพวกเขาชอบงานและต้องการช่วยดาราศาสตร์ล่วงหน้า อาสาสมัคร 100,000 คนเหล่านี้มีส่วนร่วมในการจำแนกประเภทมากกว่า 40 ล้านคนโดยส่วนใหญ่มาจากกลุ่มผู้เข้าร่วมกลุ่มย่อยที่มีขนาดค่อนข้างเล็ก (Lintott et al. 2008)
นักวิจัยที่มีประสบการณ์ในการว่าจ้างผู้ช่วยวิจัยระดับปริญญาตรีอาจจะสงสัยเกี่ยวกับคุณภาพข้อมูลได้ทันที ในขณะที่ความสงสัยนี้มีความสมเหตุสมผล Galaxy Zoo แสดงให้เห็นว่าเมื่อผลงานอาสาสมัครได้รับการทำความสะอาดอย่างถูกต้องเหมาะสมและเป็นที่รวมแล้วพวกเขาสามารถสร้างผลลัพธ์ที่มีคุณภาพสูงได้ (Lintott et al. 2008) เคล็ดลับสำคัญในการสร้างฝูงชนเพื่อสร้างข้อมูลที่มีคุณภาพระดับมืออาชีพคือ ความซ้ำซ้อน ซึ่งก็คือมีหน้าที่เดียวกันกับคนหลาย ๆ คน ใน Galaxy Zoo มีการจำแนกประเภทประมาณ 40 แบบต่อกาแลคซี; นักวิจัยที่ใช้ผู้ช่วยวิจัยระดับปริญญาตรีไม่สามารถให้ความซ้ำซ้อนในระดับนี้ดังนั้นจึงต้องมีความกังวลมากขึ้นกับคุณภาพของการจำแนกแต่ละประเภท สิ่งที่อาสาสมัครขาดการฝึกอบรมพวกเขาทำขึ้นสำหรับกับความซ้ำซ้อน
แม้ว่าจะมีการจำแนกหลาย ๆ ประเภทต่อกาแลคซี แต่การรวมกลุ่มอาสาสมัครเพื่อสร้างการจำแนกเป็นเอกฉันท์เป็นเรื่องที่ยุ่งยาก เนื่องจากความท้าทายที่คล้ายคลึงกันมากในโครงการคำนวณของมนุษย์ส่วนใหญ่จะเป็นประโยชน์ในการทบทวนขั้นตอนสามขั้นตอนที่นักวิจัยของ Galaxy Zoo ใช้ในการจัดทำการทำข้อมูลร่วมกัน ประการแรกนักวิจัย "ทำความสะอาด" ข้อมูลโดยการลบการจำแนกปลอม ตัวอย่างเช่นคนที่จำแนกประเภทของกาแลคซีเดียวกันนี้ได้บางครั้งก็อาจเกิดขึ้นได้หากพวกเขาพยายามที่จะจัดการกับผลที่ได้รับการจัดประเภททั้งหมดทิ้งไป การทำเช่นนี้และการทำความสะอาดที่คล้ายคลึงกันอื่น ๆ ได้ลบประมาณ 4% ของการจำแนกทั้งหมด
ประการที่สองหลังจากทำความสะอาดนักวิจัยจำเป็นต้องขจัดอคติที่เป็นระบบในการจำแนกประเภท จากการศึกษาการตรวจจับอคติแบบฝังตัวภายในโครงการเดิม ๆ ตัวอย่างเช่นการแสดงอาสาสมัครบางรายในกาแลคซีในโมโนโครมแทนที่จะเป็นสีนักวิจัยค้นพบอคติที่เป็นระบบหลายอย่างเช่นความลำเอียงที่เป็นระบบเพื่อจัดกาแลคซีเกลียวเป็นกาแลคซีรูปไข่ (Bamford et al. 2009) การปรับตัวสำหรับอคติที่เป็นระบบเหล่านี้มีความสำคัญอย่างมากเพราะความซ้ำซ้อนไม่ได้เป็นการลบความลำเอียงที่เป็นระบบ ช่วยขจัดข้อผิดพลาดแบบสุ่มเท่านั้น
ในที่สุดหลังจากเลิกจ้างนักวิจัยจำเป็นต้องมีวิธีการรวมการจัดประเภทบุคคลเพื่อสร้างการจัดประเภทเป็นเอกฉันท์ วิธีที่ง่ายที่สุดในการรวมการจัดประเภทสำหรับกาแลคซีแต่ละแห่งจะเป็นการเลือกประเภทที่พบบ่อยที่สุด อย่างไรก็ตามวิธีการนี้จะให้อาสาสมัครแต่ละคนมีน้ำหนักเท่ากันและนักวิจัยสงสัยว่าอาสาสมัครบางคนดีกว่าการจัดประเภทอื่น ๆ ดังนั้นนักวิจัยจึงได้พัฒนาขั้นตอนการถ่วงน้ำหนักแบบซ้ำซ้อนที่ซับซ้อนขึ้นซึ่งพยายามหาตัวจำแนกประเภทที่ดีที่สุดและให้น้ำหนักมากขึ้น
ดังนั้นหลังจากกระบวนการสามขั้นตอนการทำความสะอาดการลดระดับและการถ่วงน้ำหนักทีมงานวิจัยของ Galaxy Zoo ได้ทำการจัดหมวดหมู่อาสาสมัครจำนวน 40 ล้านชุดไว้ในชุดการจำแนกทางสัณฐานวิทยาที่สอดคล้องกัน เมื่อการจัดหมวดหมู่กาแลกซี่นี้เปรียบเทียบกับความพยายามที่มีขนาดเล็กกว่าเดิมสามครั้งโดยนักดาราศาสตร์ระดับมืออาชีพรวมถึงการจัดหมวดหมู่โดย Schawinski เพื่อช่วยสร้างแรงบันดาลใจ Galaxy Zoo มีข้อตกลงที่แข็งแกร่ง ดังนั้นอาสาสมัครสามารถสรุปการจัดกลุ่มที่มีคุณภาพสูงและในระดับที่นักวิจัยไม่สามารถจับคู่ได้ (Lintott et al. 2008) ในความเป็นจริงโดยการจำแนกประเภทมนุษย์สำหรับกาแลคซีจำนวนมากเช่น Schawinski, Lintott และอื่น ๆ สามารถแสดงให้เห็นว่ามีเพียงประมาณ 80% ของกาแลคซีเท่านั้นที่ทำตามรูปแบบที่คาดว่าจะเป็นเกลียวสีฟ้าและรูปไข่สีแดงและเอกสารจำนวนมากได้รับการเขียนขึ้น การค้นพบครั้งนี้ (Fortson et al. 2011)
เมื่อพิจารณาจากพื้นหลังนี้คุณสามารถดูได้ว่ากาแล็กซี่สวนสัตว์ทำตามสูตรการแบ่งใช้รวมซึ่งเป็นสูตรเดียวกันกับที่ใช้สำหรับโครงการคำนวณส่วนใหญ่ของมนุษย์ ประการแรกปัญหาใหญ่ถูก แบ่งออก เป็นชิ้น ๆ ในกรณีนี้ปัญหาในการจำแนกประเภทของกาแลคซีนับล้าน ๆ ถูกแบ่งออกเป็นล้านปัญหาในการจัดกาแลคซีหนึ่ง ถัดไปการดำเนินการจะ ใช้ กับแต่ละชิ้นอย่างอิสระ ในกรณีนี้อาสาสมัครจำแนกกาแลคซีแต่ละแห่งเป็นรูปเกลียวหรือรูปไข่ สุดท้ายผลลัพธ์จะ รวมกัน เพื่อให้ได้ผลลัพธ์ที่เป็นเอกฉันท์ ในกรณีนี้ขั้นตอนรวมรวมถึงการทำความสะอาดการลดขนาดและการถ่วงน้ำหนักเพื่อสร้างการจัดอันดับเป็นเอกฉันท์สำหรับแต่ละกาแลคซี แม้ว่าโครงการส่วนใหญ่จะใช้สูตรทั่วไปนี้แต่ว่าแต่ละขั้นตอนจะต้องมีการกำหนดค่าตามความต้องการเฉพาะเจาะจง ตัวอย่างเช่นในโครงการการคำนวณของมนุษย์ที่อธิบายไว้ด้านล่างสูตรเดียวกันจะถูกนำมาใช้ แต่การใช้และรวมขั้นตอนจะแตกต่างกันมาก
สำหรับทีม Galaxy Zoo โครงการแรกนี้เป็นเพียงจุดเริ่มต้นเท่านั้น อย่างรวดเร็วพวกเขาตระหนักว่าแม้ว่าพวกเขาจะสามารถจำแนกได้เกือบล้านล้านกาแลคซีนี้ขนาดนี้ไม่เพียงพอที่จะทำงานกับการสำรวจท้องฟ้าดิจิตอลใหม่ซึ่งสามารถสร้างภาพประมาณ 10 พันล้านกาแลคซีได้ (Kuminski et al. 2014) เพื่อรองรับการเพิ่มขึ้นจาก 1 ล้านถึง 10 พันล้านรายซึ่งเป็นปัจจัยหนึ่งของสวนสัตว์ 10,000 กาแล็กซี่จะต้องรับสมัครผู้เข้าร่วมประมาณ 10,000 ครั้ง แม้ว่าจำนวนอาสาสมัครบนอินเทอร์เน็ตจะมีขนาดใหญ่ แต่ก็ไม่ จำกัด ดังนั้นนักวิจัยจึงตระหนักว่าหากพวกเขากำลังจัดการกับปริมาณข้อมูลที่เพิ่มมากขึ้นเรื่อย ๆ จำเป็นต้องใช้วิธีการใหม่ ๆ ที่ปรับขนาดได้มากขึ้น
ดังนั้น Manda Banerji - ทำงานร่วมกับ Schawinski, Lintott และสมาชิกคนอื่น ๆ ของทีม Galaxy Zoo (2010) เริ่มใช้คอมพิวเตอร์เพื่อการจำแนกกาแลคซี โดยเฉพาะอย่างยิ่งการใช้การจำแนกประเภทมนุษย์ที่สร้างขึ้นโดย Galaxy Zoo Banerji สร้างโมเดลการเรียนรู้ด้วยเครื่องซึ่งสามารถทำนายการจัดหมวดหมู่ของมนุษย์ขึ้นอยู่กับลักษณะของภาพได้ ถ้าแบบจำลองนี้สามารถสร้างการจำแนกประเภทของมนุษย์ได้ด้วยความแม่นยำสูงนักวิจัยของ Galaxy Zoo จะสามารถจัดกาลังกาแลคซี่ที่ไม่มีที่สิ้นสุดเป็นหลัก
หลักของแนวทาง Banerji และเพื่อนร่วมงานค่อนข้างคล้ายกับเทคนิคที่ใช้กันทั่วไปในการวิจัยทางสังคมแม้ว่าความคล้ายคลึงกันอาจไม่ชัดเจนในทันที ประการแรก Banerji และเพื่อนร่วมงานได้แปลงภาพแต่ละภาพเป็นชุดของ คุณสมบัติ เชิงตัวเลขที่สรุปคุณสมบัติของมัน ตัวอย่างเช่นสำหรับภาพของกาแลคซีอาจมีสามคุณลักษณะ ได้แก่ จำนวนสีน้ำเงินในภาพการแปรผันความสว่างของพิกเซลและสัดส่วนของพิกเซลที่ไม่ใช่สีขาว การเลือกคุณสมบัติที่ถูกต้องเป็นส่วนสำคัญของปัญหาและโดยทั่วไปจะต้องอาศัยความชำนาญเฉพาะเรื่อง ขั้นตอนแรกนี้เรียกว่า วิศวกรรมคุณลักษณะ ทำให้เกิดเมทริกซ์ข้อมูลที่มีแถวหนึ่งแถวต่อรูปภาพจากนั้นจะมีคอลัมน์สามคอลัมน์อธิบายภาพนั้น นักวิจัยสร้างโมเดลการเรียนรู้ทางสถิติหรือเครื่องตัวอย่างเช่นการถดถอยโลจิสติกซึ่งคาดการณ์การจัดประเภทของมนุษย์ขึ้นอยู่กับคุณลักษณะต่างๆ ของภาพ ในที่สุดนักวิจัยใช้พารามิเตอร์ในแบบจำลองทางสถิตินี้เพื่อสร้างการจำแนกโดยประมาณของกาแลคซีใหม่ (รูปที่ 5.4) ในการเรียนรู้ด้วยเครื่องจักรวิธีนี้โดยใช้ตัวอย่างที่มีข้อความกำกับเพื่อสร้างแบบจำลองที่สามารถทำป้ายข้อมูลใหม่ได้เรียกว่า การเรียนรู้แบบมีการควบคุม
คุณลักษณะในโมเดลการเรียนรู้ของเครื่องเป่าของ Banerji และเพื่อนร่วมงานมีความซับซ้อนกว่าตัวอย่างของเล่นตัวอย่างเช่นเธอใช้คุณลักษณะเช่น "de Vaucouleurs fit axial ratio" และแบบจำลองของเธอไม่ใช่การถดถอยโลจิสติกส์เป็นเครือข่ายประสาทเทียม การใช้คุณลักษณะรูปแบบของเธอและการจัดหมวดหมู่ Galaxy Zoo ที่สอดคล้องกันทำให้เธอสามารถสร้างน้ำหนักในแต่ละคุณลักษณะแล้วใช้น้ำหนักดังกล่าวเพื่อคาดการณ์เกี่ยวกับการจัดหมวดหมู่กาแลคซี ตัวอย่างเช่นการวิเคราะห์ของเธอพบว่าภาพที่มีค่า "de Vaucouleurs fit axial ratio" ต่ำมีแนวโน้มที่จะเป็นกาแลคซีเกลียว เมื่อพิจารณาน้ำหนักเหล่านี้แล้วเธอสามารถทำนายการจัดหมวดหมู่ของมนุษย์ในกาแลคซีได้อย่างแม่นยำ
ผลงานของ Banerji และเพื่อนร่วมงานหันสวนสัตว์การ์เด้นไปเป็นสิ่งที่ฉันเรียกว่า ระบบการคำนวณของมนุษย์ที่ ใช้ คอมพิวเตอร์ช่วย วิธีที่ดีที่สุดในการคิดเกี่ยวกับระบบไฮบริดคือแทนที่จะให้มนุษย์แก้ปัญหาพวกเขามีมนุษย์สร้างชุดข้อมูลที่สามารถใช้ในการฝึกอบรมคอมพิวเตอร์เพื่อแก้ปัญหาได้ บางครั้งการฝึกอบรมคอมพิวเตอร์เพื่อแก้ปัญหาอาจต้องใช้ตัวอย่างมากมายและวิธีเดียวที่จะสร้างตัวอย่างที่เพียงพอคือการทำงานร่วมกันเป็นกลุ่ม ข้อได้เปรียบของวิธีการที่ใช้คอมพิวเตอร์ช่วยนี้คือการช่วยให้คุณสามารถจัดการกับข้อมูลที่ไม่มีขีด จำกัด เป็นหลักโดยใช้เพียงจำนวน จำกัด ของความพยายามของมนุษย์ ตัวอย่างเช่นนักวิจัยที่มีกาแลคซีที่จัดอยู่ในมนุษย์จำนวนหนึ่งล้านคนสามารถสร้างแบบจำลองการทำนายซึ่งสามารถนำมาใช้เพื่อแยกแยะกาแลคซีพันล้านหรือแม้แต่ล้านล้านได้ ถ้ามีจำนวนมหาศาลของกาแลคซีแล้วชนิดของไฮบริดของมนุษย์คอมพิวเตอร์นี้เป็นจริงทางออกที่เป็นไปได้เท่านั้น ความสามารถในการขยายขีด จำกัด นี้ไม่มีขีด จำกัด อย่างไรก็ตาม การสร้างโมเดลการเรียนรู้ด้วยเครื่องซึ่งสามารถทำซ้ำการจำแนกประเภทของมนุษย์ได้เป็นปัญหาที่ยาก แต่โชคดีที่มีหนังสือที่ดีเยี่ยมสำหรับหัวข้อนี้ (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013)
กาแล็กซี่สวนสัตว์เป็นภาพประกอบที่ดีของจำนวนโครงการคำนวณของมนุษย์วิวัฒนาการ ประการแรกนักวิจัยพยายามโครงการด้วยตัวเองหรือกับทีมผู้ช่วยวิจัยรายเล็ก ๆ (เช่นความพยายามในการจัดหมวดหมู่เบื้องต้นของ Schawinski) ถ้าวิธีการนี้ไม่ดีนักวิจัยสามารถย้ายไปที่โครงการคำนวณของมนุษย์กับผู้เข้าร่วมจำนวนมากได้ แต่สำหรับปริมาณข้อมูลบางอย่างความพยายามของมนุษย์ที่บริสุทธิ์จะไม่เพียงพอ ในตอนนั้นนักวิจัยจำเป็นต้องสร้างระบบการคำนวณโดยใช้คอมพิวเตอร์ช่วยในการจำแนกประเภทมนุษย์เพื่อใช้เป็นแบบฝึกการเรียนรู้ด้วยเครื่องซึ่งสามารถนำมาใช้กับข้อมูลที่แทบไม่ จำกัด