आकाशगंगा प्राणीसंग्रहालय एक दशलक्ष आकाशगंगा आहेतच वर्गीकरण करण्यासाठी अनेक बिगर तज्ज्ञ स्वयंसेवक प्रयत्न मेळ.
आकाशगंगा प्राणीसंग्रहालय 2007 थोडा सरलीकृत, Schawinski आकाशगंगा आहेतच रस होता केव्हिन Schawinski ऑक्सफर्ड विद्यापीठ येथे खगोलशास्त्र मध्ये एक पदवीधर विद्यार्थी ठळक समस्या बाहेर वाढला, आणि आकाशगंगा आहेतच वर्गीकरण केले जाऊ शकते त्यांच्या शब्द कसे बनतात त्याचे शास्त्र-लंबवर्तुळाकार किंवा आवर्त आणि त्यांच्या रंग निळा किंवा लाल आहे. वेळी, खगोलशास्त्रज्ञांना आपापसांत चिमण्यांना होते आवर्त आकाशगंगा आहेतच, आमच्या आकाशगंगा जसे, रंग (दर्शवत तरुण) मध्ये निळा होते आणि त्यामुळे त्या कक्षेत आकाशगंगा आहेतच रंग लाल होते (वृद्ध दर्शवत). Schawinski या चिमण्यांना शंका. त्यांनी सांगितले की, या नमुना सामान्य खरे असू शकते, तर कदाचित अपवाद बर्याच मोठया आकाराचा होती आणि आहे की संशयास्पद या असामान्य आकाशगंगा-बसत नाही की विषयावर बरेच अभ्यास करून अपेक्षित नमुना-तो प्रक्रिया काहीतरी जाणून ज्याद्वारे आकाशगंगा आहेतच स्थापना केली.
अशा प्रकारे, काय Schawinski चिमण्यांना उलथून टाकणे करण्यासाठी आवश्यक morphologically वर्गीकृत आकाशगंगा एक मोठा संच होता; की, आवर्त किंवा लंबवर्तुळाकार एकतर म्हणून वर्गीकृत करण्यात आले होते की आकाशगंगा आहे. समस्या, तथापि, वर्गीकरण विद्यमान अल्गोरिथमसंबंधी पद्धती अजून पुरेसे चांगले वैज्ञानिक संशोधन वापरली जाऊ नाही आले होते; दुसऱ्या शब्दांत, वगीर्करण आकाशगंगा आहेतच त्या वेळी होता, संगणक कठीण होते की एक समस्या. म्हणून, गरज होती काय मानवी वर्गीकृत आकाशगंगा मोठ्या प्रमाणात होते. Schawinski एक पदवीधर विद्यार्थी या उत्साह या वर्गीकरण समस्या आढावा घेतला. सात, 12-तास दिवस एक मॅरेथॉन सत्र, तो 50,000 आकाशगंगा आहेतच वर्गीकरण करण्यास सक्षम होते. 50,000 आकाशगंगा आहेतच भरपूर सारखे ध्वनी शकते, तर, तो प्रत्यक्षात फक्त 5% Sloan डिजिटल स्काय सर्वेक्षण फोटो आले होते की, जवळपास एक लाख आकाशगंगा आहे. Schawinski तो अधिक प्रमाणजोगी दृष्टिकोन गरज लक्षात आले की.
सुदैवाने, तो वगीर्करण आकाशगंगा कार्य खगोलशास्त्र मध्ये प्रगत प्रशिक्षण आवश्यकता नाही बाहेर वळते; आपण तेही पटकन तो आस्वाद शिकवू शकता. दुसऱ्या शब्दांत, आकाशगंगा आहेतच वगीर्करण संगणक कठीण होते हे काम आहे तरी, तो मानव खूपच सोपे होते. त्यामुळे, ऑक्सफर्ड, Schawinski आणि सहकारी खगोलशास्त्रज्ञ ख्रिस Lintott मध्ये पब बसलेला असताना स्वयंसेवक आकाशगंगा आहेतच प्रतिमा वर्गीकरण होईल जेथे वेबसाइट स्वप्न पडले. काही महिने नंतर, दीर्घिका प्राणीसंग्रहालय जन्म झाला.
येथे दीर्घिका प्राणीसंग्रहालय वेबसाइट, स्वयंसेवक प्रशिक्षण काही मिनिटे दु: ख भोगावे; उदाहरणार्थ, एक आवर्त आणि लंबवर्तुळाकार आकाशगंगा (आकृती 5.2) फरक शिकत. या प्रशिक्षण केल्यानंतर, स्वयंसेवक ओळखले एक तुलनेने सोपे क्विझ-योग्य वगीर्करण 15 11 आकाशगंगा आहेतच पास होते तेव्हा स्वयंसेवक साध्या वेब-आधारीत संवादचा (आकृती 5.3) माध्यमातून अज्ञात आकाशगंगा रिअल वर्गीकरण सुरू होईल वर्गवार्या आणि. खगोलशास्त्रज्ञ स्वयंसेवक संक्रमण कमी 10 मिनिटे ठिकाणी घेऊन आणि फक्त अडथळा, एक साधी क्विझ सर्वात कमी पुरवणे आवश्यक असते.
प्रकल्प एक बातमी लेख मध्ये वैशिष्ट्यीकृत होती केल्यानंतर, आणि सहा महिने प्रकल्प 100,000, पेक्षा अधिक नागरिक शास्त्रज्ञ, ते काम आनंद आणि त्यांना आगाऊ खगोलशास्त्र मदत होते कारण सहभागी लोक सहभागी झाली आहे दीर्घिका प्राणीसंग्रहालय त्याच्या प्रारंभिक स्वयंसेवक आकर्षित. हे दोन्ही 100,000 स्वयंसेवक वर्गवार्या सहभागी तुलनेने लहान, कोर गट येणारी बहुतांश, 40 दशलक्ष पेक्षा अधिक वर्गवार्या एकूण योगदान (Lintott et al. 2008) .
पदवी संशोधन सहाय्यकांना कामावर अनुभव संशोधक लगेच डेटा गुणवत्ता बद्दल संशयवादी असू शकते. या संशयखोर वृत्ती वाजवी आहे करताना, दीर्घिका प्राणीसंग्रहालय स्वयंसेवक योगदान बरोबर साफ तेव्हा debiased आणि एकत्रित, ते उच्च दर्जाचे परिणाम नाही असे दर्शवितो (Lintott et al. 2008) . व्यावसायिक गुणवत्ता डेटा तयार करण्यासाठी गर्दी मिळत महत्त्वाचा युक्ती अनतरेक आहे; आहे की, त्याने त्याच कार्य अनेक लोकांनी केले. दीर्घिका प्राणिसंग्रहालयाचे सुमारे 40 आकाशगंगा प्रति वर्गवार्या होते; पदवी संशोधन सहाय्यकांना वापरून अनतरेक हा स्तर घेऊ आणि म्हणून कधीच नव्हते संशोधक प्रत्येक वर्गीकरण गुणवत्ता जास्त संबंधित असणे आवश्यक आहे. स्वयंसेवक प्रशिक्षण काय कमी पडले, ते रिडंडंसि सह अप केले.
अगदी आकाशगंगा प्रति अनेक वर्गवार्या, तथापि, स्वयंसेवक वर्गवार्या संच यात एक एकमत वर्गीकरण अवघड आहे उत्पादनासाठी. खूप समान आव्हाने सर्वात मानवी मोजणी प्रकल्प निर्माण कारण, तो थोडक्यात तीन पायऱ्या दीर्घिका प्राणीसंग्रहालय संशोधक त्यांच्या एकमत वर्गवार्या उत्पादन वापरले की पुनरावलोकन करण्यासाठी उपयुक्त आहे. प्रथम, संशोधक बोगस वर्गवार्या काढून "साफ" डेटा. उदाहरणार्थ, वारंवार ते हाताळू प्रयत्न करत होते तर होईल त्याच आकाशगंगा-काहीतरी वर्गीकरण लोक त्यांच्या सर्व वर्गवार्या टाकून परिणाम-होता. या आणि अन्य तत्सम स्वच्छता 4% सर्व वर्गवार्या काढला.
दुसरा, साफ करून, संशोधक वर्गवार्या मध्ये पद्धतशीर चुका काढण्यासाठी आवश्यक. मूळ प्रोजेक्ट-उदाहरणार्थ एम्बेड कल ओळख अभ्यास, काही स्वयंसेवक ऐवजी एका रंगात रंगवलेले चित्र मध्ये आकाशगंगा दर्शवित आहे एक मालिका माध्यमातून रंग-संशोधक अनेक पद्धतशीर चुका, अशा कक्षेत आकाशगंगा आहेतच म्हणून दूर आवर्त आकाशगंगा आहेतच वर्गीकरण करण्याचा एक शिस्तबद्ध कल म्हणून शोधला (Bamford et al. 2009) . कारण अनेक योगदान सरासरीने पद्धतशीर कल काढून टाकले जात नाही या पद्धतशीर चुका साठी समायोजित अत्यंत महत्त्वाचे आहे; तो फक्त यादृच्छिक त्रुटी काढून.
शेवटी, debiasing नंतर, संशोधक एक एकमत वर्गीकरण निर्मिती वैयक्तिक वर्गवार्या एकत्र करण्यासाठी एक पद्धत आवश्यक आहे. प्रत्येक दीर्घिका वर्गवार्या एकत्र करण्याचा सर्वात सोपा मार्ग सर्वात सामान्य वर्गीकरण निवडा होईल. तथापि, हा दृष्टिकोन प्रत्येक स्वयंसेवक समान वजन देईल, आणि संशोधक काही स्वयंसेवक इतरांपेक्षा वर्गीकरण येथे चांगले होते की संशय. म्हणून, संशोधक आपोआप सर्वोत्तम classifiers शोधणे आणि त्यांना अधिक वजन देणे प्रयत्न अधिक जटिल iterative भार योजन प्रक्रिया विकसित केले आहे.
अशा प्रकारे, ही तीन पायऱ्यांची प्रक्रिया-स्वच्छता, debiasing, आणि भार योजन-Galaxy प्राणीसंग्रहालय संशोधन संघ नंतर एकमत morphological वर्गवार्या एक संच मध्ये रुपांतरित होते 40 दशलक्ष स्वयंसेवक वर्गवार्या. या दीर्घिका प्राणीसंग्रहालय वर्गवार्या व्यावसायिक खगोलशास्त्रज्ञांनी तीन पूर्वीच्या लहान प्रमाणात प्रयत्न केले, दीर्घिका प्राणीसंग्रहालय प्रेरणा मदत केली की Schawinski करून वर्गीकरण समावेश तुलनेत होते, तेव्हा मजबूत करार होता. अशा प्रकारे, स्वयंसेवक, एकत्रित, उच्च गुणवत्ता वर्गवार्या प्रदान करण्यासाठी सक्षम होते आणि संशोधक जुळत शकत नाही की एक प्रमाणात (Lintott et al. 2008) . खरं तर, आकाशगंगा अशा मोठ्या प्रमाणात मानवी वर्गवार्या येत, Schawinski, Lintott, आणि इतर केवळ 80% आकाशगंगा बद्दल लिहिले गेले आहेत अपेक्षित नमुना-निळा spirals आणि लाल ellipticals आणि असंख्य पेपर अनुसरण की दर्शविण्यासाठी सक्षम होते हा शोध (Fortson et al. 2011) .
विभाजित-लागू-एकत्र या पार्श्वभूमीवर दिले, आम्ही आता दीर्घिका प्राणीसंग्रहालय कसे खालील पाहू शकता कृती, सर्वात मानवी मोजणी प्रकल्पांसाठी वापरली आहे की समान कृती. प्रथम, एक मोठी समस्या भागांमध्ये विभाजीत केले जाते. या प्रकरणात, एक दशलक्ष आकाशगंगा आहेतच वगीर्करण समस्या एक आकाशगंगा वगीर्करण एक दशलक्ष समस्या विभाजीत केले जाते. पुढे, ऑपरेशन स्वतंत्रपणे प्रत्येक गठ्ठ्याच्या लागू आहे. या प्रकरणात, एक स्वयंसेवक प्रत्येक आकाशगंगा आवर्त किंवा लंबवर्तुळाकार एकतर म्हणून वर्गीकरण होईल. शेवटी, परिणाम एक एकमत परिणाम एकत्रीत केले जातात. या प्रकरणात, एकत्र पाऊल स्वच्छता, debiasing, आणि भार योजन प्रत्येक आकाशगंगा एक एकमत वर्गीकरण निर्मिती समाविष्ट केले आहे. सर्वात प्रकल्प ह्या उपाय वापर असला तरी, पायऱ्या प्रत्येक विशिष्ट समस्या फिलॉसॉफर ऐच्छिक करणे आवश्यक आहे. उदाहरणार्थ, खाली वर्णन मानवी मोजणी प्रकल्प, समान कृती होणार, पण लागू आणि एकत्र पावले जोरदार भिन्न असेल.
दीर्घिका प्राणीसंग्रहालय संघ, हा पहिला प्रकल्प फक्त सुरूवात होती. फार पटकन ते लक्षात ते एक दशलक्ष आकाशगंगा आहेतच बंद वर्गीकरण करण्यासाठी सक्षम होते जरी की, या प्रमाणात नवीन डिजिटल आकाश सर्वेक्षण, 10 अब्ज आकाशगंगा आहेतच प्रतिमा तयार होऊ शकते जे कार्य करण्यासाठी पुरेसे नाही (Kuminski et al. 2014) . पासून 1 दशलक्ष 10 वाढ हाताळण्यासाठी अब्ज 10,000-Galaxy प्राणीसंग्रहालय घटक अंदाजे 10,000 वेळा अधिक सहभागी भरती करण्याची आवश्यकता आहे. इंटरनेटवर स्वयंसेवक संख्या मोठी आहे, तरी ते असीम नाही. म्हणून, संशोधक लक्षात आले की त्या डेटा, नवीन, आणखी प्रमाणजोगी, दृष्टिकोन गरज होती कधीही वाढत प्रमाणात हाताळण्यासाठी जात आहेत तर.
म्हणून, मंदा बॅनर्जी-काम केविन Schawinski, ख्रिस Lintott, आणि दीर्घिका प्राणीसंग्रहालय संघ सुरू शिक्षण संगणक इतर सदस्यांसह आकाशगंगा वर्गीकरण करण्यासाठी. अधिक विशेषतः, दीर्घिका प्राणीसंग्रहालय, बनवले मानवी वर्गवार्या वापरून Banerji et al. (2010) प्रतिमा वैशिष्ट्ये आधारित एक आकाशगंगा मानवी वर्गीकरण भाकित शकते, की एक मशीन लर्निंग मॉडेल बांधले. ही मशीन लर्निंग मॉडेल उच्च अचूकता मानवी वर्गवार्या पुनरुत्पादित शकत नाही, तर मग आकाशगंगा एक मूलत: अनंत वर्गीकरण दीर्घिका प्राणीसंग्रहालय संशोधक ते वापरले जाऊ शकते.
बॅनर्जी आणि सहकारी 'दृष्टिकोन कोर की सारखेपणा पहिल्या दृष्टीक्षेपात स्पष्ट न पटणारे आहे, सामान्यतः सामाजिक संशोधन मध्ये वापरली तंत्र करण्यासाठी तेही समान प्रत्यक्षात आहे. प्रथम, बॅनर्जी आणि त्यांच्या सहकार्यांना ते गुणधर्म आहे सारांश असलेला अंकीय वैशिष्ट्ये एक संच मध्ये प्रत्येक प्रतिमा रूपांतर. प्रतिमा मध्ये निळा रक्कम, पिक्सेल ब्राइटनेस मध्ये फरक, व विना-पांढरा पिक्सेल प्रमाण: उदाहरणार्थ, आकाशगंगा आहेतच प्रतिमा तेथे तीन वैशिष्ट्ये असू शकते. योग्य वैशिष्ट्यांची निवड समस्या एक महत्वाचा भाग आहे, आणि तो विषय क्षेत्र तज्ञांची गरज असते. ही पहिली पायरी, सामान्यतः वैशिष्ट्य अभियांत्रिकी म्हणतात, प्रतिमा प्रति एक पंक्ती आणि नंतर तीन स्तंभ प्रतिमा वर्णन एका डेटा मॅट्रिक्स मध्ये परिणाम. एक गृह पुन्ह-आधारित मानवी वर्गीकरण अंदाज सारखे डेटा मॅट्रिक्स आणि इच्छित उत्पादन (उदा, प्रतिमा इलिप्टिकल दीर्घिका एक मानवी वर्गीकृत करण्यात आला होता की नाही हे), संशोधक एक संख्याशास्त्रीय मॉडेल-उदाहरणार्थ घटक अंदाज, काहीतरी देण्यात प्रतिमा वैशिष्ट्यांवर. शेवटी, संशोधक नवीन आकाशगंगा अंदाज वर्गवार्या (आकृती 5.4) निर्मिती या संख्याशास्त्रीय मॉडेल बाब वापरते. सामाजिक analog विचार करण्यासाठी, आपण एक लाख विद्यार्थी लोकसंख्याशास्त्रीय माहिती होती की कल्पना, आणि आपण ते कॉलेज किंवा नाही पदवी की नाही हे मला माहीत आहे. आपण हा डेटा एक गृह अडचन फिट शकते, आणि नंतर आपण नवीन विद्यार्थी कॉलेज पासून पदवीधर जात आहेत की नाही हे सांगता परिणामी मॉडेल घटक वापरू शकतो. मशीन शिक्षणात हा दृष्टिकोन वापरून लेबल उदाहरणे नंतर नवीन लेबल लावू शकते की एक संख्याशास्त्रीय मॉडेल तयार शिकत पर्यवेक्षण डेटा आहे म्हणतात (Hastie, Tibshirani, and Friedman 2009) .
वैशिष्ट्ये Banerji et al. (2010) मशीन लर्निंग मॉडेल उदाहरणार्थ-उदाहरणार्थ, ती वैशिष्ट्ये जसे वापरले माझे टॉय त्या पेक्षा अधिक जटिल होते "डी Vaucouleurs फिट axial प्रमाण" -आणि तिच्या मॉडेल गृह पुन्ह झाला नाही, तो एक कृत्रिम मज्जासंस्थेसंबंधीचा नेटवर्क होते. तिच्या वैशिष्ट्ये, तिच्या मॉडेल, आणि एकमत दीर्घिका प्राणीसंग्रहालय वर्गवार्या वापरणे, ती प्रत्येक वैशिष्ट्य वर वजन तयार करण्यासाठी, आणि नंतर आकाशगंगा वर्गीकरण बद्दल अंदाज करण्यासाठी या वजन वापर सक्षम होते. उदाहरणार्थ, तिच्या विश्लेषण आढळले कमी "Vaucouleurs axial प्रमाण फिट डे" प्रतिमा आवर्त आकाशगंगा आहेतच असू होण्याची अधिक शक्यता होती. या वजन दिले, ती वाजवी अचूकता एक आकाशगंगा मानवी वर्गीकरण अंदाज सक्षम होते.
काम Banerji et al. (2010) मी एक दुसर्या पिढी मानवी मोजणी प्रणाली कॉल होईल काय दीर्घिका प्राणीसंग्रहालय वळले. या दुसऱ्या पिढीतील प्रणाली विचार सर्वोत्तम मार्ग मानव येत समस्येचे निराकरण ऐवजी की, ते मानव समस्येचे निराकरण करण्यासाठी संगणक सराव वापरले जाऊ शकते की एक डेटासेटच्या तयार आहे. संगणक प्रशिक्षण करण्यासाठी आवश्यक असलेला डेटा रक्कम तो तयार करण्यासाठी एक मानवी वस्तुमान सहकार्याने आवश्यक नाहीत, म्हणून मोठ्या असू शकते. दीर्घिका प्राणीसंग्रहालय, द्वारे वापरले मज्जासंस्थेसंबंधीचा नेटवर्क बाबतीत Banerji et al. (2010) विश्वसनीयरित्या मानवी वर्गीकरण पुनरुत्पादित करण्यासाठी सक्षम होते की एक मॉडेल तयार करण्यासाठी मानवी-लेबल उदाहरणे एक फार मोठी संख्या आवश्यक.
या संगणक सहाय्य दृष्टिकोन फायदा आपण मानवी प्रयत्न फक्त एक मर्यादित रक्कम वापरून डेटा मूलत असीम प्रमाणात हाताळण्यासाठी सक्षम आहे. उदाहरणार्थ, एक दशलक्ष मानवी वर्गीकृत आकाशगंगा एक संशोधक नंतर एक अब्ज किंवा अगदी एक लाख कोटी आकाशगंगा आहेतच वर्गीकरण करण्यासाठी वापरले जाऊ शकते असे एक सूचक मॉडेल तयार करू शकता. आकाशगंगा प्रचंड संख्या आहेत तर, नंतर मानवी-संगणक संकरीत या प्रकारची खरोखर केवळ शक्य उपाय आहे. या असीम प्रमाणता मात्र मुक्त नाही. स्वतः एक कठीण समस्या नीट मानवी वर्गवार्या पुनरुत्पादित शकत नाही की एक मशीन लर्निंग मॉडेल इमारत, पण सुदैवाने आधीपासूनच हा विषय समर्पित उत्कृष्ट पुस्तके आहेत (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
आकाशगंगा प्राणीसंग्रहालय अनेक मानवी मोजणी प्रकल्प उत्क्रांती दाखवते. प्रथम, एक संशोधक स्वत: करून किंवा संशोधन सहाय्यकांना एक लहान संघ (उदा, Schawinski च्या प्रारंभिक वर्गीकरण प्रयत्न) प्रकल्प प्रयत्न करतो. हा दृष्टिकोन तसेच मोजमाप नाही तर, संशोधक अनेक लोक वर्गवार्या योगदान जेथे मानवी मोजणी प्रकल्प हलवू शकता. पण, डेटा एक विशिष्ट खंड शुद्ध मानवी प्रयत्न पुरेसे होणार नाही. त्या वेळी, संशोधक मानवी वर्गवार्या नंतर डेटा अक्षरशः अमर्यादित प्रमाणात लागू होऊ शकते, की एक मशीन लर्निंग मॉडेल सराव वापरले जाते, जेथे दुसर्या पिढी प्रणाली तयार करणे आवश्यक आहे.