गैलेक्सी चिड़ियाघर ने लाखों आकाशगंगाओं को वर्गीकृत करने के लिए कई गैर-विशेषज्ञ स्वयंसेवकों के प्रयासों को संयुक्त किया।
2007 में ऑक्सफोर्ड विश्वविद्यालय में खगोल विज्ञान में स्नातक छात्र केविन शॉविंस्की द्वारा सामना की जाने वाली समस्या से गैलेक्सी चिड़ियाघर में वृद्धि हुई। शॉविंस्की को आकाशगंगाओं में दिलचस्पी थी, और आकाशगंगाओं को उनके रूपरेखा-अंडाकार या सर्पिल द्वारा वर्गीकृत किया जा सकता है- उनके रंग-नीले या लाल रंग से। उस समय, खगोलविदों के बीच पारंपरिक ज्ञान यह था कि हमारे आकाशगंगा की तरह सर्पिल आकाशगंगाएं रंग में नीली थीं (युवाओं को इंगित करती थीं) और अंडाकार आकाशगंगा लाल थी (वृद्धावस्था का संकेत)। Schawinski इस पारंपरिक ज्ञान पर संदेह किया। उन्होंने संदेह किया कि यह पैटर्न सामान्य रूप से सच हो सकता है, लेकिन संभवतः अपवादों की एक बड़ी संख्या थी, और इन असामान्य आकाशगंगाओं में से बहुत से अध्ययन करके- वे जो अपेक्षित पैटर्न में फिट नहीं थे- वह उस प्रक्रिया के बारे में कुछ सीख सकता था जिसके माध्यम से आकाशगंगाओं का गठन
इस प्रकार, परंपरागत ज्ञान को खत्म करने के लिए श्विंस्की को क्या जरूरत थी, जो मोर्फोलॉजिकल वर्गीकृत आकाशगंगाओं का एक बड़ा सेट था; यानी आकाशगंगाओं को सर्पिल या अंडाकार के रूप में वर्गीकृत किया गया था। हालांकि, समस्या यह थी कि वर्गीकरण के लिए मौजूदा एल्गोरिदमिक विधियां अभी तक वैज्ञानिक अनुसंधान के लिए उपयोग करने के लिए पर्याप्त नहीं थीं; दूसरे शब्दों में, वर्गीकरण आकाशगंगाएं उस समय, एक समस्या थी जो कंप्यूटर के लिए कठिन थी। इसलिए, मानव- वर्गीकृत आकाशगंगाओं की एक बड़ी संख्या की आवश्यकता थी। Schawinski स्नातक छात्र के उत्साह के साथ इस वर्गीकरण समस्या का आयोजन किया। सात 12 घंटे के मैराथन सत्र में, वह 50,000 आकाशगंगाओं को वर्गीकृत करने में सक्षम था। जबकि 50,000 आकाशगंगाएं बहुत कुछ लग सकती हैं, वास्तव में स्लोअन डिजिटल स्काई सर्वे में लगभग दस लाख आकाशगंगाओं में से केवल 5% ही फोटो खिंचवाए गए हैं। शॉविंस्की ने महसूस किया कि उन्हें एक और अधिक स्केलेबल दृष्टिकोण की आवश्यकता है।
सौभाग्य से, यह पता चला है कि वर्गीकृत आकाशगंगाओं का कार्य खगोल विज्ञान के क्षेत्र में उन्नत प्रशिक्षण की आवश्यकता नहीं है; यदि आप किसी को यह बहुत जल्दी करना सिखा सकते हैं। दूसरे शब्दों में, भले ही आकाशगंगाओं को वर्गीकृत एक काम है कि कंप्यूटर के लिए मुश्किल था है, यह मनुष्य के लिए बहुत आसान था। तो, जबकि ऑक्सफोर्ड, Schawinski और साथी खगोल विज्ञानी क्रिस Lintott में एक पब में बैठे एक वेबसाइट है, जहां स्वयंसेवकों आकाशगंगाओं की छवियों को वर्गीकृत करेंगे सपना देखा। कुछ महीने बाद, आकाशगंगा चिड़ियाघर का जन्म हुआ।
गैलेक्सी चिड़ियाघर की वेबसाइट पर, स्वयंसेवकों को प्रशिक्षण के कुछ मिनट गुजरना होगा; उदाहरण के लिए, एक सर्पिल और अंडाकार आकाशगंगा (चित्र 5.2) के बीच अंतर सीखना। इस प्रशिक्षण के बाद, प्रत्येक स्वयंसेवक को अपेक्षाकृत आसान क्विज़-सही ढंग से वर्गीकृत वर्गीकरण के साथ 15 में से 11 आकाशगंगाओं को वर्गीकृत करना पड़ा - और फिर एक साधारण वेब-आधारित इंटरफेस (आकृति 5.3) के माध्यम से अज्ञात आकाशगंगाओं के वास्तविक वर्गीकरण को शुरू करना होगा। स्वयंसेवक से खगोलविद में संक्रमण 10 मिनट से भी कम समय में होगा और केवल सबसे कम बाधाओं को पार करने की आवश्यकता होगी, एक साधारण प्रश्नोत्तरी।
इस परियोजना को समाचार लेख में दिखाए जाने के बाद गैलेक्सी चिड़ियाघर ने अपने शुरुआती स्वयंसेवकों को आकर्षित किया, और लगभग छह महीने में इस परियोजना में 100,000 से अधिक नागरिक वैज्ञानिक शामिल थे, जिन्होंने भाग लिया क्योंकि उन्होंने कार्य का आनंद लिया और वे खगोल विज्ञान को आगे बढ़ाने में मदद करना चाहते थे। साथ में, इन 100,000 स्वयंसेवकों ने कुल मिलाकर 40 मिलियन से अधिक वर्गीकरणों का योगदान दिया, जिनमें से अधिकांश वर्गीकरण प्रतिभागियों (Lintott et al. 2008) अपेक्षाकृत छोटे, कोर समूह से आते हैं।
शोधकर्ता जिनके पास स्नातक शोध सहायकों को भर्ती करने का अनुभव है, वे तुरंत डेटा की गुणवत्ता के बारे में संदेह कर सकते हैं। हालांकि यह संदेह उचित है, गैलेक्सी चिड़ियाघर दिखाता है कि जब स्वयंसेवी योगदान सही तरीके से साफ, डेबियस और समेकित होते हैं, तो वे उच्च गुणवत्ता वाले परिणाम (Lintott et al. 2008) उत्पादन कर सकते हैं। पेशेवर-गुणवत्ता वाले डेटा बनाने के लिए भीड़ प्राप्त करने के लिए एक महत्वपूर्ण चाल अनावश्यकता है , यानी, कई अलग-अलग लोगों द्वारा किया गया एक ही कार्य है। गैलेक्सी चिड़ियाघर में प्रति गैलेक्सी के बारे में 40 वर्गीकरण थे; स्नातक शोध सहायकों का उपयोग करने वाले शोधकर्ता इस स्तर की अनावश्यकता को कभी भी बर्दाश्त नहीं कर सकते हैं और इसलिए प्रत्येक व्यक्तिगत वर्गीकरण की गुणवत्ता से अधिक चिंतित होने की आवश्यकता होगी। प्रशिक्षण में स्वयंसेवकों की कमी क्या थी, उन्होंने अनावश्यकता के लिए तैयार किया।
प्रति गैलेक्सी के कई वर्गीकरण के साथ भी, सर्वसम्मति वर्गीकरण के उत्पादन के लिए स्वयंसेवी वर्गीकरण के सेट को जोड़ना मुश्किल था। चूंकि अधिकांश मानव गणना परियोजनाओं में बहुत ही समान चुनौतियां उत्पन्न होती हैं, इसलिए गैलेक्सी चिड़ियाघर के शोधकर्ताओं ने अपनी सर्वसम्मति वर्गीकरण का उपयोग करने के लिए तीन चरणों की संक्षेप में समीक्षा करना उपयोगी होता है। सबसे पहले, शोधकर्ताओं ने फर्जी वर्गीकरण को हटाकर डेटा को "साफ" किया। उदाहरण के लिए, जो लोग बार-बार एक ही आकाशगंगा को वर्गीकृत करते हैं-ऐसा कुछ होता है जो वे परिणाम में हेरफेर करने की कोशिश कर रहे थे-उनके सभी वर्गीकरणों को त्याग दिया गया था। इस और अन्य समान सफाई ने सभी वर्गीकरणों में से लगभग 4% को हटा दिया।
दूसरा, सफाई के बाद, शोधकर्ताओं को वर्गीकरण में व्यवस्थित पूर्वाग्रहों को हटाने की आवश्यकता थी। मूल परियोजना के भीतर एम्बेडेड पूर्वाग्रह पहचान अध्ययनों की एक श्रृंखला के माध्यम से- उदाहरण के लिए, कुछ स्वयंसेवकों को रंग की बजाय मोनोक्रोम में आकाशगंगा दिखाते हुए- शोधकर्ताओं ने कई व्यवस्थित पूर्वाग्रहों की खोज की, जैसे कि व्यवस्थित पूर्वाग्रहों को दूरदराज के सर्पिल आकाशगंगाओं को वर्गीकृत करने के लिए अंडाकार आकाशगंगाओं (Bamford et al. 2009) । इन व्यवस्थित पूर्वाग्रहों के लिए समायोजन बेहद महत्वपूर्ण है क्योंकि अनावश्यकता स्वचालित रूप से व्यवस्थित पूर्वाग्रह को नहीं हटाती है; यह केवल यादृच्छिक त्रुटि को हटाने में मदद करता है।
आखिरकार, डिबियसिंग के बाद, शोधकर्ताओं को आम सहमति वर्गीकरण के लिए व्यक्तिगत वर्गीकरण को गठबंधन करने के लिए एक विधि की आवश्यकता थी। प्रत्येक आकाशगंगा के लिए वर्गीकरण को गठबंधन करने का सबसे आसान तरीका सबसे सामान्य वर्गीकरण चुनना होगा। हालांकि, इस दृष्टिकोण ने प्रत्येक स्वयंसेवक को समान वजन दिया होगा, और शोधकर्ताओं ने संदेह किया था कि कुछ स्वयंसेवक दूसरों की तुलना में वर्गीकरण में बेहतर थे। इसलिए, शोधकर्ताओं ने एक और जटिल पुनरावृत्ति भारोत्तोलन प्रक्रिया विकसित की जिसने सर्वोत्तम वर्गीकरण का पता लगाने और उन्हें अधिक वजन देने का प्रयास किया।
इस प्रकार, तीन-चरणीय प्रक्रिया-सफाई, डिबियसिंग और वेटिंग के बाद-गैलेक्सी चिड़ियाघर अनुसंधान दल ने 40 मिलियन स्वयंसेवी वर्गीकरणों को आम सहमति मॉर्फोलॉजिकल वर्गीकरण के एक सेट में परिवर्तित कर दिया था। जब इन गैलेक्सी चिड़ियाघर वर्गीकरणों की तुलना पेशेवर खगोलविदों द्वारा तीन पिछले छोटे पैमाने पर प्रयासों की तुलना में की गई थी, जिसमें शैविंस्की द्वारा वर्गीकरण समेत गैलेक्सी चिड़ियाघर को प्रेरित करने में मदद मिली, वहां मजबूत समझौता हुआ। इस प्रकार, स्वयंसेवकों ने कुल मिलाकर, उच्च गुणवत्ता वाले वर्गीकरण प्रदान करने में सक्षम थे और एक ऐसे पैमाने पर जो शोधकर्ता मेल नहीं कर सके (Lintott et al. 2008) । वास्तव में, इतनी बड़ी संख्या में आकाशगंगाओं के लिए मानव वर्गीकरण करके, शॉविंस्की, लिंटॉट और अन्य लोग यह दिखाने में सक्षम थे कि केवल 80% आकाशगंगाएं अपेक्षित पैटर्न-नीले सर्पिल और लाल अंडाकारों का पालन करती हैं- और कई कागजात लिखे गए हैं यह खोज (Fortson et al. 2011) ।
इस पृष्ठभूमि को देखते हुए, अब आप देख सकते हैं कि गैलेक्सी चिड़ियाघर कैसे विभाजित-लागू-गठबंधन नुस्खा का पालन करता है, वही नुस्खा जो अधिकांश मानव गणना परियोजनाओं के लिए उपयोग किया जाता है। सबसे पहले, एक बड़ी समस्या भाग में विभाजित है। इस मामले में, एक लाख आकाशगंगाओं को वर्गीकृत करने की समस्या को एक आकाशगंगा वर्गीकृत करने की दस लाख समस्याओं में विभाजित किया गया था। इसके बाद, स्वतंत्र रूप से प्रत्येक खंड पर एक ऑपरेशन लागू किया जाता है। इस मामले में, स्वयंसेवकों ने प्रत्येक आकाशगंगा को सर्पिल या अंडाकार के रूप में वर्गीकृत किया। अंत में, परिणाम सर्वसम्मति परिणाम उत्पन्न करने के लिए संयुक्त होते हैं। इस मामले में, गठबंधन चरण में प्रत्येक आकाशगंगा के लिए सर्वसम्मति वर्गीकरण तैयार करने के लिए सफाई, डिबियसिंग और वेटिंग शामिल थी। हालांकि अधिकांश परियोजनाएं इस सामान्य नुस्खा का उपयोग करती हैं, फिर भी प्रत्येक चरण को संबोधित किए जाने वाली विशिष्ट समस्या के लिए अनुकूलित करने की आवश्यकता होती है। उदाहरण के लिए, नीचे वर्णित मानव गणना परियोजना में, एक ही नुस्खा का पालन किया जाएगा, लेकिन लागू और गठबंधन कदम काफी अलग होंगे।
गैलेक्सी चिड़ियाघर टीम के लिए, यह पहली परियोजना सिर्फ शुरुआत थी। बहुत जल्दी उन्हें एहसास हुआ कि भले ही वे करीब दस लाख आकाशगंगाओं को वर्गीकृत करने में सक्षम थे, फिर भी यह स्तर नए डिजिटल आकाश सर्वेक्षणों के साथ काम करने के लिए पर्याप्त नहीं है, जो लगभग 10 अरब आकाशगंगाओं (Kuminski et al. 2014) छवियां उत्पन्न कर सकता है। 1 मिलियन से 10 अरब तक की वृद्धि को संभालने के लिए 10,000-गैलेक्सी चिड़ियाघर के एक कारक को लगभग 10,000 गुना अधिक प्रतिभागियों की भर्ती की आवश्यकता होगी। हालांकि इंटरनेट पर स्वयंसेवकों की संख्या बड़ी है, यह अनंत नहीं है। इसलिए, शोधकर्ताओं को एहसास हुआ कि यदि वे डेटा की बढ़ती मात्रा को संभालने जा रहे थे, तो एक नया, और भी अधिक स्केलेबल, दृष्टिकोण की आवश्यकता थी।
इसलिए, मंडा बनर्जी- स्काविंस्की, लिंटॉट और गैलेक्सी चिड़ियाघर टीम (2010) अन्य सदस्यों के साथ काम कर रहे थे- गैलेक्सीज को वर्गीकृत करने के लिए कंप्यूटर पढ़ाने शुरू कर दिए। अधिक विशेष रूप से, गैलेक्सी चिड़ियाघर द्वारा बनाए गए मानव वर्गीकरण का उपयोग करके, बनर्जी ने एक मशीन लर्निंग मॉडल बनाया जो छवि की विशेषताओं के आधार पर आकाशगंगा के मानव वर्गीकरण की भविष्यवाणी कर सकता है। यदि यह मॉडल मानव सटीकता को उच्च सटीकता के साथ पुन: उत्पन्न कर सकता है, तो इसका उपयोग गैलेक्सी चिड़ियाघर शोधकर्ताओं द्वारा अनिवार्य रूप से असीमित आकाशगंगाओं को वर्गीकृत करने के लिए किया जा सकता है।
बनर्जी और सहयोगियों के दृष्टिकोण का मूल वास्तव में सामाजिक शोध में उपयोग की जाने वाली तकनीकों के समान ही है, हालांकि यह समानता पहली नज़र में स्पष्ट नहीं हो सकती है। सबसे पहले, बनर्जी और सहयोगियों ने प्रत्येक छवि को संख्यात्मक विशेषताओं के एक सेट में परिवर्तित कर दिया जो इसकी गुणों का सारांश देता है। उदाहरण के लिए, आकाशगंगाओं की छवियों के लिए, तीन विशेषताएं हो सकती हैं: छवि में नीले रंग की मात्रा, पिक्सल की चमक में भिन्नता, और गैर-सफेद पिक्सेल के अनुपात। सही विशेषताओं का चयन समस्या का एक महत्वपूर्ण हिस्सा है, और इसे आम तौर पर विषय-क्षेत्र विशेषज्ञता की आवश्यकता होती है। यह पहला कदम, जिसे आमतौर पर फीचर इंजीनियरिंग कहा जाता है, डेटा प्रति मैट्रिक्स में एक पंक्ति प्रति छवि के साथ परिणाम देता है और उसके बाद उस छवि का वर्णन करने वाले तीन कॉलम होते हैं। डेटा मैट्रिक्स और वांछित आउटपुट को देखते हुए (उदाहरण के लिए, क्या छवि को इंसान द्वारा अंडाकार आकाशगंगा के रूप में वर्गीकृत किया गया था), शोधकर्ता एक सांख्यिकीय या मशीन सीखने का मॉडल बनाता है - उदाहरण के लिए, लॉजिस्टिक रिग्रेशन - जो सुविधाओं के आधार पर मानव वर्गीकरण की भविष्यवाणी करता है छवि का अंत में, शोधकर्ता नई आकाशगंगाओं (अनुमान 5.4) के अनुमानित वर्गीकरण का उत्पादन करने के लिए इस सांख्यिकीय मॉडल में पैरामीटर का उपयोग करता है। मशीन लर्निंग में, इस दृष्टिकोण-लेबल वाले उदाहरणों का उपयोग करने के लिए एक मॉडल बनाने के लिए जो नए डेटा को लेबल कर सकता है- पर्यवेक्षित शिक्षा कहा जाता है ।
बनर्जी और सहकर्मियों के मशीन लर्निंग मॉडल की विशेषताएं मेरे खिलौने उदाहरण की तुलना में अधिक जटिल थीं- उदाहरण के लिए, उन्होंने "डी वोकौलेर्स फिट अक्षीय अनुपात" जैसी सुविधाओं का उपयोग किया- और उनका मॉडल लॉजिस्टिक रिग्रेशन नहीं था, यह एक कृत्रिम तंत्रिका नेटवर्क था। उनकी विशेषताओं, उनके मॉडल और आम सहमति गैलेक्सी चिड़ियाघर वर्गीकरण का उपयोग करके, वह प्रत्येक सुविधा पर वजन बनाने में सक्षम थीं, और फिर आकाशगंगाओं के वर्गीकरण के बारे में भविष्यवाणियां करने के लिए इन वजनों का उपयोग करें। उदाहरण के लिए, उनके विश्लेषण में पाया गया कि कम "डी वोकौलेर्स फिट अक्षीय अनुपात" वाली छवियां सर्पिल आकाशगंगाओं की अधिक संभावना थीं। इन वजनों को देखते हुए, वह उचित सटीकता के साथ आकाशगंगा के मानव वर्गीकरण की भविष्यवाणी करने में सक्षम थीं।
बनर्जी और सहयोगियों के काम ने गैलेक्सी चिड़ियाघर को बदल दिया जो मैं कंप्यूटर-समर्थित मानव गणना प्रणाली कहूंगा। इन हाइब्रिड सिस्टम के बारे में सोचने का सबसे अच्छा तरीका यह है कि मनुष्यों को समस्या का समाधान करने के बजाय, उनके पास मनुष्यों को एक डेटासेट बनाया जाता है जिसका उपयोग किसी समस्या को हल करने के लिए कंप्यूटर को प्रशिक्षित करने के लिए किया जा सकता है। कभी-कभी, समस्या को हल करने के लिए कंप्यूटर को प्रशिक्षण देने के लिए कई उदाहरणों की आवश्यकता हो सकती है, और उदाहरणों की पर्याप्त संख्या का उत्पादन करने का एकमात्र तरीका एक जन सहयोग है। इस कंप्यूटर-सहायता दृष्टिकोण का लाभ यह है कि यह आपको केवल मानवीय प्रयासों की सीमित मात्रा का उपयोग करके डेटा की अनिवार्य मात्रा को संभालने में सक्षम बनाता है। उदाहरण के लिए, एक लाख मानव मानव वर्गीकृत आकाशगंगाओं के साथ एक शोधकर्ता भविष्यवाणी मॉडल बना सकता है जिसका उपयोग तब एक अरब या यहां तक कि एक ट्रिलियन आकाशगंगाओं को वर्गीकृत करने के लिए किया जा सकता है। यदि बड़ी संख्या में आकाशगंगाएं हैं, तो इस प्रकार का मानव-कंप्यूटर हाइब्रिड वास्तव में एकमात्र संभावित समाधान है। हालांकि, यह अनंत स्केलेबिलिटी मुक्त नहीं है। एक मशीन लर्निंग मॉडल का निर्माण करना जो मानव वर्गीकरणों को सही ढंग से पुन: उत्पन्न कर सकता है, वह खुद ही एक कठिन समस्या है, लेकिन सौभाग्य से इस विषय को समर्पित उत्कृष्ट पुस्तकें हैं (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) ।
गैलेक्सी चिड़ियाघर एक अच्छा उदाहरण है कि कितनी मानव गणना परियोजनाएं विकसित होती हैं। सबसे पहले, एक शोधकर्ता खुद को या शोध सहायकों की एक छोटी टीम (उदाहरण के लिए, शॉविंस्की के प्रारंभिक वर्गीकरण प्रयास) के द्वारा परियोजना का प्रयास करता है। यदि यह दृष्टिकोण अच्छी तरह से स्केल नहीं करता है, तो शोधकर्ता कई प्रतिभागियों के साथ मानव गणना परियोजना में जा सकता है। लेकिन, डेटा की एक निश्चित मात्रा के लिए, शुद्ध मानव प्रयास पर्याप्त नहीं होगा। उस समय, शोधकर्ताओं को कंप्यूटर-सहायता मानव गणना प्रणाली बनाने की आवश्यकता होती है जिसमें मानव वर्गीकरण का उपयोग मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए किया जाता है जिसे तब डेटा की लगभग असीमित मात्रा में लागू किया जा सकता है।