गैलेक्सी चिड़ियाघर एक लाख आकाशगंगाओं वर्गीकृत करने के लिए कई गैर विशेषज्ञ स्वयंसेवकों के प्रयासों को जोड़ती है।
आकाशगंगा चिड़ियाघर 2007 काफी एक सा सरल बनाने, Schawinski आकाशगंगाओं में रुचि थी में केविन Schawinski, ऑक्सफोर्ड विश्वविद्यालय में खगोल विज्ञान में एक स्नातक छात्र को पेश आ रही एक समस्या से बाहर हो गया, और आकाशगंगाओं से वर्गीकृत किया जा सकता है उनकी आकृति विज्ञान-अण्डाकार या सर्पिल और उनके रंग-नीले या लाल द्वारा। समय, खगोलविदों के बीच पारंपरिक ज्ञान है कि सर्पिल आकाशगंगाओं, हमारी आकाशगंगा की तरह, रंग (यह दर्शाता युवा) में नीले रंग के थे और उस अण्डाकार आकाशगंगाओं लाल रंग में थे (बुढ़ापे का संकेत है)। Schawinski इस पारंपरिक ज्ञान पर शक किया। उन्होंने कहा कि संदेह है कि जबकि इस पैटर्न सामान्य में सच हो सकता है, वहाँ शायद अपवाद की एक बड़ी संख्या में थे, और है कि इन आकाशगंगाओं असामान्य लोगों को फिट नहीं था के बहुत सारे अध्ययन करके उम्मीद पैटर्न-वह इस प्रक्रिया के बारे में कुछ सीख सकता है जिसके माध्यम से आकाशगंगाओं का गठन किया।
इस प्रकार, क्या Schawinski आदेश पारंपरिक ज्ञान को पलटने के लिए आवश्यक आकृति विज्ञान के ढेर सारे आकाशगंगाओं का एक बड़ा सेट था; कि, आकाशगंगाओं है कि या तो सर्पिल या अंडाकार रूप में वर्गीकृत किया गया है। समस्या यह थी कि वर्गीकरण के लिए मौजूदा तरीकों एल्गोरिथम अभी तक काफी अच्छा वैज्ञानिक अनुसंधान के लिए इस्तेमाल किया जा करने के लिए नहीं थे; दूसरे शब्दों में, वर्गीकृत आकाशगंगाओं उस समय था, एक समस्या यह है कि कंप्यूटर के लिए मुश्किल था। इसलिए, क्या जरूरत थी मानव वर्गीकृत आकाशगंगाओं की एक बड़ी संख्या थी। Schawinski एक स्नातक छात्र के उत्साह के साथ इस वर्गीकरण समस्या चलाया। सात, 12 घंटे दिनों की मैराथन सत्र में उन्होंने 50,000 आकाशगंगाओं को वर्गीकृत करने में सक्षम था। 50,000 आकाशगंगाओं एक बहुत की तरह लग सकता है, यह वास्तव में लगभग एक लाख आकाशगंगाओं कि स्लोअन डिजिटल स्काई सर्वे में फोटो खिंचवाने गया था के बारे में केवल 5% है। Schawinski एहसास हुआ कि वह एक अधिक स्केलेबल दृष्टिकोण की जरूरत है।
सौभाग्य से, यह पता चला है कि वर्गीकृत आकाशगंगाओं का कार्य खगोल विज्ञान के क्षेत्र में उन्नत प्रशिक्षण की आवश्यकता नहीं है; यदि आप किसी को यह बहुत जल्दी करना सिखा सकते हैं। दूसरे शब्दों में, भले ही आकाशगंगाओं को वर्गीकृत एक काम है कि कंप्यूटर के लिए मुश्किल था है, यह मनुष्य के लिए बहुत आसान था। तो, जबकि ऑक्सफोर्ड, Schawinski और साथी खगोल विज्ञानी क्रिस Lintott में एक पब में बैठे एक वेबसाइट है, जहां स्वयंसेवकों आकाशगंगाओं की छवियों को वर्गीकृत करेंगे सपना देखा। कुछ महीने बाद, आकाशगंगा चिड़ियाघर का जन्म हुआ।
आकाशगंगा चिड़ियाघर वेबसाइट में स्वयंसेवकों के प्रशिक्षण के कुछ ही मिनट से गुजरना होगा; उदाहरण के लिए, एक सर्पिल और अण्डाकार आकाशगंगा (चित्रा 5.2) के बीच अंतर सीखने। इस प्रशिक्षण के बाद, स्वयंसेवकों में जाना जाता है के साथ एक अपेक्षाकृत आसान प्रश्नोत्तरी-सही ढंग से वर्गीकृत करने में 15 से 11 आकाशगंगाओं पारित करने के लिए किया था वर्गीकरण और फिर स्वयंसेवक एक सरल वेब आधारित इंटरफेस (चित्रा 5.3) के माध्यम से अज्ञात आकाशगंगाओं का असली वर्गीकरण शुरू होगा। खगोल विज्ञानी को स्वयंसेवक से संक्रमण कम से कम 10 मिनट में जगह ले जाएगा और केवल बाधा दौड़, एक सरल प्रश्नोत्तरी का सबसे कम गुजर आवश्यकता है।
आकाशगंगा चिड़ियाघर अपनी प्रारंभिक स्वयंसेवकों को आकर्षित करने के बाद इस परियोजना को एक समाचार लेख में चित्रित किया गया था, और के बारे में छह महीने में इस परियोजना में 100,000 से अधिक नागरिक वैज्ञानिकों, जो लोग भाग लिया, क्योंकि वे काम का आनंद लिया और वे अग्रिम खगोल विज्ञान की मदद करना चाहता शामिल हो गया। साथ में, इन 100,000 स्वयंसेवकों वर्गीकरण एक अपेक्षाकृत छोटे, प्रतिभागियों के कोर ग्रुप से आने वाले के बहुमत के साथ, 40 लाख से अधिक वर्गीकरण की कुल योगदान (Lintott et al. 2008) ।
शोधकर्ताओं ने जो अनुभव काम पर रखने के स्नातक अनुसंधान सहायकों तुरंत डेटा की गुणवत्ता के बारे में संदेह हो सकता है। जबकि इस संदेह उचित है, आकाशगंगा चिड़ियाघर से पता चलता है कि जब स्वयंसेवक योगदान को सही ढंग से साफ कर रहे हैं debiased, और एकीकृत, वे उच्च गुणवत्ता वाले परिणामों का उत्पादन कर सकते हैं (Lintott et al. 2008) । व्यावसायिक गुणवत्ता डेटा बनाने के लिए भीड़ प्राप्त करने के लिए एक महत्वपूर्ण चाल अतिरेक है; वह यह है कि एक ही कार्य को कई अलग अलग लोगों द्वारा किया जाता रहा है। आकाशगंगा चिड़ियाघर में, वहाँ गैलेक्सी प्रति के बारे में 40 वर्गीकरण थे; स्नातक अनुसंधान सहायकों का उपयोग कर अतिरेक के इस स्तर को बर्दाश्त नहीं कर सकता और इसलिए शोधकर्ताओं ने प्रत्येक व्यक्ति के वर्गीकरण की गुणवत्ता के साथ बहुत अधिक चिंतित होने की जरूरत है। क्या स्वयंसेवकों के प्रशिक्षण में कमी रह गई थी, वे अतिरेक के साथ के लिए बना हुआ है।
यहाँ तक कि आकाशगंगा के प्रति एकाधिक वर्गीकरण के साथ, तथापि, उत्पादन करने के लिए स्वयंसेवक वर्गीकरण के सेट के संयोजन एक आम सहमति वर्गीकरण मुश्किल है। क्योंकि बहुत ही इसी तरह की चुनौतियों का सबसे अधिक मानव गणना परियोजनाओं में उठता है, इसे संक्षेप में तीन चरणों कि आकाशगंगा चिड़ियाघर शोधकर्ताओं ने अपने आम सहमति वर्गीकरण का उत्पादन किया जाता समीक्षा करने के लिए उपयोगी है। सबसे पहले, शोधकर्ताओं ने फर्जी वर्गीकरण को हटाने के द्वारा "साफ" डेटा। उदाहरण के लिए, जो लोग बार बार एक ही आकाशगंगा-कुछ है कि क्या होगा अगर वे हेरफेर करने के लिए कोशिश कर रहे थे वर्गीकृत अपने सभी वर्गीकरण खारिज परिणाम था। यह और अन्य इसी तरह सफाई सभी वर्गीकरण के बारे में 4% से हटा दिया।
दूसरा, सफाई के बाद, शोधकर्ताओं वर्गीकरण में व्यवस्थित पूर्वाग्रहों को दूर करने की जरूरत है। मूल परियोजना के लिए उदाहरण के भीतर एम्बेडेड पूर्वाग्रह का पता लगाने के अध्ययन, कुछ स्वयंसेवकों दिखा के बजाय मोनोक्रोम में आकाशगंगा की एक श्रृंखला के माध्यम से रंग-शोधकर्ताओं ने ऐसी अण्डाकार आकाशगंगाओं के रूप में दूर सर्पिल आकाशगंगाओं वर्गीकृत करने के लिए एक व्यवस्थित पूर्वाग्रह के रूप में कई व्यवस्थित पूर्वाग्रहों, पता चला (Bamford et al. 2009) इन व्यवस्थित पूर्वाग्रहों के लिए समायोजन अत्यंत महत्वपूर्ण है क्योंकि कई योगदान औसत व्यवस्थित पूर्वाग्रह को दूर नहीं करता; यह केवल यादृच्छिक त्रुटि को हटा।
अंत में, debiasing के बाद, शोधकर्ताओं ने अलग-अलग वर्गीकरण गठबंधन करने के लिए एक आम सहमति वर्गीकरण का उत्पादन करने के लिए एक विधि की जरूरत है। प्रत्येक आकाशगंगा के लिए वर्गीकरण गठबंधन करने के लिए सबसे आसान तरीका सबसे आम वर्गीकरण का चयन करने के लिए किया जाएगा। हालांकि, इस दृष्टिकोण प्रत्येक स्वयंसेवक बराबर वजन देना होगा, और शोधकर्ताओं संदेह है कि कुछ स्वयंसेवकों दूसरों की तुलना में वर्गीकरण में बेहतर थे। इसलिए, शोधकर्ताओं ने एक अधिक जटिल चलने का भार प्रक्रिया है कि स्वचालित रूप से सबसे अच्छा classifiers का पता लगाने और उन्हें और अधिक वजन देने के लिए प्रयास करता है विकसित की है।
इस प्रकार, एक तीन कदम प्रक्रिया-सफाई, debiasing, और भार-आकाशगंगा चिड़ियाघर शोध टीम के बाद आम सहमति रूपात्मक वर्गीकरण का एक सेट में 40 लाख स्वयंसेवक वर्गीकरण परिवर्तित कर दिया था। इन आकाशगंगा चिड़ियाघर वर्गीकरण पेशेवर खगोलविदों द्वारा पिछले तीन छोटे पैमाने पर प्रयास, Schawinski द्वारा वर्गीकरण कि आकाशगंगा चिड़ियाघर को प्रेरित करने में मदद मिली सहित की तुलना में थे, वहाँ मजबूत समझौता किया गया था। इस प्रकार, स्वयंसेवकों, कुल में, उच्च गुणवत्ता वर्गीकरण प्रदान करने में सक्षम थे और पैमाने है कि शोधकर्ताओं ने मेल नहीं सकता पर (Lintott et al. 2008) । वास्तव में, आकाशगंगाओं की इतनी बड़ी संख्या के लिए मानव वर्गीकरण होने से, Schawinski, Lintott, और दूसरों को दिखाने के लिए कि आकाशगंगाओं के बारे में केवल 80% उम्मीद पैटर्न नीले और लाल बढ़ता अण्डाकार और कई कागजात पालन के बारे में लिखा गया है में सक्षम थे इस खोज (Fortson et al. 2011)
इस पृष्ठभूमि को देखते हुए, अब हम देख सकते हैं कि आकाशगंगा चिड़ियाघर इस प्रकार विभाजित लागू-गठबंधन नुस्खा, एक ही नुस्खा है कि सबसे अधिक मानव गणना परियोजनाओं के लिए प्रयोग किया जाता है। सबसे पहले, एक बड़ी समस्या मात्रा में विभाजित है। इस मामले में, एक लाख आकाशगंगाओं को वर्गीकृत करने की समस्या एक आकाशगंगा को वर्गीकृत करने के लिए एक लाख की समस्याओं में विभाजित है। इसके बाद, एक ऑपरेशन के लिए स्वतंत्र रूप से प्रत्येक खंड के लिए लागू किया जाता है। इस मामले में, एक स्वयंसेवक या तो सर्पिल या अंडाकार रूप में प्रत्येक आकाशगंगा में वर्गीकृत करेंगे। अंत में, परिणाम एक आम सहमति परिणाम का उत्पादन करने के लिए संयुक्त रहे हैं। इस मामले में, गठबंधन कदम सफाई, debiasing, और भार प्रत्येक आकाशगंगा के लिए एक आम सहमति वर्गीकरण का उत्पादन करने में शामिल थे। हालांकि ज्यादातर परियोजनाओं के इस सामान्य नुस्खा इस्तेमाल करते हैं, चरणों में से प्रत्येक विशिष्ट समस्या संबोधित किया जा रहा करने के लिए अनुकूलित करने की जरूरत है। उदाहरण के लिए, नीचे वर्णित मानव गणना परियोजना में, एक ही नुस्खा का पालन किया जाएगा, लेकिन लागू करते हैं और गठबंधन कदम काफी अलग होगा।
आकाशगंगा चिड़ियाघर टीम के लिए, यह पहली परियोजना सिर्फ शुरुआत थी। बहुत जल्दी उन्हें एहसास हुआ कि भले ही वे एक लाख आकाशगंगाओं के करीब वर्गीकृत करने में सक्षम थे, इस पैमाने नए डिजिटल स्काई सर्वेक्षण, जिसके बारे में 10 अरब आकाशगंगाओं की छवियों का उत्पादन कर सकता है के साथ काम करने के लिए पर्याप्त नहीं है (Kuminski et al. 2014) । 1 लाख से लेकर 10 तक वृद्धि हुई है संभाल करने के लिए अरब 10,000 आकाशगंगा चिड़ियाघर का कारक लगभग 10,000 गुना अधिक प्रतिभागियों की भर्ती करने की आवश्यकता होगी। हालांकि इंटरनेट पर स्वयंसेवकों की संख्या बड़ी है, यह अनंत नहीं है। इसलिए, शोधकर्ताओं ने महसूस किया कि वे डेटा, एक नया, और भी अधिक स्केलेबल, दृष्टिकोण की जरूरत थी की मात्रा कभी बढ़ती संभाल करने जा रहे हैं।
इसलिए, मंदा बनर्जी से काम कर रहे केविन Schawinski, क्रिस Lintott, और आकाशगंगा चिड़ियाघर टीम शुरू शिक्षण कंप्यूटर के अन्य सदस्यों के साथ आकाशगंगाओं वर्गीकृत करने के लिए। अधिक विशेष रूप से, मानव आकाशगंगा चिड़ियाघर, के द्वारा बनाई गई वर्गीकरण का उपयोग कर Banerji et al. (2010) एक मशीन सीखने के मॉडल है कि छवि की विशेषताओं के आधार पर एक आकाशगंगा के मानव वर्गीकरण भविष्यवाणी कर सकता का निर्माण किया। इस मशीन सीखने मॉडल उच्च सटीकता के साथ मानव वर्गीकरण पुन: पेश कर सकता है, तो यह आकाशगंगाओं का एक अनिवार्य रूप से अनंत संख्या वर्गीकृत करने के लिए आकाशगंगा चिड़ियाघर शोधकर्ताओं द्वारा इस्तेमाल किया जा सकता है।
बनर्जी और उनके सहयोगियों के 'दृष्टिकोण के कोर वास्तव में बहुत तकनीक आमतौर पर सामाजिक अनुसंधान में इस्तेमाल करने के लिए इसी तरह की है, हालांकि यह है कि समानता पहली नज़र में स्पष्ट नहीं हो सकता है। सबसे पहले, बनर्जी और उनके सहयोगियों संख्यात्मक सुविधाओं है कि संक्षेप में यह गुण का एक सेट में प्रत्येक छवि बदल दिया। छवि में नीले रंग की राशि, पिक्सल की चमक में विचरण, और गैर-सफेद पिक्सल का अनुपात: उदाहरण के लिए, आकाशगंगाओं की छवियों के लिए वहाँ तीन सुविधाओं हो सकता है। सही सुविधाओं के चयन की समस्या का एक महत्वपूर्ण हिस्सा है, और यह आम तौर पर विषय-क्षेत्र की विशेषज्ञता की आवश्यकता है। यह पहला कदम है, आमतौर पर सुविधा इंजीनियरिंग कहा, छवि के प्रति एक पंक्ति और फिर तीन कि छवि का वर्णन कॉलम के साथ एक डाटा मैट्रिक्स में यह परिणाम है। डाटा मैट्रिक्स और वांछित उत्पादन (जैसे, क्या छवि एक अंडाकार आकाशगंगा के रूप में एक मानव द्वारा वर्गीकृत किया गया था), शोधकर्ता एक सांख्यिकीय मॉडल-उदाहरण के लिए के मापदंडों का अनुमान है, एक रसद प्रतिगमन कि मानव आधारित वर्गीकरण भविष्यवाणी की तरह कुछ दिया छवि के सुविधाओं पर। अंत में, शोधकर्ता इस सांख्यिकीय मॉडल में मापदंडों का उपयोग करता है (चित्रा 5.4) नई आकाशगंगाओं की अनुमानित वर्गीकरण का उत्पादन। एक सामाजिक अनुरूप के बारे में सोच करने के लिए, कल्पना करो कि तुम एक लाख छात्रों के बारे में जनसांख्यिकीय जानकारी थी, और तुम्हें पता है कि क्या वे कॉलेज से स्नातक की उपाधि प्राप्त है या नहीं। आप इस डेटा का एक रसद प्रतिगमन फिट सकता है, और फिर तुम जिसके परिणामस्वरूप मॉडल मापदंडों का उपयोग कर सकता भविष्यवाणी करने के लिए है कि क्या नए छात्रों को कॉलेज से स्नातक करने के लिए जा रहे हैं। मशीन सीखने, इस दृष्टिकोण का उपयोग लेबल उदाहरण एक सांख्यिकीय मॉडल है कि उसके नए लेबल कर सकते हैं बनाने के लिए डेटा है बुलाया सीखने देखरेख (Hastie, Tibshirani, and Friedman 2009) ।
में सुविधाओं Banerji et al. (2010) मशीन सीखने मॉडल मेरा खिलौना में उन लोगों के उदाहरण-उदाहरण के लिए, वह सुविधाओं की तरह इस्तेमाल की तुलना में अधिक जटिल थे "डी Vaucouleurs अक्षीय अनुपात फिट '-और उसे मॉडल रसद प्रतिगमन नहीं था, यह एक कृत्रिम तंत्रिका नेटवर्क था। उसकी सुविधाओं, उसके मॉडल, और आम सहमति आकाशगंगा चिड़ियाघर वर्गीकरण का उपयोग करना, वह प्रत्येक सुविधा पर भार बनाने के लिए, और उसके बाद आकाशगंगाओं के वर्गीकरण के बारे में भविष्यवाणी करने के लिए इन वजन का उपयोग करने में सक्षम था। उदाहरण के लिए, उसके विश्लेषण में पाया गया है कि कम से 'डी Vaucouleurs अक्षीय अनुपात फिट' छवियों और अधिक सर्पिल आकाशगंगाओं होने की संभावना थी। इन भार को देखते हुए, वह उचित सटीकता के साथ एक आकाशगंगा के मानव वर्गीकरण की भविष्यवाणी करने में सक्षम था।
के काम Banerji et al. (2010) क्या मैं एक दूसरी पीढ़ी के मानव गणना प्रणाली कहोगे में आकाशगंगा चिड़ियाघर बदल गया। सबसे अच्छा तरीका है इन दूसरी पीढ़ी के सिस्टम के बारे में सोचने के लिए कि बजाय होने मनुष्य एक समस्या का समाधान, वे मनुष्य एक डाटासेट है कि समस्या को हल करने के लिए एक कंप्यूटर प्रशिक्षित करने के लिए इस्तेमाल किया जा सकता का निर्माण किया है। कंप्यूटर प्रशिक्षित करने के लिए आवश्यक डेटा की मात्रा इतनी बड़ी है कि इसे बनाने के लिए एक मानव जन सहयोग की आवश्यकता हो सकती है। आकाशगंगा चिड़ियाघर द्वारा इस्तेमाल तंत्रिका नेटवर्क के मामले में Banerji et al. (2010) के लिए एक मॉडल है कि मज़बूती से मानव वर्गीकरण पुन: पेश करने में सक्षम था के निर्माण के लिए मानव लेबल उदाहरण के एक बहुत बड़ी संख्या की आवश्यकता है।
इस कंप्यूटर की मदद से दृष्टिकोण का लाभ यह है कि यह आपको केवल मानव प्रयास की एक निश्चित राशि का उपयोग कर डेटा का अनिवार्य रूप से अनंत मात्रा को संभालने के लिए सक्षम बनाता है। उदाहरण के लिए, एक लाख मानव वर्गीकृत आकाशगंगाओं के साथ एक शोधकर्ता एक भविष्य कहनेवाला मॉडल है कि तब एक अरब या यहां तक कि एक खरब आकाशगंगाओं वर्गीकृत करने के लिए इस्तेमाल किया जा सकता का निर्माण कर सकते हैं। आकाशगंगाओं की भारी संख्या देखते हैं, तो मानव कम्प्यूटर संकर के इस तरह वास्तव में ही समाधान संभव है। इस अनंत scalability हालांकि मुक्त नहीं है। एक मशीन सीखने मॉडल है कि सही ढंग से मानव वर्गीकरण पुन: पेश कर सकते हैं अपने आप में एक कठिन समस्या है बिल्डिंग, लेकिन सौभाग्य से वहाँ पहले से ही उत्कृष्ट इस विषय को समर्पित किताबें हैं (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) ।
आकाशगंगा चिड़ियाघर में कई मानव गणना परियोजनाओं के विकास से पता चलता। सबसे पहले, एक शोधकर्ता खुद से या अनुसंधान सहायकों की एक छोटी सी टीम (जैसे, Schawinski की प्रारंभिक वर्गीकरण प्रयास) के साथ परियोजना के लिए प्रयास करता है। इस दृष्टिकोण से अच्छी तरह पैमाने पर नहीं है, तो शोधकर्ता एक मानव गणना परियोजना है, जहां कई लोगों के वर्गीकरण योगदान करने के लिए स्थानांतरित कर सकते हैं। लेकिन, डेटा की एक निश्चित मात्रा के लिए, शुद्ध मानव प्रयास पर्याप्त नहीं होगा। उस बिंदु पर, शोधकर्ताओं ने दूसरी पीढ़ी सिस्टम जहां मानव वर्गीकरण एक मशीन सीखने के मॉडल है कि तब डेटा के लगभग असीमित मात्रा में करने के लिए लागू किया जा सकता प्रशिक्षित करने के लिए इस्तेमाल कर रहे हैं बनाने की जरूरत है।