ڪيتري جانورن جو هڪ لک Galaxies classify ڪرڻ لاء ڪيترن ئي غير ماهر رضاڪارن جي ڪوششن combines.
ڪيتري زونگارا كيون Schawinski، 2007. ۾ ريل گاڏيء جي يونيورسٽي ۾ اپگرهه ۾ هڪ گريجوئيٽ شاگرد ڪافي سا Simplifying جي سامهون هڪ مسئلي مان نڪرڻ جي آڇ ڪئي، Schawinski Galaxies ۾ دلچسپي هئي، ۽ Galaxies سندن Morphology-elliptical يا جي درجه ڪري سگهجي ٿو گهاڻي-۽ سندن رنگ-نيري يا لال جي. هن وقت، قت مان روايتي حڪمت ڪيو ويو آهي ته گهاڻي ۾ انيڪ اسان کيرائين واٽ ڪهڪشان جيان، نيري رنگ ۾ (نوجوانن کي ظاھر) هئا ۽ elliptical انيڪ رنگ ۾ لال ٿي ويا (عمر عمر کي ظاھر ڪري) ته. Schawinski هن روايتي حڪمت تي شڪ هو. هن چيو ته شڪي آهي ته، جڏهن ته هن طرز عام ۾ سچو ٿي سگهي، اتي شايد کان سواء جي هڪ اهڙي قداور تعداد ۾ هئا، ۽ ته انهن غير معمولي Galaxies-آھن ته اميد طرز-هن چيو ته جنهن جي ذريعي عمل جي باري ۾ ڪجهه سکڻ سگهي وسيلو نه ڪيو جو پکو زير تعليم جي Galaxies ٺهيل آهي.
اهڙيء طرح، جيڪي Schawinski امان ۾ گهربل روايتي حڪمت کيتباھھ کي morphologically رپورت Galaxies جو هڪ وڏو مقرر هو. ته، انيڪ يا گهاڻي ۾ يا elliptical طور درجه ٿي ويا آهي. هن مسئلي، تنهن هوندي به، هو ته درجيبندي لاء موجود algorithmic طريقا موجود ڪافي سٺي علمي تحقيق لاء استعمال ڪيو وڃي ٿو نه هئا. ٻين لفظن ۾، classifying انيڪ وقت تي ڪو مسئلو آهي ته ڪمپيوٽرن لاء سخت هئي،. تنهن ڪري، ڪهڙي ضرورت هئي انساني رپورت Galaxies جي هڪ وڏي تعداد ۾ هئي. Schawinski هڪ گريجوئيٽ شاگرد جي جوش سان هيء درجيبندي مسئلو undertook. ست، 12-ڪلاڪ ڏينهن جو هڪ marathon سيشن ۾، هن 50.000 Galaxies classify ڪرڻ جي قابل هو. 50.000 Galaxies تمام گهڻو وانگر آواز ٿي سگھي ٿو، جڏهن ته، ان کي اهڙو ته لڳ ڀڳ هڪ لک انيڪ جي Sloan ڊجيٽل آسمان سروي ۾ photographed ويو هو جو رڳو اٽڪل 5٪ آهي. Schawinski ڳالهه آهي ته هو هڪ کان وڌيڪ scalable اچڻ جي ضرورت آهي.
خوشقسمتي، ان کي ٻاهر ڦرندو ته انيڪ classifying جي ڪم اپگرهه ۾ اعلي درجي جي تربيت جي ضرورت نه رکندو آھي. اوھان کي ڪو ان کي پيارو جلدي ڪندا هڪٻئي ڪري سگهو ٿا. ٻين لفظن ۾، جيتوڻيڪ classifying Galaxies هڪ ڪم ته ڪمپيوٽرن جي لاء ڏاڍي ڏکي هئي آهي، ان کي انسان جي لاء خوبصورت آسان ٿي ويو آهي. پوء، جڏهن ته گاڏيء، Schawinski ۽ ساٿي نجومي ڪرس Lintott ۾ هڪ سرائي ۾ ويٺي هڪ ويب سائيٽ جتي رضاڪارن Galaxies جي تصويرون classify ها مٿي dreamed. ڪجهه مهينن کان پوء، ڪيتري جانورن جو پيدا ٿيو.
جي ڪيتري زونگارا ويب سائيٽ تي، رضاڪارن تربيت جي چند منٽن undergo ها. مثال طور، ڪنهن کي گهاڻي ۾ ۽ elliptical ڪيتري (شڪل 5.2) جي وچ ۾ فرق سکيا. هن جي تربيت کان پوء، سنڌ جي رضاڪارن نڪري هڪ نسبتا آسان سوالن-صحيح معلوم classifications-۽ سان 15 کان 11 Galaxies classifying وري رضاڪار هڪ سادي ويب تي ٻڌل ڏيکاء (شڪل 5.3) جي ذريعي نامعلوم Galaxies جي حقيقي درجيبندي شروع ڪري ڇڏي هئي. رضاڪار کان نجومي کي ٺاٿو گهٽ کان 10 منٽ ۾ جاء وٺي ها ۽ صرف، هڪ سادي سوالن رڪاوٽون جي زير ڪارڻ گهري.
ڪيتري زونگارا ان جي ابتدائي رضاڪارن راغب کان پوء منصوبي هڪ خبر مضمون ۾ خصوصي ويو، ۽ جي باري ۾ ڇهن مهينن ۾ هن منصوبي کان وڌيڪ آبادي 100،000 يعني شهري سائنسدانن، ماڻهن کي شرڪت ڪئي، ڇاڪاڻ ته اهي ئي ڪم ورتو ۽ اھي اڳواٽ اپگرهه جي مدد ڪرڻ جو خواهشمند داخل ڪرڻ جي آڇ ڪئي. گڏجي، اهي آبادي 100،000 يعني رضاڪارن جي classifications جي اڪثريت ڌرين جي هڪ نسبتا ننڍي، بنيادي گروپ کان اچڻ سان، 40 لک کان وڌيڪ classifications جو هڪ مجموعو وڌو (Lintott et al. 2008) .
تحقيق جو تجربو undergraduate تحقيق جي مددگارن نوڪرين کي فوري طور تي ڊيٽا جي معيار جي باري ۾ ڀريو ٿي ٿئي. جڏهن ته هن skepticism مناسب آهي، ڪيتري زونگارا ڏيکاري ٿو ته جڏهن رضاڪار ڀاڱيداريون صحيح، جي تعظيم ڪجي آهن debiased، ۽ اها، اهي اعلي-معيار جا نتيجا پيدا ڪري سگهي ٿو (Lintott et al. 2008) . ور معيار جي انگن اکرن پيدا ڪرڻ جي ميڙ ڪرائڻ لاء هڪ اهم چال ترک آهي. ته ڪيترن ئي مختلف ماڻهن جي وضو به ساڳيو ڪم پوڻ تي آهي. ڪيتري زونگارا ۾، اتي ڪيتري قدر رپيا جي باري ۾ 40 classifications هئا. undergraduate تحقيق جي مددگارن جو استعمال تحقيق ترک جي هن سطح برداشت ڪڏهن به ٿي سگهي ٿو ۽ تنهن کان گهڻو وڌيڪ تعلق هر فرد درجيبندي جي معيار سان گڏ هجڻ ضروري آهي. ڇا جي رضاڪارن تربيت ۾ رهڻ، اھي ترک سان اپ ڪيو.
جيتوڻيڪ ڪيتري رپيا وڌيڪ classifications سان، تنهن هوندي به، رضاڪار classifications جي سيٽ گڏي هڪ اتفاق درجيبندي پيدا ڪرڻ tricky آهي. ڇو ته تمام ساڳي مسئلن سڀ انسان computation منصوبن ۾ طالع، ان کي مختصر طور ٽن قدم کڻي جيڪي ان جي ڪيتري قدر جانورن تي تحقيق سندن اتفاق classifications پيدا ڪرڻ لاء استعمال ڪيو جو جائزو وٺڻ لاء مددگار آهي. پهريون، ته تحقيق بوگس classifications هٽائيندي "جي تعظيم ڪجي" جي انگن اکرن. مثال طور، ماڻهن کي بار بار اهو ساڳيو ڪيتري-ڳالھ آهي ته ايڏو وڏو ھا ته اھي ان جي نتيجن-پيو سندن سڀ classifications رد بگاڙي ڪرڻ جي ڪوشش ڪري رهيا هئا درجه جو. هي ۽ ٻيا اهڙا جي صفائي جي موڪليل classifications جي باري ۾ 4٪ ڇڏيا.
ٻيو، صفائي کان پوء، سنڌ جي تحقيق classifications ۾ منظم پير پساري کي ختم ڪرڻ جي ضرورت آهي. اصل منصوبي-لاء مثال اندر وڌوسون بياس ڳولا پڙهائي جو سلسلو ذريعي، monochrome ۾ ڪجهه رضاڪارن کي ڪيتري قدر ڄاڻائي جي بدران رنگ-جي تحقيق اهڙي هڪ منظم بياس جي طور تي ڪيترن ئي منظم پير پساري، دريافت پري پري elliptical Galaxies جي حيثيت کي گهاڻي ۾ Galaxies classify کي (Bamford et al. 2009) . اهي منظم پير پساري لاء Adjusting انتهائي اهم آهي، ڇاڪاڻ ته ڪيترن ئي ڀاڱيداريون averaging منظم تعصب کي ختم نه ٿو ڪري؛ ان کي رڳو بي ترتيبي غلطي لاھيندو آھي.
آخر ۾، debiasing کان پوء، سنڌ جي تحقيق جي انفرادي classifications گڏ ڪرڻ لاء هڪ اتفاق درجيبندي پيدا ڪرڻ جو هڪ طريقو جي ضرورت آهي. هر ڪيتري لاء classifications گڏ ڪرڻ لاء سنڌ جي simplest واٽ سڀ کان عام درجيبندي چونڊي وڃي ها. تنهن هوندي به، هن اچڻ هر رضاڪار برابر وزن ڏئي ھا، ۽ تحقيق شڪي ته ڪجهه رضاڪارن کي ٻين جي ڀيٽ ۾ درجيبندي تي ڀلي هئا. تنهن ڪري، سنڌ جي تحقيق ۾ هڪ کان وڌيڪ پيچيده iterative weighting طريقيڪار ته خودڪار طريقي سان بهترين classifiers لڳائڻ ۽ انهن کي وڌيڪ وزن ڏيڻ جي ڪوشش اڀري.
اهڙيء ريت، هڪ ٽي قدم عمل-جي صفائي کان پوء، debiasing، ۽ weighting-جي ڪيتري زونگارا تحقيق ٽيم اتفاق صرفي classifications جي هڪ سيٽ ۾ 40 لک رضاڪار classifications تبديل ڪيو ھو. اهي ڪيتري قدر زونگارا classifications ور قت جي ٽن نظارو ننڍا-پيماني تي سازشون، Schawinski سان درجيبندي ته ڪيتري قدر جانورن کي متاثر ڪرڻ لاء مدد شامل ڪرڻ لاء مقابلي ۾ هئا جڏهن، ڪو مضبوط معاهدي هو. اهڙيء طرح، جي رضاڪارن، گڏيل عددي معلومات حاصل ۾، ۽ اعلي معيار classifications مهيا ڪرڻ جي قابل هڪ پيماني تي آهي ته تحقيق سان ڀيٽ نه ٿو ٿي سگهي ۾ هئا (Lintott et al. 2008) . حقيقت ۾، Galaxies جي اهڙي هڪ وڏي تعداد جي لاء انساني classifications گذارڻ جي، Schawinski، Lintott، ۽ ٻين کي ڏيکارڻ لاء ته انيڪ جي صرف اٽڪل 80 سيڪڙو جي اميد طرز-نيري spirals ۽ ڳاڙهي ellipticals-۽ ٻيا ڪاغذ جي باري ۾ لکيو ويو آهي تابعداري سگهندا هئا هن دريافت (Fortson et al. 2011) .
هن پس منظر ڏنو، اسان کي هاڻي ڪيئن ڪيتري جانورن جي ورهايو-لاڳو-تڏهن رشيد، اهو ساڳيو رشيد ته سڀ انسان computation منصوبن لاء استعمال ڪيو ويندو آهي ھلي ڏسي سگهو ٿا. پهريون، هڪ وڏو مسئلو chunks ۾ تقسيم آهي. ان صورت ۾، هڪ لک Galaxies classifying جو مسئلو هڪ ڪيتري classifying جي هڪ لک پريشاني ۾ تقسيم آهي. اڳيون، هڪ آپريشن هر chunk لاء هڪ خودمختيار لاڳو ڪيو ويو آهي. ان صورت ۾، هڪ رضاڪار يا گهاڻي ۾ يا elliptical جيئن هر ڪيتري classify ها. آخر ۾، هن جي نتيجن کي هڪ اتفاق جو نتيجو پيدا ڪرڻ لاء گڏ ٿيل آهن. هن حالت ۾، ان جي وسيلي قدم جي صفائي، debiasing، ۽ weighting هر ڪيتري لاء هڪ اتفاق درجيبندي پيدا ڪرڻ شامل آهن. جيتوڻيڪ سڀ کان منصوبن هن جنرل رشيد استعمال، جي قدمن جي هر جي مخصوص مسئلو خطاب ڪيو پيو وڃي کي ترتيب سان واسطو رکي ٿو. مثال طور، هيٺ بيان جي انساني computation منصوبي ۾، اهو ساڳيو رشيد پٺيان ويندو، پر لاڳو ۽ تڏهن قدم ڪافي مختلف ٿي ويندي.
جي ڪيتري زونگارا ٽيم لاء، هي پهريون پراجيڪٽ صرف شروع ٿي ويو. تمام تڪڙو اھي ڳالهه آهي ته جيتوڻيڪ اھي هڪ لک Galaxies کي بند classify ڪرڻ جي قابل هئا، هن پيماني تي آيل ڊجيٽل آسمان سروي، جنهن جي باري ۾ 10 ارب Galaxies جي تصويرون پيدا ڪري سگهي سان گڏ ڪم ڪرڻ ڪافي نه آھي (Kuminski et al. 2014) . 10 تائين 1 لک کان هڪ واڌارو تي عمل ڪرڻ لاء ارب-هڪ 10،000-ڪيتري جانورن جي عامل کوٽائي مان 10،000 ڀيرا وڌيڪ ڌرين نياز ڪرڻ جي ضرورت ها. جيتوڻيڪ انٽرنيٽ تي رضاڪارن جي تعداد ۾ وڏو آهي، ان جي لافاني نه آهي. تنهن ڪري، ان جي تحقيق ڳالهه آهي ته جيڪڏھن (اھي) سدائين ڊيٽا جي مقدار وڌندڙ تي عمل ڪرڻ وارا آهن، هڪ نئين، اڃا به وڌيڪ scalable، اچڻ جي ضرورت هئي.
تنهن ڪري، Manda كيون Schawinski، ڪرس Lintott، ۽ ڪيتري قدر زونگارا ٽيم-ٿيندڙ تعليم ڪمپيوٽرن جي ٻين ميمبرن سان Banerji-ڪم Galaxies classify ڪرڻ. وڌيڪ خاص، جي انسان کي ڪيتري قدر زونگارا، جي پيدا classifications استعمال ڪري Banerji et al. (2010) هڪ اهڙي مشين سکيا ماڊل آهي ته تصوير جي ڪنڀار جي بنياد تي هڪ ڪيتري قدر جو انساني درجيبندي گوئي ڪري سگهي ٿي تعمير ڪرايو. هن مشين جي سکيا ماڊل اعلي درستگي سان انساني classifications ٻيهر ٿي سگهي ٿو ته، پوء ان کي Galaxies جو اعتراف لافاني تعداد classify کي ڪيتري قدر جانورن تي تحقيق جي استعمال ڪري سگهي ٿو.
Banerji جي بنيادي ۽ ساٿيو 'اچڻ اهڙو پيارو طريقن عام سماجي تحقيق ۾ استعمال سان ملندڙ جلندڙ آهي، باقي ته اھڙي پهريون ڀيرو چتائي تي واضح نه ٿي ٿئي. پهريون، Banerji ۽ ساٿيو انگن جي خاصيتن ته summarize ان مال آهي جو هڪ سيٽ ۾ هر تصوير تبديل ڪيو. هن تصوير ۾ نيري رنگ جي رقم، ان جي جزا جو ديرو ۾ اختلاف، ۽ غير اڇا جزا جو اندازو: مثال طور، Galaxies جي تصويرن لاء ٽي خاصيتون ٿي سگهي ٿو. جي صحيح خاصيتن جي چونڊ جي مسئلي جو هڪ اهم حصو آهي، ۽ ان کي عام لوڪ-ايراضي expertise جي ضرورت آهي. هي پهريون قدم، عام طور تي مضمون ۾ انجنيئرنگ، تصوير رپيا هڪ قطار سان هڪ ڊيٽا ٿينديون ۾ نتيجا ۽ پوء ٽن شاخن ته تصوير بيان سڏيو. ڊيٽا ٿينديون ۽ گهربل اوٽ ڏنو (مثال طور، ڇا جي تصوير هڪ elliptical ڪيتري جيئن هڪ انسان جي درجه ويو)، جو محقق هڪ انگن ماڊل-لاء مثال جي حراست ۾ ڪاٿي، هڪ logistic regression-آهي ته انساني درجيبندي جي بنياد predicts وانگر ڪجهه هن تصوير جي خاصيتن تي. آخر ۾، هن جي محقق هن انگن نموني ۾ حراست ۾ استعمال ڪري نئين Galaxies (شڪل 5.4) جو تخمينو classifications پيدا ڪرڻ. هڪ سماجي اينالاگ جي خيال ڪرڻ، تصور آهي ته توهان هڪ لک شاگردن جي باري ۾ ڊيموگرافڪ معلومات هئا، ۽ توهان کي خبر آهي ت اهي ڪاليج مان نه نڪتي يا. توهان هن ڊيٽا کي هڪ logistic regression فٽ ٿي سگهي ٿو، ۽ وري اوھان جي نتيجي ۾ ماڊل جي حراست ۾ استعمال ٿي سگهي ٿو گوئي کي ڇا نئين شاگردن کي ڪاليج مان گريجوئيٽ ڪرڻ وارا آهن. مشين سکيا ۾، هن اچڻ-استعمال ڪري لڳل مثال هڪ انگن ماڊل پوء ليبل سگهي ٿو ته نئين ڊيٽا-آهي سڏيو سکيا جو ڪريڊ پيدا ڪرڻ (Hastie, Tibshirani, and Friedman 2009) .
۾ خصوصيتون Banerji et al. (2010) مشين سکيا ماڊل منهنجي رانديڪن مثال-لاء مثال ۾ آھن تن جي ڀيٽ ۾ وڌيڪ پيچيده هئا، هوء وانگر "من Vaucouleurs axial نظر وسيلو" خاصيتون استعمال -and سندس ماڊل logistic regression نه هو، ان جي هڪ مصنوعي neural نيٽ ورڪ هو. سندس مضمونن جي، سندس ماڊل، ۽ اتفاق ڪيتري زونگارا classifications ڪندي، هوء هر خاصيت تي وزن ٺاهي، ۽ پوء Galaxies جي درجيبندي جي باري ۾ ٿينديون ڪرڻ انهن وزن استعمال ڪرڻ جي قابل هو. مثال طور، سندس تجزيو مليو ته گهٽ سان تصويرون "من Vaucouleurs axial نظر وسيلو" وڌيڪ گهاڻي ۾ Galaxies ٿيڻ جو امڪان هئا. اهي وزن ڏنو، ته هوء مناسب درستگي سان هڪ ڪيتري قدر جو انساني درجيبندي گوئي ڪرڻ جي قابل هو.
جو ڪم Banerji et al. (2010) مون کي جيڪي هڪ ٻئي-جڳ انساني computation نظام کي سڏيندا ها ۾ ڪيتري قدر زونگارا موٽيو. جڏهن ته بهترين طريقو اهي ٻئي-جڳ نظام جي باري ۾ سوچيو ته آهي بلڪه انسان ڪنهن مسئلي جي حل گذارڻ جي ڀيٽ ۾، اهي انسان هڪ dataset آهي ته ان مسئلي کي حل ڪرڻ لاء هڪ ڪمپيوٽر ۽ سکيا ڪرڻ لاء استعمال ڪري سگهجي ٿو کپن آهن. ڪمپيوٽر جي سکيا ڪرڻ جي ضرورت آهي ڊيٽا جي رقم ايتري وڏي ته ان کي پيدا ڪرڻ هڪ انساني ڪاميٽي جي سهڪار جي ضرورت ٿي سگهي ٿو. ڪيتري زونگارا، جي استعمال جي neural نيٽ ورڪ جي صورت ۾ Banerji et al. (2010) جي حڪم هڪ ماڊل آهي ته reliably انساني درجيبندي ٻيهر ڪرڻ جي قابل ٿي ويو تعمير ڪرڻ ۾ انساني-لڳل مثال جي هڪ تمام وڏي تعداد جي ضرورت هوندي.
هي ڪمپيوٽر-مدد اچڻ جو فائدو آهي ته ان کي رڳو انسان جي ڪوشش جو هڪ مائرن رقم کي استعمال ڪندي ڊيٽا جو اعتراف لافاني مقدار تي عمل ڪرڻ لاء توهان کي قابل بنائي آهي. مثال طور، هڪ لک انساني درجه انيڪ هڪ محقق هڪ predictive ماڊل آهي ته پوء هڪ ارب يا به هڪ کرب Galaxies classify ڪرڻ لاء استعمال ڪري سگهجي ٿو تعمير ڪري سگهن ٿا. Galaxies جي شاندار انگ موجود آهي، ته پوء انسان-ڪمپيوٽر کي دوغلو جي هن قسم جي حقيقت جي رڳو ممڪن حل آهي. هن لافاني scalability جڏهن ته آزاد نه آهي،. هڪ مشين سکيا ماڊل ته صحيح انساني classifications ٻيهر ڪري سگهو ٿا عمارت پاڻ هڪ سخت مسئلو آهي، پر خوشقسمتيء سان اتي اڳ ۾ ئي چڱو ڪتابن ۾ هن موضوع لاء وقف آهن (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
ڪيتري زونگارا ڪيترن ئي انساني computation منصوبن جي ارتقا ڏيکاري ٿو. پهريون، هڪ محقق پالجي ٿو ڪندي يا تحقيق جي مددگارن (مثال طور، Schawinski جي ابتدائي درجيبندي ڪوشش) جي هڪ ننڍي ٽيم سان منصوبي جي ڪوشش. هن اچڻ سان گڏوگڏ پيماني تي نه ٿو ته، سنڌ جي محقق هڪ انساني computation منصوبي جتي ڪيترن ئي ماڻهن کي classifications ڏيندا تائين منتقل ڪري سگھن. پر، ڊيٽا جي هڪ مخصوص مقدار لاء، خالص انساني ڪوشش ڪافي ٿي نه ٿيندو. ته ٿيندي، تحقيق ٻيو-جڳ نظام جتي انساني classifications هڪ اهڙي مشين سکيا ماڊل آهي ته وري ڊيٽا جي عملي طور لامحدود مقدار کي لاڳو ڪري سگهجي ٿو ۽ سکيا ڪرڻ لاء استعمال ڪري رهيا آهن تعمير ڪرڻ جي ضرورت آهي.