Galaxy Zoo კომბინირებული მრავალი არასამთავრობო ექსპერტის მოხალისეებად კლასიფიცირება მილიონი გალაქტიკას.
Galaxy Zoo გაიზარდა პრობლემისგან 2007 წელს ოქსფორდის უნივერსიტეტში ასტრონომიის კურსდამთავრებულმა კევინ შავინსკისმა. გაცილებით მარტივად გამარტივდა, შაინსკი გალაქტიკაზე იყო დაინტერესებული და გალაქტიკები შეიძლება მათი მორფოლოგია-ელიფტური ან სპირალური და მათი ფერი ლურჯი ან წითელი. იმ დროს, რომ ასტრონომებს შორის ჩვეულებრივი სიბრძნე იყო, სპირალური გალაქტიკები, როგორიც იყო ჩვენი ირმის ნახტომი, იყო ლურჯი ფერისა (ახალგაზრდების მითითებით) და ელიფსური გალაქტიკები წითელი იყო (სიბერის მიხედვით). შავინსკი ეჭვობდა ამ ჩვეულებრივი სიბრძნით. იგი ეჭვობს, რომ ზოგადად, ეს ნიმუში შეიძლება იყოს ჭეშმარიტი ზოგადად, გამონაკლისი იყო გამონაკლისი, და რომ ამ უჩვეულო გალაქტიკების უამრავი შესწავლით - ის, რომ არ შეესაბამებოდა მოსალოდნელ ნიმუშს - ის შეეძლო რაღაცის გაცნობა, რომლის საშუალებითაც გალაქტიკები ჩამოყალიბდა.
ამგვარად, შვაინსკის საჭიროა, რომ ჩვეულებრივი სიბრძნის გადალახვა იყო მორფოლოგიურად კლასიფიცირებული გალაქტიკათა კომპლექტი; ეს არის გალაქტიკა, რომელიც კლასიფიცირებულია, როგორც სპირალური ან ელიფტიური. პრობლემა ის იყო, რომ კლასიფიკაციის არსებული ალგორითმი მეთოდები ჯერ არ არის საკმარისი იმისათვის, რომ გამოყენებულ იქნეს სამეცნიერო კვლევა; სხვა სიტყვებით რომ ვთქვათ, გალაქტიკების კლასიფიკაცია იმ დროს იყო, რომ კომპიუტერი რთული იყო. აქედან გამომდინარე, საჭირო იყო დიდი რაოდენობით ადამიანთა კლასიფიცირებული გალაქტიკები. Schawinski აიღო ამ კლასიფიკაციის პრობლემა ენთუზიაზმით დამთავრებული სტუდენტი. შვიდ 12 საათიანი მარათონის სხდომაზე მან შეძლო 50 ათასი გალაქტიკის კლასიფიკაცია. მიუხედავად იმისა, რომ 50,000 გალაქტიკა შეიძლება ჟღერს, როგორც ბევრი, ეს არის მხოლოდ დაახლოებით 5% თითქმის ერთი მილიონი გალაქტიკებს, რომ გადაიღო Sloan ციფრული Sky კვლევა. Schawinski მიხვდა, რომ მას სჭირდება უფრო მასშტაბური მიდგომა.
საბედნიეროდ, გამოდის, რომ ამოცანა გასაიდუმლოების galaxies არ საჭიროებს წინასწარი მომზადება ასტრონომია; შეგიძლიათ ასწავლიან ვინმე ამას საკმაოდ სწრაფად. სხვა სიტყვებით, მიუხედავად იმისა, რომ გასაიდუმლოების galaxies არის ამოცანა, რომ რთული იყო კომპიუტერი, ეს იყო საკმაოდ მარტივია ადამიანები. ასე რომ, ხოლო იჯდა pub Oxford, Schawinski და თანამემამულე ასტრონომი Chris Lintott ოცნებობდა ნახვა, სადაც მოხალისეები იქნებოდა დაალაგეთ გამოსახულებები galaxies. რამდენიმე თვის შემდეგ, Galaxy Zoo დაიბადა.
Galaxy Zoo- ს ვებ-გვერდზე, მოხალისეები რამდენიმე წუთში გაივლიან. მაგალითად, სწავლის განსხვავება სპირალური და elliptical galaxy (ფიგურა 5.2). ტრენინგის შემდეგ თითოეულმა მოხალისემ უნდა გაიარონ შედარებით ადვილი ვიქტორინა - სწორად კლასიფიცირებული 15 15 გალაქტიკის კლასიფიკაციით, რომელიც ცნობილია კლასიფიკაციით და შემდეგ დაიწყება უცნობი გალაქტიკათა ნამდვილი კლასიფიკაცია მარტივი ვებ-ინტერფეისის მეშვეობით (ფიგურა 5.3). მოხალისედან ასტრონომამდე გადასვლა 10 წელზე ნაკლები ხნით მოხდება და საჭიროა მხოლოდ დაბრკოლებების ყველაზე ნაკლებად დაბრკოლება, მარტივი ვიქტორინა.
გალერეა "ზოოპარკმა" თავდაპირველი მოხალისეები მიიზიდა მას შემდეგ, რაც საინფორმაციო გამოშვებებში იყო წარმოდგენილი და დაახლოებით ექვსი თვის განმავლობაში პროექტი გაიზარდა 100 000-ზე მეტი მოქალაქის მკვლევარის მონაწილეობით, იმ ადამიანებმა, რომლებიც მონაწილეობდნენ იმის გამო, რომ ისინი მუშაობდნენ და მათ სურდათ ასტრონომიის წინსვლა. ერთად, ამ 100,000 მოხალისეები სულ 40 მილიონზე მეტ კლასიფიკაციას წვლილი შეიტანეს, შედარებით პატარა, მონაწილეთა ძირითადი ჯგუფის (Lintott et al. 2008) კლასიფიკაციის უმრავლესობით.
მკვლევარებმა, რომლებსაც აქვთ ბაკალავრიატის შემსწავლელი თანაშემწეები, შეიძლება დაუყოვნებლივ იყოს სკეპტიკური მონაცემები მონაცემთა ხარისხზე. მიუხედავად იმისა, რომ ეს სკეპტიციზმი გონივრულია, Galaxy Zoo გვიჩვენებს, რომ როდესაც მოხალისე წვლილი სწორად გაიწმინდა, debiased და აგრეგირებული, მათ შეუძლიათ მაღალი ხარისხის შედეგი (Lintott et al. 2008) . პროფესიონალური ხარისხის მონაცემების შესაქმნელად ხალხის უმნიშვნელოვანესი ხერხია გამოსწორება , რაც იმავე ამოცანის შესრულებისას, რომელსაც ბევრი სხვადასხვა ადამიანი ასრულებს. In Galaxy Zoo, იყო დაახლოებით 40 კლასიფიკაციით თითო გალაქტიკაში; მკვლევარებმა ბაკალავრიატის კვლევის თანაშემწეები ვერ შეძლეს ამ დონის შეცვლის დონეს და, შესაბამისად, უფრო დაინტერესებული უნდა ყოფილიყო თითოეული ინდივიდუალური კლასიფიკაციის ხარისხი. რა მოხდა მოხალისეები ტრეინინგში, ისინი გამოუყენებდნენ რევოლუციას.
მიუხედავად იმისა, რომ გალაქტიკაში მრავალი კლასიფიკაციის მიუხედავად, მოხდა მოხალისეთა კლასიფიკაციის კომპლექტი, კონსენსუსის კლასიფიკაციის წარმოსადგენად იყო სახიფათო. იმის გამო, რომ მსგავსი გამოწვევები წარმოიქმნება ადამიანის გამოთვლითი პროექტების უმრავლესობაში, მოკლედ განიხილავს სამ ნაბიჯს, რომელიც Galaxy Zoo- ის მკვლევარებმა გამოიყენეს კონსენსუსის კლასიფიკაციის შესახებ. პირველ რიგში, მკვლევარებმა "გაწმენდილი" მონაცემები გაყალბების კლასიფიკაციის მოხსნის გზით. მაგალითად, ადამიანები, რომლებიც არაერთხელ იყენებდნენ იმავე გალაქტიკას, რაც მოხდებოდა, თუ ისინი ცდილობდნენ შედეგების მანიპულირების მცდელობებს - ყველა მათი კლასიფიკაცია განადგურდა. ეს და სხვა მსგავსი დასუფთავები ამოღებულ იქნა ყველა კლასიფიკაციის დაახლოებით 4%.
მეორე, დასუფთავების შემდეგ, მკვლევარებმა საჭიროა კლასიფიკაციის სისტემური მიკერძოების ამოღება. ორიგინალური პროექტის ფარგლებში ჩანერგილი მიკერძოებული კვლევების სერია, მაგალითად, კოლონიაში მონოქრომული გალაქტიკა აჩვენეს, რადგან მკვლევარებმა აღმოაჩინეს რამდენიმე სისტემატური მიკერძოება, როგორიცაა სისტემური მიკერძოება, რათა განისაზღვროს შორეული სპირალური გალაქტიკები როგორც ელიფტიკულ გალაქტიკაში (Bamford et al. 2009) . (Bamford et al. 2009) . ამ სისტემური მიკერძოების რეგულირება ძალზედ მნიშვნელოვანია, რადგან რედუცირება ავტომატურად არ აშორებს სისტემატურ კომპენსაციას; ეს მხოლოდ დაეხმარება ამოშლის შემთხვევითი შეცდომა.
საბოლოოდ, მკვლევართა დასკვნის შემდეგ, საჭიროა ინდივიდუალური კლასიფიკაციის კომბინაციის კომბინაციის შესაქმნელად მეთოდი. თითოეული გალაქტიკაზე კლასიფიკაციის კომბინირების მარტივი საშუალება იქნებოდა ყველაზე გავრცელებული კლასიფიკაციის შერჩევა. თუმცა, ეს მიდგომა ექნებოდა თითოეულ მოხალისე თანაბარ წონაში, ხოლო მკვლევარებმა ეჭვი გამოთქვეს, რომ ზოგი მოხალისე უფრო კარგად იყო კლასიფიკაციით. ამდენად, მკვლევარებმა შეიმუშავეს უფრო რთული განზომილებიანი წონის პროცესი, რომელიც ცდილობდა საუკეთესო კლასიფიკატორების შესწავლა და მეტი წონა.
ამდენად, სამი ნაბიჯი პროცესი-დასუფთავების, დებიურობისა და წონის შემდეგ - Galaxy Zoo- ს კვლევითმა ჯგუფმა მოახდინა 40 მილიონი მოხალისე კლასიფიკაცია კონსენსუსის მორფოლოგიური კლასიფიკაციის სახით. როდესაც ეს Galaxy Zoo- ის კლასიფიკაცია იყო შედარებული, წინა ასპარეზთა წინა სამი პატარა მცდელობით, მათ შორის კლასიფიკაცია Schawinski- ს, რომელმაც Galaxy Zoo- ს შთაბეჭდილება მოახდინა, იყო ძლიერი შეთანხმება. ამრიგად, მოხალისეებმა შეძლეს მაღალხარისხიან კლასიფიკაცია და იმ მასშტაბით, რომ მკვლევარებმა ვერ (Lintott et al. 2008) . სინამდვილეში, გალაქტიკების ასეთი დიდი რაოდენობის ადამიანური კლასიფიკაციით, შავინსკის, ლინტოტსა და სხვებს საშუალება მიეცათ აჩვენებდნენ, რომ გალაქტიკებს მხოლოდ 80% -ით მიჰყვება მოსალოდნელი ნიმუში-ლურჯი სპილოები და წითელი ელიფტიკულები-და მრავალი ნაშრომი დაიწერა ეს აღმოჩენა (Fortson et al. 2011) .
იმის გათვალისწინებით, რომ ამ ფონზე შეგიძლიათ იხილოთ, როგორ გაატარებს Galaxy Zoo- ს სპლიტ-აპლიკაციის კომბინირებული რეცეპტი, იგივე რეცეპტი, რომელიც გამოიყენება ადამიანის გამოთვლითი პროექტებისთვის. პირველი, დიდი პრობლემა გაყოფილია მოცულობით. ამ შემთხვევაში მილიონი გალაქტიკების კლასიფიკაციის პრობლემა გალაქტიკის კლასიფიკაციის მილიონ პრობლემად გადაიქცა. შემდეგი, ოპერაცია გამოიყენება თითოეული ბლოკი დამოუკიდებლად. ამ შემთხვევაში მოხალისეები კლასიფიცირდება თითოეული გალაქტიკაზე, როგორც სპირალური ან ელიფტიკური. საბოლოო ჯამში, შედეგები კომბინირებულია კონსენსუსის შედეგების წარმოსაჩენად. ამ შემთხვევაში, კომბინირებული ნაბიჯი მოიცავდა თითოეულ გალაქტიკაზე კონსენსუსის კლასიფიკაციის დასამზადებლად დასუფთავების, დებაიზინგისა და წონასწორობას. მიუხედავად იმისა, რომ საუკეთესო პროექტები გამოიყენებს ამ ზოგად რეცეპტს, თითოეული ნაბიჯი უნდა მორგებული იყოს სპეციფიკური პრობლემისადმი. მაგალითად, ქვემოთ აღწერილი ადამიანური გამოთვლითი პროექტების შემთხვევაში, იგივე რეცეპტი მოჰყვება, მაგრამ აპლიკაციის გამოყენება და შერწყმა საკმაოდ განსხვავებული იქნება.
იყიდება Galaxy Zoo გუნდი, ეს პირველი პროექტი მხოლოდ დასაწყისია. ძალიან სწრაფად მიხვდნენ, რომ მიუხედავად იმისა, რომ მათ შეძლეს მილიონ გალაქტიკასთან ახლოს კლასიფიცირება, ეს მასშტაბები არ არის საკმარისი იმისათვის, რომ მუშაობა უფრო ახალი ციფრული ცის კვლევების ჩატარება, რაც დაახლოებით 10 მილიარდი გალაქტიკების გამოსახულებას იძლევა (Kuminski et al. 2014) . 10 მლნ-დან 10 მილიარდიანი ზრდა, 10,000-ჯერ Galaxy Zoo- ის ზრდისთვის, საჭიროა 10,000-ზე მეტ მონაწილეს მეტი მონაწილეობის მიღება. მიუხედავად იმისა, რომ მოხალისეთა რიცხვი ინტერნეტში დიდია, ეს არ არის უსასრულო. ამიტომ, მკვლევარებმა მიხვდნენ, რომ თუ ისინი აპირებდნენ მუდმივად მზარდი რაოდენობით მოცულობას, ახალი, უფრო სკალადირებული მიდგომა იყო საჭირო.
ამდენად, მანდა ბანერჯი მუშაობდა შაჰინსკისთან, ლინტოტთან და Galaxy Zoo- ის სხვა გუნდებთან (2010) რომლებიც სწავლობდნენ კომპიუტერებს გალაქტიკების კლასიფიკაციისთვის. უფრო კონკრეტულად, Galaxy Zoo- ს მიერ შექმნილი ადამიანების კლასიფიკაციის გამოყენებით, ბანერჯიმ შექმნა მანქანა სწავლის მოდელი, რომელიც შეიძლება პროგნოზირდეს გალაქტიკის ადამიანების კლასიფიკაცია გამოსახულების მახასიათებლების საფუძველზე. თუ ამ მოდელს შეეძლო ადამიანური კლასიფიკაციის მაღალი სიზუსტის რეპროდუცირება, მაშინ ის შეიძლება გამოყენებულ იქნას Galaxy Zoo- ის მკვლევარებმა, რათა განისაზღვროს არსებითად უსასრულო გალაქტიკები.
ბანჯერისა და კოლეგების მიდგომა რეალურად საკმაოდ ჰგავს სოციალურ კვლევაში გამოყენებულ ტექნიკას, თუმცა მსგავსება შეიძლება არ იყოს გასაგები ერთი შეხედვით. პირველ რიგში, ბანერჯი და კოლეგები მოაქციეს თითოეულ სურათს რიცხვითი თვისებების კომპლექტიდ, რომელიც შეაფასეს თავისი თვისებები. მაგალითად, გალაქტიკათა გამოსახულებები შეიძლება იყოს სამი თვისება: ლურჯი გამოსახულების გამოსახულება, პიქსელების სიკაშკაშე და არა თეთრი თეთრი პიქსების პროპორცია. სწორი ფუნქციების შერჩევა წარმოადგენს პრობლემის მნიშვნელოვან ნაწილს და ზოგადად მოითხოვს საველე სფეროს ექსპერტიზას. ეს პირველი ნაბიჯი, საყოველთაოდ მოუწოდა მხატვრული საინჟინრო , შედეგების მონაცემები მატრიცა ერთი ზედიზედ თითო სურათი და შემდეგ სამი სვეტი აღწერს, რომ სურათი. მონაცემების მატრიცა და სასურველი გამომუშავება (მაგ., გამოსახულია ადამიანის მიერ ელიფტიკული გალაქტიკა), მკვლევარი ქმნის სტატისტიკურ ან მანქანათმცოდნეობას, მაგალითად, ლოგისტიკური რეგრესია, რომელიც წინასწარ განსაზღვრავს ადამიანის კლასიფიკაციას თვისებებიდან იმიჯი. საბოლოო ჯამში, მკვლევარი ამ სტატისტიკურ მოდელში იყენებს ახალ გალაქტიკებს (ფიგურა 5.4). მანქანათმცოდნეობაში, ეს მიდგომა გამოყენებით მოტივირებული მაგალითების შექმნისთვის, რომელიც ქმნის მოდელის შექმნას, რომელსაც შეუძლია ახალი მონაცემების წარდგენა, ე.წ. ზედამხედველობითი სწავლება .
ბანჯერისა და კოლეგების მანქანას სწავლის მოდელი უფრო რთული აღმოჩნდა, ვიდრე მაგალითად, ჩემი სათამაშო მაგალითში, მაგალითად, მან გამოიყენა ისეთი თვისებები, როგორიცაა "დე ვაუკოლუტერები ჯეროვანი ღერძის თანაფარდობა" და მისი მოდელი არ იყო ლოგისტიკური რეგრესია, ეს იყო ხელოვნური ნევროლოგიური ქსელი. მისი თვისებები, მისი მოდელი და კონსენსუსი Galaxy Zoo კლასიფიკაცია, მან შეძლო შევქმნათ წონა ყოველ ფუნქციაზე და შემდეგ გამოიყენეთ ეს წონა, რათა წინასწარმეტყველება გალაქტიკაში კლასიფიკაციის შესახებ. მაგალითად, მისი ანალიზმა აღმოაჩინა, რომ გამოსახულებები უფრო დაბალია, ვიდრე "დე ვაუკოლუტერების ჯაჭვის თანაფარდობა" უფრო სპირალურ გალაქტიკაა. ამ წონის გათვალისწინებით, მან შეძლო გლობალური კლასიფიკაციის გონივრული სიზუსტის პროგნოზირება.
ბანჯერისა და კოლეგების საქმიანობა Galaxy Zoo- ს გადაქცევას, რაც კომპიუტერულ დახმარებას უწევდა კომპიუტერის გამოთვლით სისტემას . ამ ჰიბრიდულ სისტემებზე მოსაფიქრებელი საუკეთესო საშუალება ის არის, რომ ადამიანები პრობლემის გადაჭრას ისახავენ ადამიანებს, რომლებსაც შეუძლიათ შექმნან მონაცემთა ბაზა, რომელიც შეიძლება გამოყენებულ იქნეს კომპიუტერის დასაძლევად პრობლემის მოსაგვარებლად. ხანდახან, პრობლემის გადასაწყვეტად კომპიუტერთან წვრთნა შეიძლება უამრავი მაგალითი დაგჭირდეს და ერთადერთი საშუალებაა, რომ წარმოადგინოს საკმარისი რაოდენობის მაგალითები მასობრივი თანამშრომლობისთვის. ამ კომპიუტერის დახმარების მიდგომის უპირატესობა ისაა, რომ იგი საშუალებას მოგცემთ გაუმკლავდეთ მონაცემების არსებითად უსასრულო რაოდენობას მხოლოდ ადამიანური ძალისხმევის მხოლოდ ფინიში. მაგალითად, მკვლევარს მილიონობით ადამიანის საიდუმლო გალაქტიკა შეუძლია შექმნას პროგნოზირებადი მოდელი, რომელიც შეიძლება გამოყენებულ იქნეს მილიარდი ან თუნდაც ტრილიონი გალაქტიკების კლასიფიცირებაში. თუ გალაქტიკათა უზარმაზარი რიცხვი არსებობს, მაშინ ამ ტიპის ადამიანური ჰიბრიდი მართლაც ერთადერთი გამოსავალია. ეს უსასრულო scalability არ არის თავისუფალი, თუმცა. მანქანათმშენებლობის მოდელი, რომელსაც შეუძლია სწორად გამოსწოროს ადამიანური კლასიფიკაცია, თავისთავად რთული პრობლემაა, მაგრამ საბედნიეროდ ამ თემას მიეძღვნა შესანიშნავი წიგნები (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo არის კარგი მაგალითი იმისა, თუ რამდენი ადამიანის გამოთვლითი პროექტები ვითარდება. პირველ რიგში, მკვლევარი პროექტს ახორციელებს საკუთარი თავისთვის ან კვლევითი თანაშემწეების მცირე ჯგუფთან (მაგალითად, შავინსკის საწყის კლასიფიკაციის მცდელობა). თუ ეს მიდგომა არ არის კარგად მასშტაბური, მკვლევარს შეუძლია ადამიანთა გამოთვლით პროექტში გადაინაცვლოს ბევრი მონაწილე. თუმცა, მონაცემთა გარკვეული მოცულობისთვის, სუფთა ადამიანის ძალისხმევა არ იქნება საკმარისი. ამ ეტაპზე მკვლევარებმა უნდა შექმნან კომპიუტერის დახმარებით გამოთვლილი ადამიანური გამოთვლითი სისტემა, რომელშიც ადამიანური კლასიფიკაცია გამოიყენება მანქანათმცოდნეობის მოდელის მომზადებაზე, რომელიც შემდეგ შეიძლება პრაქტიკულად შეუზღუდავი რაოდენობით იყოს გამოყენებული.