5.2.1 ទូរស័ព្ទ Galaxy សួនសត្វ

សួនសត្វសាហ្គូរួមបញ្ចូលគ្នានូវកិច្ចខិតខំប្រឹងប្រែងរបស់អ្នកស្ម័គ្រចិត្តដែលមិនមែនជាអ្នកជំនាញដើម្បីចាត់ថ្នាក់មួយលានកាឡាក់ស៊ី។

Galaxy Zoo បានកើតចេញពីបញ្ហាមួយដែលលោក Kevin Schawinski ដែលជានិស្សិតបញ្ចប់ការសិក្សាផ្នែកតារាសាស្ត្រនៅសាកលវិទ្យាល័យ Oxford ក្នុងឆ្នាំ 2007. លោក Schawinski មានចំណាប់អារម្មណ៍ចំពោះកាឡាក់ស៊ីហើយកាឡាក់ស៊ីអាចត្រូវបានចាត់ថ្នាក់ដោយរូបរាងរាងពងក្រពើរបស់ពួកគេ។ ដោយពណ៌ខៀវឬក្រហម។ នៅពេលនោះប្រាជ្ញាធម្មតាក្នុងចំណោមតារាវិទូគឺថាកាឡាក់ស៊ីវង់លីកដូចវីដីអូរបស់យើងមានពណ៌ខៀវ (បង្ហាញពីយុវវ័យ) ហើយកាឡាក់ស៊ីអេលីបស៊ីលមានពណ៌ក្រហម (បង្ហាញអាយុចាស់) ។ Schawinski បានសង្ស័យអំពីប្រាជ្ញាធម្មតានេះ។ គាត់សង្ស័យថាខណៈពេលដែលគំរូនេះអាចជាការពិតជាទូទៅមានចំនួនករណីលើកលែងច្រើនគួរសមហើយថាដោយសិក្សាពីកាឡាក់ស៊ីមិនធម្មតាទាំងនេះជាច្រើនដែលមិនសមនឹងគំរូដែលគេរំពឹងទុកនោះគាត់អាចរៀនអ្វីមួយអំពីដំណើរការដែលអាចធ្វើបាន។ កាឡាក់ស៊ីបានបង្កើតឡើង។

ដូច្នេះអ្វីដែល Schawinski ត្រូវការដើម្បីរំលើងប្រាជ្ញាធម្មតាគឺជាសំណុំមួយដ៏ធំនៃកាឡាក់ស៊ីដែលបានចាត់ថ្នាក់។ នោះគឺកាឡាក់ស៊ីដែលត្រូវបានគេចាត់ថ្នាក់ជាវង់ឬអេលីប។ ទោះយ៉ាងណាបញ្ហានេះគឺថាវិធីសាស្ត្រក្បួនដោះស្រាយដែលមានស្រាប់សម្រាប់ការចាត់ថ្នាក់មិនទាន់ល្អគ្រប់គ្រាន់ដើម្បីប្រើសម្រាប់ការស្រាវជ្រាវវិទ្យាសាស្ត្រ។ នៅក្នុងន័យផ្សេងទៀតការចាត់ថ្នាក់កាឡាក់ស៊ីគឺនៅពេលនោះជាបញ្ហាដែលពិបាកសម្រាប់កុំព្យូទ័រ។ ដូច្នេះអ្វីដែលត្រូវការចាំបាច់គឺកាឡាក់ស៊ីប្រភេទ មនុស្សដែល មានទំហំធំ។ Schawinski បានទទួលយកបញ្ហាការចាត់ថ្នាក់នេះជាមួយនឹងភាពរីករាយរបស់និស្សិតបញ្ចប់ការសិក្សាម្នាក់។ នៅក្នុងការរត់ម៉ារ៉ាតុងរយៈពេលប្រាំពីរម៉ោង 12 ថ្ងៃគាត់អាចចាត់ថ្នាក់កាឡាក់ស៊ីបាន 50.000 ។ ខណៈពេលដែលកាឡាក់ស៊ី 50.000 អាចស្តាប់ទៅដូចជាច្រើនវាគឺជាការពិតប្រហែល 5% នៃកាឡាក់ស៊ីស្ទើរតែមួយលានដែលត្រូវបានគេថតរូបនៅក្នុងការស្ទង់មតិអេកូស្កាលេនស្កាយស្កូ។ លោក Schawinski បានដឹងថាគាត់ត្រូវការវិធីសាស្រ្តដែលអាចវាស់វែងបាន។

ជាសំណាងល្អវាប្រែថាភារកិច្ចនៃការធ្វើចំណាត់ថ្នាក់នេះមិនកញ្ចុំមិនតម្រូវឱ្យមានបណ្តុះបណ្តាកម្រិតខ្ពស់ខាងតារាវិទ្យា; អ្នកអាចបង្រៀននរណាម្នាក់ដើម្បីធ្វើវាស្អាតយ៉ាងឆាប់រហ័ស។ នៅក្នុងពាក្យផ្សេងទៀតទោះបីជាចំណាត់ថ្នាក់កាឡាក់ស៊ីគឺជាភារកិច្ចមួយដែលជាការលំបាកសម្រាប់កំព្យូទ័រមួយវាជាការងាយស្រួលណាស់សម្រាប់មនុស្ស។ ដូច្នេះខណៈពេលអង្គុយនៅក្នុង pub នៅ Oxford, Schawinski និងមិត្តរួមលោក Chris Lintott មួយតារាវិទូឡើងគេហទំព័ររបស់អ្នកស្ម័គ្រចិត្តដែលសុបិនដែលជាកន្លែងដែលចាត់រូបភាពនៃកាឡាក់ស៊ីមួយ។ ប៉ុន្មានខែក្រោយមក, ទូរស័ព្ទ Galaxy សួនសត្វបានកើត។

នៅគេហទំព័រគេហទំព័រសួនសត្វអ្នកស្ម័គ្រចិត្តនឹងទទួលបានការហ្វឹកហាត់ពីរបីនាទី។ ឧទាហរណ៍ការរៀនពីភាពខុសគ្នារវាងកាឡាក់ស៊ីនិងអេឡិចត្រុងអេឡិចត្រូនិច (រូបភាព 5.2) ។ បន្ទាប់ពីការបណ្តុះបណ្តាលនេះអ្នកស្ម័គ្រចិត្តម្នាក់ៗត្រូវឆ្លងកាត់កាឡាក់ស៊ីចំនួន 11 ក្នុងចំណោមកាឡាក់ស៊ីចំនួន 15 ដែលត្រូវបានគេស្គាល់ថាជាក្រុមដែលមានចំនាត់ថ្នាក់ច្បាស់លាស់ហើយបន្ទាប់មកនឹងចាប់ផ្តើមចាត់ចំណាត់ថ្នាក់ពិតប្រាកដនៃកាឡាក់ស៊ីដែលមិនស្គាល់តាមរយៈចំណុចប្រទាក់បណ្ដាញសាមញ្ញ (រូបភាព 5.3) ។ ការផ្លាស់ប្តូរពីអ្នកស្ម័គ្រចិត្តទៅជាតារាវិទូនឹងធ្វើឡើងក្នុងរយៈពេលតិចជាង 10 នាទីហើយមានតំរូវការឆ្លងកាត់ទាបបំផុតនៃឧបសគ្គដែលជាសំណួរធម្មតា។

រូបភាពទី 5.2: ឧទាហរណ៏នៃកាឡាក់ស៊ីសំខាន់ៗពីរប្រភេទ: តំរៀបស្លឹកនិងរាងអេលីប។ គម្រោងរបស់ Galaxy Zoo បានប្រើប្រាស់អ្នកស្ម័គ្រចិត្តជាង 100.000 នាក់ដើម្បីធ្វើចំណាត់ថ្នាក់រូបភាពជាង 900.000 រូបភាព។ បន្តដោយការអនុញ្ញាតពី http://www.GalaxyZoo.org និង Sloan Digital Sky Survey ។

រូបភាពទី 5.2: ឧទាហរណ៏នៃកាឡាក់ស៊ីសំខាន់ៗពីរប្រភេទ: តំរៀបស្លឹកនិងរាងអេលីប។ គម្រោងរបស់ Galaxy Zoo បានប្រើប្រាស់អ្នកស្ម័គ្រចិត្តជាង 100.000 នាក់ដើម្បីធ្វើចំណាត់ថ្នាក់រូបភាពជាង 900.000 រូបភាព។ បន្តដោយការអនុញ្ញាតពី http://www.GalaxyZoo.org និង Sloan Digital Sky Survey

រូបភាពទី 5.3: អេក្រង់បញ្ចូលដែលអ្នកស្ម័គ្រចិត្តត្រូវបានគេស្នើឱ្យចាត់ថ្នាក់រូបភាពតែមួយ។ បន្តដោយមានការអនុញ្ញាតពីលោក Chris Lintott ដោយផ្អែកលើរូបភាពមួយពីការស្ទង់មតិអេកូស្កាលេនស្កាយអេស។

រូបភាពទី 5.3: អេក្រង់បញ្ចូលដែលអ្នកស្ម័គ្រចិត្តត្រូវបានគេស្នើឱ្យចាត់ថ្នាក់រូបភាពតែមួយ។ បន្តដោយមានការអនុញ្ញាតពីលោក Chris Lintott ដោយផ្អែកលើរូបភាពមួយពី ការស្ទង់មតិអេកូស្កាលេនស្កាយអេស

សួនសត្វហ្កាលបានទាក់ទាញអ្នកស្ម័គ្រចិត្តដំបូងរបស់ខ្លួនបន្ទាប់ពីគម្រោងនេះត្រូវបានបង្ហាញនៅក្នុងអត្ថបទព័ត៌មានមួយហើយក្នុងរយៈពេលប្រហែល 6 ខែគម្រោងនេះបានរីកចម្រើនដោយមានអ្នកវិទ្យាសាស្ត្រជាង 100.000 នាក់ដែលបានចូលរួមដោយពួកគេពេញចិត្តនឹងការងារហើយពួកគេចង់ជួយអភិវឌ្ឍវិស័យតារាសាស្ត្រ។ ជាមួយគ្នានេះអ្នកស្ម័គ្រចិត្តចំនួន 100.000 នាក់បានចូលរួមវិភាគទានសរុបជាង 40 លាននាក់ដោយភាគច្រើននៃចំណាត់ថ្នាក់មកពីក្រុមអ្នកចូលរួមស្នូលតូច (Lintott et al. 2008)

អ្នកស្រាវជ្រាវដែលមានបទពិសោធន៍ក្នុងការស្រាវជ្រាវជំនួយការស្រាវជ្រាវថ្នាក់បរិញ្ញាបត្រអាចមានការសង្ស័យភ្លាមអំពីគុណភាពទិន្នន័យ។ ខណៈពេលដែលការសង្ស័យនេះគឺសមហេតុសមផល, សួនសត្វបង្ហាញថានៅពេលដែលវិភាគទានស្ម័គ្រចិត្តត្រូវបានសម្អាតដោយត្រឹមត្រូវ debiased និងសរុបពួកគេអាចផលិតលទ្ធផលដែលមានគុណភាពខ្ពស់ (Lintott et al. 2008) ។ គន្លឹះដ៏សំខាន់មួយដើម្បីឱ្យហ្វូងមនុស្សបង្កើតទិន្នន័យដែលមានគុណភាពវិជ្ជាជីវៈគឺជា ការលែងត្រូវការតំរូវការ ដែលមានភារកិច្ចដូចគ្នានឹងមនុស្សជាច្រើន។ នៅក្នុងសួនសត្វសួនសត្វមានប្រហែល 40 ប្រភេទក្នុងមួយកាឡាក់ស៊ី។ អ្នកស្រាវជ្រាវដែលប្រើជំនួយការស្រាវជ្រាវថ្នាក់បរិញ្ញាបត្រមិនអាចមានលទ្ធភាពក្នុងកម្រិតនៃការលែងត្រូវការតទៅទៀតទេដូច្នេះហើយត្រូវមានការយកចិត្តទុកដាក់បន្ថែមទៀតចំពោះគុណភាពនៃការបែងចែកបុគ្គលនីមួយៗ។ អ្វីដែលអ្នកស្ម័គ្រចិត្តខ្វះក្នុងការបណ្តុះបណ្តាពួកគេបានបង្កើតឡើងដោយមានការលែងត្រូវការតទៅទៀត។

ទោះយ៉ាងណាក៏ដោយទោះបីជាមានចំណាត់ថ្នាក់ច្រើនក្នុងកាឡាក់ស៊ីក៏ដោយក៏ការរួមបញ្ចូលគ្នានៃប្រភេទអ្នកស្ម័គ្រចិត្តដើម្បីបង្កើតការបែងចែកការយល់ស្របគឺជារឿងពិបាក។ ដោយសារតែបញ្ហាប្រឈមស្រដៀងគ្នាយ៉ាងខ្លាំងកើតមាននៅក្នុងគម្រោងគណនាមនុស្សភាគច្រើនវាជាការល្អក្នុងការសង្ខេបពីជំហានទាំងបីដែលក្រុមអ្នកស្រាវជ្រាវទូរស័ព្ទ Galaxy Zoo ប្រើដើម្បីបង្កើតការយល់ស្របគ្នា។ ទីមួយអ្នកស្រាវជ្រាវបានសម្អាតទិន្នន័យដោយលុបចេញនូវការក្លែងក្លាយ។ ឧទាហរណ៍អ្នកដែលបានចាត់ថ្នាក់ម្តងហើយម្តងទៀតនូវកាឡាក់ស៊ីដូចគ្នា - ដែលនឹងកើតឡើងប្រសិនបើពួកគេព្យាយាមកែច្នៃលទ្ធផល - ចំណាត់ថ្នាក់របស់គេទាំងអស់ត្រូវបានបោះបង់ចោល។ សម្អាតនេះនិងសម្អាតដែលស្រដៀងគ្នាផ្សេងទៀតត្រូវបានដកចេញប្រហែល 4% នៃចំណាត់ថ្នាក់ទាំងអស់។

ទីពីរបន្ទាប់ពីសម្អាតក្រុមអ្នកស្រាវជ្រាវត្រូវការដកចេញនូវភាពលំអៀងជាប្រព័ន្ធនៅក្នុងចំណាត់ថ្នាក់។ ឧទាហរណ៍ដូចជាការសិក្សាពីការរកឃើញដោយលំអៀងដែលបានបង្កប់នៅក្នុងគម្រោងដើមឧទាហរណ៍ការបង្ហាញអ្នកស្ម័គ្រចិត្តមួយចំនួនដែលជាកាឡាក់ស៊ីជាពណ៌ជំនួសឱ្យពណ៌។ អ្នកស្រាវជ្រាវបានរកឃើញភាពលំអៀងជាប្រព័ន្ធជាច្រើនដូចជាការលំអៀងជាប្រព័ន្ធដើម្បីចាត់វិធានការលើកាឡាក់ស៊ីវិលកៀកឆ្ងាយ ៗ ដូចជាកាឡាក់ស៊ីអេលីបស៊ីល (Bamford et al. 2009) ។ ការលៃតម្រូវសម្រាប់ភាពលំអៀងជាប្រព័ន្ធទាំងនេះគឺមានសារៈសំខាន់ខ្លាំងណាស់ពីព្រោះការលែងត្រូវការតំរូវការមិនលំអៀងដោយស្វ័យប្រវត្តិ។ វាគ្រាន់តែជួយលុបកំហុសចៃដន្យប៉ុណ្ណោះ។

នៅទីបញ្ចប់បន្ទាប់ពីការកាត់ទោសអ្នកស្រាវជ្រាវត្រូវការវិធីសាស្ត្រមួយដើម្បីបញ្ចូលគ្នានូវចំណាត់ថ្នាក់បុគ្គលដើម្បីបង្កើតការបែងចែកមតិឯកច្ឆន្ទ។ មធ្យោបាយដ៏សាមញ្ញបំផុតក្នុងការបញ្ចូលគ្នានូវចំណាត់ថ្នាក់សម្រាប់កាឡាក់ស៊ីនីមួយៗនឹងត្រូវជ្រើសរើសការបែងចែកជាទូទៅបំផុត។ ទោះជាយ៉ាងណាក៏ដោយវិធីសាស្រ្តនេះនឹងផ្តល់ឱ្យអ្នកស្ម័គ្រចិត្តម្នាក់ៗនូវទម្ងន់ស្មើគ្នាហើយអ្នកស្រាវជ្រាវសង្ស័យថាអ្នកស្ម័គ្រចិត្តខ្លះមានភាពល្អប្រសើរជាងក្នុងការចាត់ថ្នាក់។ ដូច្នេះក្រុមអ្នកស្រាវជ្រាវបានបង្កើតនីតិវិធីវាស់ទម្ងន់ដែលមានភាពស្មុគស្មាញជាងដែលបានព្យាយាមរកឱ្យឃើញនូវចំណាត់ថ្នាក់ល្អបំផុតនិងផ្តល់ទម្ងន់ឱ្យកាន់តែច្រើន។

ដូច្នេះបន្ទាប់ពីការសម្អាតដំណើរការបីជំហានកាត់បន្ថយនិងទម្ងន់ - ក្រុមស្រាវជ្រាវរបស់ Galaxy Zoo បានបង្រួមការស្ម័គ្រចិត្តរបស់អ្នកស្ម័គ្រចិត្តចំនួន 40 លាននាក់ទៅជាការកំណត់ប្រភេទនៃការយល់ស្រប។ នៅពេលដែលការចែកចំណាត់ថ្នាក់សួនសត្វទាំងនេះត្រូវបានប្រៀបធៀបជាមួយការប៉ុនប៉ងខ្នាតតូចចំនួនបីមុន ៗ ដោយអ្នកតារាវិទូដែលមានជំនាញវិជ្ជាជីវៈរួមទាំងការបែងចែកដោយ Schawinski ដែលបានជួយបំផុសចលនាសួនសត្វមានកិច្ចព្រមព្រៀងដ៏រឹងមាំ។ ដូច្នះអ្នកស្ម័ចិត្តទាំងអស់មានលទ្ធភាពផ្តល់នូវចំណាត់ថាក់ខ្ពស់និងកិតដលអ្នកវវមិនអាចផ្គូផ្គង (Lintott et al. 2008) ។ តាមការពិតដោយការចាត់ចំណាត់ថ្នាក់មនុស្សសម្រាប់កាឡាក់ស៊ីជាច្រើនដូចជា Schawinski, Lintott និងអ្នកដទៃអាចបង្ហាញថាមានតែកាឡាក់ស៊ីប្រហែល 80% ប៉ុណ្ណោះដែលបានធ្វើតាមគ្រោងបេតាពណ៌ខៀវនិងរាងពងក្រពើពណ៌ក្រហមហើយឯកសារជាច្រើនត្រូវបានសរសេរអំពី ការរកឃើញនេះ (Fortson et al. 2011)

ដែលបានផ្តល់ឱ្យផ្ទៃខាងក្រោយនេះឥឡូវនេះអ្នកអាចមើលឃើញពីរបៀបដែលទូរស័ព្ទ Galaxy Zoo ធ្វើតាមរូបមន្តបំបែក - អនុវត្ត - ផ្សំរូបមន្តដូចគ្នានឹងដែលត្រូវបានប្រើសម្រាប់គម្រោងគណនាមនុស្សភាគច្រើន។ ទីមួយបញ្ហាធំមួយត្រូវបាន បំបែក ជាកំណាត់។ ក្នុងករណីនេះបញ្ហានៃការបែងចែកកាឡាក់ស៊ីរាប់លានត្រូវបានបែងចែកទៅជាបញ្ហារាប់លានក្នុងការចាត់ថ្នាក់កាឡាក់ស៊ីមួយ។ បន្ទាប់មកប្រតិបត្តិការត្រូវ បានអនុវត្ត ទៅបណ្តុំនីមួយៗដោយឯករាជ្យ។ ក្នុងករណីនេះអ្នកស្ម័គ្រចិត្តបានចាត់ថ្នាក់កាឡាក់ស៊ីនីមួយៗថាជាវង់ឬអេលីប។ ចុងបញ្ចប់លទ្ធផលត្រូវបាន បញ្ចូលរួមគ្នា ដើម្បីបង្កើតលទ្ធផល រួម មួយ។ ក្នុងករណីនេះជំហានផ្សំរួមបញ្ចូលការលាងសម្អាតនិងការដាក់ទម្ងន់ដើម្បីបង្កើតការបែងចែកមតិរួមគ្នាសម្រាប់កាឡាក់ស៊ីនីមួយៗ។ ថ្វីបើគម្រោងភាគច្រើនប្រើរូបមន្តទូទៅនេះក៏ដោយក៏ជំហាននីមួយៗចាំបាច់ត្រូវកែសម្រួលតាមបញ្ហាជាក់លាក់ដែលត្រូវដោះស្រាយ។ ឧទាហរណ៍ក្នុងគម្រោងគណនារបស់មនុស្សដែលបានពិពណ៌នានៅខាងក្រោមរូបមន្តដូចគ្នានឹងត្រូវបានអនុវត្តប៉ុន្តែការអនុវត្តនិងផ្សំជំហាននឹងខុសគ្នាខ្លាំង។

សម្រាប់ក្រុម Galaxy Zoo គម្រោងដំបូងនេះគឺគ្រាន់តែជាការចាប់ផ្តើមប៉ុណ្ណោះ។ យ៉ាងឆាប់រហ័សពួកគេបានដឹងថាទោះបីជាពួកគេអាចចាត់ថ្នាក់ជិតមួយលានកាឡាក់ស៊ីក៏ដោយក៏ទំហំនេះមិនគ្រប់គ្រាន់ដើម្បីធ្វើការជាមួយការស្ទង់មតិកាមេរ៉ាឌីជីថលថ្មីដែលអាចបង្កើតរូបភាពនៃកាឡាក់ស៊ីប្រហែលជា 10 ពាន់លាន (Kuminski et al. 2014) ។ ដើម្បីគ្រប់គ្រងការកើនឡើងពី 1 លានដល់ 10 ពាន់លានដុល្លារដែលជាកត្តាមួយនៃ 10,000 -Gallery Zoo នឹងត្រូវជ្រើសរើសអ្នកចូលរួមប្រហែល 10.000 ដង។ ទោះបីជាចំនួនអ្នកស្ម័គ្រចិត្តនៅលើអ៊ិនធឺរណែតមានទំហំធំវាមិនមាននិរន្តឡើយ។ ដូច្នេះអ្នកស្រាវជ្រាវបានដឹងថាប្រសិនបើពួកគេនឹងដោះស្រាយបញ្ហាទិន្នន័យដែលមិនធ្លាប់មានការរីកចម្រើននោះវិធីសាស្រ្តថ្មីដែលអាចកែតម្រូវបានគឺត្រូវការជាចាំបាច់។

ដូច្នេះ Manda Banerji - ធ្វើការជាមួយ Schawinski, Lintott និងសមាជិកដទៃទៀតនៃក្រុម Galaxy Zoo (2010) - កុំព្យូទ័របង្រៀនពីដំបូងដើម្បីចាត់ចែងកាឡាក់ស៊ី។ ជាងនេះទៅទៀតដោយប្រើការបែងចែកមនុស្សដែលបង្កើតឡើងដោយសួនសត្វសួនសត្វ Banerji បានបង្កើតគំរូរៀនម៉ាស៊ីនមួយដែលអាចទស្សន៍ទាយការបែងចែកជាមនុស្សនៃកាឡាក់ស៊ីដោយផ្អែកលើលក្ខណៈនៃរូបភាព។ ប្រសិនបើគំរូនេះអាចបង្កើតចំណាត់ថ្នាក់មនុស្សជាមួយនឹងភាពត្រឹមត្រូវខ្ពស់នោះវាអាចត្រូវបានប្រើប្រាស់ដោយក្រុមអ្នកស្រាវជ្រាវ Galaxy Zoo ដើម្បីចាត់ថ្នាក់ចំនួនតារាវលីគ្មានកំណត់។

ចំណុចស្នូលនៃវិធីសាស្រ្ត Banerji និងសហសេវិកគឺពិតជាស្រដៀងនឹងបច្ចេកទេសដែលត្រូវបានប្រើប្រាស់ជាទូទៅក្នុងការស្រាវជ្រាវសង្គមទោះបីជាភាពស្រដៀងគ្នានេះមិនច្បាស់លាស់ក៏ដោយ។ ដំបូង Banerji និងសហការីបានបម្លែងរូបភាពនីមួយៗទៅជាសំណុំនៃ លក្ខណៈជា លេខដែលសង្ខេបលក្ខណៈសម្បត្តិរបស់វា។ ឧទាហរណ៍សម្រាប់រូបភាពនៃកាឡាក់ស៊ីអាចមានលក្ខណៈពិសេសបី: បរិមាណពណ៌ខៀវនៅក្នុងរូបភាពវ៉ារ្យង់នៅក្នុងពន្លឺនៃភីកសែលនិងសមាមាត្រនៃភីចសែលដែលមិនមានពណ៌ស។ ការជ្រើសរើសលក្ខណៈពិសេសត្រឹមត្រូវគឺជាផ្នែកមួយដ៏សំខាន់នៃបញ្ហានេះហើយជាទូទៅវាតម្រូវឱ្យមានជំនាញលើប្រធានបទ។ ជំហ៊ានដំបូងដែលហៅថា វិស្វកម្មលក្ខណៈពិសេស នេះនាំមកនូវម៉ាទ្រីសទិន្នន័យដែលមានជួរដេកមួយក្នុងមួយរូបភាពហើយបន្ទាប់មកជួរឈរបីពណ៌នាអំពីរូបភាពនោះ។ ដែលបានផ្តល់ឱ្យម៉ាទ្រីសទិន្នន័យនិងទិន្នផលដែលចង់បាន (ឧ។ ថាតើរូបភាពត្រូវបានចាត់ថ្នាក់ដោយមនុស្សដូចជាកាឡាក់ស៊ីអេលីបក) អ្នកស្រាវជ្រាវបង្កើតគំរូសិក្សាឬម៉ាស៊ីនរៀនឧទាហរណ៍ការតំរែតំរង់ដឹកជញ្ជូន - ដែលព្យាករណ៍ចំណាត់ក្រុមរបស់មនុស្សផ្អែកលើលក្ខណៈពិសេស នៃរូបភាព។ ចុងបញ្ចប់អ្នកស្រាវជ្រាវប្រើប៉ារ៉ាម៉ែត្រនៅក្នុងគំរូស្ថិតិនេះដើម្បីបង្កើតការប៉ាន់ស្មាននៃកាឡាក់ស៊ីថ្មី (រូបភាព 5.4) ។ នៅក្នុងការរៀនម៉ាស៊ីនវិធីសាស្រ្តនេះ - ដោយប្រើឧទាហរណ៍ដែលបានដាក់ស្លាកដើម្បីបង្កើតគំរូដែលអាចដាក់ស្លាកទិន្នន័យថ្មីត្រូវបានគេហៅថា ការរៀនត្រួតត្រា

រូបភាពទី 5.4: ការពិពណ៌នាសាមញ្ញអំពីរបៀបដែល Banerji et al ។ (ឆ្នាំ 2010) បានប្រើប្រាស់ប្រភេទទូរស័ព្ទចល័តហ្សាហ្សូអេសដើម្បីហ្វឹកហាត់គំរូម៉ាស៊ីនរៀនដើម្បីធ្វើចំណាត់ថ្នាក់ក្រុមកាឡាក់ស៊ី។ រូបភាពនៃកាឡាក់ស៊ីត្រូវបានបម្លែងទៅជាម៉ាទ្រីសនៃលក្ខណៈពិសេស។ ក្នុងឧទាហរណ៍សាមញ្ញនេះមានលក្ខណៈពិសេសបី (ចំនួនពណ៌ខៀវនៅក្នុងរូបភាព, វ៉ារ្យង់នៅក្នុងពន្លឺនៃភីកសែលនិងសមាមាត្រនៃភីកសែល nonwhite) ។ បន្ទាប់មកសម្រាប់រូបភាពកូនចិញ្ចឹមទូរស័ព្ទ Galaxy Zoo ត្រូវបានប្រើដើម្បីហ្វឹកហាត់គំរូម៉ាស៊ីនរៀន។ ចុងបញ្ចប់ការរៀនម៉ាស៊ីនត្រូវបានប្រើដើម្បីប៉ាន់ស្មានចំណាត់ថ្នាក់សម្រាប់កាឡាក់ស៊ីដែលនៅសេសសល់។ ខ្ញុំហៅវាថាគម្រោងគណនាគណនាមនុស្សដោយប្រើកុំព្យួទ័រព្រោះថាជាជាងការមានមនុស្សដោះស្រាយបញ្ហាវាមានមនុស្សបង្កើតទិន្នន័យដែលអាចប្រើដើម្បីបង្ហាត់កុំព្យូទ័រដើម្បីដោះស្រាយបញ្ហា។ អត្ថប្រយោជន៍នៃប្រព័ន្ធគណនាមនុស្សដែលជួយកុំព្យូទ័រនេះគឺថាវាអនុញ្ញាតឱ្យអ្នកដោះស្រាយទិន្នន័យដែលគ្មានកំណត់ដ៏សំខាន់នៃការប្រើប្រាស់ដោយប្រើតែការកំនត់នៃការប្រឹងប្រែងរបស់មនុស្សប៉ុណ្ណោះ។ រូបភាពនៃកាឡាក់ស៊ីបានបង្កើតឡើងដោយការអនុញ្ញាតពី Sloan Digital Sky Survey ។

រូបភាពទី 5.4: ការពិពណ៌នាសាមញ្ញអំពីរបៀបដែល Banerji et al. (2010) បានប្រើប្រាស់ប្រភេទទូរស័ព្ទចល័តហ្សាហ្សូអេសដើម្បីហ្វឹកហាត់គំរូម៉ាស៊ីនរៀនដើម្បីធ្វើចំណាត់ថ្នាក់ក្រុមកាឡាក់ស៊ី។ រូបភាពនៃកាឡាក់ស៊ីត្រូវបានបម្លែងទៅជាម៉ាទ្រីសនៃលក្ខណៈពិសេស។ ក្នុងឧទាហរណ៍សាមញ្ញនេះមានលក្ខណៈពិសេសបី (ចំនួនពណ៌ខៀវនៅក្នុងរូបភាព, វ៉ារ្យង់នៅក្នុងពន្លឺនៃភីកសែលនិងសមាមាត្រនៃភីកសែល nonwhite) ។ បន្ទាប់មកសម្រាប់រូបភាពកូនចិញ្ចឹមទូរស័ព្ទ Galaxy Zoo ត្រូវបានប្រើដើម្បីហ្វឹកហាត់គំរូម៉ាស៊ីនរៀន។ ចុងបញ្ចប់ការរៀនម៉ាស៊ីនត្រូវបានប្រើដើម្បីប៉ាន់ស្មានចំណាត់ថ្នាក់សម្រាប់កាឡាក់ស៊ីដែលនៅសេសសល់។ ខ្ញុំហៅវាថាគម្រោងគណនាគណនាមនុស្សដោយប្រើកុំព្យួទ័រព្រោះថាជាជាងការមានមនុស្សដោះស្រាយបញ្ហាវាមានមនុស្សបង្កើតទិន្នន័យដែលអាចប្រើដើម្បីបង្ហាត់កុំព្យូទ័រដើម្បីដោះស្រាយបញ្ហា។ អត្ថប្រយោជន៍នៃប្រព័ន្ធគណនាមនុស្សដែលជួយកុំព្យូទ័រនេះគឺថាវាអនុញ្ញាតឱ្យអ្នកដោះស្រាយទិន្នន័យដែលគ្មានកំណត់ដ៏សំខាន់នៃការប្រើប្រាស់ដោយប្រើតែការកំនត់នៃការប្រឹងប្រែងរបស់មនុស្សប៉ុណ្ណោះ។ រូបភាពនៃកាឡាក់ស៊ីបានបង្កើតឡើងដោយការអនុញ្ញាតពី Sloan Digital Sky Survey

លក្ខណៈពិសេសនៃម៉ូដែលសិក្សាម៉ាស៊ីនរបស់ Banerji និងសហសេវិកមានភាពស្មុគស្មាញជាងអ្វីដែលឧទាហរណ៍របស់ក្មេងលេងរបស់ខ្ញុំ - ឧទាហរណ៍នាងប្រើលក្ខណៈពិសេសដូចជា "de Vaucouleurs fit axial ratio" និងគំរូរបស់នាងមិនមែនជាតំរែតំរង់ទ្រទ្រង់ទេវាជាបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត។ ដោយប្រើលក្ខណៈពិសេសរបស់នាងគំរូរបស់នាងនិងការបែងចែកតុក្កតាតាមការយល់ស្របរបស់នាងនាងអាចបង្កើតទម្ងន់នៅលើលក្ខណៈពិសេសនីមួយៗហើយបន្ទាប់មកប្រើទំងន់ទាំងនេះដើម្បីធ្វើការទស្សន៍ទាយអំពីការចាត់ថ្នាក់នៃកាឡាក់ស៊ី។ ឧទាហរណ៍ការវិភាគរបស់នាងបានរកឃើញថារូបភាពដែលមានកម្រិតទាប "de Vaucouleurs" ដែលសមស្របទៅនឹង axial គឺហាក់ដូចជាមានកាឡាក់ស៊ីវង់។ ដោយសារតែទម្ងន់ទាំងនេះនាងអាចទស្សន៍ទាយការបែងចែកមនុស្សរបស់កាឡាក់ស៊ីដោយមានភាពត្រឹមត្រូវសមហេតុផល។

ការងាររបស់ Banerji និងសហសេវិកបានប្រែក្លាយទៅជាសួនសត្វសួនសត្វដែលខ្ញុំហៅថា ប្រព័ន្ធគណនាមនុស្សដែលជួយកុំព្យូទ័រ ។ វិធីល្អបំផុតដើម្បីគិតអំពីប្រព័ន្ធកូនកាត់ទាំងនេះគឺថាជាជាងការឱ្យមនុស្សដោះស្រាយបញ្ហាពួកគេមានមនុស្សបង្កើតទិន្នន័យដែលអាចប្រើដើម្បីបង្ហាត់កុំព្យូទ័រដើម្បីដោះស្រាយបញ្ហា។ ពេលខ្លះការបង្ហាត់កុំព្យូទ័រដើម្បីដោះស្រាយបញ្ហាអាចទាមទារឱ្យមានឧទាហរណ៍ជាច្រើនហើយវិធីតែមួយគត់ដើម្បីបង្កើតនូវគំរូមួយចំនួនគ្រប់គ្រាន់គឺការសហការដ៏ធំមួយ។ គុណសម្បត្តិនៃវិធីសាស្រ្តជួយកុំព្យូទ័រនេះគឺថាវាអនុញ្ញាតឱ្យអ្នកដោះស្រាយបរិមាណទិន្នន័យគ្មានកំណត់ដ៏សំខាន់ដោយប្រើតែការកំនត់នៃការប្រឹងប្រែងរបស់មនុស្ស។ ជាឧទាហរណ៍អ្នកស្រាវជ្រាវម្នាក់ដែលមានកាឡាក់ស៊ីដែលមានចំនួនរាប់លាននាក់អាចបង្កើតគំរូទស្សន៍ទាយមួយដែលក្រោយមកអាចប្រើដើម្បីចាត់ចែងកាឡាក់ស៊ីរាប់ពាន់កោដិឬរាប់ពាន់កោដិ។ ប្រសិនបើមានចំនួនកាឡាក់ស៊ីច្រើនណាស់នោះប្រភេទកូនកាត់កុំព្យូទ័រមនុស្សនេះពិតជាដំណោះស្រាយតែមួយគត់ដែលអាចទៅរួច។ ការពង្រីកវិសាលភាពនេះមិនមានសេរីភាពទេ។ ការបង្កើតគំរូរៀនម៉ាស៊ីនដែលត្រឹមត្រូវអាចបង្កើតបានជាចំណាត់ថ្នាក់របស់មនុស្សវាគឺជាបញ្ហាដ៏លំបាកមួយប៉ុន្តែសំណាងល្អមានសៀវភៅល្អ ៗ ដែលបានឧទ្ទិសដល់ប្រធានបទនេះ (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013)

សួនសត្វសួនសត្វគឺជាឧទាហរណ៍ដ៏ល្អមួយអំពីរបៀបដែលការវិភាគគម្រោងមនុស្សជាច្រើនវិវត្ត។ ទីមួយអ្នកស្រាវជ្រាវព្យាយាមគម្រោងនេះដោយខ្លួនឯងឬជាមួយក្រុមជំនួយការស្រាវជ្រាវតូចៗ (ឧ។ ការខិតខំប្រឹងប្រែងចាត់ចំណាត់ថ្នាក់ដំបូងរបស់ Schawinski) ។ ប្រសិនបើវិធីសាស្រ្តនេះមិនមានកម្រិតល្អនោះអ្នកស្រាវជ្រាវអាចផ្លាស់ទីទៅគម្រោងគណនារបស់មនុស្សជាមួយនឹងអ្នកចូលរួមជាច្រើន។ ប៉ុន្តែសម្រាប់ទិន្នន័យជាក់លាក់មួយចំនួនការប្រឹងប្រែងរបស់មនុស្សសុទ្ធនឹងមិនគ្រប់គ្រាន់ទេ។ នៅចំណុចនោះក្រុមអ្នកស្រាវជ្រាវចាំបាច់ត្រូវបង្កើតប្រព័ន្ធគណនាមនុស្សដែលជួយកុំព្យូទ័រដែលក្នុងនោះការបែងចែកមនុស្សត្រូវបានគេប្រើដើម្បីហ្វឹកហាត់គំរូរៀនម៉ាស៊ីនមួយដែលបន្ទាប់មកអាចត្រូវបានអនុវត្តចំពោះទិន្នន័យស្ទើរតែគ្មានកំណត់។