ഗാലക്സി മൃഗശാല പത്തുലക്ഷം താരാപഥങ്ങളെ തരംതിരിക്കാനുള്ള പല നോൺ- വിദഗ്ദ്ധ സന്നദ്ധ ശ്രമങ്ങൾ കൂടിച്ചേർന്നുണ്ടായ.
ഗാലക്സി മൃഗശാല ഒരു പ്രശ്നം കെവിൻ Schawinski 2007 ൽ ഓക്സ്ഫഡ് സർവകലാശാലയിലെ ജ്യോതിശാസ്ത്ര ഒരു ബിരുദ വിദ്യാർത്ഥി അൽപ്പം ലളിതവൽക്കരിക്കുന്നു നേരിടുന്ന നിന്നു വളർന്നു Schawinski താരാപഥങ്ങൾ താല്പര്യം, താരാപഥങ്ങൾ അവരുടെ രൂപഘടന-ദീർഘവൃത്താകൃതിയിലുള്ള അല്ലെങ്കിൽ വിഭാഗീകരിക്കാൻ കഴിയും സർപ്പിളമായി-ഉം അവരുടെ നിറം-നീല, ചുവപ്പ് വഴി. സമയം, ജ്യോതിശാസ്ത്രജ്ഞർ ഇടയിൽ പരമ്പരാഗത ജ്ഞാനം സർപ്പിളഗാലക്സികളെ ഗാലക്സികൾ, ഞങ്ങളുടെ ക്ഷീരപഥം പോലെ നീല നിറം (യുവാക്കൾ സൂചിപ്പിച്ചുകൊണ്ട്) ആയിരുന്നു ദീർഘവൃത്താകാരതാരാപഥങ്ങളിൽ (വാർദ്ധക്യം സൂചിപ്പിക്കുന്ന) നിറം ചുവപ്പ് ആയിരുന്നു. Schawinski ഈ പരമ്പരാഗത ജ്ഞാനം സംശയിച്ചു. അവൻ ഈ പാറ്റേൺ പൊതുവെ നിവൃത്തിയാകേണ്ടതിന്നു സമയത്ത് അവിടെ ഒരുപക്ഷേ അപവാദങ്ങളുടെ ഗുവാമിൽ ആയിരുന്നു സംശയിച്ചു ആ ഇത്തരം അസാധാരണമായ താരാപഥങ്ങൾ പ്രതീക്ഷിച്ചതിലും പാറ്റേൺ താൻ കണ്ട വഴി പ്രക്രിയ കുറിച്ച് എന്തെങ്കിലും പഠിക്കാൻ കഴിഞ്ഞില്ല fit വന്നില്ല പശുക്കൾ ധാരാളം പഠിക്കുന്നത് താരാപഥങ്ങൾ രൂപം.
ഇപ്രകാരം, എന്തു Schawinski പരമ്പരാഗത ജ്ഞാനം വാദമുഖങ്ങളെ ആവശ്യമായ morphologically ക്ലാസിഫൈഡ് താരാപഥങ്ങൾ ഒരു വലിയ കൂട്ടം ആയിരുന്നു; ആ സർപ്പിളമായി അല്ലെങ്കിൽ ദീർഘവൃത്താകൃതിയിലുള്ള ഒന്നുകിൽ ക്ലാസിഫൈഡ് ചെയ്തിരുന്നു താരാപഥങ്ങളെ ആണ്. പ്രശ്നം എന്നാൽ ക്ലാസിഫിക്കേഷൻ നിലവിലുള്ള അൽഗോരിത്മിക് രീതികൾ ഇതുവരെ ശാസ്ത്ര ഗവേഷണ ഉപയോഗിക്കാൻ വേണ്ടത്ര നന്നല്ലാത്ത ആയിരുന്നു; മറ്റ് വാക്കുകളിൽ, വർഗീകരിക്കാൻ ഗാലക്സികൾ കമ്പ്യൂട്ടറുകൾക്ക് ഹാർഡ് എന്ന് ഒരു പ്രശ്നം അക്കാലത്തു, ആയിരുന്നു. അതിനാൽ ആവശ്യമായ മാനുഷിക ക്ലാസിഫൈഡ് താരാപഥങ്ങൾ ഒരു വലിയ സംഖ്യ ആയിരുന്നു. Schawinski ഒരു ബിരുദ വിദ്യാർത്ഥി എന്ന ഉത്സാഹത്തോടെ ഈ വർഗ്ഗീകരണത്തിന്റെ പ്രശ്നം ഏറ്റെടുത്തു. ഏഴു, 12 മണിക്കൂർ ദിവസം ഒരു മാരത്തൺ സെഷനിൽ അദ്ദേഹം 50,000 താരാപഥങ്ങളെ തരംതിരിക്കാനുള്ള കഴിഞ്ഞു. 50,000 താരാപഥങ്ങൾ തോന്നാം, പക്ഷേ അത് യഥാർത്ഥത്തിൽ Sloan ഡിജിറ്റൽ സ്കൈ സർവേ ഫോട്ടോ വച്ചിരിക്കുന്നത് ഏകദേശം ഒരു ദശലക്ഷം താരാപഥങ്ങൾ മാത്രമേ കുറിച്ച് 5% ആണ്. Schawinski അവൻ കൂടുതൽ വിപുലീകരിക്കാനാകുന്ന സമീപനം ഞങ്ങൾ മനസ്സിലാക്കി.
ഭാഗ്യവശാൽ, അതു താരാപഥങ്ങൾ വർഗീകരിക്കാൻ കടമ ജ്യോതിശാസ്ത്രം വിപുലമായ പരിശീലനം ആവശ്യമില്ല മാറുകയാണെങ്കിൽ; നിങ്ങൾ പ്രെറ്റി വേഗത്തിൽ ചെയ്യാൻ ആരെങ്കിലും പഠിപ്പിക്കാൻ കഴിയും. മറ്റു വാക്കുകളിൽ, വർഗീകരിക്കാൻ താരാപഥങ്ങൾ കമ്പ്യൂട്ടറുകൾക്ക് ഹാർഡ് എന്ന് ഒരു ടാസ്ക് പോലും അത് മനുഷ്യർക്ക് പ്രെറ്റി എളുപ്പമായി. അതുകൊണ്ട്, ഓക്സ്ഫോർഡ്, Schawinski സഹ ജ്യോതിശാസ്ത്രജ്ഞനായ ക്രിസ് Lintott ഒരു പബ്ബിൽ ഇരിക്കുന്ന സമയത്ത് സന്നദ്ധപ്രവർത്തകർ താരാപഥങ്ങളുടെ ചിത്രങ്ങൾ തരംതിരിക്കാനുള്ള എവിടെ ഒരു വെബ്സൈറ്റ് അപ് സ്വപ്നം. ഏതാനും മാസങ്ങൾക്കു ശേഷം, ഗാലക്സി മൃഗശാല ജനിച്ചു.
ഗാലക്സി സൂ വെബ്സൈറ്റിൽ, വോളണ്ടിയർമാർ പരിശീലനം ഏതാനും മിനിറ്റ് നൽകും; ഉദാഹരണത്തിന്, സർപ്പിള ദീർഘവൃത്താകൃതിയുള്ള ഗാലക്സി (ചിത്രം 5.2) തമ്മിലുള്ള വ്യത്യാസം പഠന. ഈ പരിശീലനം ശേഷം, വോളണ്ടിയർമാർ 11 15 അറിയപ്പെടുന്ന ക്ലാസിഫിക്കേഷനുകളും-ഉം കൂടെ താരാപഥങ്ങൾ വർഗീകരിക്കാൻ തുടർന്ന് വളണ്ടിയർ ഒരു ലളിതമായ വെബ് അടിസ്ഥാന ഇന്റർഫേസ് (ചിത്രം 5.3) വഴി അജ്ഞാതമായ താരാപഥങ്ങൾ യഥാർത്ഥ വർഗ്ഗീകരണം ആരംഭിക്കും താരതമ്യേന എളുപ്പമുള്ള ക്വിസ്-ശരിയായി സംഭവിക്കുന്നതു ഉണ്ടായിരുന്നു. വളണ്ടിയർ നിന്ന് ജ്യോതിശാസ്ത്രജ്ഞനായ മാറ്റം കുറവ് 10 മിനിറ്റിനുള്ളിൽ നടക്കുന്നത് മാത്രം, ഒരു ലളിതമായ ക്വിസ് ഹർഡിൽസ് കുറവ് കടന്നുപോകുന്നതു ആവശ്യമാണ്.
പദ്ധതി ഒരു വാർത്ത ഫീച്ചർ ശേഷം ഗാലക്സി മൃഗശാല ഇനീഷ്യൽ വോളന്റിയർമാർ ആകർഷിക്കുന്നു, ഏകദേശം ആറു മാസം പദ്ധതി 100,000 ലധികം സിറ്റിസൺ ശാസ്ത്രജ്ഞർ, അവർ ചുമതല ആസ്വദിച്ച അവർ മുൻകൂർ ജ്യോതിശാസ്ത്രം സഹായിക്കാൻ ആഗ്രഹിച്ചു കാരണം പങ്കെടുത്തു ഉൾപ്പെടുത്തി വളർന്നത്. അതോടൊപ്പം, ഈ 100,000 വോളണ്ടിയർമാർ ക്ലാസിഫിക്കേഷനുകളും ഭൂരിപക്ഷം പങ്കാളികളുടെ ഒരു താരതമ്യേന ചെറിയ, കോർ ഗ്രൂപ്പ് നിന്നും വരുന്ന 40 ദശലക്ഷം ക്ലാസിഫിക്കേഷനുകളും മൊത്തം സംഭാവനചെയ്തു (Lintott et al. 2008) .
അനുഭവം ബിരുദ ഗവേഷണ അസിസ്റ്റന്റുമാർ നിയമിക്കുമെന്നും കൈവശമുള്ള ഗവേഷകർ ഉടനെ ഡാറ്റ കുറിച്ച് സംശയമുണ്ടായിരുന്ന ആകേണ്ടതിന്നു. ഈ കഷ്ണം ന്യായമായ തന്നെ, ഗാലക്സി സൂ വളണ്ടിയർ സംഭാവനകൾ ശരിയായി, വൃത്തിയാക്കിയ ചെയ്യുമ്പോൾ debiased, ഒന്നിച്ചുചേർക്കുക അവർ ഉയർന്ന നിലവാരമുള്ള ഫലങ്ങൾ എന്നാണ് (Lintott et al. 2008) . ഔദ്യോഗിക നിലവാരമുള്ള ഡാറ്റ സൃഷ്ടിക്കാൻ ജനക്കൂട്ടത്തെ ലഭിക്കുന്നതിന് ഒരു പ്രധാന ഹാട്രിക് ആവർത്തനം ആണ്; പല വ്യത്യസ്ത ആളുകൾ നടത്തുന്ന ഒരേ ഇല്ലാത്തവർ ആണ്. ഗാലക്സി മൃഗശാലയിലെ, ഗാലക്സി 40 ശതമാനത്തിൽ ക്ലാസിഫിക്കേഷനുകളും ഉണ്ടായിരുന്നു; ബിരുദ ഗവേഷണ സഹായികൾ ഉപയോഗിച്ച് ഗവേഷകർ ആവർത്തനം ഈ ലെവൽ താങ്ങാൻ ഒരിക്കലും അതിനാൽ ഓരോ വ്യക്തിഗത വർഗ്ഗീകരണം ഗുണനിലവാരത്തിൽ അധികം ബന്ധപ്പെട്ട ആവശ്യം. സന്നദ്ധപ്രവർത്തകർ പരിശീലനം എന്തു കുറവുള്ള അവർ ആവർത്തനം കൊണ്ട് അപ്പ് ഉണ്ടാക്കി.
പോലും ഗാലക്സി ഒന്നിലധികം ക്ലാസിഫിക്കേഷനുകളും കൂടെ എന്നാൽ, സമവായം ക്ലാസിഫിക്കേഷൻ നിർമ്മിക്കാനുള്ള വളണ്ടിയർ ക്ലാസിഫിക്കേഷനുകളും ഗണം ഉള്ള മാറിമറിഞ്ഞത്. വളരെ സമാനമായ വെല്ലുവിളികൾ ഏറ്റവും മനുഷ്യ കംപ്യൂട്ടിങ്ങ് പദ്ധതികൾ പൊങ്ങുന്നതും, ഇതൊരു സംക്ഷിപ്തമായി ഗാലക്സി മൃഗശാല ഗവേഷകർ തങ്ങളുടെ സമവായം ക്ലാസിഫിക്കേഷനുകളും ഉത്പാദിപ്പിക്കാൻ ഉപയോഗിച്ച മൂന്നു ഘട്ടങ്ങൾ അവലോകനം സഹായകരമാകും. ആദ്യം, ഗവേഷകർ വ്യാജ ക്ലാസിഫിക്കേഷനുകളും നീക്കം ചെയ്ത് ഡാറ്റ "വൃത്തിയാക്കി". ഉദാഹരണത്തിന്, ജനം ആവർത്തിച്ച് ഒരേ ഗാലക്സിയുടെ-കുഴപ്പമൊന്നുമില്ല ഫലങ്ങള്-ഉണ്ടായിരുന്നു അവരുടെ എല്ലാ ക്ലാസിഫിക്കേഷനുകളും discarded കൃത്രിമം ശ്രമിക്കുന്ന സംഭവിക്കുക അത് രഹസ്യമാണ് ആർ. ഇത് മറ്റ് സമാനമായ ക്ലീനിംഗ് എല്ലാ ക്ലാസിഫിക്കേഷനുകളും ഏതാണ്ട് 4% നീക്കംചെയ്തു.
രണ്ടാമത്തേത്, ക്ലീനിംഗ് ശേഷം, ഗവേഷകർ ക്ലാസിഫിക്കേഷനുകളും ലെ സിസ്റ്റമാറ്റിക് പക്ഷപാത നീക്കം ആവശ്യമാണ്. യഥാർത്ഥ പ്രോജക്റ്റ്-ഉദാഹരണത്തിന് ഉള്ളിൽ എംബഡഡ് ബയസ് കണ്ടെത്തൽ പഠനങ്ങൾ ഒരു ശ്രേണി മുഖേന, ചെന്നൈയില് ചില വോളന്റിയർമാർ ഗാലക്സി കാണിക്കുന്ന പകരം നിറം-ഗവേഷകർ എ സിസ്റ്റമാറ്റിക് ബയസ് പോലുള്ള നിരവധി സിസ്റ്റമാറ്റിക് പക്ഷപാതിത്വം, ബഹുദൂരം ദീർഘവൃത്താകാരതാരാപഥങ്ങളിൽ പോലെ സ്പൈറൽ ഗാലക്സിയാണ് തരംതിരിക്കുന്നതിനുള്ള കണ്ടെത്തിയ (Bamford et al. 2009) . പല സംഭാവനകൾ ശരാശരി ചിട്ടയായ ബയസ് നീക്കം കാരണം ഈ ചിട്ടയോടെ പക്ഷപാത വേണ്ടി ക്രമീകരിക്കൽ വളരെ പ്രധാനമാണ്; അതു മാത്രം റാൻഡം പിശക് നീക്കം.
ഒടുവിൽ debiasing ശേഷം, ഗവേഷകർ സമവായം ക്ലാസിഫിക്കേഷൻ ഉത്പാദിപ്പിക്കാൻ വ്യക്തിഗത ക്ലാസിഫിക്കേഷനുകളും സംയോജിപ്പിച്ച് ഒരു രീതി ആവശ്യമായിരുന്നു. ഓരോ ഗാലക്സിയിലാണുള്ളത് ക്ലാസിഫിക്കേഷനുകളും സംയോജിപ്പിച്ച് എളുപ്പ വഴി ഏറ്റവും സാധാരണമായ ക്ലാസിഫിക്കേഷൻ തിരഞ്ഞെടുക്കാൻ തന്നെ. എന്നിരുന്നാലും, ഈ സമീപനം ഓരോ വളണ്ടിയർ തുല്യ തൂക്കത്തിലും തന്നെ, ഗവേഷകർ ചില സന്നദ്ധസേവകർ മറ്റുള്ളവരെക്കാൾ വർഗ്ഗീകരണം മെച്ചപ്പെട്ട ആയിരുന്നു സംശയിച്ചു. അതുകൊണ്ടു, ഗവേഷകർ യാന്ത്രികമായി മികച്ച ക്ലാസിഫൈയറുകള്ക്ക് കണ്ടുപിടിച്ച്, അവ കൂടുതൽ തൂക്കവും ശ്രമിക്കുന്ന കൂടുതൽ സങ്കീർണ്ണമായ ഇറ്ററേറ്റീവ് വെയ്റ്റേജിനു നടപടിക്രമം വികസിപ്പിച്ചു.
ഇപ്രകാരം, ഒരു മൂന്നു ഘട്ട പ്രക്രിയ-ക്ലീനിംഗ് ശേഷം debiasing, ഒപ്പം വെയ്റ്റേജിനു-ഗാലക്സി സൂ ഗവേഷണ സംഘം സമവായം morphological ക്ലാസിഫിക്കേഷനുകളും ഒരു കൂട്ടം കയറി 40 ദശലക്ഷം വളണ്ടിയർ ക്ലാസിഫിക്കേഷനുകളും പരിവർത്തനം. ഈ ഗാലക്സി മൃഗശാല ക്ലാസിഫിക്കേഷനുകളും ഗാലക്സി മൃഗശാല പ്രചോദനം സഹായിച്ച Schawinski വഴി ക്ലാസിഫിക്കേഷൻ വിദഗ്ദ്ധ വാനനിരീക്ഷകർ മൂന്ന് മുൻ ചെറിയ തോതിലുള്ള ശ്രമങ്ങൾ, അപേക്ഷിച്ച് ചെയ്തപ്പോൾ ശക്തമായ കരാർ ഉണ്ടായിരുന്നു. ഇപ്രകാരം, വോളണ്ടിയർമാർ, സംഗ്രഹിച്ച്, ഉയർന്ന നിലവാരമുള്ള ക്ലാസിഫിക്കേഷനുകളും നൽകാൻ കഴിയും ഗവേഷകരും പൊരുത്തപ്പെടുന്നില്ല കഴിയാത്ത സ്കെയിലിൽ ആയിരുന്നു (Lintott et al. 2008) . വാസ്തവത്തിൽ, താരാപഥങ്ങൾ ഇത്തരം ഒരു വലിയ സംഖ്യ മനുഷ്യ ക്ലാസിഫിക്കേഷനുകളും മൂലമോ, Schawinski, Lintott, മറ്റുള്ളവരെ താരാപഥങ്ങൾ മാത്രമേ 80% പ്രതീക്ഷിച്ച പാറ്റേൺ നീല സർപ്പിളാകൃതിയായിരിക്കും ചുവന്ന ദീർഘവൃത്താകാരതാരാപഥങ്ങളുമായി-നിരവധി പേപ്പറുകൾ കുറിച്ച് പുറത്തിറങ്ങിയിട്ടുണ്ട് പിന്തുടരുന്നത് എന്ന് കാണിക്കാൻ സാധിച്ചു ഈ കണ്ടെത്തൽ (Fortson et al. 2011) .
ഈ പശ്ചാത്തലത്തിൽ കണക്കിലെടുക്കുമ്പോൾ നാം ഇപ്പോൾ ഗാലക്സി സൂ പിളർപ്പ്-പ്രയോഗ-സംയോജിപ്പിച്ച് പാചകക്കുറിപ്പ്, ഏറ്റവും മനുഷ്യ കണക്കുകൂട്ടലിന് പദ്ധതികൾക്കായി വരുന്ന അതേ പാചകക്കുറിപ്പ് പിന്തുടരുകയും എങ്ങനെ കാണാൻ കഴിയും. ആദ്യം, ഒരു വലിയ പ്രശ്നം വിഭാഗങ്ങളായി വിഭജിച്ചു. ഈ സാഹചര്യത്തിൽ, ഒരു ദശലക്ഷം താരാപഥങ്ങൾ വർഗീകരിക്കാൻ പ്രശ്നം ഒറ്റ ഗാലക്സി വർഗീകരിക്കാൻ ഒരു ദശലക്ഷം പ്രശ്നങ്ങൾ വിഭജിച്ചു. അടുത്തതായി, ഒരു ഓപ്പറേഷൻ സ്വതന്ത്രമായി ഓരോ കഷണത്തിന്റേയും പ്രയോഗിക്കുന്നത്. ഈ സാഹചര്യത്തിൽ, ഒരു വളണ്ടിയർ സർപ്പിളമായി അല്ലെങ്കിൽ ദീർഘവൃത്താകൃതിയിലുള്ള ഒന്നുകിൽ ഓരോ ഗാലക്സി വര്ഗ്ഗീകരിക്കുക തന്നെ. ഒടുവിൽ, ഫലങ്ങൾ ഒരു സമവായം ഫലം ഹാജരാക്കണം സംയോജിപ്പിച്ചു. ഈ സാഹചര്യത്തിൽ, സംയോജിപ്പിച്ച് ഘട്ട ക്ലീനിംഗ്, debiasing, ഓരോ ഗാലക്സി ഒരു സമവായം ക്ലാസിഫിക്കേഷൻ നിർമ്മിക്കാനുള്ള വെയ്റ്റേജിനു ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. ഏറ്റവും പദ്ധതികൾ ഈ പൊതു പാചകക്കുറിപ്പ് ഉപയോഗിക്കാൻ പോലും, ഓരോ നടപടികളിലും അഭിസംബോധന നിർദ്ദിഷ്ട പ്രശ്നം കസ്റ്റമൈസ് ആവശ്യമാണ്. ഉദാഹരണത്തിന്, താഴെ വിവരിച്ച മനുഷ്യ കംപ്യൂട്ടിങ്ങ് പദ്ധതിയിൽ, ഇതേ പാചകക്കുറിപ്പ് പിന്നാലെ, പക്ഷേ അപേക്ഷിക്കാം സംയോജിപ്പിച്ച് ഘട്ടങ്ങൾ തികച്ചും വ്യത്യസ്തമായിരിക്കും.
ഗാലക്സി സൂ ടീം, ഈ ആദ്യത്തെ പദ്ധതിയായ ഒരു തുടക്കം ആയിരുന്നു. വളരെ വേഗത്തിൽ അവർ ഒരു ദശലക്ഷം താരാപഥങ്ങൾ അടുത്ത് വർഗീകരണത്തിന് സാധിച്ചു ഇതിനു സ്കെയിലിൽ അല്ല 10 ബില്യൺ താരാപഥങ്ങളുടെ ചിത്രങ്ങൾ കഴിയാത്ത പുതിയ ഡിജിറ്റൽ ആകാശം സർവ്വേകൾ, പ്രവർത്തിക്കാൻ മതി മനസ്സിലായി (Kuminski et al. 2014) . 10 1 ദശലക്ഷം മുതൽ വർധന കൈകാര്യം ബില്യൺ-10,000-ഗാലക്സി മൃഗശാല ഘടകം ഏതാണ്ട് 10,000 തവണ പങ്കെടുക്കുന്നവരെ റിക്രൂട്ട് ആവശ്യം. ഇന്റർനെറ്റിലെ സന്നദ്ധപ്രവർത്തകർ എണ്ണം വലുതാണ്, അത് അനന്തമാണ് അല്ല. അതുകൊണ്ടു, ഗവേഷകർ അവർ ഒരിക്കലും ഡാറ്റ വളരുന്ന തുകകൾ കൈകാര്യം ചെയ്യാൻ പോകുകയാണെങ്കിൽ മനസ്സിലായി, ഒരു പുതിയ, കൂടുതൽ വിപുലീകരിക്കാൻ സമീപനം ആവശ്യമാണെന്ന്.
അതുകൊണ്ടു, MANDA താരാപഥങ്ങളെ തരംതിരിക്കുന്നതിനുള്ള കെവിൻ Schawinski, ക്രിസ് Lintott, ഗാലക്സി മൃഗശാല ടീം-തുടങ്ങുന്ന ഉപദേശം കമ്പ്യൂട്ടറുകൾ മറ്റ് അംഗങ്ങളുമായി ബാനർജി-പ്രവർത്തിക്കുന്നു. പോരാഞ്ഞ്, ഗാലക്സി സൂ, സൃഷ്ടിച്ച മനുഷ്യ ക്ലാസിഫിക്കേഷനുകളും ഉപയോഗിച്ച് Banerji et al. (2010) ചിത്രം പ്രത്യേകതകൾ അടിസ്ഥാനമാക്കി ഒരു ഗാലക്സി മനുഷ്യ വർഗ്ഗീകരണം പ്രവചിക്കാൻ കഴിയാത്ത മെഷീൻ ലേണിംഗ് മോഡൽ പണിതു. ഈ മെഷീൻ ലേണിംഗ് മോഡൽ ഉയർന്ന കൃത്യത മനുഷ്യമനസ്സിന്റെ ക്ലാസിഫിക്കേഷനുകളും പുനർനിർമ്മാണം കഴിഞ്ഞില്ല എങ്കിൽ അതിനെ താരാപഥങ്ങൾ ഒരു അടിസ്ഥാനപരമായി എണ്ണം അനന്തമാണ് തരംതിരിക്കുന്നതിന് ഗാലക്സി മൃഗശാലയിൽ ഗവേഷകർ ഉപയോഗിക്കാം.
ബാനർജി കാതൽ സഹപ്രവർത്തകരും സമീപനത്തിന് ആ സാമ്യം ആദ്യ നോട്ടത്തിൽ വ്യക്തമായ ആത്മവിശ്വാസവും പകരുന്നു, യഥാർത്ഥത്തിൽ സാധാരണ സോഷ്യൽ റിസർച്ച് ഉപയോഗിക്കുന്ന അവലംബിച്ചോ പ്രെറ്റി സമാനമാണ്. ആദ്യം, ബാനർജി സഹപ്രവർത്തകരും അത് ഉള്ള തുടർന്ന് ചുരുക്കത്തില് സംഖ്യാ സവിശേഷതകൾ ഒരു സെറ്റ് ഓരോ ഇമേജ് പരിവർത്തനം. സ്വരൂപത്തിൽ നീല തുക പിക്സൽ തെളിച്ചം വേർ നോൺ-വെളുത്ത പിക്സൽ അനുപാതം: ഉദാഹരണത്തിന്, താരാപഥങ്ങളുടെ ചിത്രങ്ങൾ അവിടെ മൂന്നു സവിശേഷതകൾ കഴിഞ്ഞില്ല. ശരിയായ സവിശേഷതകൾ തിരഞ്ഞെടുക്കുന്നത് പ്രശ്നം ഒരു പ്രധാന ഭാഗമാണ്, അത് പൊതുവിൽ വിഷയം-ഏരിയ വൈദഗ്ധ്യം ആവശ്യമാണ്. സാധാരണയായി സവിശേഷത എഞ്ചിനീയറിംഗ്, ചിത്രം ഒന്നു വീതം വരി ഒരു ഡാറ്റ മാട്രിക്സ് ഫലങ്ങൾ തുടർന്ന് മൂന്ന് നിരകൾ ചിത്രം വിവരിക്കുന്ന വിളിച്ചു ഈ ആദ്യപടി. (ഉദാ, ചിത്രം ദീർഘവൃത്താകാരതാരാപഥത്തിന്റെ ഒരു മനുഷ്യനെ വിഭാഗീകരിക്കാൻ എന്ന്), ഗവേഷകൻ സ്ഥിതിവിവര മോഡൽ-ഉദാഹരണത്തിന് പരാമീറ്ററുകൾ കരുതുന്നത് ഒരു ലോജിസ്റ്റിക്സ് റിഗ്രഷൻ-മനുഷ്യ ക്ലാസിഫിക്കേഷൻ അടിസ്ഥാനമാക്കിയുള്ള പ്രവചിക്കുന്നത് പോലെ ഒന്ന് ഡാറ്റ മെട്രിക്സ്, ആവശ്യമുള്ള ഔട്ട്പുട്ട് നൽകിയിരിക്കുന്ന ചിത്രത്തിന്റെ സവിശേഷതകളിൽ. ഒടുവിൽ, ഗവേഷകൻ പുതിയ ഗാലക്സികൾ (ചിത്രം 5.4) ഏകദേശ ക്ലാസിഫിക്കേഷനുകളും ഉത്പാദിപ്പിക്കാൻ ഈ സ്റ്റാറ്റിസ്റ്റിക്കൽ മോഡൽ ചരങ്ങൾക്കായി ഉപയോഗിക്കുന്നു. ഒരു സോഷ്യൽ അനലോഗ് ചിന്തിക്കുന്നത്, ഒരു ദശലക്ഷം വിദ്യാർത്ഥികൾ പ്രദേശ വിവരങ്ങൾ കിട്ടിയിട്ടുണ്ടെന്നാണ്, ഒപ്പം അവർക്ക് കോളേജ് നിന്ന് ബിരുദം ഇല്ലെങ്കിലും അറിയുന്നു ഭാവനയിൽ. ഈ ഡാറ്റ ഒരു ലോജിസ്റ്റിക്സ് റിഗ്രഷൻ fit കഴിഞ്ഞില്ല, തുടർന്ന് പുതിയ വിദ്യാർത്ഥികൾ കോളേജ് ബിരുദം പോകുന്നത് എന്നത് പ്രവചിക്കാൻ തത്ഫലമായുണ്ടാകുന്ന മോഡൽ ചരങ്ങൾ കഴിഞ്ഞില്ല. മെഷീൻ ലേണിംഗ്, ഈ സമീപനം-ഉപയോഗിച്ച് തുടർന്ന് ലേബൽ കഴിയുന്ന പുതിയ ഡാറ്റ-ആണ് പഠന മേൽനോട്ടം എന്ന ഒരു സ്റ്റാറ്റിസ്റ്റിക്കൽ മോഡൽ സൃഷ്ടിക്കാൻ ഉദാഹരണങ്ങൾ ലേബൽ (Hastie, Tibshirani, and Friedman 2009) .
സവിശേഷതകൾ Banerji et al. (2010) മെഷീൻ ലേണിംഗ് മോഡൽ എന്റെ കളിപ്പാട്ട ഉദാഹരണം-ഉദാഹരണമായി അപേക്ഷിച്ച് കൂടുതൽ സങ്കീർണമായ ആയിരുന്നു അവൾ പോലെ "ദേ Vaucouleurs അച്ചുതണ്ടിന്റെ അനുപാതം fit" സവിശേഷതകൾ ഉപയോഗിക്കുന്ന അവളുടെ മോഡൽ ലോജിസ്റ്റിക്സ് റിഗ്രഷൻ ആയിരുന്നില്ല കളിയാടുമെന്നാണ്, ഒരു ന്യൂറൽ നെറ്റ്വർക്ക് ആയിരുന്നു. അവളുടെ സവിശേഷതകൾ, അവളുടെ മോഡൽ, സമവായം ഗാലക്സി മൃഗശാല ക്ലാസിഫിക്കേഷനുകളും ഉപയോഗിച്ച്, അവൾ ഓരോ സവിശേഷത തൂക്കം, അതിന് ശേഷം താരാപഥങ്ങളുടെ വർഗ്ഗീകരണം കുറിച്ച് പ്രവചനങ്ങൾ ഉണ്ടാക്കുവാൻ ഈ തൂക്കവും ഉപയോഗിക്കാൻ കഴിഞ്ഞു. ഉദാഹരണത്തിന്, അവളുടെ വിശകലനം കുറഞ്ഞതുമായ ഇമേജുകൾ "ദേ Vaucouleurs അച്ചുതണ്ടിന്റെ അനുപാതം fit" സ്പൈറൽ ഗാലക്സിയാണ് കൂടുതൽ സാധ്യത കണ്ടെത്തി. ഈ തൂക്കം കണക്കിലെടുക്കുമ്പോൾ അവൾ ന്യായമായ കൃത്യതയോടെ ഒരു ഗാലക്സി മനുഷ്യ വർഗ്ഗീകരണം പ്രവചിക്കാൻ കഴിഞ്ഞു.
പ്രവൃത്തി Banerji et al. (2010) ഞാൻ രണ്ടാം തലമുറ മനുഷ്യ കംപ്യൂട്ടിങ്ങ് സിസ്റ്റം കോൾ എന്തു കയറി ഗാലക്സി സൂ തിരിഞ്ഞു. ഈ രണ്ടാം തലമുറ സിസ്റ്റങ്ങൾ ചിന്തിക്കാൻ മികച്ച മാർഗം മനുഷ്യർക്ക് ഒരു പ്രശ്നം പരിഹരിക്കാൻ ഉള്ളവനായി ആണ് അവർ മനുഷ്യർക്ക് പ്രശ്നം പരിഹരിക്കാൻ ഒരു കമ്പ്യൂട്ടർ പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കാവുന്ന ഒരു ഡാറ്റാഗണത്തിന്റെ പണിയും ഞങ്ങൾക്കുണ്ട്. കമ്പ്യൂട്ടർ പരിശീലിപ്പിക്കാൻ ആവശ്യമായ ഡാറ്റയുടെ അളവ് സൃഷ്ടിക്കുന്നതും ഒരു മനുഷ്യ പിണ്ഡം സഹകരണം ആവശ്യമാണ് അങ്ങനെ വലിയ കഴിയും. ഗാലക്സി സൂ, ഉപയോഗിക്കുന്ന ന്യൂറൽ നെറ്റ്വർക്കുകളിൽ കാര്യത്തിൽ Banerji et al. (2010) വിശ്വസനീയമായി മനുഷ്യ ക്ലാസിഫിക്കേഷൻ പുനർനിർമ്മാണം കഴിഞ്ഞു ഒരു മാതൃക പണിയാൻ ക്രമത്തിൽ മനുഷ്യ-ലേബൽ ഉദാഹരണങ്ങൾ വളരെ വലിയ നമ്പർ ആവശ്യമാണ്.
ഈ കമ്പ്യൂട്ടർ സഹായത്തോടെ സമീപനം പ്രയോജനം മനുഷ്യ ശ്രമത്തിന്റെ മാത്രമേ ജനകമായ തുക ഉപയോഗിച്ച് ഡാറ്റ അടിസ്ഥാനപരമായി അനന്തമായ അളവിൽ കൈകാര്യം നിങ്ങളെ പ്രാപ്തമാക്കുന്നു എന്നതാണ്. ഉദാഹരണത്തിന്, ഒരു ദശലക്ഷം മനുഷ്യ ക്ലാസിഫൈഡ് താരാപഥങ്ങൾ ഒരു ഗവേഷകൻ പിന്നീട് ഒരു ബില്യൺ അല്ലെങ്കിൽ ഒരു ട്രില്യൺ താരാപഥങ്ങളെ തരംതിരിക്കുന്നതിനുള്ള ഉപയോഗിക്കാവുന്ന ഒരു പ്രവചിക്കാനാകുന്നത് മോഡൽ പണിയും കഴിയും. താരാപഥങ്ങൾ വീശിയടിക്കുന്ന നമ്പറുകൾ ഉണ്ട് എങ്കിൽ, ഹ്യൂമൻ കമ്പ്യൂട്ടർ ഹൈബ്രിഡ് ഇത്തരത്തിലുള്ള ശരിക്കും മാത്രമേ സാധിക്കുകയുള്ളൂ പരിഹാരമാണ്. ഈ അനന്തമായ സ്കേലബിളിറ്റി എന്നിരുന്നാലും, സൗജന്യമാണ്. ശരിയായി മനുഷ്യ ക്ലാസിഫിക്കേഷനുകളും പുനർനിർമ്മാണം കഴിയുന്ന ഒരു മെഷീൻ ലേണിംഗ് മോഡൽ കെട്ടിപ്പടുക്കുക സ്വയം ഒരു ഹാർഡ് പ്രശ്നമാണ് എന്നാൽ ഭാഗ്യത്തിന് ഇതിനകം ഈ വിഷയം പ്രതിഷ്ഠ വിശിഷ്ടം പുസ്തകങ്ങൾ ഉണ്ട് (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
ഗാലക്സി മൃഗശാല പല മനുഷ്യ കംപ്യൂട്ടിങ്ങ് പദ്ധതികൾ പരിണാമം കാണിക്കുന്നു. ആദ്യം, ഒരു ഗവേഷകൻ സ്വയം അല്ലെങ്കിൽ ഗവേഷണ സഹായികൾ (ഉദാ, Schawinski ന്റെ പ്രാരംഭ ക്ലാസിഫിക്കേഷൻ ശ്രമം) ഒരു ചെറിയ ടീമുമായി പദ്ധതി ശ്രമിക്കുന്നു. ഈ സമീപനം നന്നായി സ്കെയിൽ ചെയ്യുന്നില്ലെങ്കിൽ, ഗവേഷകൻ പലരും ക്ലാസിഫിക്കേഷനുകളും സംഭാവന എവിടെ ഒരു മനുഷ്യ കംപ്യൂട്ടിങ്ങ് പദ്ധതി പോകാം. എന്നാൽ, ഡാറ്റയുടെ ഒരു ചില വോള്യം വേണ്ടി, ശുദ്ധമായ ജഡം പര്യാപ്തമല്ലെന്നും പറയുന്നു. ആ ഘട്ടത്തിൽ ഗവേഷകർ മനുഷ്യ ക്ലാസിഫിക്കേഷനുകളും ഡേറ്റാ ത്തിൻറെ പരിമിതികളില്ലാത്ത അളവിൽ പ്രയോഗിക്കാൻ കഴിയുന്ന ഒരു മെഷീൻ ലേണിംഗ് മോഡൽ ട്രെയിൻ ഉപയോഗിക്കുന്നു എവിടെ രണ്ടാം തലമുറ സിസ്റ്റങ്ങൾ പണിയാൻ വേണം.