גאַלאַקסי זאָאָלאָגישער גאָרטן קאַמביינז די השתדלות פון פילע גויים-מומחה וואַלאַנטירז צו קלאַסיפיצירן אַ מיליאָן גאַלאַקסיעס.
גאַלאַקסי זאָאָלאָגישער גאָרטן געוואקסן אויס פון אַ פּראָבלעם פאַסעד דורך קעווין סטשאַווינסקי, אַ גראַדזשאַוואַט תּלמיד אין אַסטראָנאָמיע בייַ די אוניווערסיטעט פון אָקספֿאָרד אין 2007. סימפּליפיינג גאַנץ אַ ביסל, סטשאַווינסקי איז געווען אינטערעסירט אין גאַלאַקסיעס, און גאַלאַקסיעס קענען זיין קלאַססיפיעד דורך זייער מאָרפאָלאָגי-יליפּטיקאַל אָדער ספּיראַליש-און דורך זייער פֿאַרב-בלוי אָדער רויט. אין דער צייַט, קאַנווענשאַנאַל חכמה צווישן אַסטראַנאַמערז איז געווען אַז ספּיראַליש גאַלאַקסיעס, ווי אונדזער מילקי וועג, זענען בלוי אין קאָלירן (ינדאַקייטינג יוגנט) און אַז יליפּטיקאַל גאַלאַקסיעס זענען רויט אין קאָלירן (ינדאַקייטינג עלטער). סטשאַווינסקי דאַוטיד דעם קאַנווענשאַנאַל חכמה. ער סאַספּעקטיד אַז בשעת דעם מוסטער זאל זיין אמת אין אַלגעמיין, עס זענען מיסטאָמע אַ סייזאַבאַל נומער פון אויסנעמען, און אַז דורך געלערנט גורל פון די ומגעוויינטלעך גאַלאַקסיעס-די אָנעס אַז האט ניט פּאַסיק די געריכט מוסטער-ער קען לערנען עפּעס וועגן דעם פּראָצעס דורך וואָס גאַלאַקסיעס געגרינדעט.
אזוי, וואָס סטשאַווינסקי דארף אין סדר צו יבערקערן קאַנווענשאַנאַל חכמה איז געווען אַ גרויס שטעלן פון מאָרפאָלאָגיקאַללי קלאַססיפיעד גאַלאַקסיעס; אַז איז, גאַלאַקסיעס וואָס האט שוין קלאַססיפיעד ווי יעדער ספּיראַליש אָדער יליפּטיקאַל. די פּראָבלעם, אָבער, איז געווען אַז יגזיסטינג אַלגאָריטהמיק מעטהאָדס פֿאַר גריידינג זענען נישט נאָך גוט גענוג צו ווערן געניצט פֿאַר SCIENTIFIC פאָרשונג; אין אנדערע ווערטער, קלאַססיפיינג גאַלאַקסיעס איז געווען, אין אַז צייַט, אַ פּראָבלעם וואָס איז געווען שווער פֿאַר קאָמפּיוטערס. דעריבער, וואָס איז דארף איז געווען אַ גרויס נומער פון מענטש קלאַססיפיעד גאַלאַקסיעס. סטשאַווינסקי אַנדערטוק דעם קלאַסיפֿיקאַציע פּראָבלעם מיט די באַגייַסטערונג פון אַ גראַדזשאַוואַט תּלמיד. אין אַ מעראַטאַן סעסיע פון זיבן, 12-שעה טעג, ער איז ביכולת צו קלאַסיפיצירן 50,000 גאַלאַקסיעס. בשעת 50,000 גאַלאַקסיעס מייַ געזונט ווי אַ פּלאַץ, עס איז אַקטשאַוואַלי בלויז וועגן 5% פון די כּמעט 1,000,000 גאַלאַקסיעס וואָס האט שוין פאָטאָגראַפעד אין די סלאָאַן דיגיטאַל סקי יבערבליק. סטשאַווינסקי איינגעזען אַז ער דארף אַ מער סקאַלאַבלע צוגאַנג.
צומ גליק, עס טורנס אויס אַז די אַרבעט פון קלאַססיפיינג גאַלאַקסיעס טוט ניט דאַרפן אַוואַנסירטע טריינינג אין אַסטראָנאָמיע; איר קענען לערנען עמעצער צו טאָן עס שיין געשווינד. אין אנדערע ווערטער, אַפֿילו כאָטש קלאַססיפיינג גאַלאַקסיעס איז אַ אַרבעט וואָס איז געווען שווער פֿאַר קאָמפּיוטערס, עס איז געווען שיין גרינג פֿאַר יומאַנז. אַזוי, בשעת זיצן אין אַ שענק אין אָקספֿאָרד, סטשאַווינסקי און יונגערמאַן אַסטראָנאָם קריס לינטאָטט געחלומט אַרויף אַ וועבזייַטל ווו וואַלאַנטירז וואָלט קלאַסיפיצירן בילדער פון גאַלאַקסיעס. א ביסל חדשים שפּעטער, גאַלאַקסי זאָאָלאָגישער גאָרטן איז געווען געבוירן.
אין די גאַלאַקסי זאָאָלאָגישער גאָרטן וועבזייַטל, וואַלאַנטירז וואָלט אַנדערגאָו אַ ביסל מינוט פון טריינינג; לעמאָשל, וויסן די חילוק צווישן אַ ספּיראַליש און יליפּטיקאַל גאַלאַקטיק (Figure 5.2). נאָך דעם טריינינג, די וואַלאַנטירז האט צו פאָרן אַ לעפיערעך גרינג ויספרעג-ריכטיק קלאַססיפיינג 11 פון 15 גאַלאַקסיעס מיט באקאנט קלאַססיפיקאַטיאָנס-און דעמאָלט דער פרייַוויליקער וואָלט נעמען עמעס גריידינג פון אומבאַקאַנט גאַלאַקסיעס דורך אַ פּשוט וועב-באזירט צובינד (Figure 5.3). די יבערגאַנג פון פרייַוויליקער צו אַסטראָנאָם וואָלט נעמען אָרט אין ווייניקער ווי 10 מינוט און בלויז required פּאַסינג די לאָואַסט פון כערדאַלז, אַ פּשוט ויספרעג.
גאַלאַקסי זאָאָלאָגישער גאָרטן געצויגן זייַן ערשט וואַלאַנטירז נאָך די פּרויעקט איז געווען ארויסגעשטעלטע אין אַ נייַעס אַרטיקל, און אין וועגן זעקס חדשים די פּרויעקט געוואקסן צו אַרייַנציען מער ווי 100,000 בירגער סיינטיס, מענטשן וואס אנטייל ווייַל זיי ינדזשויד די אַרבעט און זיי געוואלט צו העלפן שטייַגן אַסטראָנאָמיע. צוזאַמען, די 100,000 וואַלאַנטירז קאַנטריביוטיד אַ גאַנץ פון מער ווי 40 מיליאָן קלאַססיפיקאַטיאָנס, מיט די מערהייַט פון די קלאַססיפיקאַטיאָנס קומענדיק פון אַ לעפיערעך קליין, האַרץ גרופּע פון פּאַרטיסאַפּאַנץ (Lintott et al. 2008) .
רעסעאַרטשערס וואס האָבן דערפאַרונג הירינג ונדערגראַדואַטע פאָרשונג אַסיסטאַנץ זאל מיד ווערן סקעפּטיקאַל וועגן דאַטן קוואַליטעט. בשעת דעם סקעפּטיסיזאַם איז גלייַך, גאַלאַקסי זאָאָלאָגישער גאָרטן ווייזט אַז ווען פרייַוויליקער קאַנטראַביושאַנז זענען ריכטיק קלינד, דעביאַסעד, און אַגראַגייטאַד, זיי קענען פּראָדוצירן הויך-קוואַליטעט רעזולטאטן (Lintott et al. 2008) . אַ וויכטיק קונץ פֿאַר געטינג די מאַסע צו שאַפֿן פאַכמאַן קוואַליטעט דאַטן איז יבעריקייַט; אַז איז, בעת דער זעלביקער אַרבעט געטאן דורך פילע פאַרשידענע מענטשן. אין גאַלאַקסי זאָאָלאָגישער גאָרטן, עס זענען געווען וועגן 40 קלאַססיפיקאַטיאָנס פּער גאַלאַקסי; ריסערטשערז ניצן ונדערגראַדואַטע פאָרשונג אַסיסטאַנץ קען קיינמאָל פאַרגינענ זיך דעם מדרגה פון יבעריקייַט און דעריבער דאַרפֿן צו זייַן פיל מער זארגן מיט די קוואַליטעט פון יעדער יחיד גריידינג. וואָס די וואַלאַנטירז לאַקקעד אין טריינינג, זיי געמאכט אַרויף פֿאַר מיט יבעריקייַט.
אַפֿילו מיט קייפל קלאַססיפיקאַטיאָנס פּער גאַלאַקסי, אָבער, קאַמביינינג די שטעלן פון פרייַוויליקער קלאַססיפיקאַטיאָנס צו פּראָדוצירן אַ קאָנסענסוס גריידינג איז טריקי. ווייַל זייער ענלעך טשאַלאַנדזשיז שטיי אין רובֿ מענטשלעך קאַמפּיאַטיישאַן פּראַדזשעקס, עס איז נוציק צו בעקיצער אָפּשאַצונג די דרייַ טריט אַז די גאַלאַקסי זאָאָלאָגישער גאָרטן ריסערטשערז געניצט צו פּראָדוצירן זייער קאָנסענסוס קלאַססיפיקאַטיאָנס. ערשטער, די ריסערטשערז "קלינד" די דאַטן דורך רימוווינג פאַלש קלאַססיפיקאַטיאָנס. לעמאָשל, מענטשן וואס ריפּיטידלי קלאַססיפיעד דער זעלביקער גאַלאַקטיק-עפּעס וואָס וואָלט פּאַסירן אויב זיי זענען טריינג צו מאַניפּולירן די רעזולטאטן-האט אַלע זייער קלאַססיפיקאַטיאָנס דיסקאַרדיד. דאס און אנדערע ענלעך רייניקונג אַוועקגענומען וועגן 4% פון אַלע קלאַססיפיקאַטיאָנס.
רגע, נאָך רייניקונג, די ריסערטשערז דארף צו באַזייַטיקן סיסטעמאַטיש בייאַסיז אין קלאַססיפיקאַטיאָנס. דורך אַ סעריע פון פאָרורטייל דיטעקשאַן שטודיום עמבעדיד ין דער אָריגינעל פּרויעקט-לעמאָשל, ווייַזונג עטלעכע וואַלאַנטירז די גאַלאַקסי אין מאַנאַקראָום אַנשטאָט קאָליר-די ריסערטשערז דיסקאַווערד עטלעכע סיסטעמאַטיש בייאַסיז, אַזאַ ווי אַ סיסטעמאַטיש פאָרורטייל צו קלאַסיפיצירן ווייַט אַוועק ספּיראַליש גאַלאַקסיעס ווי יליפּטיקאַל גאַלאַקסיעס (Bamford et al. 2009) . אַדדזשוסטינג פֿאַר די סיסטעמאַטיש בייאַסיז איז גאָר וויכטיק ווייַל אַוורידזשינג פילע קאַנטראַביושאַנז טוט נישט אַראָפּנעמען סיסטעמאַטיש פאָרורטייל; עס נאָר רימוווז ראַנדאָם טעות.
צום סוף, נאָך דעביאַסינג, די ריסערטשערז דארף אַ אופֿן צו פאַרבינדן די יחיד קלאַססיפיקאַטיאָנס צו פּראָדוצירן אַ קאָנסענסוס גריידינג. די סימפּלאַסט וועג צו פאַרבינדן קלאַססיפיקאַטיאָנס פֿאַר יעדער גאַלאַקטיק וואָלט זיין צו קלייַבן די מערסט פּראָסט גריידינג. אָבער, דעם צוגאַנג וואָלט געבן יעדער פרייַוויליקער גלייַך וואָג, און די ריסערטשערז סאַספּעקטיד אַז עטלעכע וואַלאַנטירז זענען בעסער בייַ קלאַסיפֿיקאַציע ווי אנדערע. דעריבער, די ריסערטשערז דעוועלאָפּעד אַ מער קאָמפּליצירט יטעראַטיווע ווייטינג פּראָצעדור אַז אַטטעמפּץ צו אויטאָמאַטיש דיטעקט די בעסטער קלאַססיפיערס און געבן זיי מער וואָג.
אזוי, נאָך אַ דרייַ שריט פּראָצעס-רייניקונג, דעביאַסינג, און ווייטינג-גאַלאַקסי זאָאָלאָגישער גאָרטן פאָרשונג מאַנשאַפֿט האט קאָנווערטעד 40 מיליאָן פרייַוויליקער קלאַססיפיקאַטיאָנס אין אַ סכום פון קאָנסענסוס מאָרפאָלאָגיקאַל קלאַססיפיקאַטיאָנס. ווען די גאַלאַקסי זאָאָלאָגישער גאָרטן קלאַססיפיקאַטיאָנס זענען קאַמפּערד צו דרייַ פרייַערדיק קלענערער-וואָג אַטטעמפּץ דורך פאַכמאַן אַסטראַנאַמערז, כולל די גריידינג דורך סטשאַווינסקי אַז געהאָלפֿן צו באַגייַסטערן גאַלאַקסי זאָאָלאָגישער גאָרטן, עס איז געווען שטאַרק העסקעם. אזוי, דער וואַלאַנטירז, אין געמיינזאַם, זענען ביכולת צו צושטעלן הויך קוואַליטעט קלאַססיפיקאַטיאָנס און בייַ אַ וואָג וואָס די ריסערטשערז קען ניט גלייַכן (Lintott et al. 2008) . אין פאַקט, דורך בעת מענטשלעך קלאַססיפיקאַטיאָנס פֿאַר אַזאַ אַ גרויס נומער פון גאַלאַקסיעס, סטשאַווינסקי, לינטאָטט, און אנדערע זענען ביכולת צו ווייַזן אַז בלויז וועגן 80% פון גאַלאַקסיעס נאָכפאָלגן די געריכט מוסטער-בלוי ספּייראַלז און רויט עלליפּטיקאַלס-און סך צייטונגען האָבן שוין געשריבן וועגן דעם ופדעקונג (Fortson et al. 2011) .
געגעבן דעם הינטערגרונט, מיר קענען איצט זען ווי גאַלאַקסי זאָאָלאָגישער גאָרטן גייט די שפּאַלטן-צולייגן-פאַרבינדן רעצעפּט, דער זעלביקער רעצעפּט וואָס איז געניצט פֿאַר רובֿ מענטשלעך קאַמפּיאַטיישאַן פּראַדזשעקס. ערשטער, אַ גרויס פּראָבלעם איז שפּאַלטן אין טשאַנגקס. אין דעם פאַל, די פּראָבלעם פון קלאַססיפיינג אַ מיליאָן גאַלאַקסיעס איז שפּאַלטן אין אַ מיליאָן פּראָבלעמס פון קלאַססיפיינג איין גאַלאַקסי. ווייַטער, אַ אָפּעראַציע איז געווענדט צו יעדער פּייַדע ינדיפּענדאַנטלי. אין דעם פאַל, אַ פרייַוויליקער וואָלט קלאַסיפיצירן יעדער גאַלאַקטיק ווי יעדער ספּיראַליש אָדער יליפּטיקאַל. צום סוף, די רעזולטאטן זענען קאַמביינד צו פּראָדוצירן אַ קאָנסענסוס רעזולטאַט. אין דעם פאַל, די פאַרבינדן שריט ינקלודעד די רייניקונג, דעביאַסינג, און ווייטינג צו פּראָדוצירן אַ קאָנסענסוס גריידינג פֿאַר יעדער גאַלאַקסי. כאָטש רובֿ פּראַדזשעקס נוצן דעם גענעראַל רעצעפּט, יעדער פון די טריט דארף צו קאַסטאַמייזד צו די ספּעציפיש פּראָבלעם ווייל גערעדט. לעמאָשל, אין די מענטשלעך קאַמפּיאַטיישאַן פּרויעקט דיסקרייבד אונטן, דער זעלביקער רעצעפּט וועט זיין נאכגעגאנגען, אָבער דער צולייגן און פאַרבינדן טריט וועט זייַן גאַנץ אַנדערש.
פֿאַר די גאַלאַקסי זאָאָלאָגישער גאָרטן קאָלעקטיוו, דעם ערשטער פּרויעקט איז נאָר דער אָנהייב. זייער געשווינד זיי איינגעזען אַז אַפֿילו כאָטש זיי זענען ביכולת צו קלאַסיפיצירן נאָענט צו אַ מיליאָן גאַלאַקסיעס, דעם וואָג איז ניט גענוג צו אַרבעטן מיט Newer דיגיטאַל הימל סערווייז, וואָס קען פּראָדוצירן בילדער פון וועגן 10 בילליאָן גאַלאַקסיעס (Kuminski et al. 2014) . צו שעפּן אַ פאַרגרעסערן 1,000,000-10000000000-אַ פאַקטאָר פון 10,000-גאַלאַקסי זאָאָלאָגישער גאָרטן וואָלט דאַרפֿן צו רעקרוט בעערעך 10,000 מאל מער פּאַרטיסאַפּאַנץ. אַפֿילו כאָטש די נומער פון וואַלאַנטירז אויף די אינטערנעט איז גרויס, עס איז ניט Infinite. דעריבער, די ריסערטשערז איינגעזען אַז אויב זיי זענען געגאנגען צו שעפּן טאָמיד גראָוינג אַמאַונץ פון דאַטע, אַ נייַ, אַפֿילו מער סקאַלאַבלע, צוגאַנג איז דארף.
דעריבער, מאַנדאַ באַנערדזשי-ארבעטן מיט קעווין סטשאַווינסקי, קריס לינטאָטט, און אנדערע מיטגלידער פון די גאַלאַקסי זאָאָלאָגישער גאָרטן מאַנשאַפֿט-סטאַרטינג לערנען קאָמפּיוטערס צו קלאַסיפיצירן גאַלאַקסיעס. מער ספּעסיפיקאַללי, ניצן די מענטשלעך קלאַססיפיקאַטיאָנס Created by גאַלאַקסי זאָאָלאָגישער גאָרטן, Banerji et al. (2010) געבויט אַ מאַשין וויסן מאָדעל וואָס קען פאָרויסזאָגן די מענטשלעך גריידינג פון אַ גאַלאַקטיק באזירט אויף די טשאַראַקטעריסטיקס פון די בילד. אויב דעם מאַשין וויסן מאָדעל קען רעפּראָדוצירן דעם מענטש קלאַססיפיקאַטיאָנס מיט הויך אַקיעראַסי, דעמאָלט עס קען זיין געניצט דורך גאַלאַקסי זאָאָלאָגישער גאָרטן ריסערטשערז צו קלאַסיפיצירן אַ יסענשאַלי Infinite נומער פון גאַלאַקסיעס.
די האַרץ פון באַנערדזשי און חברים 'צוגאַנג איז אַקשלי שיין ענלעך צו טעקניקס קאַמאַנלי געניצט אין געזעלשאַפטלעך פאָרשונג, כאָטש אַז ענלעכקייַט זאל ניט זיין קלאָר אין ערשטער בליק. ערשטער, באַנערדזשי און חברים קאָנווערטעד יעדער בילד אין אַ סכום פון נומעריק פֿעיִקייטן אַז סאַמערייז עס ס פּראַפּערטיז. לעמאָשל, פֿאַר בילדער פון גאַלאַקסיעס עס קען זיין דרייַ פֿעיִקייטן: די סומע פון בלוי אין די בילד, די צעטיילט אין די ברייטנאַס פון די בילדצעלן, און די פּראָפּאָרציע פון ניט-ווייַס בילדצעלן. די סעלעקציע פון די ריכטיק פֿעיִקייטן איז אַ וויכטיק טייל פון די פּראָבלעם, און עס איז בכלל ריקווייערז ונטערטעניק-געגנט עקספּערטיז. דאס ערשטער שריט, קאַמאַנלי גערופֿן שטריך אינזשעניריע, רעזולטאטן אין אַ דאַטן מאַטריץ מיט איין רודערן פּער בילד און דעמאָלט דרייַ Columns דיסקרייבינג וואָס בילד. געגעבן די דאַטן מאַטריץ און די געבעטן רעזולטאַט (למשל, צי דער בילד איז געווען קלאַססיפיעד דורך אַ מענטש ווי אַ יליפּטיקאַל גאַלאַקטיק), די פאָרשער עסטאַמאַץ די פּאַראַמעטערס פון אַ סטאַטיסטיש מאָדעל-למשל, עפּעס ווי אַ לאָגיסטיק ראַגרעשאַן-אַז פּרידיקס די מענטשלעך קלאַסיפֿיקאַציע באזירט אויף די פֿעיִקייטן פון די בילד. צום סוף, די פאָרשער ניצט די פּאַראַמעטערס אין דעם סטאַטיסטיש מאָדעל צו פּראָדוצירן עסטימאַטעד קלאַססיפיקאַטיאָנס פון נייַ גאַלאַקסיעס (Figure 5.4). צו טראַכטן פון אַ געזעלשאַפטלעך אַנאַלאָג, ימאַדזשאַן אַז איר האָט דעמאָגראַפיק אינפֿאָרמאַציע וועגן אַ מיליאָן סטודענטן, און איר וויסן צי זיי גראַדזשאַווייטיד פון קאָלעגע אָדער ניט. איר קען פּאַסיק אַ לאָגיסטיק ראַגרעשאַן צו דעם דאַטן, און דעמאָלט איר קען נוצן די ריזאַלטינג מאָדעל פּאַראַמעטערס צו פאָרויסזאָגן צי נייַ סטודענטן זענען געגאנגען צו גראַדזשאַוואַט פון קאָלעגע. אין מאַשין וויסן, דעם צוגאַנג-ניצן לייבאַלד יגזאַמפּאַלז צו שאַפֿן אַ סטאַטיסטיש מאָדעל אַז קענען דעריבער פירמע נייַ דאַטן-איז גערופֿן סופּערווייזד וויסן (Hastie, Tibshirani, and Friedman 2009) .
די פֿעיִקייטן אין Banerji et al. (2010) מאַשין וויסן מאָדעל זענען מער קאָמפּליצירט ווי די אין מיין צאַצקע בייַשפּיל-פֿאַר בייַשפּיל, זי געניצט פֿעיִקייטן ווי "דע וואַוקאָולעורס פּאַסיק אַקסיאַל פאַרהעלטעניש" -אַנד איר מאָדעל איז נישט לאָגיסטיק ראַגרעשאַן, עס איז געווען אַ קינסטלעך נוראַל נעץ. ניצן איר פֿעיִקייטן, איר מאָדעל, און די קאנסענסוס גאַלאַקסי זאָאָלאָגישער גאָרטן קלאַססיפיקאַטיאָנס, זי איז געווען ביכולת צו מאַכן ווייץ אויף יעדער שטריך, און דאַן נוצן די ווייץ צו מאַכן פֿאָרויסזאָגן וועגן דער קלאַסיפֿיקאַציע פון גאַלאַקסיעס. לעמאָשל, איר אַנאַליז געפֿונען אַז בילדער מיט נידעריק "דע וואַוקאָולעורס פּאַסיק אַקסיאַל פאַרהעלטעניש" זענען מער מסתּמא צו זיין ספּיראַליש גאַלאַקסיעס. געגעבן די ווייץ, זי איז געווען ביכולת צו פאָרויסזאָגן די מענטשלעך גריידינג פון אַ גאַלאַקטיק מיט גלייַך אַקיעראַסי.
די אַרבעט פון Banerji et al. (2010) אויסגעדרייט גאַלאַקסי זאָאָלאָגישער גאָרטן אין וואָס איך וואָלט רופן אַ רגע-דור מענטשלעך קאַמפּיאַטיישאַן סיסטעם. דער בעסטער וועג צו טראַכטן וועגן די רגע-דור סיסטעמס איז אַז אלא ווי בעת יומאַנז סאָלווע אַ פּראָבלעם, זיי האָבן יומאַנז בויען אַ דאַטאַסעט אַז קענען ווערן געניצט צו באַן אַ קאָמפּיוטער צו סאָלווע די פּראָבלעם. דער סומע פון דאַטן דארף צו באַן די קאָמפּיוטער קענען זיין אַזוי גרויס אַז עס ריקווייערז אַ מענטש מאַסע מיטאַרבעט צו שאַפֿן. אין די פאַל פון גאַלאַקסי זאָאָלאָגישער גאָרטן, די נוראַל נעטוואָרקס געניצט דורך Banerji et al. (2010) required אַ זייער גרויס נומער פון מענטש-לייבאַלד יגזאַמפּאַלז אין סדר צו בויען אַ מאָדעל אַז איז ביכולת צו רילייאַבלי רעפּראָדוצירן דעם מענטש גריידינג.
די מייַלע פון דעם קאָמפּיוטער-אַססיסטעד צוגאַנג איז אַז עס ענייבאַלז איר צו שעפּן יסענשאַלי Infinite אַמאַונץ פון דאַטן ניצן נאָר אַ ענדלעך סומע פון מענטשלעך מי. לעמאָשל, אַ פאָרשער מיט אַ מיליאָן מענטשלעך קלאַססיפיעד גאַלאַקסיעס קענען בויען אַ פּרידיקטיוו מאָדעל אַז קענען דעריבער ווערן געניצט צו קלאַסיפיצירן אַ ביליאָן אָדער אַפֿילו אַ טריליאַן גאַלאַקסיעס. אויב עס זענען ריזיק נומערן פון גאַלאַקסיעס, דעמאָלט דעם מין פון מענטש-קאָמפּיוטער כייבריד איז טאַקע דער נאָר מעגלעך לייזונג. דאס Infinite סקאַלאַביליטי איז ניט פּאָטער, אָבער. בנין אַ מאַשין וויסן מאָדעל אַז קענען ריכטיק רעפּראָדוצירן דעם מענטש קלאַססיפיקאַטיאָנס איז זיך אַ שווער פּראָבלעם, אָבער צומ גליק עס זענען שוין ויסגעצייכנט ביכער דעדאַקייטאַד צו דעם טעמע (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
גאַלאַקסי זאָאָלאָגישער גאָרטן ווייזט די עוואָלוציע פון פילע מענטשלעך קאַמפּיאַטיישאַן פּראַדזשעקס. ערשטער, אַ פאָרשער אַטטעמפּץ די פּרויעקט דורך זיך אָדער מיט אַ קליין קאָלעקטיוו פון פאָרשונג אַסיסטאַנץ (למשל, סטשאַווינסקי ס ערשט קלאַסיפֿיקאַציע מי). אויב דעם צוגאַנג טוט ניט וואָג געזונט, די פאָרשער קענען מאַך צו אַ מענטש קאַמפּיאַטיישאַן פּרויעקט ווו פילע מענטשן ביישטייערן קלאַססיפיקאַטיאָנס. אבער, פֿאַר אַ זיכער באַנד פון דאַטן, ריין מענטשלעך מי וועט ניט זיין גענוג. אין אַז פונט, ריסערטשערז דאַרפֿן צו בויען רגע-דור סיסטעמס ווו מענטשלעך קלאַססיפיקאַטיאָנס זענען געניצט צו באַן אַ מאַשין וויסן מאָדעל אַז קענען דעריבער זיין געווענדט צו כמעט אַנלימאַטאַד אַמאַונץ פון דאַטן.