Ο ζωολογικός κήπος Galaxy συνδυάζει τις προσπάθειες πολλών μη εθελοντών εθελοντών να ταξινομήσουν εκατομμύριο γαλαξίες.
Ο ζωολογικός κήπος Galaxy εξελίχθηκε από ένα πρόβλημα που αντιμετώπισε ο Kevin Schawinski, πτυχιούχος αστρονομία στο Πανεπιστήμιο της Οξφόρδης το 2007. Απλοποιώντας αρκετά, ο Schawinski ενδιαφέρθηκε για τους γαλαξίες και οι γαλαξίες μπορούν να ταξινομηθούν σύμφωνα με τη μορφολογία τους - ελλειπτική ή σπειροειδή - και από το χρώμα-μπλε ή κόκκινο. Εκείνη την εποχή, η συμβατική σοφία μεταξύ των αστρονόμων ήταν ότι οι σπειροειδείς γαλαξίες, όπως και ο Γαλαξίας μας, είχαν χρώμα μπλε (δείχνοντας νεολαία) και οι ελλειπτικοί γαλαξίες ήταν κόκκινοι (που δείχνουν γήρας). Ο Σάουινσκι αμφέβαλλε αυτή τη συμβατική σοφία. Υποψιάστηκε ότι ενώ αυτό το μοτίβο μπορεί να είναι αληθινό γενικά, πιθανότατα υπήρχε ένας μεγάλος αριθμός εξαιρέσεων και ότι μελετώντας πολλούς από αυτούς τους ασυνήθιστους γαλαξίες - εκείνους που δεν ταιριάζουν με το αναμενόμενο μοτίβο - θα μπορούσε να μάθει κάτι για τη διαδικασία μέσω της οποίας σχηματίστηκαν γαλαξίες.
Έτσι, αυτό που χρειάστηκε ο Schawinski για την ανατροπή της συμβατικής σοφίας ήταν ένα μεγάλο σύνολο μορφολογικά ταξινομημένων γαλαξιών. δηλαδή, γαλαξίες που είχαν ταξινομηθεί ως σπειροειδείς ή ελλειπτικές. Το πρόβλημα, ωστόσο, ήταν ότι οι υπάρχουσες αλγόριθμες μέθοδοι ταξινόμησης δεν ήταν ακόμη αρκετά ικανοποιητικές για να χρησιμοποιηθούν για την επιστημονική έρευνα. με άλλα λόγια, η ταξινόμηση των γαλαξιών ήταν, εκείνη την εποχή, ένα πρόβλημα που ήταν δύσκολο για τους υπολογιστές. Επομένως, αυτό που χρειαζόταν ήταν ένας μεγάλος αριθμός γαλαξιών που ταξινομούνται στον άνθρωπο . Ο Schawinski ανέλαβε αυτό το πρόβλημα ταξινόμησης με τον ενθουσιασμό ενός μεταπτυχιακού φοιτητή. Σε μια επίσκεψη μαραθωνίου επτά ημερών 12 ωρών, κατάφερε να ταξινομήσει 50.000 γαλαξίες. Ενώ 50.000 γαλαξίες μπορεί να ακούγονται σαν πολλά, είναι στην πραγματικότητα μόνο περίπου το 5% των σχεδόν ενός εκατομμυρίου γαλαξιών που είχαν φωτογραφηθεί στην έρευνα Sloan Digital Sky. Ο Σοβίνσκι συνειδητοποίησε ότι χρειάστηκε μια πιο κλιμακούμενη προσέγγιση.
Ευτυχώς, αποδεικνύεται ότι το έργο της ταξινόμησης των γαλαξιών δεν απαιτεί προηγμένη εκπαίδευση στην αστρονομία? μπορείτε να διδάξετε κάποιον να το κάνει αρκετά γρήγορα. Με άλλα λόγια, ακόμη και αν ταξινόμηση γαλαξίες είναι ένα έργο που ήταν δύσκολο για τους υπολογιστές, ήταν αρκετά εύκολο για τους ανθρώπους. Έτσι, ενώ κάθεται σε μια παμπ στην Οξφόρδη, Schawinski και τους συναδέλφους αστρονόμος Chris Lintott ονειρεύτηκε μια ιστοσελίδα όπου οι εθελοντές θα ταξινομήσει τις εικόνες των γαλαξιών. Λίγους μήνες αργότερα, το Galaxy Zoo γεννήθηκε.
Στην ιστοσελίδα του Galaxy Zoo, οι εθελοντές θα υποβάλλονταν σε λίγα λεπτά εκπαίδευσης. για παράδειγμα, να μάθει τη διαφορά μεταξύ ενός σπειροειδούς και ενός ελλειπτικού γαλαξία (σχήμα 5.2). Μετά από αυτή την εκπαίδευση, κάθε εθελοντής έπρεπε να περάσει ένα σχετικά εύκολο κουίζ - σωστά ταξινομούσε 11 από 15 γαλαξίες με γνωστές ταξινομήσεις - και στη συνέχεια θα ξεκίνησε την πραγματική ταξινόμηση άγνωστων γαλαξιών μέσω μιας απλής διαδικτυακής διασύνδεσης (σχήμα 5.3). Η μετάβαση από εθελοντή σε αστρονόμο θα πραγματοποιηθεί σε λιγότερο από 10 λεπτά και απαιτεί μόνο τη διέλευση των χαμηλότερων από τα εμπόδια, ένα απλό κουίζ.
Ο ζωολογικός κήπος Galaxy προσέλκυσε τους αρχικούς του εθελοντές μετά την προβολή του έργου σε ένα ειδησεογραφικό άρθρο και σε περίπου έξι μήνες το πρόγραμμα αύξησε τη συμμετοχή περισσότερων από 100.000 πολιτών επιστημόνων, ανθρώπων που συμμετείχαν επειδή απολάμβαναν το έργο και θέλησαν να βοηθήσουν στην προώθηση της αστρονομίας. Μαζί, αυτοί οι 100.000 εθελοντές συνέβαλαν συνολικά πάνω από 40 εκατομμύρια ταξινομήσεις, με την πλειοψηφία των ταξινομήσεων να προέρχεται από μια σχετικά μικρή, βασική ομάδα συμμετεχόντων (Lintott et al. 2008) .
Οι ερευνητές που έχουν εμπειρία στην πρόσληψη προπτυχιακών ερευνητικών βοηθών μπορεί να είναι άμεσα σκεπτικοί σχετικά με την ποιότητα των δεδομένων. Ενώ αυτός ο σκεπτικισμός είναι λογικός, ο ζωολογικός κήπος Galaxy δείχνει ότι όταν οι εθελοντικές συνεισφορές καθαρίζονται σωστά, καθαρίζονται και συγκεντρώνονται, μπορούν να παράγουν αποτελέσματα υψηλής ποιότητας (Lintott et al. 2008) . Ένα σημαντικό τέχνασμα για να πάρει το πλήθος να δημιουργήσει δεδομένα επαγγελματικής ποιότητας είναι πλεονασμός , δηλαδή, έχοντας το ίδιο έργο που εκτελείται από πολλούς διαφορετικούς ανθρώπους. Στον ζωολογικό κήπο του Γαλαξία υπήρχαν περίπου 40 ταξινομήσεις ανά γαλαξία. οι ερευνητές που χρησιμοποιούν προπτυχιακούς βοηθούς έρευνας δεν θα μπορούσαν ποτέ να αντέξουν αυτό το επίπεδο απόλυσης και, ως εκ τούτου, θα πρέπει να ασχοληθούν πολύ περισσότερο με την ποιότητα κάθε μεμονωμένης ταξινόμησης. Εκείνοι που οι εθελοντές δεν είχαν την κατάρτιση, συντάχθηκαν με απολύσεις.
Ακόμη και με πολλαπλές ταξινομήσεις ανά γαλαξία, ωστόσο, ο συνδυασμός του συνόλου των εθελοντικών ταξινομήσεων για την παραγωγή μιας ταξινόμησης συναίνεσης ήταν δύσκολος. Επειδή προκύπτουν πολύ παρόμοιες προκλήσεις στα περισσότερα έργα ανθρώπινου υπολογισμού, είναι χρήσιμο να αναθεωρήσουμε εν συντομία τα τρία βήματα που οι ερευνητές του Galaxy Zoo χρησιμοποίησαν για να παράγουν τις ταξινομήσεις συναίνεσής τους. Πρώτον, οι ερευνητές "καθαρίζουν" τα δεδομένα, αφαιρώντας τις ψευδείς ταξινομήσεις. Για παράδειγμα, οι άνθρωποι που ταξινομούσαν επανειλημμένα τον ίδιο γαλαξία - κάτι που θα συνέβαινε εάν προσπαθούσαν να χειραγωγήσουν τα αποτελέσματα - είχαν όλες τις ταξινομήσεις τους απορριφθεί. Αυτός και άλλος παρόμοιος καθαρισμός αφαιρούσε περίπου το 4% όλων των ταξινομήσεων.
Δεύτερον, μετά τον καθαρισμό, οι ερευνητές χρειάστηκαν να αφαιρέσουν συστηματικές προκαταλήψεις σε ταξινομήσεις. Μέσα από μια σειρά μελετών ανίχνευσης προκατάληψη ενσωματωμένο μέσα στο αρχικό παράδειγμα έργου-για, δείχνει ορισμένα εθελοντές από το Galaxy σε μονόχρωμη αντί του χρώματος-οι ερευνητές ανακάλυψαν αρκετές συστηματικών τάσεων, όπως μια συστηματική προκατάληψη να ταξινομήσει μακρινούς σπειροειδείς γαλαξίες ως ελλειπτικούς γαλαξίες (Bamford et al. 2009) . Η προσαρμογή για αυτές τις συστηματικές προκαταλήψεις είναι εξαιρετικά σημαντική, διότι ο πλεονασμός δεν καταργεί αυτόματα τη συστηματική προκατάληψη. βοηθά μόνο στην αφαίρεση τυχαίου σφάλματος.
Τέλος, μετά την καθυστέρηση, οι ερευνητές χρειάστηκαν μια μέθοδο για να συνδυάσουν τις ατομικές ταξινομήσεις για να δώσουν μια ταξινόμηση συναίνεσης. Ο απλούστερος τρόπος για να συνδυάσετε ταξινομήσεις για κάθε γαλαξία θα ήταν να επιλέξετε την πιο κοινή ταξινόμηση. Ωστόσο, αυτή η προσέγγιση θα έδινε σε κάθε εθελοντή ίσο βάρος, και οι ερευνητές υποψιάστηκαν ότι ορισμένοι εθελοντές ήταν καλύτεροι στην ταξινόμηση από άλλους. Ως εκ τούτου, οι ερευνητές ανέπτυξαν μια πιο περίπλοκη επαναληπτική διαδικασία στάθμισης που προσπάθησε να εντοπίσει τους καλύτερους ταξινομητές και να τους δώσει περισσότερο βάρος.
Έτσι, μετά από ένα τριών βημάτων καθαρισμό της διαδικασίας, debiasing, και το βάρος-η ομάδα Galaxy Zoo είχε μετατρέψει 40 εκατομμύρια εθελοντές ταξινομήσεις σε ένα σύνολο συναίνεσης μορφολογικές ταξινομήσεις. Όταν αυτές οι ταξινομήσεις Galaxy Zoo συγκρίθηκαν με τρεις προηγούμενες προσπάθειες μικρότερης κλίμακας από επαγγελματίες αστρονόμους, συμπεριλαμβανομένης της ταξινόμησης από τον Schawinski που βοήθησε να εμπνεύσει τον ζωολογικό κήπο Galaxy, υπήρξε ισχυρή συμφωνία. Έτσι, οι εθελοντές, συνολικά, ήταν σε θέση να παρέχουν υψηλής ποιότητας ταξινομήσεις και σε μια κλίμακα που οι ερευνητές δεν μπόρεσαν να (Lintott et al. 2008) . Στην πραγματικότητα, με την ταξινόμηση ανθρώπων για έναν τόσο μεγάλο αριθμό γαλαξιών, ο Schawinski, ο Lintott και άλλοι μπόρεσαν να δείξουν ότι μόνο το 80% των γαλαξιών ακολουθεί το αναμενόμενο μοτίβο - μπλε σπείρες και κόκκινα ελλειπτικά - και έχουν γραφτεί πολυάριθμες εργασίες αυτή την ανακάλυψη (Fortson et al. 2011) .
Με δεδομένο αυτό το υπόβαθρο, μπορείτε τώρα να δείτε πώς ο ζωολογικός κήπος Galaxy ακολουθεί τη συνταγή split-apply-combine, την ίδια συνταγή που χρησιμοποιείται για τα περισσότερα έργα ανθρώπινων υπολογισμών. Πρώτον, ένα μεγάλο πρόβλημα χωρίζεται σε κομμάτια. Σε αυτή την περίπτωση, το πρόβλημα της ταξινόμησης ενός εκατομμυρίου γαλαξιών χωρίστηκε σε ένα εκατομμύριο προβλήματα ταξινόμησης ενός γαλαξία. Στη συνέχεια, μια πράξη εφαρμόζεται σε κάθε κομμάτι ανεξάρτητα. Σε αυτή την περίπτωση, οι εθελοντές ταξινόμησαν κάθε γαλαξία ως σπειροειδή ή ελλειπτικό. Τέλος, τα αποτελέσματα συνδυάζονται για να προκύψουν αποτελέσματα συναίνεσης. Σε αυτήν την περίπτωση, το βήμα συνδυασμού περιελάμβανε τον καθαρισμό, την αφαίρεση και τη στάθμιση, για να παράγει μια ταξινόμηση συναίνεσης για κάθε γαλαξία. Παρόλο που τα περισσότερα έργα χρησιμοποιούν αυτή τη γενική συνταγή, κάθε βήμα πρέπει να προσαρμόζεται στο συγκεκριμένο πρόβλημα που αντιμετωπίζεται. Για παράδειγμα, στο σχέδιο ανθρώπινου υπολογισμού που περιγράφεται παρακάτω, θα ακολουθηθεί η ίδια συνταγή, αλλά τα βήματα εφαρμογής και συνδυασμού θα είναι αρκετά διαφορετικά.
Για την ομάδα του Galaxy Zoo, αυτό το πρώτο έργο ήταν μόνο η αρχή. Πολύ γρήγορα συνειδητοποίησαν ότι παρόλο που ήταν σε θέση να ταξινομήσουν σχεδόν ένα εκατομμύριο γαλαξίες, αυτή η κλίμακα δεν αρκεί για να συνεργαστεί με νεότερες ψηφιακές μελέτες ουρανού, οι οποίες μπορούν να παράγουν εικόνες περίπου 10 δισεκατομμυρίων γαλαξιών (Kuminski et al. 2014) . Για να αντιμετωπίσει μια αύξηση από 1 εκατομμύριο σε 10 δισεκατομμύρια, ένας παράγοντας 10.000 Galaxy Zoo θα πρέπει να στρατολογήσει περίπου 10.000 φορές περισσότερους συμμετέχοντες. Παρόλο που ο αριθμός των εθελοντών στο Διαδίκτυο είναι μεγάλος, δεν είναι άπειρος. Ως εκ τούτου, οι ερευνητές συνειδητοποίησαν ότι εάν επρόκειτο να χειριστούν όλο και μεγαλύτερο όγκο δεδομένων, χρειάστηκε μια νέα, ακόμα πιο επεκτάσιμη προσέγγιση.
Ως εκ τούτου, η Manda Banerji, η οποία συνεργάζεται με τον Schawinski, τον Lintott και άλλα μέλη της ομάδας Galaxy Zoo (2010) άρχισε να διδάσκει υπολογιστές για την ταξινόμηση γαλαξιών. Συγκεκριμένα, χρησιμοποιώντας τις ανθρώπινες ταξινομήσεις που δημιούργησε ο ζωολογικός κήπος Galaxy, ο Banerji δημιούργησε ένα μοντέλο μηχανικής μάθησης που θα μπορούσε να προβλέψει την ανθρώπινη ταξινόμηση ενός γαλαξία βάσει των χαρακτηριστικών της εικόνας. Εάν αυτό το μοντέλο θα μπορούσε να αναπαράγει τις ανθρώπινες ταξινομήσεις με μεγάλη ακρίβεια, τότε θα μπορούσε να χρησιμοποιηθεί από τους ερευνητές του Galaxy Zoo για να ταξινομήσει έναν ουσιαστικά άπειρο αριθμό γαλαξιών.
Ο πυρήνας της προσέγγισης των Banerji και των συναδέλφων είναι στην πραγματικότητα αρκετά παρόμοιος με τις τεχνικές που χρησιμοποιούνται συνήθως στην κοινωνική έρευνα, αν και αυτή η ομοιότητα μπορεί να μην είναι ξεκάθαρη με την πρώτη ματιά. Κατ 'αρχάς, οι Banerji και οι συνάδελφοί τους μετέτρεψαν κάθε εικόνα σε ένα σύνολο αριθμητικών χαρακτηριστικών που συνόψισαν τις ιδιότητές της. Για παράδειγμα, για εικόνες γαλαξιών, θα μπορούσαν να υπάρχουν τρία χαρακτηριστικά: η ποσότητα μπλε στην εικόνα, η διακύμανση της φωτεινότητας των εικονοστοιχείων και η αναλογία των μη λευκών εικονοστοιχείων. Η επιλογή των σωστών χαρακτηριστικών είναι ένα σημαντικό μέρος του προβλήματος και απαιτεί γενικά εμπειρογνωμοσύνη. Αυτό το πρώτο βήμα, κοινώς ονομαζόμενο μηχανισμός χαρακτηριστικών , καταλήγει σε ένα πίνακα δεδομένων με μία σειρά ανά εικόνα και στη συνέχεια σε τρεις στήλες που περιγράφουν αυτήν την εικόνα. Δεδομένου ότι η μήτρα δεδομένων και η επιθυμητή έξοδος (π.χ. αν η εικόνα ταξινομήθηκε από έναν άνθρωπο ως ελλειπτικό γαλαξία), ο ερευνητής δημιουργεί ένα μοντέλο στατιστικής ή μηχανικής μάθησης -για παράδειγμα, την υλικοτεχνική παλινδρόμηση- που προβλέπει την ταξινόμηση των ανθρώπων με βάση τα χαρακτηριστικά της εικόνας. Τέλος, ο ερευνητής χρησιμοποιεί τις παραμέτρους σε αυτό το στατιστικό μοντέλο για να παράγει εκτιμώμενες ταξινομήσεις νέων γαλαξιών (σχήμα 5.4). Στη μηχανική μάθηση, αυτή η προσέγγιση που χρησιμοποιεί επισημασμένα παραδείγματα για να δημιουργήσει ένα μοντέλο που μπορεί στη συνέχεια να επισημάνει νέα δεδομένα, ονομάζεται εποπτευόμενη μάθηση .
Τα χαρακτηριστικά του μοντέλου μηχανικής μάθησης της Banerji και των συναδέλφων ήταν πιο πολύπλοκα από αυτά του παραδείγματος του παιχνιδιού μου - για παράδειγμα, χρησιμοποίησε χαρακτηριστικά όπως "de Vaucouleurs fit axial ratio" - και το μοντέλο της δεν ήταν λογική παλινδρόμηση, ήταν ένα τεχνητό νευρωνικό δίκτυο. Χρησιμοποιώντας τα χαρακτηριστικά της, το πρότυπό της και τις συναίνεσες ταξινομήσεις Galaxy Zoo, κατάφερε να δημιουργήσει βάρη για κάθε χαρακτηριστικό και στη συνέχεια χρησιμοποίησε αυτά τα βάρη για να κάνει προβλέψεις για την ταξινόμηση των γαλαξιών. Για παράδειγμα, η ανάλυσή της διαπίστωσε ότι οι εικόνες με χαμηλό "de Vaucouleurs fit axial ratio" ήταν πιο πιθανό να είναι σπειροειδείς γαλαξίες. Δεδομένων αυτών των βαρών, ήταν σε θέση να προβλέψει την ανθρώπινη ταξινόμηση ενός γαλαξία με λογική ακρίβεια.
Το έργο του Banerji και των συναδέλφων του γύρισε το Galaxy Zoo σε αυτό που θα αποκαλούσα ένα σύστημα ανθρώπινου υπολογισμού με τη βοήθεια υπολογιστή . Ο καλύτερος τρόπος να σκεφτούμε αυτά τα υβριδικά συστήματα είναι ότι, αντί να έχουν λύσει κάποιο πρόβλημα, οι άνθρωποι έχουν δημιουργήσει ένα σύνολο δεδομένων που μπορεί να χρησιμοποιηθεί για την κατάρτιση ενός υπολογιστή για την επίλυση του προβλήματος. Μερικές φορές, η εκπαίδευση ενός υπολογιστή για την επίλυση του προβλήματος μπορεί να απαιτήσει πολλά παραδείγματα και ο μόνος τρόπος για να παραχθεί ένας επαρκής αριθμός παραδειγμάτων είναι μια μαζική συνεργασία. Το πλεονέκτημα αυτής της προσέγγισης με τη βοήθεια υπολογιστή είναι ότι σας επιτρέπει να χειρίζεστε ουσιαστικά άπειρες ποσότητες δεδομένων χρησιμοποιώντας μόνο μια πεπερασμένη ποσότητα ανθρώπινης προσπάθειας. Για παράδειγμα, ένας ερευνητής με ένα εκατομμύριο ταξινομημένοι ανθρώπινοι γαλαξίες μπορεί να δημιουργήσει ένα μοντέλο πρόβλεψης το οποίο μπορεί στη συνέχεια να χρησιμοποιηθεί για να ταξινομήσει ένα δισεκατομμύριο ή ακόμα και ένα τρισεκατομμύριο γαλαξίες. Εάν υπάρχουν τεράστιοι αριθμοί γαλαξιών, τότε αυτό το είδος υβριδικών ανθρώπων-υπολογιστή είναι στην πραγματικότητα η μόνη δυνατή λύση. Ωστόσο, αυτή η άπειρη κλιμάκωση δεν είναι δωρεάν. Η κατασκευή ενός μοντέλου μηχανικής μάθησης που μπορεί να αναπαράγει σωστά τις ταξινομήσεις των ανθρώπων είναι το ίδιο δύσκολο πρόβλημα, αλλά ευτυχώς υπάρχουν ήδη εξαιρετικά βιβλία που έχουν αφιερωθεί σε αυτό το θέμα (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Ο ζωολογικός κήπος Galaxy είναι μια καλή εικόνα για το πόσα ανθρώπινα έργα υπολογισμών εξελίσσονται. Πρώτον, ένας ερευνητής επιχειρεί το έργο μόνο του ή με μια μικρή ομάδα ερευνητικών βοηθών (π.χ. αρχική προσπάθεια ταξινόμησης του Schawinski). Εάν η προσέγγιση αυτή δεν κλιμακωθεί καλά, ο ερευνητής μπορεί να κινηθεί σε ένα ανθρώπινο έργο υπολογισμού με πολλούς συμμετέχοντες. Αλλά, για έναν ορισμένο όγκο δεδομένων, η καθαρή ανθρώπινη προσπάθεια δεν θα είναι αρκετή. Σε αυτό το σημείο, οι ερευνητές πρέπει να δημιουργήσουν ένα σύστημα υπολογισμού ανθρώπινου υπολογισμού με υποβοηθούμενη από υπολογιστή, στην οποία οι ανθρώπινες ταξινομήσεις χρησιμοποιούνται για την κατάρτιση ενός μοντέλου μηχανικής μάθησης που μπορεί στη συνέχεια να εφαρμοστεί σε σχεδόν απεριόριστα ποσά δεδομένων.