Galaxy Zoo συνδυάζει τις προσπάθειες πολλών εθελοντών μη ειδικός για να χαρακτηρίσει ένα εκατομμύριο γαλαξίες.
Galaxy Zoo αναπτύχθηκε από ένα πρόβλημα που αντιμετωπίζουν οι Kevin Schawinski, μεταπτυχιακός φοιτητής στο Αστρονομίας στο Πανεπιστήμιο της Οξφόρδης το 2007. Απλοποίηση αρκετά ένα κομμάτι, Schawinski ήταν ενδιαφέρονται για γαλαξίες, και οι γαλαξίες μπορεί να χαρακτηριστεί από τους μορφολογία-ελλειπτικό ή σπειροειδές και από χρώμα μπλε ή κόκκινο τους. Εκείνη την εποχή, η συμβατική σοφία μεταξύ των αστρονόμων ήταν ότι σπειροειδείς γαλαξίες, όπως ο Γαλαξίας μας, ήταν μπλε χρώματος (που υποδεικνύει τη νεολαία) και ότι οι ελλειπτικοί γαλαξίες ήταν κόκκινο χρώμα (που υποδεικνύει το γήρας). Schawinski αμφέβαλε για αυτό συμβατική σοφία. Υποψιαζόταν ότι, ενώ αυτό το μοτίβο θα μπορούσε να ισχύει σε γενικές γραμμές, υπήρχαν πιθανώς ένα αρκετά μεγάλο αριθμό των εξαιρέσεων, και ότι μελετώντας πολλές από αυτές τις ασυνήθιστες γαλαξιών-αυτά που δεν ταίριαζε το αναμενόμενο μοτίβο-θα μπορούσε να μάθει κάτι για τη διαδικασία μέσω της οποίας γαλαξίες σχηματίζονται.
Έτσι, ό, τι Schawinski προκειμένου να ανατρέψει συμβατική σοφία ήταν ένα μεγάλο σύνολο μορφολογικά διαβαθμισμένων γαλαξιών? ότι είναι, οι γαλαξίες που είχαν ταξινομηθεί είτε ως σπείρα ή ελλειπτικό. Το πρόβλημα, όμως, ήταν ότι οι υπάρχουσες αλγοριθμικών μεθόδων για την ταξινόμηση δεν ήταν ακόμη αρκετά καλό για να χρησιμοποιηθεί για την επιστημονική έρευνα? με άλλα λόγια, την ταξινόμηση των γαλαξιών ήταν, εκείνη τη στιγμή, ένα πρόβλημα που ήταν δύσκολο για τους υπολογιστές. Ως εκ τούτου, αυτό που χρειαζόταν ήταν ένας μεγάλος αριθμός ανθρώπινων ταξινομηθεί γαλαξιών. Schawinski ανέλαβε αυτό το πρόβλημα ταξινόμησης με τον ενθουσιασμό ενός μεταπτυχιακού φοιτητή. Σε μια μαραθώνια συνεδρίαση επτά, 12 ώρες την ημέρα, ήταν σε θέση να χαρακτηρίσει 50.000 γαλαξίες. Ενώ 50.000 γαλαξίες μπορεί να ακούγεται σαν μια παρτίδα, στην πραγματικότητα είναι μόνο περίπου 5% των σχεδόν ένα εκατομμύριο γαλαξίες που είχε φωτογραφηθεί στο Sloan Digital Sky Survey. Schawinski συνειδητοποίησε ότι χρειάζεται μια πιο επεκτάσιμη προσέγγιση.
Ευτυχώς, αποδεικνύεται ότι το έργο της ταξινόμησης των γαλαξιών δεν απαιτεί προηγμένη εκπαίδευση στην αστρονομία? μπορείτε να διδάξετε κάποιον να το κάνει αρκετά γρήγορα. Με άλλα λόγια, ακόμη και αν ταξινόμηση γαλαξίες είναι ένα έργο που ήταν δύσκολο για τους υπολογιστές, ήταν αρκετά εύκολο για τους ανθρώπους. Έτσι, ενώ κάθεται σε μια παμπ στην Οξφόρδη, Schawinski και τους συναδέλφους αστρονόμος Chris Lintott ονειρεύτηκε μια ιστοσελίδα όπου οι εθελοντές θα ταξινομήσει τις εικόνες των γαλαξιών. Λίγους μήνες αργότερα, το Galaxy Zoo γεννήθηκε.
Στο δικτυακό τόπο του Galaxy Zoo, οι εθελοντές θα υποβληθούν σε λίγα λεπτά της κατάρτισης? για παράδειγμα, μαθαίνοντας τη διαφορά ανάμεσα σε ένα σπιράλ και ελλειπτικό γαλαξία (Σχήμα 5.2). Μετά από αυτή την εκπαίδευση, οι εθελοντές έπρεπε να περάσει ένα σχετικά εύκολο κουίζ-ορθή ταξινόμηση των 11 από τις 15 γαλαξίες με γνωστή ταξινομήσεις, και στη συνέχεια ο εθελοντής θα αρχίσει πραγματική κατάταξη της άγνωστης γαλαξιών μέσω ενός απλού web-based interface (Σχήμα 5.3). Η μετάβαση από εθελοντές να αστρονόμος θα πραγματοποιηθεί σε λιγότερο από 10 λεπτά και απαιτείται μόνο που περνά η χαμηλότερη από εμπόδια, ένα απλό κουίζ.
Galaxy Zoo προσέλκυσε τους πρώτους εθελοντές του μετά το έργο χαρακτηρίστηκε σε ένα άρθρο ειδήσεων, και σε περίπου έξι μήνες το έργο αυξήθηκε η συμμετοχή περισσότερων από 100.000 επιστήμονες πολίτη, τα άτομα που συμμετείχαν, επειδή απολαμβάνουν την εργασία και ήθελαν να βοηθήσουν στην προώθηση της αστρονομίας. Μαζί, αυτές οι 100.000 εθελοντές συνέβαλαν συνολικά πάνω από 40 εκατομμύρια ταξινομήσεις, με την πλειοψηφία των ταξινομήσεων που προέρχονται από μια σχετικά μικρή, βασική ομάδα των συμμετεχόντων (Lintott et al. 2008) .
Οι ερευνητές που έχουν την εμπειρία πρόσληψη προπτυχιακό βοηθοί έρευνας θα μπορούσε αμέσως να είναι επιφυλακτικοί σχετικά με την ποιότητα των δεδομένων. Ενώ αυτό το σκεπτικισμό είναι λογικό, το Galaxy Zoo δείχνει ότι όταν οι εθελοντές εισφορές σωστά καθαρισμένα, debiased και συγκεντρωτικά, μπορούν να παράγουν αποτελέσματα υψηλής ποιότητας (Lintott et al. 2008) . Ένα σημαντικό τέχνασμα για να πάρει το πλήθος για να δημιουργήσετε επαγγελματικής ποιότητας των δεδομένων είναι πλεονασμός? Δηλαδή, αφού το ίδιο έργο εκτελείται από πολλούς διαφορετικούς ανθρώπους. Στο Galaxy Zoo, υπήρχαν περίπου 40 ταξινομήσεις ανά γαλαξία? ερευνητές χρησιμοποιούν τις προπτυχιακές τους βοηθούς της έρευνας δεν μπορούσαν να αντέξουν οικονομικά αυτό το επίπεδο των απολύσεων και, επομένως, πρέπει να είναι πολύ περισσότερο με την ποιότητα του κάθε ατόμου κατάταξης. Αυτό που οι εθελοντές δεν είχαν στον τομέα της κατάρτισης, που έκανε για με απόλυση.
Ακόμη και με πολλαπλές ταξινομήσεις ανά γαλαξία, όμως, που συνδυάζει το σύνολο των εθελοντών ταξινομήσεις να παράγει μια ταξινόμηση συναίνεση είναι δύσκολη. Επειδή πολύ παρόμοιες προκλήσεις προκύπτουν στα περισσότερα έργα του ανθρώπου υπολογισμού, είναι χρήσιμο να επανεξετάσει εν συντομία τα τρία βήματα που οι ερευνητές Galaxy Zoo χρησιμοποιούνται για την παραγωγή συναίνεση ταξινομήσεις τους. Κατ 'αρχάς, οι ερευνητές «καθαρίζονται» τα δεδομένα αφαιρώντας ψευδείς ταξινομήσεις. Για παράδειγμα, οι άνθρωποι που επανειλημμένα κατατάσσεται το ίδιο γαλαξία, κάτι που θα συνέβαινε εάν προσπαθούσαν να χειραγωγήσουν τα αποτελέσματα είχαν όλες τις ταξινομήσεις τους απορρίπτονται. Αυτό και άλλα παρόμοια καθαρισμού αφαιρούνται περίπου 4% του συνόλου των ταξινομήσεων.
Δεύτερον, μετά τον καθαρισμό, οι ερευνητές χρειάζεται να αφαιρέσετε συστηματικών τάσεων στις ταξινομήσεις. Μέσα από μια σειρά μελετών ανίχνευσης προκατάληψη ενσωματωμένη στο αρχικό παράδειγμα του έργου-για, δείχνοντας κάποια εθελοντές ο γαλαξίας σε μονόχρωμη αντί του χρώματος οι ερευνητές ανακάλυψαν αρκετές συστηματικών τάσεων, όπως η συστηματική προκατάληψη να χαρακτηρίσει μακριά σπειροειδείς γαλαξίες, όπως ελλειπτικούς γαλαξίες (Bamford et al. 2009) . Ρύθμιση για τα εν λόγω συστηματικών τάσεων είναι εξαιρετικά σημαντική, διότι κατά μέσο όρο πολλές συνεισφορές δεν αφαιρεί συστηματική προκατάληψη? αφαιρεί μόνο τυχαίο σφάλμα.
Τέλος, μετά από debiasing, οι ερευνητές χρειάζονται μια μέθοδο για να συνδυάσει τα επιμέρους ταξινομήσεις να παράγει μια ταξινόμηση συναίνεση. Ο απλούστερος τρόπος για να συνδυάσει τις ταξινομήσεις για κάθε γαλαξία θα ήταν να επιλέξει την πιο κοινή ταξινόμηση. Ωστόσο, η προσέγγιση αυτή θα δώσει σε κάθε εθελοντή ίδια βαρύτητα, και οι ερευνητές την υποψία ότι κάποιοι εθελοντές ήταν καλύτερα σε κατάταξη από άλλες. Ως εκ τούτου, οι ερευνητές ανέπτυξαν μια πιο σύνθετη επαναληπτική διαδικασία στάθμισης που επιχειρεί να ανιχνεύσει αυτόματα τις καλύτερες ταξινομητές και να τους δώσουμε περισσότερο βάρος.
Έτσι, μετά από μια τριών σταδίων διαδικασία καθαρισμού, debiasing και στάθμιση-ερευνητικής ομάδας Galaxy Zoo είχε μετατραπεί τα 40 εκατομμύρια εθελοντών ταξινομήσεις σε ένα σύνολο συναίνεση μορφολογικές ταξινομήσεις. Όταν αυτές οι ταξινομήσεις Galaxy Zoo συγκρίθηκαν με τρεις προηγούμενες προσπάθειες μικρότερης κλίμακας από επαγγελματίες αστρονόμους, συμπεριλαμβανομένης της ταξινόμησης από Schawinski που βοήθησε να εμπνεύσει Galaxy Zoo, υπήρχε ισχυρή συμφωνία. Έτσι, οι εθελοντές, συνολικά, ήταν σε θέση να παρέχουν υψηλής ποιότητας ταξινομήσεις και σε μια κλίμακα που οι ερευνητές δεν θα μπορούσε να ταιριάζει (Lintott et al. 2008) . Στην πραγματικότητα, έχοντας ανθρώπινο ταξινομήσεις για ένα τόσο μεγάλο αριθμό των γαλαξιών, Schawinski, Lintott, και άλλοι ήταν σε θέση να αποδείξει ότι μόνο περίπου το 80% των γαλαξιών ακολουθεί τα αναμενόμενα μοτίβο μπλε σπείρες και κόκκινο ελλειπτικοί-και πολλές εργασίες έχουν γραφτεί για Αυτή η ανακάλυψη (Fortson et al. 2011) .
Με δεδομένο αυτό το πλαίσιο, μπορούμε τώρα να δούμε πώς εξής Galaxy Zoo η διάσπαση εφαρμόζουν-συνδυάζουν συνταγή, την ίδια συνταγή που χρησιμοποιείται για τα περισσότερα έργα του ανθρώπου υπολογισμού. Κατ 'αρχάς, ένα μεγάλο πρόβλημα είναι χωρισμένο σε κομμάτια. Σε αυτήν την περίπτωση, το πρόβλημα της ταξινόμησης ένα εκατομμύριο γαλαξίες είναι χωρισμένο σε ένα εκατομμύριο προβλήματα της ταξινόμησης ενός γαλαξία. Στη συνέχεια, μια λειτουργία εφαρμόζεται σε κάθε κομμάτι ξεχωριστά. Σε αυτήν την περίπτωση, ένας εθελοντής θα χαρακτηρίσει κάθε γαλαξία είτε ως σπείρα ή ελλειπτικό. Τέλος, τα αποτελέσματα συνδυάζονται για να παράγουν μια συναίνεση αποτέλεσμα. Στην περίπτωση αυτή, το βήμα συνδυάζουν περιελάμβανε τον καθαρισμό, debiasing και στάθμιση για την παραγωγή ενός συναίνεση ταξινόμησης για κάθε γαλαξία. Ακόμα κι αν τα περισσότερα έργα χρησιμοποιήσετε αυτή τη γενική συνταγή, κάθε ένα από τα βήματα που θα πρέπει να προσαρμοστεί για να το συγκεκριμένο πρόβλημα που αντιμετωπίζεται. Για παράδειγμα, στο έργο του ανθρώπου υπολογισμού που περιγράφεται παρακάτω, η ίδια συνταγή θα ακολουθήσει, αλλά οι εφαρμόζει και συνδυάζουν βήματα θα είναι αρκετά διαφορετική.
Για την ομάδα του Galaxy Zoo, το πρώτο έργο ήταν μόνο η αρχή. Πολύ γρήγορα συνειδητοποίησαν ότι ακόμα κι αν ήταν σε θέση να ταξινομήσει κοντά στο ένα εκατομμύριο γαλαξίες, αυτή η κλίμακα δεν είναι αρκετό για να συνεργαστεί με νεότερες έρευνες ψηφιακό ουρανό, η οποία θα μπορούσε να παράγει εικόνες των περίπου 10 δισεκατομμύρια γαλαξίες (Kuminski et al. 2014) . Για να χειριστεί μια αύξηση 1.000.000-10000000000-ένας παράγοντας 10.000 Galaxy Zoo, θα πρέπει να προσλάβει περίπου 10.000 φορές περισσότερους συμμετέχοντες. Ακόμη και αν ο αριθμός των εθελοντών στο Διαδίκτυο είναι μεγάλο, δεν είναι άπειρη. Ως εκ τούτου, οι ερευνητές συνειδητοποίησαν ότι αν πρόκειται να χειριστεί συνεχώς αυξανόμενο όγκο δεδομένων, ήταν απαραίτητη μια νέα, ακόμη πιο επεκτάσιμη, προσέγγιση.
Ως εκ τούτου, Μαντά Banerji-εργάζονται με τον Kevin Schawinski, Chris Lintott, και άλλα μέλη του διδακτικού υπολογιστές ομάδα εκκίνησης Galaxy Zoo να κατατάξει τους γαλαξίες. Πιο συγκεκριμένα, χρησιμοποιώντας τα ανθρώπινα ταξινομήσεις που δημιουργούνται από Galaxy Zoo, Banerji et al. (2010) κατασκεύασε ένα μοντέλο μάθησης μηχάνημα που θα μπορούσε να προβλέψει την ανθρώπινη κατάταξη ενός γαλαξία με βάση τα χαρακτηριστικά της εικόνας. Αν αυτό το μοντέλο μηχανικής μάθησης θα μπορούσαν να αναπαράγουν τα ανθρώπινα ταξινομήσεις με μεγάλη ακρίβεια, τότε θα μπορούσε να χρησιμοποιηθεί από τους ερευνητές Galaxy Zoo για να χαρακτηρίσουν μια ουσιαστικά άπειρο αριθμό των γαλαξιών.
Ο πυρήνας της Banerji και οι συνεργάτες του »προσέγγιση είναι στην πραγματικότητα αρκετά παρόμοια με τις τεχνικές που χρησιμοποιούνται συνήθως στην κοινωνική έρευνα, παρόλο που η ομοιότητα μπορεί να μην είναι σαφές με την πρώτη ματιά. Κατ 'αρχάς, Banerji και οι συνεργάτες μετατρέπεται κάθε εικόνα σε ένα σύνολο αριθμητικών χαρακτηριστικών που συνοψίζουν είναι ιδιότητες. Για παράδειγμα, για τις εικόνες των γαλαξιών θα μπορούσαν να υπάρχουν τρεις δυνατότητες: η ποσότητα του μπλε στην εικόνα, η διακύμανση της φωτεινότητας των pixel και το ποσοστό των μη-λευκών pixels. Η επιλογή των σωστών χαρακτηριστικών είναι ένα σημαντικό μέρος του προβλήματος, και γενικά απαιτεί εξειδίκευση σε θεματικές ενότητες. Αυτό το πρώτο βήμα, που κοινώς αποκαλείται χαρακτηριστικό μηχανικής, έχει ως αποτέλεσμα μια μήτρα δεδομένων με μία σειρά ανά εικόνα και στη συνέχεια τρεις στήλες που περιγράφουν αυτή την εικόνα. Δεδομένης της μήτρας δεδομένων και το επιθυμητό αποτέλεσμα (π.χ., αν η εικόνα έχει χαρακτηριστεί από έναν άνθρωπο σαν έναν ελλειπτικό γαλαξία), ο ερευνητής εκτιμά τις παραμέτρους ενός στατιστικό μοντέλο-για παράδειγμα, κάτι σαν ένα λογιστικής παλινδρόμησης, η οποία προβλέπει την ανθρώπινη ταξινόμηση βασίζεται σχετικά με τα χαρακτηριστικά της εικόνας. Τέλος, ο ερευνητής χρησιμοποιεί τις παραμέτρους σε αυτό το στατιστικό μοντέλο για να παράγει την αναμενόμενη ταξινομήσεις νέων γαλαξιών (Σχήμα 5.4). Για σκεφτείτε μια κοινωνική αναλογική, φανταστείτε ότι είχατε δημογραφικές πληροφορίες σχετικά με ένα εκατομμύριο φοιτητές, και ξέρετε αν αποφοίτησε από το κολέγιο ή όχι. Θα μπορούσατε να χωρέσει ένα λογιστικής παλινδρόμησης με αυτά τα δεδομένα, και στη συνέχεια, θα μπορούσατε να χρησιμοποιήσετε τις προκύπτουσες παραμέτρους του μοντέλου να προβλέψει αν οι νέοι μαθητές θα αποφοιτήσουν από το κολέγιο. Σε μηχανική μάθηση, αυτή η προσέγγιση, χρησιμοποιώντας την ένδειξη παραδείγματα για να δημιουργήσετε ένα στατιστικό μοντέλο που μπορεί στη συνέχεια ετικέτα νέα δεδομένα, ονομάζεται υπό την επίβλεψη μάθηση (Hastie, Tibshirani, and Friedman 2009) .
Τα χαρακτηριστικά Banerji et al. (2010) μοντέλο μηχανικής μάθησης ήταν πιο περίπλοκη από ό, τι εκείνες στο παιχνίδι μου παράδειγμα-για παράδειγμα, που χρησιμοποιείται χαρακτηριστικά όπως το "de Vaucouleurs χωρέσει αξονική αναλογία» -και το μοντέλο της δεν ήταν λογιστικής παλινδρόμησης, ήταν ένα τεχνητό νευρωνικό δίκτυο. Χρήση των δυνατοτήτων της, το μοντέλο της, και τα συναίνεση Galaxy Zoo ταξινομήσεις, ήταν σε θέση να δημιουργήσουν τα βάρη για κάθε χαρακτηριστικό, και στη συνέχεια να χρησιμοποιήσετε αυτά τα βάρη για να κάνουν προβλέψεις σχετικά με την ταξινόμηση των γαλαξιών. Για παράδειγμα, η ανάλυση της διαπίστωσαν ότι οι εικόνες με χαμηλό "de Vaucouleurs χωρέσει αξονική αναλογία» ήταν πιο πιθανό να είναι σπειροειδείς γαλαξίες. Λαμβάνοντας υπόψη αυτά τα βάρη, ήταν σε θέση να προβλέψει την ανθρώπινη κατάταξη ενός γαλαξία με εύλογη ακρίβεια.
Το έργο του Banerji et al. (2010) μετατράπηκε Galaxy Zoo σε αυτό που εγώ θα αποκαλούσα ένα ανθρώπινο σύστημα υπολογισμού δεύτερης γενιάς. Ο καλύτερος τρόπος για να σκεφτούμε αυτά τα συστήματα δεύτερης γενιάς είναι ότι αντί να έχουν τον άνθρωπο να λύσει ένα πρόβλημα, έχουν ανθρώπους οικοδομήσουμε ένα σύνολο δεδομένων που μπορεί να χρησιμοποιηθεί για να εκπαιδεύσει έναν υπολογιστή για να λύσει το πρόβλημα. Η ποσότητα των δεδομένων που απαιτούνται για την εκπαίδευση του υπολογιστή μπορεί να είναι τόσο μεγάλη ώστε να απαιτεί μια ανθρώπινη μάζα συνεργασία για τη δημιουργία. Στην περίπτωση του Galaxy Zoo, τα νευρωνικά δίκτυα που χρησιμοποιούνται από Banerji et al. (2010) απαιτείται ένα πολύ μεγάλο αριθμό ανθρώπινων επισημασμένου παραδείγματα για να χτίσει ένα μοντέλο που ήταν σε θέση να αναπαράγουν αξιόπιστα την ανθρώπινη ταξινόμηση.
Το πλεονέκτημα αυτού του υπολογιστή με τη βοήθεια της προσέγγισης είναι ότι σας δίνει τη δυνατότητα να χειριστεί ουσιαστικά άπειρες ποσότητες δεδομένων χρησιμοποιώντας μόνο ένα πεπερασμένο ποσό της ανθρώπινης προσπάθειας. Για παράδειγμα, ένας ερευνητής με ένα εκατομμύριο ανθρώπινα ταξινομούνται γαλαξίες να οικοδομήσουμε ένα μοντέλο πρόβλεψης που μπορεί στη συνέχεια να χρησιμοποιηθεί για να χαρακτηρίσει ένα δισεκατομμύριο ή ακόμα και ένα τρισεκατομμύριο γαλαξίες. Εάν υπάρχουν τεράστιοι αριθμοί των γαλαξιών, τότε αυτό το είδος των υβριδικών ανθρώπου-υπολογιστή είναι πραγματικά η μόνη δυνατή λύση. Αυτή η άπειρη δυνατότητα κλιμάκωσης δεν είναι δωρεάν, ωστόσο. Η οικοδόμηση ενός μοντέλου μηχανικής μάθησης που μπορεί να αναπαράγει σωστά τα ανθρώπινα ταξινομήσεις είναι η ίδια ένα δύσκολο πρόβλημα, αλλά ευτυχώς υπάρχουν ήδη εξαιρετικά βιβλία αφιερωμένη σε αυτό το θέμα (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo δείχνει την εξέλιξη πολλών έργων ανθρώπινης υπολογισμού. Κατ 'αρχάς, ένας ερευνητής επιχειρεί το έργο μόνη της ή με μια μικρή ομάδα των ερευνητικών βοηθών (π.χ., αρχική προσπάθεια ταξινόμησης Schawinski του). Εάν η προσέγγιση αυτή δεν κλίμακα καλά, ο ερευνητής μπορεί να κινηθεί σε ένα έργο ανθρώπινο υπολογισμού, όπου πολλοί άνθρωποι συμβάλλουν ταξινομήσεις. Αλλά, για ένα συγκεκριμένο όγκο δεδομένων, καθαρή ανθρώπινη προσπάθεια δεν θα είναι αρκετό. Σε εκείνο το σημείο, οι ερευνητές πρέπει να οικοδομήσουμε συστήματα δεύτερης γενιάς όπου τα ανθρώπινα ταξινομήσεις χρησιμοποιούνται για να εκπαιδεύσει ένα μοντέλο μάθησης μηχανή που μπορεί στη συνέχεια να εφαρμοστεί σε σχεδόν απεριόριστες ποσότητες δεδομένων.