2.4.2 Πρόβλεψη και άμεσης πρόβλεψης

Προβλέποντας το μέλλον είναι δύσκολο, αλλά την πρόβλεψη της παρούσας είναι ευκολότερη.

Η δεύτερη κύρια στρατηγική που χρησιμοποιείται από τους ερευνητές με παρατηρησιακά δεδομένα είναι η πρόβλεψη. Προβλέποντας το μέλλον είναι πολύ δύσκολο, αλλά μπορεί να είναι εξαιρετικά σημαντικό για τους ιθύνοντες, είτε εργάζονται σε εταιρείες ή κυβερνήσεις.

Kleinberg et al. (2015) προσφέρει δύο ιστορίες που αποσαφηνίσει τη σημασία της πρόβλεψης για ορισμένα προβλήματα πολιτικής. Φανταστείτε ένα χάραξης πολιτικής, θα καλέσω την Άννα της, ο οποίος αντιμετωπίζει μια ξηρασία και πρέπει να αποφασίσει αν θα προσλάβει έναν σαμάνο για να κάνει ένα χορό της βροχής για να αυξήσει την πιθανότητα βροχής. Μια άλλη χάραξης πολιτικής, θα τον καλέσει ο Bob, θα πρέπει να αποφασίσει αν θα πάρει μια ομπρέλα για να εργαστούμε για να αποφύγει να πάρει υγρή στο δρόμο για το σπίτι. Τόσο η Άννα και ο Bob μπορεί να κάνει μια καλύτερη απόφαση, αν καταλαβαίνουν καιρικές συνθήκες, αλλά πρέπει να ξέρουν διαφορετικά πράγματα. Η Άννα πρέπει να καταλάβει αν ο χορός της βροχής προκαλεί τη βροχή. Bob, από την άλλη πλευρά, δεν χρειάζεται να την κατανόηση τίποτα για την αιτιότητα? χρειάζεται μόνο μια ακριβή πρόβλεψη. Κοινωνική ερευνητές συχνά επικεντρώνονται σε αυτό που Kleinberg et al. (2015) αποκαλούν «βροχή χορού που μοιάζει με" πολιτική προβλήματα, εκείνα που εστιάζουν στην αιτιότητα, και να αγνοήσει τα προβλήματα της πολιτικής "ομπρέλα-όπως» που επικεντρώνονται στην πρόβλεψη.

Θα ήθελα να επικεντρωθώ, ωστόσο, σε ένα ιδιαίτερο είδος πρόβλεψης που ονομάζεται άμεσης πρόβλεψης -a όρος που προέρχεται από το συνδυασμό «τώρα» και «πρόβλεψη». Αντί να προβλέπουν το μέλλον, άμεσης πρόβλεψης προσπάθειες για να προβλέψει τη σημερινή (Choi and Varian 2012) . Με άλλα λόγια, άμεσης πρόβλεψης χρησιμοποιεί μεθόδους πρόβλεψης για τα προβλήματα της μέτρησης. Ως εκ τούτου, θα πρέπει να είναι ιδιαίτερα χρήσιμο για τις κυβερνήσεις που απαιτούν την έγκαιρη και ακριβή μέτρα για τις χώρες τους. Άμεσης πρόβλεψης μπορεί να απεικονίζεται πιο καθαρά με το παράδειγμα της Google Flu Trends.

Φανταστείτε ότι αισθάνεστε λίγο κάτω από τις καιρικές συνθήκες, έτσι ώστε να πληκτρολογήσετε "διορθωτικά μέτρα γρίπη» σε μια μηχανή αναζήτησης, λάβετε μια σελίδα με συνδέσμους σε απάντηση, και στη συνέχεια ακολουθήστε ένα από αυτά για ένα χρήσιμο ιστοσελίδας. Τώρα φανταστείτε αυτή η δραστηριότητα που παίζεται έξω από την οπτική γωνία της μηχανής αναζήτησης. Κάθε στιγμή, τα εκατομμύρια των ερωτημάτων που φθάνουν από όλο τον κόσμο, και αυτό το ρεύμα των ερωτήσεων-τι Battelle (2006) έχει καλέσει τη "βάση δεδομένων του προθέσεις» - παρέχει μια συνεχώς ενημερωμένη παράθυρο στη συλλογική παγκόσμια συνείδηση. Ωστόσο, μετατρέποντας αυτή την ροή των πληροφοριών σε μια μέτρηση του επιπολασμού της γρίπης είναι δύσκολη. Απλά μετρώντας τον αριθμό των ερωτημάτων για "διορθωτικά μέτρα γρίπη" θα μπορούσε να λειτουργήσει καλά. Όχι ο καθένας που έχει τις αναζητήσεις της γρίπης για τα διορθωτικά μέτρα γρίπη και όχι ο καθένας που ψάχνουν για τα διορθωτικά μέτρα γρίπη έχει γρίπη.

Το σημαντικό και έξυπνο τέχνασμα πίσω από το Google Flu Trends ήταν να μετατρέψει ένα πρόβλημα μέτρησης σε ένα πρόβλημα πρόβλεψης. Το Αμερικανικό Κέντρο Ελέγχου και Πρόληψης Νοσημάτων (CDC) έχει ένα σύστημα παρακολούθησης της γρίπης που συλλέγει πληροφορίες από τους γιατρούς σε όλη τη χώρα. Ωστόσο, ένα πρόβλημα με αυτό το σύστημα CDC είναι ότι υπάρχει μια υστέρηση αναφοράς δύο εβδομάδες? ο χρόνος που απαιτείται για τα δεδομένα που φθάνουν από τους γιατρούς να καθαρίζονται, υποβάλλονται σε επεξεργασία, και δημοσιεύονται. Όμως, κατά το χειρισμό μια αναδυόμενη επιδημία, γραφεία δημόσιας υγείας δεν θέλουν να ξέρουν πόσο γρίπης υπήρχε πριν από δύο εβδομάδες? θέλουν να ξέρουν πόσο γρίπης υπάρχει αυτή τη στιγμή. Στην πραγματικότητα, σε πολλές άλλες παραδοσιακές πηγές των κοινωνικών δεδομένων, υπάρχουν κενά ανάμεσα στα κύματα της συλλογής δεδομένων και υστερήσεις αναφοράς. Οι περισσότερες μεγάλες πηγές δεδομένων, από την άλλη πλευρά, είναι πάντα-on (Ενότητα 2.3.1.2).

Ως εκ τούτου, ο Jeremy Ginsberg και οι συνεργάτες του (2009) προσπάθησαν να προβλέψουν τα δεδομένα της γρίπης CDC από τα δεδομένα αναζήτησης Google. Αυτό είναι ένα παράδειγμα του «πρόβλεψη της παρούσης", επειδή οι ερευνητές που προσπαθούν να μετρήσουν πόση γρίπη υπάρχει τώρα από την πρόβλεψη μελλοντικών δεδομένα από το CDC, τα μελλοντικά δεδομένα που μετρά το παρόν. Χρησιμοποιώντας μηχανικής μάθησης, έψαχναν μέσα από 50 εκατομμύρια διαφορετικούς όρους αναζήτησης για να δείτε ποιες είναι οι πιο έξυπνη από τα δεδομένα της γρίπης CDC. Τελικά, βρήκαν ένα σύνολο 45 διαφορετικών ερωτημάτων που φάνηκε να είναι πιο έξυπνη, και τα αποτελέσματα ήταν αρκετά καλά: θα μπορούσαν να χρησιμοποιήσουν τα δεδομένα αναζήτησης για να προβλέψει τα δεδομένα CDC. Βασίζεται εν μέρει στην εργασία αυτή, η οποία δημοσιεύθηκε στο Nature, το Google Flu Trends έγινε μια συχνά επαναλαμβανόμενη ιστορία επιτυχίας για τη δύναμη των μεγάλων δεδομένων.

Υπάρχουν δύο σημαντικές επιφυλάξεις για αυτή την προφανή επιτυχία, όμως, και η κατανόηση αυτών προειδοποιήσεις θα σας βοηθήσουν να αξιολογήσει και να κάνει πρόβλεψη και άμεσης πρόβλεψης. Πρώτον, η απόδοση του Google Flu Trends δεν ήταν στην πραγματικότητα πολύ καλύτερα από ό, τι ένα απλό μοντέλο που υπολογίζει το ποσό της γρίπης με βάση τη γραμμική παρέκταση από τις δύο πιο πρόσφατες μετρήσεις του επιπολασμού της γρίπης (Goel et al. 2010) . Και, πάνω από ορισμένες περιόδους του χρόνου το Google Flu Trends ήταν στην πραγματικότητα χειρότερη από αυτή την απλή προσέγγιση (Lazer et al. 2014) . Με άλλα λόγια, το Google Flu Trends με όλα τα δεδομένα, μηχανική μάθηση, και ισχυρό υπολογιστικό δεν ξεπερνούν δραματικά ένα απλό και εύκολο να καταλάβει ευρετική. Αυτό υποδηλώνει ότι κατά την αξιολόγηση κάθε πρόβλεψη ή πρόγνωση μικρής, είναι σημαντικό να τα συγκρίνει με μια αρχική τιμή.

Η δεύτερη σημαντική επιφύλαξη σχετικά με το Google Flu Trends είναι ότι η ικανότητά της να προβλέψει τα δεδομένα της γρίπης CDC ήταν επιρρεπής σε βραχυπρόθεσμη βλάβη και μακροπρόθεσμη φθορά λόγω της μετατόπισης και της αλγοριθμικής σύγχυση. Για παράδειγμα, κατά τη διάρκεια του 2009 ξέσπασμα της Γρίπης των Χοίρων το Google Flu Trends δραματικά υπερεκτιμήσει την ποσότητα του ιού της γρίπης, ίσως επειδή οι ​​άνθρωποι τείνουν να αλλάξουν τη συμπεριφορά αναζήτησή τους ως απάντηση στην ευρέως διαδεδομένη φόβο μιας παγκόσμιας πανδημίας (Cook et al. 2011; Olson et al. 2013) . Εκτός από αυτά τα βραχυπρόθεσμα προβλήματα, η απόδοση σταδιακά διασπαστεί πάροδο του χρόνου. Διάγνωση τους λόγους για αυτή την μακροπρόθεσμη φθορά είναι δύσκολη, επειδή οι αλγόριθμοι αναζήτησης της Google είναι ιδιόκτητα, αλλά φαίνεται ότι το 2011 η Google έκανε αλλαγές που θα πρότεινα σχετίζονται με τους όρους αναζήτησης όταν οι άνθρωποι ψάχνουν για συμπτώματα όπως "πυρετός" και "βήχα" (αυτό φαίνεται επίσης ότι αυτό το χαρακτηριστικό δεν είναι πλέον ενεργό). Η προσθήκη αυτού του χαρακτηριστικό είναι ένα εντελώς λογικό πράγμα που πρέπει να κάνετε αν είστε λειτουργίας μιας επιχείρησης μηχανή αναζήτησης, και είχε ως αποτέλεσμα τη δημιουργία περισσότερες αναζητήσεις που σχετίζονται με την υγεία. Αυτό ήταν ίσως μια επιτυχία για την επιχείρηση, αλλά προκάλεσε το Google Flu Trends στην υπερβολική εκτίμηση για την επικράτηση της γρίπης (Lazer et al. 2014) .

Ευτυχώς, αυτά τα προβλήματα με το Google Flu Trends είναι επιδιορθώνεται. Στην πραγματικότητα, με τη χρήση πιο προσεκτικοί μεθόδους, Lazer et al. (2014) και Yang, Santillana, and Kou (2015) ήταν σε θέση να πάρει τα καλύτερα αποτελέσματα. Πηγαίνοντας προς τα εμπρός, περιμένω ότι άμεσης πρόβλεψης μελέτες που συνδυάζουν μεγάλα δεδομένων με ερευνητή δεδομένα που συλλέγονται, που συνδυάζουν readymades Duchamp στιλ με Μιχαήλ στιλ Custommades-θα επιτρέπει στους υπεύθυνους χάραξης πολιτικής να παράγει πιο γρήγορα και πιο ακριβείς μετρήσεις του παρόντος και οι προβλέψεις για το μέλλον.