Προβλέποντας το μέλλον είναι δύσκολο, αλλά την πρόβλεψη της παρούσας είναι ευκολότερη.
Η δεύτερη κύρια στρατηγική που οι ερευνητές μπορούν να χρησιμοποιήσουν με τα δεδομένα παρατήρησης είναι η πρόβλεψη . Η πρόβλεψη για το μέλλον είναι γνωστή δύσκολη και ίσως για τον λόγο αυτό η πρόβλεψη δεν αποτελεί επί του παρόντος μεγάλο μέρος της κοινωνικής έρευνας (αν και είναι ένα μικρό και σημαντικό μέρος της δημογραφίας, της οικονομίας, της επιδημιολογίας και της πολιτικής επιστήμης). Εντούτοις, εδώ θα ήθελα να επικεντρωθώ σε ένα ειδικό είδος πρόβλεψης που ονομάζεται nowcasting - ένας όρος που προέρχεται από το συνδυασμό "τώρα" και "πρόβλεψης". Αντί να προβλέψουμε το μέλλον, οι nowcasting προσπαθούν να χρησιμοποιήσουν ιδέες από την πρόβλεψη για να μετρήσουν την τρέχουσα κατάσταση του κόσμου; προσπαθεί να «προβλέψει το παρόν» (Choi and Varian 2012) . Το Nowcasting έχει τη δυνατότητα να είναι ιδιαίτερα χρήσιμο σε κυβερνήσεις και εταιρείες που απαιτούν έγκαιρα και ακριβή μέτρα στον κόσμο.
Μια ρύθμιση όπου η ανάγκη έγκαιρης και ακριβούς μέτρησης είναι πολύ σαφής είναι η επιδημιολογία. Εξετάστε την περίπτωση της γρίπης ("η γρίπη"). Κάθε χρόνο, οι επιδημίες εποχικής γρίπης προκαλούν εκατομμύρια ασθένειες και εκατοντάδες χιλιάδες θανάτους σε όλο τον κόσμο. Επιπλέον, κάθε χρόνο, υπάρχει πιθανότητα να προκύψει μια νέα μορφή γρίπης που θα σκότωνε εκατομμύρια ανθρώπους. Το ξέσπασμα της γρίπης του 1918, για παράδειγμα, εκτιμάται ότι έχει σκοτώσει μεταξύ 50 και 100 εκατομμυρίων ανθρώπων (Morens and Fauci 2007) . Λόγω της ανάγκης παρακολούθησης και πιθανής αντίδρασης σε εστίες γρίπης, οι κυβερνήσεις σε όλο τον κόσμο δημιούργησαν συστήματα επιτήρησης της γρίπης. Για παράδειγμα, τα Κέντρα Ελέγχου και Πρόληψης Νοσημάτων των ΗΠΑ (CDC) συλλέγουν τακτικά και συστηματικά πληροφορίες από προσεκτικά επιλεγμένους γιατρούς σε όλη τη χώρα. Παρόλο που το σύστημα αυτό παράγει δεδομένα υψηλής ποιότητας, παρουσιάζει καθυστέρηση αναφοράς. Δηλαδή, λόγω του χρόνου που απαιτείται για να καθαριστούν, να υποβληθούν σε επεξεργασία και να δημοσιευτούν τα δεδομένα που προέρχονται από τους γιατρούς, το σύστημα CDC δημοσιεύει εκτιμήσεις σχετικά με την ποσότητα γρίπης που υπήρχε πριν από δύο εβδομάδες. Αλλά, όταν αντιμετωπίζουν μια αναδυόμενη επιδημία, αξιωματούχοι της δημόσιας υγείας δεν θέλουν να μάθουν πόση γρίπη υπήρχε πριν από δύο εβδομάδες. θέλουν να μάθουν πόση γρίπη υπάρχει αυτή τη στιγμή.
Την ίδια στιγμή που το CDC συλλέγει δεδομένα για την παρακολούθηση της γρίπης, η Google συλλέγει επίσης δεδομένα σχετικά με τον επιπολασμό της γρίπης, αν και σε μια εντελώς διαφορετική μορφή. Οι άνθρωποι από όλο τον κόσμο στέλνουν συνεχώς ερωτήματα στην Google και μερικά από αυτά τα ερωτήματα - όπως τα «φάρμακα για τη γρίπη» και τα «συμπτώματα της γρίπης» - ενδέχεται να υποδηλώνουν ότι το άτομο που κάνει το ερώτημα έχει τη γρίπη. Όμως, η χρήση αυτών των ερωτημάτων αναζήτησης για την εκτίμηση της επικράτησης της γρίπης είναι δύσκολη: δεν έχει κανείς που έχει τη γρίπη να κάνει έρευνα σχετιζόμενη με τη γρίπη και όχι κάθε έρευνα σχετιζόμενη με τη γρίπη προέρχεται από κάποιον που έχει τη γρίπη.
Ο Jeremy Ginsberg και μια ομάδα συναδέλφων (2009) , μερικοί στο Google και κάποιοι στο CDC, είχαν τη σημαντική και έξυπνη ιδέα να συνδυάσουν αυτές τις δύο πηγές δεδομένων. Κατά προσέγγιση, μέσω ενός είδους στατιστικής αλχημείας, οι ερευνητές συνδύασαν τα γρήγορα και ανακριβή δεδομένα αναζήτησης με τα αργά και ακριβή δεδομένα του CDC, προκειμένου να παράγουν γρήγορες και ακριβείς μετρήσεις του επιπολασμού της γρίπης. Ένας άλλος τρόπος να σκεφτούμε είναι ότι χρησιμοποίησαν τα δεδομένα αναζήτησης για να επιταχύνουν τα δεδομένα του CDC.
Συγκεκριμένα, χρησιμοποιώντας τα δεδομένα από το 2003 έως το 2007, ο Ginsberg και οι συνεργάτες του εκτιμούσαν τη σχέση μεταξύ της επικράτησης της γρίπης στα δεδομένα του CDC και του όγκου αναζήτησης για 50 εκατομμύρια διαφορετικούς όρους. Από αυτή τη διαδικασία, η οποία ήταν εξ ολοκλήρου βασισμένη στα δεδομένα και δεν απαιτούσε εξειδικευμένες ιατρικές γνώσεις, οι ερευνητές βρήκαν ένα σύνολο 45 διαφορετικών ερωτημάτων που φαινόταν να είναι πιο προγνωστικά για τα δεδομένα επικράτησης της γρίπης του CDC. Στη συνέχεια, χρησιμοποιώντας τις σχέσεις που έμαθαν από τα δεδομένα του 2003-2007, ο Ginsberg και οι συνάδελφοί του εξέτασαν το μοντέλο τους κατά την εποχή της γρίπης 2007-2008. Διαπίστωσαν ότι οι διαδικασίες τους θα μπορούσαν πράγματι να κάνουν χρήσιμες και ακριβείς τώραcasts (σχήμα 2.6). Αυτά τα αποτελέσματα δημοσιεύθηκαν στο Nature και έλαβαν την κάλυψη του Τύπου. Αυτό το έργο - το οποίο ονομάστηκε Google Flu Trends - έγινε μια συχνά επαναλαμβανόμενη παραβολή σχετικά με τη δύναμη των μεγάλων δεδομένων για την αλλαγή του κόσμου.
Ωστόσο, αυτή η φαινομενική ιστορία επιτυχίας τελικά μετατράπηκε σε αμηχανία. Με την πάροδο του χρόνου, οι ερευνητές ανακάλυψαν δύο σημαντικούς περιορισμούς που καθιστούν την Google Flu Trends λιγότερο εντυπωσιακή από την αρχική εμφάνισή της. Πρώτον, η απόδοση της Google Flu Trends στην πραγματικότητα δεν ήταν πολύ καλύτερη από αυτή ενός απλού μοντέλου που υπολογίζει την ποσότητα της γρίπης με βάση ένα γραμμικό παρέκκλιμα από τις δύο πιο πρόσφατες μετρήσεις της επικράτησης της γρίπης (Goel et al. 2010) . Και, σε μερικές χρονικές περιόδους, η Google Flu Trends ήταν στην πραγματικότητα χειρότερη από αυτήν την απλή προσέγγιση (Lazer et al. 2014) . Με άλλα λόγια, η Google Flu Trends με όλα τα δεδομένα της, την εκμάθηση μηχανών και τον ισχυρό υπολογισμό δεν ξεπέρασε δραματικά ένα απλό και πιο κατανοητό ευρετικό. Αυτό υποδηλώνει ότι όταν αξιολογούμε οποιαδήποτε πρόβλεψη ή τώρα, είναι σημαντικό να συγκρίνουμε με μια βασική γραμμή.
Η δεύτερη σημαντική προειδοποίηση σχετικά με την Google Flu Trends είναι ότι η ικανότητά της να προβλέψει τα δεδομένα της γρίπης του CDC ήταν επιρρεπής σε βραχυπρόθεσμη αποτυχία και μακροχρόνια αποσύνθεση εξαιτίας της μετατόπισης και της αλγοριθμικής συγχύσεως . Για παράδειγμα, κατά τη διάρκεια της επιδημίας της γρίπης των χοίρων το 2009, η Google Flu Trends υπερεκτίμησε δραματικά την ποσότητα της γρίπης, πιθανότατα επειδή οι άνθρωποι τείνουν να αλλάζουν τη συμπεριφορά αναζήτησης σε ανταπόκριση στον ευρέως διαδεδομένο φόβο μιας παγκόσμιας πανδημίας (Cook et al. 2011; Olson et al. 2013) . Εκτός από αυτά τα βραχυπρόθεσμα προβλήματα, η απόδοση σταδιακά εξασθενούσε με την πάροδο του χρόνου. Η διάγνωση των λόγων αυτής της μακροχρόνιας αποσύνθεσης είναι δύσκολη επειδή οι αλγόριθμοι αναζήτησης της Google είναι ιδιοκτησιακοί, αλλά φαίνεται ότι το 2011 η Google άρχισε να προτείνει σχετικούς όρους αναζήτησης όταν οι άνθρωποι ψάχνουν για συμπτώματα της γρίπης όπως "πυρετός" και "βήχας" αυτή η λειτουργία δεν είναι πλέον ενεργή). Η προσθήκη αυτής της δυνατότητας είναι εντελώς εύλογο όταν εκτελείτε μια μηχανή αναζήτησης, αλλά αυτή η αλγοριθμική αλλαγή είχε ως αποτέλεσμα τη δημιουργία περισσότερων αναζητήσεων που σχετίζονται με την υγεία, γεγονός που προκάλεσε την υπερεκτίμηση της γρίπης της Google (Lazer et al. 2014) .
Αυτές οι δύο επιφυλάξεις περιπλέκουν τις μελλοντικές προσπάθειες τώρα, αλλά δεν τους καταδικάζουν. Στην πραγματικότητα, χρησιμοποιώντας πιο προσεκτικές μεθόδους, οι Lazer et al. (2014) και οι Yang, Santillana, and Kou (2015) κατάφεραν να αποφύγουν αυτά τα δύο προβλήματα. Προχωρώντας, αναμένω ότι οι μελέτες που τώρα συνδυάζουν μεγάλες πηγές δεδομένων με δεδομένα που συλλέγουν οι ερευνητές θα επιτρέψουν στις εταιρείες και τις κυβερνήσεις να δημιουργήσουν πιο έγκαιρες και πιο ακριβείς εκτιμήσεις, ουσιαστικά επιταχύνοντας κάθε μέτρηση που γίνεται επανειλημμένα με την πάροδο του χρόνου με κάποια καθυστέρηση. Τα έργα Nowcasting, όπως το Google Flu Trends, δείχνουν επίσης τι μπορεί να συμβεί εάν μεγάλες πηγές δεδομένων συνδυάζονται με πιο παραδοσιακά δεδομένα που δημιουργήθηκαν για σκοπούς έρευνας. Αναφορικά με την αναλογία τέχνης του κεφαλαίου 1, το nowcasting έχει τη δυνατότητα να συνδυάσει έτοιμες εκδηλώσεις τύπου Duchamp με προσαρμοσμένες μορφές Michelangelo προκειμένου να παράσχει στους υπεύθυνους λήψης αποφάσεων πιο έγκαιρες και ακριβέστερες μετρήσεις του παρόντος και προβλέψεις του εγγύς μέλλοντος.