Predire il futuro è difficile, ma predire il presente è più facile.
La seconda strategia principale che i ricercatori possono utilizzare con i dati osservazionali è la previsione . Fare ipotesi sul futuro è notoriamente difficile, e forse per questa ragione, le previsioni non sono attualmente una grande parte della ricerca sociale (sebbene sia una piccola e importante parte della demografia, dell'economia, dell'epidemiologia e delle scienze politiche). Qui, tuttavia, vorrei concentrarmi su un tipo speciale di previsione chiamato nowcasting, un termine derivato dalla combinazione di "ora" e "previsione". Piuttosto che prevedere il futuro, nowcasting tenta di utilizzare le idee dalla previsione per misurare lo stato corrente del mondo; tenta di "prevedere il presente" (Choi and Varian 2012) . Nowcasting ha il potenziale per essere particolarmente utile per i governi e le aziende che richiedono misure tempestive e accurate del mondo.
Un setting in cui è molto chiara l'esigenza di misure tempestive e accurate è l'epidemiologia. Considera il caso dell'influenza ("l'influenza"). Ogni anno, le epidemie influenzali stagionali causano milioni di malattie e centinaia di migliaia di morti in tutto il mondo. Inoltre, ogni anno, c'è la possibilità che emerga una nuova forma di influenza che ucciderebbe milioni. Si stima che l'epidemia di influenza del 1918 abbia ucciso tra 50 e 100 milioni di persone (Morens and Fauci 2007) . A causa della necessità di tracciare e potenzialmente rispondere alle epidemie di influenza, i governi di tutto il mondo hanno creato sistemi di sorveglianza dell'influenza. Ad esempio, i Centri statunitensi per il controllo e la prevenzione delle malattie (CDC) raccolgono regolarmente e sistematicamente informazioni da medici attentamente selezionati in tutto il paese. Sebbene questo sistema produca dati di alta qualità, presenta un ritardo nel reporting. Cioè, a causa del tempo richiesto per i dati che arrivano dai medici per essere puliti, elaborati e pubblicati, il sistema CDC rilascia stime di quanto l'influenza ci sia stata due settimane fa. Ma, nel gestire un'emergenza emergente, i funzionari della sanità pubblica non vogliono sapere quanta influenza ci sia stata due settimane fa; vogliono sapere quanta influenza ci sia in questo momento.
Nello stesso tempo in cui il CDC sta raccogliendo dati per tenere traccia dell'influenza, Google sta anche raccogliendo dati sulla prevalenza dell'influenza, sebbene in una forma piuttosto diversa. Persone di tutto il mondo inviano continuamente query a Google e alcune di queste domande, come "rimedi contro l'influenza" e "sintomi influenzali", potrebbero indicare che la persona che ha effettuato la query ha l'influenza. Ma usare queste query di ricerca per stimare la prevalenza di influenza è difficile: non tutti quelli che hanno l'influenza fanno una ricerca correlata all'influenza, e non tutte le ricerche correlate all'influenza provengono da qualcuno che ha l'influenza.
Jeremy Ginsberg e un team di colleghi (2009) , alcuni di Google e alcuni di CDC, hanno avuto l'idea importante e intelligente di combinare queste due fonti di dati. Approssimativamente, attraverso una sorta di alchimia statistica, i ricercatori hanno combinato i dati di ricerca veloci e inaccurati con i dati CDC lenti e precisi al fine di produrre misurazioni rapide e accurate della prevalenza dell'influenza. Un altro modo per pensarci è che hanno usato i dati di ricerca per accelerare i dati CDC.
Più specificamente, utilizzando i dati dal 2003 al 2007, Ginsberg e colleghi hanno stimato la relazione tra la prevalenza dell'influenza nei dati CDC e il volume di ricerca per 50 milioni di termini distinti. Da questo processo, che era completamente guidato dai dati e non richiedeva conoscenze mediche specialistiche, i ricercatori hanno trovato una serie di 45 domande diverse che sembravano essere le più predittive dei dati sulla prevalenza dell'influenza CDC. Quindi, utilizzando le relazioni apprese dai dati del 2003-2007, Ginsberg e colleghi hanno testato il loro modello durante la stagione influenzale 2007-2008. Hanno scoperto che le loro procedure potevano effettivamente produrre informazioni utili e accurate (figura 2.6). Questi risultati sono stati pubblicati su Nature e hanno ricevuto copertura stampa adorante. Questo progetto, che si chiamava Google Trend influenzali, divenne una parabola ripetuta spesso sul potere dei big data di cambiare il mondo.
Tuttavia, questa apparente storia di successo si trasformò in un imbarazzo. Nel corso del tempo, i ricercatori hanno scoperto due importanti limitazioni che rendono Google Trend influenzale meno impressionante di quanto inizialmente apparisse. Innanzitutto, le prestazioni di Google Trend influenzali in realtà non erano molto migliori di quelle di un modello semplice che stima la quantità di influenza basata su un'estrapolazione lineare dalle due misurazioni più recenti della prevalenza dell'influenza (Goel et al. 2010) . E, in alcuni periodi, Google Trend influenzali è stato in realtà peggiore di questo approccio semplice (Lazer et al. 2014) . In altre parole, Google Trend influenzali con tutti i suoi dati, l'apprendimento automatico e il potente computing non hanno sovraperformato in maniera significativa un'euristica semplice e di più facile comprensione. Questo suggerisce che quando si valuta una previsione o un nowcast, è importante confrontarsi con una previsione.
Il secondo avvertimento importante su Google Trend influenzali è che la sua capacità di predire i dati sull'influenza CDC era incline a un fallimento a breve termine ea un decadimento a lungo termine a causa di deriva e confusione algoritmica . Ad esempio, durante l'epidemia di influenza suina 2009, Google Trend influenzò in modo drammatico la quantità di influenza, probabilmente perché le persone tendono a cambiare il loro comportamento di ricerca in risposta alla diffusa paura di una pandemia globale (Cook et al. 2011; Olson et al. 2013) . Oltre a questi problemi a breve termine, le prestazioni sono gradualmente decadute nel tempo. La diagnosi dei motivi di questo decadimento a lungo termine è difficile perché gli algoritmi di ricerca di Google sono proprietari, ma sembra che nel 2011 Google abbia iniziato a suggerire termini di ricerca correlati quando le persone cercano sintomi influenzali come "febbre" e "tosse" (sembra anche che questa funzione non è più attiva). Aggiungere questa funzione è una cosa assolutamente ragionevole se si sta eseguendo un motore di ricerca, ma questo cambiamento algoritmico ha avuto l'effetto di generare più ricerche relative alla salute che hanno indotto Google Trend influenzare la prevalenza dell'influenza (Lazer et al. 2014) .
Questi due avvertimenti complicano i futuri sforzi di nowcasting, ma non li condannano. Infatti, usando metodi più accurati, Lazer et al. (2014) e Yang, Santillana, and Kou (2015) sono stati in grado di evitare questi due problemi. Andando avanti, mi aspetto che gli studi nowcasting che combinano grandi fonti di dati con dati raccolti dai ricercatori consentiranno alle aziende e ai governi di creare stime più tempestive e accurate, essenzialmente accelerando le misurazioni ripetute nel tempo con un certo ritardo. I progetti di nowcasting come Google Trend influenzali mostrano anche cosa può accadere se le fonti di dati di grandi dimensioni sono combinate con dati più tradizionali che sono stati creati ai fini della ricerca. Ripensando all'analogia artistica del capitolo 1, il nowcasting ha il potenziale di combinare readymade in stile Duchamp con le mani in stile Michelangelo per fornire ai decisori misure più tempestive e accurate del presente e delle previsioni del prossimo futuro.