2.4.2 Previsione e nowcasting

Predire il futuro è difficile, ma predire il presente è più facile.

La seconda strategia principale utilizzato dai ricercatori con i dati osservativi sta prevedendo. Predire il futuro è notoriamente difficile, ma può essere incredibilmente importante per i responsabili delle decisioni, sia che lavorino in aziende o governi.

Kleinberg et al. (2015) propone due storie che chiariscono l'importanza della previsione di alcuni problemi di politica. Immaginate un policy maker, chiamerò Anna, che sta affrontando un periodo di siccità e deve decidere se assumere uno sciamano a fare la danza della pioggia per aumentare la possibilità di pioggia. Un altro policy maker, chiamo lui Bob, deve decidere se prendere l'ombrello a lavorare per evitare di bagnarsi sulla strada di casa. Sia Anna e Bob possono prendere una decisione migliore se capiscono tempo, ma hanno bisogno di sapere cose diverse. Anna ha bisogno di capire se la danza della pioggia provoca la pioggia. Bob, d'altra parte, non ha bisogno di comprendere nulla causalità; ha solo bisogno di una previsione accurata. Ricercatori sociali spesso si concentrano su ciò che Kleinberg et al. (2015) chiamano "pioggia danza-come" problemi-quelli che si concentrano sulla causalità e ignorano problemi di politica "ombrello-like" che si concentrano sulle previsioni politiche.

Mi piacerebbe mettere a fuoco, però, su un particolare tipo di previsione chiamato nowcasting, un termine derivato dalla combinazione di "ora" e "previsione". Invece di prevedere il futuro, nowcasting tentativi di predire l'attuale (Choi and Varian 2012) . In altre parole, nowcasting utilizza metodi di previsione per problemi di misurazione. In quanto tale, dovrebbe essere particolarmente utile per i governi che necessitano di misure tempestive e accurate sui loro paesi. Nowcasting può essere illustrato nel modo più chiaro con l'esempio di Google Trend influenzali.

Immaginate che si sente un po 'sotto il tempo così si digita "rimedi influenza" in un motore di ricerca, ricevere una pagina di link in risposta, e quindi seguire uno di loro a una pagina web utile. Ora immaginate questa attività viene svolto dal punto di vista del motore di ricerca. Ogni momento, milioni di query sono in arrivo da tutto il mondo, e questo flusso di query-cosa Battelle (2006) ha chiamato la "banca dati delle intenzioni" - fornisce una finestra sempre aggiornata nella coscienza collettiva globale. Tuttavia, trasformando questo flusso di informazioni in una misura della prevalenza della influenza è difficile. Basta contare il numero di query per "rimedi influenza" potrebbe non funzionare bene. Non tutti coloro che hanno le ricerche di influenza per rimedi influenza e non tutti coloro che cercatori di rimedi influenza ha l'influenza.

Il trucco importante e intelligente dietro Google Trend influenzali è stato quello di trasformare un problema di misurazione in un problema di previsione. I Centri statunitensi per il controllo e la prevenzione delle malattie (CDC) ha un sistema di monitoraggio dell'influenza che raccoglie informazioni dai medici in tutto il paese. Tuttavia, un problema con questo sistema CDC è che c'è una settimana due rendicontazione lag; il tempo necessario per i dati che arrivano dai medici da pulire, processato, e pubblicato. Ma, durante la manipolazione di un'epidemia emergente, uffici di sanità pubblica non vogliono sapere quanto l'influenza ci fosse due settimane fa; vogliono sapere quanta influenza non vi è in questo momento. Infatti, in molte altre fonti tradizionali di dati sociali, ci sono spazi vuoti tra ondate di raccolta dei dati e ritardi di segnalazione. La maggior parte delle sorgenti di dati grandi, invece, sono sempre attiva (sezione 2.3.1.2).

Pertanto, Jeremy Ginsberg e colleghi (2009) hanno cercato di prevedere i dati influenza CDC dai dati di ricerca di Google. Questo è un esempio di "predire il presente", perché i ricercatori stavano cercando di misurare quanto l'influenza ora c'è da prevedere dati futuri dal CDC, dati di futuro che si misura il presente. Utilizzando machine learning, hanno cercato attraverso 50 milioni di diversi termini di ricerca per vedere quali sono i più predittivo dei dati influenza CDC. In ultima analisi, hanno trovato una serie di 45 diverse query che sembrava essere più predittiva, ei risultati sono stati abbastanza buoni: potrebbero usare i dati di ricerca per predire i dati CDC. Basata in parte su questo documento, che è stato pubblicato su Nature, Google Trend influenzali è diventata una storia di successo spesso ripetuto sul potere di dati di grandi dimensioni.

Ci sono due avvertimenti importanti a questo apparente successo, tuttavia, e la comprensione di questi avvertimenti vi aiuterà a valutare e fare previsione e nowcasting. In primo luogo, le prestazioni di Google Trend influenzali era effettivamente non molto meglio di un semplice modello che stima la quantità di influenza sulla base di una estrapolazione lineare dai due più recenti misurazioni di influenza prevalenza (Goel et al. 2010) . E, più di alcuni periodi di tempo Google Trend influenzali era in realtà peggio di questo approccio semplice (Lazer et al. 2014) . In altre parole, Google Trend influenzali con tutti i suoi dati, machine learning, e potenza di elaborazione non ha drammaticamente outperform un semplice e facile da capire euristica. Questo suggerisce che quando si valuta qualsiasi previsione o nowcast è importante confrontare con una linea di base.

La seconda importante avvertimento su Google Trend influenzali è che la sua capacità di predire i dati influenza CDC era incline al fallimento a breve termine e di degrado a lungo termine a causa della deriva e confondimento algoritmico. Ad esempio, durante il 2009 influenza suina focolaio di Google Trend influenzali drammaticamente sopravvalutato la quantità di influenza, probabilmente perché le persone tendono a cambiare il loro comportamento di ricerca in risposta ad una diffusa paura di una pandemia globale (Cook et al. 2011; Olson et al. 2013) . Oltre a questi problemi a breve termine, le prestazioni gradualmente decaduto nel tempo. Diagnosticare le ragioni di questo decadimento a lungo termine sono difficili perché gli algoritmi di ricerca di Google sono proprietari, ma sembra che nel 2011 Google ha apportato modifiche che potrebbero suggerire i termini di ricerca legati quando la gente cerca sintomi come "febbre" e "la tosse" (sembra anche che questa caratteristica non è più attivo). L'aggiunta di questa funzionalità è una cosa assolutamente ragionevole da fare se si esegue un business dei motori di ricerca, e ha avuto l'effetto di generare più ricerche relativi alla salute. Questo è stato probabilmente un successo per il business, ma ha causato Google Trend influenzali a un eccesso di stima influenza la prevalenza (Lazer et al. 2014) .

Fortunatamente, questi problemi con Google Trend influenzali sono risolvibili. Infatti, utilizzando i metodi più attenti, Lazer et al. (2014) e Yang, Santillana, and Kou (2015) sono stati in grado di ottenere risultati migliori. Andando avanti, mi aspetto che gli studi nowcasting che combinano dati di grandi dimensioni con il ricercatore raccolto dati-che combinano Readymades stile Duchamp con stile Michelangelo Custommades-consentiranno ai politici di produrre misure più rapida e precisa del presente e le previsioni del futuro.