Predir el futur és difícil, però la predicció de la present és més fàcil.
La segona estratègia principal que els investigadors poden utilitzar amb les dades observacionals és la previsió . Fer una conjectura sobre el futur és notoriament difícil, i potser per aquest motiu, la predicció no és actualment una gran part de la investigació social (tot i que és una petita i important part de la demografia, l'economia, l'epidemiologia i la ciència política). Aquí, però, m'agradaria centrar-me en un tipus de previsió especial anomenat nowcasting : un terme derivat de combinar "ara" i "predicció". En comptes de predir el futur, els intents actuals intenten utilitzar idees de la previsió per mesurar l'estat actual del món; intenta "predir el present" (Choi and Varian 2012) . Nowcasting té el potencial de ser especialment útil per als governs i empreses que requereixen mesures puntuals i precises del món.
Un entorn en el qual la necessitat d'una mesura puntual i precisa és molt clara és l'epidemiologia. Considereu el cas de la grip ("la grip"). Cada any, les epidèmies de grip estacional causen milions de malalties i centenars de milers de morts a tot el món. A més, cada any hi ha la possibilitat que pugui sorgir una nova forma de grip que mataria a milions. El brot de la grip de 1918, per exemple, s'estima que ha mort entre 50 i 100 milions de persones (Morens and Fauci 2007) . A causa de la necessitat de fer el seguiment i respondre potencialment als brots de grip, els governs de tot el món han creat sistemes de vigilància de la influença. Per exemple, els Centres de Control i Prevenció de Malalties dels Estats Units (CDC) recullen regularment i sistemàticament informació de metges acuradament seleccionats a tot el país. Encara que aquest sistema produeix dades d'alta qualitat, té un retard informatiu. És a dir, pel temps que es triga a netejar, processar i publicar les dades dels metges, el sistema CDC allibera estimacions sobre la quantitat de grip que hi havia fa dues setmanes. Però, quan maneja una epidèmia emergent, els funcionaris de salut pública no volen saber quanta influència hi havia fa dues setmanes; volen saber quanta influència hi ha ara mateix.
Al mateix temps que el CDC està recopilant dades per fer un seguiment de la grip, Google també recopila dades sobre la prevalença de la grip, encara que de forma força diferent. Les persones de tot el món envien constantment consultes a Google, i algunes d'aquestes consultes, com ara "remeis de la grip" i "símptomes de la grip", indiquen que la persona que fa la consulta té la grip. Tanmateix, fer servir aquestes consultes per estimar la prevalença de la grip és complicat: no tothom que té la grip fa una recerca relacionada amb la grip, i no totes les cerques relacionades amb la grip són d'algú que té la grip.
Jeremy Ginsberg i un equip de col·legues (2009) , alguns a Google i alguns a CDC, van tenir la idea important i intel·ligent de combinar aquestes dues fonts de dades. Aproximadament, a través d'una mena d'alquímia estadística, els investigadors van combinar les dades de cerca ràpides i inexactes amb les dades CDC lentes i precises per produir mesures ràpides i precises de la prevalença de la grip. Una altra manera de pensar-hi és que van utilitzar les dades de cerca per accelerar les dades de CDC.
Més específicament, utilitzant dades de 2003 a 2007, Ginsberg i els seus col·legues van estimar la relació entre la prevalença de grip a les dades CDC i el volum de cerca de 50 milions de termes diferents. A partir d'aquest procés, que va ser completament orientat a la informació i no requeria coneixements mèdics especialitzats, els investigadors van trobar un conjunt de 45 consultes diferents que semblaven ser més predictives de les dades de prevalença de la grip CDC. Després, utilitzant les relacions que van aprendre de les dades 2003-2007, Ginsberg i els seus col·legues van provar el seu model durant la temporada de grip 2007-2008. Van descobrir que els seus procediments podrien fer que els nowcasts siguin útils i precisos (figura 2.6). Aquests resultats es van publicar a Nature i van rebre una cobertura de premsa adoradora. Aquest projecte, anomenat Google Flu Trends, es va convertir en una paràbola repetida sovint sobre el poder de les grans dades per canviar el món.
Tanmateix, aquesta aparent història d'èxit es va convertir en una vergonya. Amb el pas del temps, els investigadors van descobrir dues limitacions importants que fan que Google Flu Trends sigui menys impressionant del que va aparèixer inicialment. En primer lloc, el rendiment de Google Flu Trends no era gaire millor que el d'un model simple que calcula la quantitat de grip basada en una extrapolació lineal de les dues mesures més recents de prevalença de grip (Goel et al. 2010) . I, en alguns períodes de temps, Google Flu Trends va ser en realitat pitjor que aquest enfocament senzill (Lazer et al. 2014) . En altres paraules, Google Flu Trends amb totes les seves dades, l'aprenentatge automàtic i una gran computació no va superar dràsticament una heurística simple i més fàcil d'entendre. Això suggereix que quan s'avalua qualsevol pronòstic o ara, és important comparar-se amb una línia de base.
La segona advertència important sobre Google Flu Trends és que la seva capacitat de predir les dades de la grip CDC era propensa a la fallada a curt termini i la decadència a llarg termini a causa de la deriva i la confusió algorítmica . Per exemple, durant el brot de la grip porcina 2009, Google Flu Trends va superar enormement la quantitat de grip, probablement perquè la gent tendeix a canviar el seu comportament de cerca com a resposta a la por a una pandèmia global (Cook et al. 2011; Olson et al. 2013) . A més d'aquests problemes a curt termini, el rendiment va decaure gradualment amb el temps. El diagnòstic dels motius d'aquesta decadència a llarg termini és difícil, ja que els algoritmes de cerca de Google són propietaris, però sembla que el 2011 Google va començar a suggerir termes de cerca relacionats quan la gent busca símptomes de grip com "febre" i "tos" (també sembla que aquesta funció ja no està activa). L'addició d'aquesta funció és totalment raonable si feu servir un motor de cerca però aquest canvi algorítmic té l'efecte de generar més cerques relacionades amb la salut que han provocat que Google Trends de la influència sobreestimen la prevalença de la grip (Lazer et al. 2014) .
Aquestes dues advertències compliquen els futurs esforços ara, però no els fan malbé. De fet, mitjançant mètodes més acurats, Lazer et al. (2014) i Yang, Santillana, and Kou (2015) van poder evitar aquests dos problemes. En endavant, espero que els estudis actuals que combinin grans fonts de dades amb dades recopilades per l'investigador permetran que les empreses i els governs creïn estimacions més oportunes i precises, accelerant essencialment qualsevol mesura que es faci repetidament al llarg del temps amb algun retard. Els projectes actuals, com ara Google Flu Trends, també mostren què pot passar si es combinen grans fonts de dades amb dades més tradicionals creades per a la recerca. Pensant en l'analogia artística del capítol 1, ara es pot combinar els readymades d'estil Duchamp amb els costums d'estil Michelangelo per tal de proporcionar als responsables de prendre decisions més precises i més precises del present i les prediccions del futur proper.