2.4.2 Previsió i predicció immediata

Predir el futur és difícil, però la predicció de la present és més fàcil.

La segona estratègia principal utilitzada pels investigadors amb les dades d'observació és la previsió. Predir el futur és molt difícil, però pot ser molt important per als prenedors de decisions, ja sigui que treballin en empreses o governs.

Kleinberg et al. (2015) ofereix dues històries que aclareixen la importància de la previsió per a certs problemes de política. Imagineu-vos un formulador de polítiques, l'anomenaré Anna, que s'enfronta a una sequera i ha de decidir si contractar un xaman per fer una dansa de la pluja per augmentar la probabilitat de pluja. Un altre fabricant de la política, el trucaré Bob, ha de decidir si prendre un paraigua a treballar per evitar mullar-se en el camí a casa. Anna i Bob poden prendre una millor decisió si entenen temps, però necessiten saber coses diferents. Anna ha de entendre si la dansa de la pluja provoca la pluja. Bob, d'altra banda, no necessita comprendre res sobre la causalitat; només necessita un pronòstic precís. Els investigadors socials sovint se centren en el que Kleinberg et al. (2015) anomenen "pluja de ball com" problemes-els polítics que se centren en la causalitat-i ignoren els problemes de política "paraigua-com" que se centren en la predicció.

M'agradaria enfocar, però, en un tipus especial de previsió anomenada predicció immediata, un terme derivat de la combinació de "ara" i "predicció". En lloc de predir el futur, predicció immediata intents de predir la present (Choi and Varian 2012) . En altres paraules, la predicció immediata utilitza els mètodes de predicció per als problemes de mesurament. Com a tal, ha de ser especialment útil per als governs que requereixen mesures oportunes i precises sobre els seus països. Nowcasting es pot il·lustrar més clarament amb l'exemple de Google Estat de la grip.

Imagini que vostè se sent una mica en el temps i que escriu "remeis contra la grip" en un motor de cerca, rebrà una pàgina d'enllaços en resposta, a continuació, seguiu un d'ells a una pàgina web útil. Ara imagini aquesta activitat es juga des de la perspectiva del motor de cerca. Cada moment, milions de consultes estan arribant de tot el món, i aquest corrent de consultes del que Battelle (2006) ha anomenat la "base de dades d'intencions" - ofereix una finestra d'actualització constant en la consciència col·lectiva mundial. No obstant això, convertint aquest corrent d'informació en un mesurament de la prevalença de la grip és difícil. Simplement comptant el nombre de consultes de "remeis contra la grip" podria no funcionar bé. No tot el que té les recerques contra la grip per remeis contra la grip i no tots els que cercadors de remeis contra la grip té la grip.

El truc important i intel·ligent darrere de Google Flu Trends era convertir un problema de mesurament en un problema de pronòstic. Els Centres per al Control i la Prevenció de Malalties (CDC) també tenen un sistema de vigilància de la influença que recull la informació dels metges de tot el país. No obstant això, un problema amb aquest sistema és CDC hi ha un desfasament notificat dos a la setmana; el temps necessari perquè les dades que arriben dels metges que es vol netejar, processa i publica. Però, en manejar una epidèmia emergent, oficines de salut pública no volen saber la quantitat de la grip que hi havia fa dues setmanes; volen saber la quantitat de la grip hi ha en aquest moment. De fet, en moltes altres fonts tradicionals de dades socials, hi ha bretxes entre sèries de recollida de dades i retards d'informes. La majoria de les fonts de dades grans, per contra, són sempre activa (Secció 2.3.1.2).

Per tant, Jeremy Ginsberg i col·legues (2009) van tractar de predir les dades de la grip CDC partir de les dades de cerca de Google. Aquest és un exemple de "predir el present", perquè els investigadors estaven tractant de mesurar la quantitat de la grip hi ha ara mitjançant la predicció de futurs dades dels CDC, les dades futur que està mesurant el present. L'ús de la màquina d'aprenentatge, es van buscar a través de 50 milions de termes de cerca diferents per veure quins són els més predictiu de les dades de la grip dels CDC. Al final, es van trobar amb un conjunt de 45 diferents consultes que semblava ser més predictiu, i els resultats van ser força bons: poden utilitzar les dades de recerca de predir les dades dels CDC. Basat en part en el present document, que va ser publicat a la revista Nature, Google Flu Trends es va convertir en una història d'èxit repetit amb freqüència sobre el poder de grans volums de dades.

Hi ha dues advertències importants a aquesta aparent èxit, però, i la comprensió d'aquestes advertències l'ajudaran a avaluar i fer el pronòstic i la predicció immediata. En primer lloc, el rendiment de Google Flu Trends era en realitat no és molt millor que un model simple que calcula la quantitat de la grip a partir d'una extrapolació lineal de les dues mesures més recents de la prevalença de la grip (Goel et al. 2010) . I, en alguns períodes més Google Flu Trends era en realitat pitjor que aquest senzill enfocament (Lazer et al. 2014) . En altres paraules, Google Flu Trends, amb totes les seves dades, aprenentatge automàtic, i de gran abast de computació no se superen de manera espectacular un simple i fàcil d'entendre heurístic. Això suggereix que en l'avaluació de qualsevol pronòstic o nowcast és important comparar contra una línia de base.

La segona advertència important sobre Google Flu Trends és que la seva capacitat de predir les dades de la grip dels CDC era propens al fracàs a curt termini i la decadència a llarg termini a causa de la deriva i la confusió algorísmica. Per exemple, durant el 2009 brot de grip porcina Google Flu Trends dràsticament sobreestimat la quantitat de la grip, probablement perquè la gent tendeix a canviar el seu comportament de recerca en resposta a un temor generalitzat d'una pandèmia mundial (Cook et al. 2011; Olson et al. 2013) . A més d'aquests problemes a curt termini, el rendiment va decaure gradualment amb el temps. El diagnòstic de les causes d'aquest deteriorament a llarg termini són difícils a causa de que els algoritmes de cerca de Google són propietaris, però sembla que el 2011 Google va fer canvis que suggereixen els termes de cerca relacionats quan la gent busqui símptomes com "febre" i "tos" (que també sembla que aquesta funció ja no està actiu). L'addició d'aquesta característica és una cosa totalment raonable per a fer-ho si està executant una empresa de motors de recerca, i que tenia l'efecte de generar més cerques relacionades amb la salut. Això va ser probablement un èxit per al negoci, però va causar la grip de Google Trends per a la prevalença de la grip sobreestimació (Lazer et al. 2014) .

Afortunadament, aquests problemes amb Google Flu Trends es poden corregir. De fet, l'ús de mètodes més acurades, Lazer et al. (2014) i Yang, Santillana, and Kou (2015) van ser capaços d'obtenir millors resultats. En el futur, espero que els estudis de predicció immediata que combinen grans volums de dades amb l'investigador van recollir dades que combinen readymades d'estil Duchamp amb l'estil de Miguel Custommades-permetin als responsables polítics per produir mesuraments més ràpids i precisos de la present i les prediccions del futur.