2.4.2 Prognoser og nowcasting

Å forutsi den fremtidige er vanskelig, men forutsi den fore er enklere.

Den andre hovedstrategien som brukes av forskere med observasjonsdata er prognoser. Forutsi fremtiden er notorisk vanskelig, men det kan være utrolig viktig for beslutningstakere, enten de jobber i selskaper eller myndigheter.

Kleinberg et al. (2015) har to historier som klargjør betydningen av prognoser for visse politiske problemer. Tenk deg en beslutningstaker, vil jeg kalle henne Anna, som står overfor en tørke og må bestemme om du vil leie en sjaman for å gjøre en regndans for å øke sjansen for regn. En annen beslutningstaker, vil jeg kalle ham Bob må bestemme om du vil ta en paraply for å arbeide for å unngå å bli våt på vei hjem. Både Anna og Bob kan gjøre en bedre beslutning om de forstår vær, men de trenger å vite forskjellige ting. Anna må forstå om regndans forårsaker regn. Bob, på den annen side, trenger ikke å forstå noe om kausalitet; han bare trenger en nøyaktig prognose. Samfunnsforskere ofte fokus på hva Kleinberg et al. (2015) kaller "regndans-lignende" politiske problemer-de som fokuserer på årsaks-og ignorere "paraply-lignende" politiske problemer som er fokusert på prognoser.

Jeg ønsker å fokusere, men på en spesiell type prognoser kalt nowcasting -a term avledet fra kombinere "nå" og "prognoser." Heller enn å forutsi fremtiden, nowcasting forsøk på å forutsi den nåværende (Choi and Varian 2012) . Med andre ord benytter nowcasting prognoser metoder for problemene med måling. Som sådan, bør det være spesielt nyttig for myndigheter som krever presis og nøyaktig måler ca sine land. Nowcasting kan illustreres tydeligst med eksempel på Googles influensastatistikk.

Tenk deg at du føler deg litt uopplagt så du skriver "influensa rettsmidler" i en søkemotor, får en side med linker som svar, og deretter følger en av dem til en nyttig nettside. Nå forestille denne aktiviteten som spilles ut fra perspektivet til søkemotoren. Hvert øyeblikk blir millioner av henvendelser som kommer fra hele verden, og denne strømmen av henvendelser-hva Battelle (2006) har kalt den "database intensjoner" - gir en kontinuerlig oppdatert vindu inn i den kollektive globale bevissthet. Imidlertid snu denne strømmen av informasjon i en måling av utbredelsen av influensa er vanskelig. Bare å telle opp antall forespørsler for "influensa rettsmidler" kan ikke fungere godt. Ikke alle som har influensa søker etter influensa rettsmidler, og ikke alle som søkere for influensa rettsmidler har influensa.

Det viktige og smart triks bak Googles influensastatistikk var å snu en måling problem i en prognose problem. US Centers for Disease Control and Prevention (CDC) har en influensa overvåkingssystem som samler informasjon fra leger rundt om i landet. Men ett problem med denne CDC-systemet er det en to ukers rapporterings lag; den tid det tar for å få de data som ankommer fra leger som skal renses, behandles, og publisert. Men, når du håndterer en voksende epidemi, folkehelse kontorer ønsker ikke å vite hvor mye influensa var det to uker siden; de ønsker å vite hvor mye influensa det er akkurat nå. Faktisk, i mange andre tradisjonelle kilder til sosiale data, det er hull mellom bølger av datainnsamling og rapportering etterslep. De fleste store datakilder, derimot, er alltid på (punkt 2.3.1.2).

Derfor Jeremy Ginsberg og kolleger (2009) prøvde å forutsi CDC influensa data fra Googles søkedata. Dette er et eksempel på "forutsi dagens" fordi forskerne prøvde å måle hvor mye influensa er det nå ved å forutsi fremtidige data fra CDC, fremtiden data som måler den nåværende. Ved hjelp av maskinlæring, de søkte gjennom 50 millioner forskjellige søkeord for å se hvilke som er mest forutsigbare av CDC influensa data. Til syvende og sist, fant de et sett med 45 forskjellige spørsmål som syntes å være mest forutsigbare, og resultatene var ganske bra: de kunne bruke søkedata for å forutsi CDC data. Basert på blant annet denne artikkelen, som ble publisert i Nature, ble Googles influensastatistikk en ofte gjentatt suksesshistorie om kraften i store data.

Det er to viktige begrensninger til denne tilsynelatende suksess, imidlertid, og forstå disse begrensningene vil hjelpe deg å vurdere og gjøre prognoser og nowcasting. Først resultatene av Googles influensastatistikk var faktisk ikke så mye bedre enn en enkel modell som beregner hvor mye influensa basert på en lineær ekstrapolering fra de to siste målingene av influensa prevalens (Goel et al. 2010) . Og over noen tidsperioder Googles influensastatistikk var faktisk verre enn denne enkle tilnærmingen (Lazer et al. 2014) . Med andre ord, det gjorde Googles influensastatistikk med alle sine data, maskinlæring, og kraftig databehandling ikke dramatisk utkonkurrere en enkel og enklere å forstå heuristisk. Dette tyder på at ved vurdering av enhver prognose eller nowcast er det viktig å sammenligne mot en baseline.

Den andre viktig påminnelse om Google Flu Trends er at dens evne til å forutsi CDC influensa data var utsatt for kortsiktig svikt og langsiktig forfall på grunn av drift og algoritmisk confounding. For eksempel, i løpet av 2009 svineinfluensa-utbruddet Googles influensastatistikk dramatisk overvurdert mengden av influensa, sannsynligvis fordi folk har en tendens til å endre sin søkeatferd i respons til utbredt frykt for en global pandemi (Cook et al. 2011; Olson et al. 2013) . I tillegg til disse kortsiktige problemer, ytelsen gradvis forfalt over tid. Diagnostisering årsakene til denne langsiktige forfallet er vanskelig fordi Googles søkealgoritmer er proprietær, men det ser ut til at i 2011 Google har gjort endringer som skulle tilsi relaterte søkeord når folk søker etter symptomer som "feber" og "hoste" (det også virke at denne funksjonen er ikke lenger aktiv). Legge denne funksjonen er en helt rimelig ting å gjøre hvis du kjører en søkemotor virksomhet, og det hadde den effekten av å generere flere helserelaterte søk. Dette var trolig en suksess for bedriften, men det forårsaket Google Flu Trends å overvurdere influensa prevalens (Lazer et al. 2014) .

Heldigvis disse problemene med Googles influensastatistikk er fixable. Faktisk, bruk av mer forsiktig metoder, Lazer et al. (2014) og Yang, Santillana, and Kou (2015) var i stand til å få bedre resultater. Fremover forventer jeg at nowcasting studier som kombinerer store data med forsker samlet data-som kombinerer Duchamp-stil readymades med Michaelangelo-stil Custommades-gjør at beslutningstakere til å produsere raskere og mer nøyaktig måling av nåværende og spådommer om fremtiden.