2.4.2 vooruitskatting en nowcasting

Die voorspelling van die toekoms is moeilik, maar die voorspelling van die huidige is makliker.

Die tweede belangrikste strategie wat gebruik word deur navorsers met waarneming data voorspel. Die voorspelling van die toekoms is berug moeilik, maar dit kan baie belangrik vir besluitnemers wees, of hulle werk in maatskappye of regerings.

Kleinberg et al. (2015) bied twee stories wat die belangrikheid van vooruitskatting verduidelik vir sekere probleme beleid. Stel jou voor 'n beleidmaker, sal ek haar Anna, wat in die gesig staar 'n droogte en moet besluit of 'n sjamaan huur om te doen 'n reëndans om die kans op reën verhoog noem. Nog 'n beleidmaker, sal ek hom bel Bob, moet besluit of 'n sambreel te neem om te werk om te verhoed dat nat op die pad huis toe. Beide Anna en Bob kan 'n beter besluit te neem as hulle weer verstaan, maar wat hulle nodig het om verskillende dinge te weet. Anna nodig om te verstaan ​​of die reëndans veroorsaak reën. Bob, aan die ander kant, het nie nodig om iets oor oorsaaklikheid verstaan; Hy moet net 'n akkurate skatting. Sosiale navorsers dikwels fokus op wat Kleinberg et al. (2015) noem "reëndans-agtige" beleidsprobleme-dié wat fokus op oorsaaklikheid-en "sambreel-agtige" beleid probleme wat gerig is op vooruitskatting ignoreer.

Ek wil graag om te fokus egter op 'n spesiale soort voorspelling genoem nowcasting -a termyn afgelei van die kombinasie van "nou" en "vooruitskatting." Eerder as om die toekoms te voorspel, nowcasting pogings om die huidige voorspel (Choi and Varian 2012) . Met ander woorde, nowcasting gebruik vooruitskatting metodes vir probleme van meting. As sodanig, moet dit veral nuttig om regerings wat tydige en akkurate maatreëls oor hul lande vereis word. Nowcasting kan die duidelikste geïllustreer met die voorbeeld van Google Flu Trends.

Stel jou voor dat jy voel 'n bietjie onder die weer, sodat jy tik "griep middels" in 'n soektog, ontvang 'n bladsy met skakels na aanleiding, en volg dan een van hulle 'n nuttige webblad. Stel jou nou voor hierdie aktiwiteit wat uitgevoer word vanuit die perspektief van die soektog gespeel. Elke oomblik, miljoene navrae aankom van regoor die wêreld, en hierdie stroom van navrae-wat Battelle (2006) die "databasis van bedoelings" het 'n beroep - bied 'n voortdurend opgedateer venster in die kollektiewe globale bewussyn. Maar draai hierdie stroom van inligting in 'n meting van die voorkoms van die griep is moeilik. Eenvoudig tel die aantal navrae vir "griep middels" dalk nie goed werk. Nie almal wat die griep soektogte vir griep middels en nie almal wat gebruikers vir griep middels het die griep.

Die belangrikste en slim truuk agter Google Flu Trends was om 'n meting probleem te omskep in 'n vooruitskatting probleem. Die Amerikaanse Centers for Disease Control & Prevention (CDC) het 'n griep monitering stelsel wat inligting van dokters in die land versamel. Maar een probleem met hierdie CDC stelsel is daar 'n twee week verslagdoening lag; die tyd wat dit neem vir die data wat uit dokters wat skoongemaak moet word, verwerk en gepubliseer. Maar, wanneer die hantering van 'n opkomende epidemie, openbare gesondheid kantore wil nie weet hoeveel griep daar was twee weke gelede, Hulle wil weet hoeveel griep daar op die oomblik. Trouens, in baie ander tradisionele bronne van sosiale data, is daar gapings tussen golwe van data-insameling en verslagdoening lags. Die meeste groot databronne, aan die ander kant, is altyd-op (Afdeling 2.3.1.2).

Daarom, Jeremy Ginsberg en kollegas (2009) het probeer om die CDC griep data voorspel van die soektog data van Google. Dit is 'n voorbeeld van "voorspelling van die huidige" omdat die navorsers probeer om te meet hoeveel griep daar nou deur die voorspelling van toekomstige data van die CDC, toekomstige data wat meet die hede. Die gebruik van masjienleer, deursoek hulle deur 50 miljoen verskillende soekterme te sien wat die meeste voorspellende van die CDC griep data is. Uiteindelik het hulle 'n stel van 45 verskillende navrae wat skynbaar mees voorspelbare te wees, en die resultate was baie goed: hulle kon die soektog data gebruik om die CDC data voorspel. Gebaseer gedeeltelik op hierdie vraestel, wat in Nature gepubliseer is, Google Flu Trends het 'n dikwels herhaal sukses storie oor die krag van die groot data.

Daar is twee belangrike voorbehoude om hierdie oënskynlike sukses, egter, en die begrip van hierdie tekortkominge sal jou help om te evalueer en te doen vooruitskatting en nowcasting. Eerstens, die prestasie van Google Flu Trends was eintlik nie veel beter as 'n eenvoudige model wat die bedrag van die griep wat gebaseer is op 'n lineêre ekstrapolasie van die twee mees onlangse metings van griep voorkoms skat (Goel et al. 2010) . En oor 'n geruime tyd periodes Google Flu Trends was eintlik erger as hierdie eenvoudige benadering (Lazer et al. 2014) . Met ander woorde, het Google Flu Trends met al sy data, masjienleer, en 'n kragtige rekenaar nie dramaties te klop 'n eenvoudige en maklik om heuristiese verstaan. Dit dui daarop dat wanneer die evaluering van 'n voorspelling of nowcast is dit belangrik om te vergelyk teen 'n basislyn.

Die tweede belangrike caveat oor Google Flu Trends is dat sy vermoë om die CDC griep data voorspel was geneig om kort termyn mislukking en langtermyn verval as gevolg van wegdrywing en algoritmiese confounding. Byvoorbeeld, gedurende die 2009 Varkgriep uitbreek Google Flu Trends dramaties oorskat die bedrag van griep, waarskynlik omdat mense geneig is om hul soektog gedrag in reaksie verander tot wydverspreide vrees vir 'n wêreldwye pandemie (Cook et al. 2011; Olson et al. 2013) . Behalwe vir hierdie kort termyn probleme, die prestasie geleidelik verval met verloop van tyd. Diagnose van die redes hiervoor langtermyn verval is moeilik, want die Google-soektog algoritmes is die eiendom, maar dit blyk dat in 2011 Google gemaak veranderinge wat sou raai verwante soekterme wanneer mense soek vir simptome soos "koors" en "hoes" (dit lyk ook dat hierdie funksie is nie meer aktief). hierdie funksie toe te voeg is 'n heeltemal redelike ding om te doen as jy 'n soektog besigheid, en dit het die effek van die opwekking van meer gesondheidsverwante navrae. Dit was waarskynlik 'n sukses vir die besigheid, maar dit veroorsaak Google Flu Trends om oor-skatting griep voorkoms (Lazer et al. 2014) .

Gelukkig het hierdie probleme met Google Flu Trends is fixable. Trouens, die gebruik van meer versigtig metodes, Lazer et al. (2014) en Yang, Santillana, and Kou (2015) was in staat om beter resultate te kry. Om vorentoe te beweeg, ek verwag dat nowcasting studies wat groot data kombineer met navorser ingesamel data-dat Duchamp-styl Readymades kombineer met Michaelangelo-styl Custommades-sal beleidmakers in staat stel om vinniger en meer akkurate metings van die huidige en voorspellings van die toekoms te produseer.