2.4.2 Spá og nowcasting

Spá fyrir um framtíðina er erfitt, en spá staðar er auðveldara.

Annað Helstu tækni notuð af vísindamönnum við observational gögn spáir. Spá fyrir um framtíðina er afar erfitt, en það getur verið ótrúlega mikilvægt fyrir ákvarðanir, hvort sem þeir vinna í fyrirtækjum eða ríkisstjórnir.

Kleinberg et al. (2015) býður upp á tvær sögur sem skýra mikilvægi spá fyrir tiltekna vandamál stefnu. Ímyndaðu Ein stefna framleiðandi, ég kalla Anna hennar, sem er frammi fyrir þurrkum og verður að ákveða hvort að ráða shaman að gera rigning dans til að auka líkur á rigningu. Annar stefnu framleiðandi, ég kalla hann Bob, verður að ákveða hvort eigi að taka með regnhlíf til að vinna að koma í veg fyrir að blotna á leiðinni heim. Bæði Anna og Bob er hægt að gera betri ákvörðun ef þeir skilja veður, en þeir þurfa að vita mismunandi hluti. Anna þarf að skilja hvort rigning dans veldur rigning. Bob, á hinn bóginn, þarf ekki að skilja neitt um orsakasamhengi; hann þarf bara að rétta spá. Félagsleg vísindamenn áherslu oft á það sem Kleinberg et al. (2015) kalla "rigning dans-eins og" stefnu vandamál, þeir sem leggja áherslu á orsakasamhengi-og hunsa "regnhlíf eins" stefnu vandamál sem eru lögð áhersla á að spá.

Mig langar til að einbeita sér, þó á sérstaka tegund af verð- kallast nowcasting -a tíma fellur sameina "núna" og "spá." Frekar en að spá fyrir um framtíðina, nowcasting tilraunir til að spá fyrir gjöfina (Choi and Varian 2012) . Með öðrum orðum, nowcasting notar spá aðferðir til vandamálum mælingu. Eins og svo, það ætti að vera sérstaklega gagnlegt að ríkisstjórnum sem krefjast tímanlega og nákvæmar ráðstafanir um lönd þeirra. Nowcasting má skýra flest greinilega með dæmi um Google Flensa Trends.

Ímyndaðu þér að þú ert svolítið undir veður svo þú skrifar "flensu úrræði" í leitarvél, fá síðu af tenglum í svar, og þá fylgja einn af þeim til hjálpsamur vefsíðu. Nú ímynda starfsemin sé spilað út frá sjónarhóli leitarvél. Sérhver stund, milljónir fyrirspurnir eru komnir frá í kring the veröld, og þetta straumi fyrirspurnum-hvað Battelle (2006) hefur kallað "gagnagrunnur fyrirætlanir" - gefur stöðugt uppfærður glugga í sameiginlega alþjóðlegu meðvitund. Hins vegar beygja þetta straum af upplýsingum í mælingu á algengi flensu er erfitt. Einfaldlega telja upp fjölda fyrirspurna um "flensu úrræði" gætu ekki virka vel. Ekki allir sem hafa flensu leitar flensu úrræði og ekki allir sem leitandi flensu úrræði hefur flensu.

The mikilvægur og snjall bragð bak Google Flensa Trends var að snúa mælingu vandamál í spá vandamál. The US Centers for Disease Control og varnir (CDC) hefur inflúensu eftirlitskerfi sem safnar upplýsingum frá læknum um allt land. Hins, eitt vandamál með þessa CDC kerfi er að það er tveggja vikna skýrslugerð töf; þann tíma sem það tekur fyrir þau gögn sem koma frá læknum til að hreinsa, unnin og birt. En, þegar meðhöndlun nýtilkomna faraldur, ekki Heilbrigðisnefndir skrifstofur vil ekki vita hversu mikið inflúensu það var fyrir tveimur vikum; þeir vilja vita hversu mikið inflúensu er núna. Í staðreynd, í mörgum öðrum hefðbundnum heimildum félagslega gögnum, það eru eyður milli öldum gagnasöfnun og skýrslugerð lags. Flestir stór gögn heimildum, á hinn bóginn, eru alltaf-á (kafli 2.3.1.2).

Því Jeremy Ginsberg og samstarfsmenn (2009) reynt að spá fyrir um CDC flensu gögn frá the leita gögnum Google. Þetta er dæmi um "spá núverandi" vegna þess að vísindamenn voru að reyna að mæla hversu mikið flensa er nú með spá framtíð gögn frá CDC, framtíð gögnum sem er að mæla staðar. Using vél nám, leitaði þeir með 50 milljón mismunandi leitarskilyrði til að sjá hver eru flest forspárgildi um CDC flensu gögnum. Á endanum, þeir fundu að setja af 45 mismunandi fyrirspurnir sem virtist vera mest forspárgildi, og niðurstöðurnar voru nokkuð góð: þeir gætu notað leitina gögn til að spá fyrir um CDC gögn. Byggt að hluta til á þessari grein, sem birt var í Nature, Google Flensa Trends varð oft endurtekin velgengni saga um mátt stór gögn.

Það eru tvö mikilvæg hellir þessari góðum árangri, hins vegar, og skilja þessar hellir mun hjálpa þér að meta og gera spár og nowcasting. First, the flutningur af Google Flensa Trends var reyndar ekki mikið betri en einföldu líkani sem metur magn af flensu sem byggist á línulegri framreikningi frá tveimur nýjustu mælingum á algengi flensu (Goel et al. 2010) . Og yfir sumum tímabilum Google Flensa Trends var í raun verri en þessari einföldu aðferð (Lazer et al. 2014) . Með öðrum orðum, Google Flensa Trends með öllum gögnum þess, vél nám, og öflugur computing ekki verulega betur einfalt og auðveldara að skilja leitandi. Þetta bendir til þess að við mat á hvaða spá eða nowcast það er mikilvægt að bera saman gegn grunngildi.

Annað mikilvægt hellir um Google Flensa Trends er að geta hennar til að spá fyrir um CDC flensu gögn voru tilhneigingu til skamms tíma bilun og langtíma hnignun vegna skriðs og algrími truflandi. Til dæmis, á 2009 svínaflensu braust Google Flensa Trends verulega ofmetið magn af inflúensu, líklega vegna þess að menn hafa tilhneigingu til að breyta leitarsvæðið hegðun sinni til að bregðast við útbreidd ótta við alþjóðlegt heimsfaraldur (Cook et al. 2011; Olson et al. 2013) . Í viðbót við þessar skammtíma vandamál, flutningur skemmdar smám saman með tímanum. Greining ástæður fyrir þessu langtíma rotnun er erfitt vegna þess að Google leit reiknirit eru sér, en það virðist sem árið 2011 Google gert breytingar sem myndu stinga tengjast leitarskilyrði þegar fólk leitar að einkennum eins og "hita" og "hósta" (það virðast líka að þessi eiginleiki er ekki lengur virk). Að fá þetta er algerlega sanngjarnt að gera ef þú ert að keyra leitarvél fyrirtæki, og það hafði áhrif að búa til fleiri heilsutengda leitir. Þetta var líklega vel fyrir fyrirtæki, en það olli Google Flu Trends til yfir-áætlun flensu algengi (Lazer et al. 2014) .

Sem betur fer, þessi vandamál með Google Flensa Trends eru fixable. Í raun, með því að nota fleiri varkár aðferðir, Lazer et al. (2014) og Yang, Santillana, and Kou (2015) gátu til að fá betri árangur. Fara fram, búast ég að nowcasting rannsóknir sem sameina stór gögn með rannsóknir safnað gögnum-sem sameina Duchamp-stíl Readymades með Michaelangelo-stíl Custommades-gera kleift stefnumótendur til að framleiða hraðar og nákvæmara mælingar af nútíð og spár um framtíðina.