2.4.2 předpovídání a nowcasting

Předpovídání budoucnosti je těžké, ale předpovídá přítomnost je jednodušší.

Druhou hlavní strategií využívají výzkumní pracovníci s pozorovacích dat předpovídá. Předpovídání budoucnosti je notoricky obtížné, ale to může být nesmírně důležité pro rozhodují, zda pracují ve firmách či vlád.

Kleinberg et al. (2015) nabízí dva příběhy, které objasňují význam prognóz pro určité problémy politiky. Představte si, že jedna politika výrobce, zavolám jí Annu, která čelí sucho a musí se rozhodnout, zda si najmout šamana udělat Rain Dance ke zvýšení šance na déšť. Dalším politika maker, budu mu říkat Bob, musí rozhodnout, zda si vzít deštník do práce, aby se zabránilo navlhnutí na cestě domů. Oba Anna a Bob může udělat lepší rozhodnutí, pokud pochopí počasí, ale potřebují znát různé věci. Anna je třeba pochopit, zda déšť tanec způsobuje déšť. Bob, na druhé straně, není nutné pro pochopení nic o příčinné souvislosti; prostě potřebuje přesnou předpověď. Sociální vědci často zaměřují na to, co Kleinberg et al. (2015) nazývají "Rain Dance podobné" problémy-ty politiky, které se zaměřují na příčinné souvislosti, a ignorovat problémy politiky "Umbrella-like", které jsou zaměřené na předpovídání.

Chtěl bych se zaměřit však na speciálním druhem prognostického zvané nowcastingu -a termín odvozený z kombinace "teď" a "předpovědi". Spíše než předpovídání budoucnosti, nowcastingu pokusy předpovídat současnost (Choi and Varian 2012) . Jinými slovy, nowcasting používá prognostické metody pro problémy měření. Jako takové by mělo být zvláště užitečné pro vlády, které vyžadují provádění aktuálních a přesných opatření ohledně svých zemích. Nowcasting lze ilustrovat nejzřetelněji na příkladu Chřipkové trendy Google.

Představte si, že se cítíte trochu pod vlivem počasí, takže napíšete "chřipka opravné prostředky" do vyhledávače, obdrží stránku odkazů v reakci, a potom jednu z nich vstřícnému webové stránky. Teď si představte, tato aktivita se odehrává z pohledu vyhledávače. Každý okamžik, miliony dotazů přicházejí z celého světa, a tento proud dotazů-co Battelle (2006) nazval "databáze záměrů" - poskytuje průběžně aktualizovanou okno do kolektivního globální vědomí. Nicméně, soustružení tento proud informací do měření výskytu chřipky je obtížné. Jednoduše sečtením počtu dotazů pro "chřipky opravných prostředků" nemusí dobře fungovat. Ne každý, kdo má chřipku vyhledá chřipka opravné prostředky a ne každý, kdo hledači pro chřipkových opravných prostředků má chřipku.

Důležitou a chytrý trik za Chřipkové trendy Google bylo proměnit problém měření do prognostického problém. Americká centra pro kontrolu a prevenci nemocí (CDC) má monitorovací systém chřipky, který shromažďuje informace od lékařů po celé zemi. Nicméně, jeden problém s tímto systémem CDC je, že je dvoutýdenní zpráv lag; čas potřebný pro data přicházející od lékařů, které mají být čištěny, zpracovávány a publikovány. Ale při manipulaci s objevující epidemie, veřejné zdraví úřady nechtějí vědět, kolik chřipky došlo před dvěma týdny; chtějí vědět, kolik chřipky je právě teď. Ve skutečnosti, v mnoha jiných tradičních zdrojů sociálních údajů, existují rozdíly mezi vlnami sběru dat a zaostává vykazování. Většina velkých datových zdrojů, na druhé straně, jsou vždy-on (viz kapitola 2.3.1.2).

Z tohoto důvodu Jeremy Ginsberg a jeho kolegové (2009) se pokusil předpovědět data chřipky CDC z údajů vyhledávání Google. Toto je příklad "předpovídá současná", protože vědci se snažili změřit, kolik chřipka je nyní tím, že předpovídá budoucí údaje z CDC, budoucí data, která měří dárek. Používání strojového učení, které prohledal 50 milionů různých vyhledávacích dotazů a zjistit, které jsou nejvíce prediktivní dat chřipky CDC. Nakonec našli řadu 45 různých dotazů, které se zdálo být nejvíce prediktivní, a výsledky byly docela dobré: oni mohli používat datové vyhledávání předpovědět data CDC. Částečně založen na tomto článku, který byl zveřejněn v časopise Nature, Google Flu Trends se stal často opakoval úspěch o síle velkých dat.

Existují dvě důležité výhrady k tomuto zjevným úspěchem, nicméně, a porozumění přes tyto výhrady vám pomůže vyhodnotit a provést předpovídání a nowcastingu. Za prvé, výkon Chřipkové trendy Google byla ve skutečnosti není o moc lepší než jednoduchý model, který odhaduje množství chřipky na základě lineární extrapolací z posledních dvou měřeních chřipky prevalence (Goel et al. 2010) . A během několika časových obdobích Google Flu Trends byla ve skutečnosti horší, než tento jednoduchý přístup (Lazer et al. 2014) . Jinými slovy, Google Flu Trends se všemi údaji, strojového učení a výkonnou výpočetní neměl výrazně předčí jednoduché a srozumitelnější heuristické. To naznačuje, že při hodnocení jakékoliv počasí nebo nowcast je důležité pro porovnání proti výchozí hodnotě.

Druhým důležitým upozorněním o Chřipkové trendy Google je, že jeho schopnost předpovídat data chřipky CDC byl náchylný ke krátkodobému výpadku a dlouhodobou rozpadu protože driftu a algoritmického matoucích. Například během roku 2009 prasečí chřipky Chřipkové trendy Google dramaticky přeceňována množství chřipky, pravděpodobně proto, že lidé mají tendenci měnit své vyhledávací chování v reakci na rozšířený strach z globální pandemie (Cook et al. 2011; Olson et al. 2013) . Kromě těchto krátkodobých problémů, výkon postupně rozkládal v průběhu času. Diagnostikování důvody tohoto dlouhodobého úpadku jsou obtížné, protože algoritmy vyhledávání Google jsou proprietární, ale zdá se, že v roce 2011 Google provedli změny, které by naznačovaly, související hledané výrazy, když lidé hledat příznaky jako "horečka" a "kašle" (to také zdá, tato funkce již není aktivní). Přidání této funkce je zcela rozumná věc dělat, pokud používáte Profesionální vyhledávač výrobků a to mělo za následek generování více vyhledávání v souvislosti se zdravím. Pravděpodobně se jedná o úspěch pro podnikání, ale to způsobilo Google Flu Trends nadhodnocení chřipky prevalence (Lazer et al. 2014) .

Naštěstí se tyto problémy s Chřipkové trendy Google jsou opravitelný. Ve skutečnosti, s použitím opatrnější metod, Lazer et al. (2014) a Yang, Santillana, and Kou (2015) byli schopni dosáhnout lepších výsledků. Do budoucna předpokládám, že nowcastingu studie, které kombinují velkých objemů dat s výzkumníkem nasbíraná data-, které kombinují Duchamp stylu readymades s Michaelangelo stylu Custommades-umožní politikům produkovat rychlejší a přesnější měření přítomnosti a předpovědi budoucnosti.