Predpovedanie budúcnosti je ťažké, ale predpovedá prítomnosť je jednoduchšie.
Druhou hlavnou stratégiou využívajú výskumní pracovníci s pozorovacích dát predpovedá. Predpovedanie budúcnosti je notoricky ťažké, ale to môže byť nesmierne dôležité pre rozhodujú, či pracujú vo firmách či vlád.
Kleinberg et al. (2015) ponúka dva príbehy, ktoré objasňujú význam prognóz pre určité problémy politiky. Predstavte si, že jedna politika výrobcu, zavolám jej Annu, ktorá čelí sucho a musí sa rozhodnúť, či si najať šamana urobiť Rain Dance k zvýšeniu šance na dážď. Ďalším politika makier, budem mu hovoriť Bob, musí rozhodnúť, či si vziať dáždnik do práce, aby sa zabránilo navlhnutia na ceste domov. Obaja Anna a Bob môže urobiť lepšie rozhodnutia, pokiaľ pochopí počasie, ale potrebujú poznať rôzne veci. Anna je potrebné pochopiť, či dážď tanec spôsobuje dážď. Bob, na druhej strane, nie je nutné pre pochopenie nič o príčinnej súvislosti; jednoducho potrebuje presnú predpoveď. Sociálna vedci často zameriavajú na to, čo Kleinberg et al. (2015) nazývajú "Rain Dance podobné" problémy-tie politiky, ktoré sa zameriavajú na príčinnej súvislosti, a ignorovať problémy politiky "Umbrella-like", ktoré sú zamerané na predpovedanie.
Chcel by som sa zamerať však na špeciálnym druhom prognostického zvanej nowcastingu -a termín odvodený z kombinácie "teraz" a "predpovede". Skôr než predpovedanie budúcnosti, nowcastingu pokusy predpovedať súčasnosť (Choi and Varian 2012) . Inými slovami, nowcasting používa prognostické metódy pre problémy merania. Ako také by malo byť obzvlášť užitočné pre vlády, ktorí vyžadujú včasných a presných opatrení ohľadom svojich krajinách. Nowcasting možno ilustrovať najzreteľnejšie na príklade Chrípkové trendy Google.
Predstavte si, že sa cítite trochu pod vplyvom počasia, takže napíšete "chrípka opravné prostriedky" do vyhľadávača, dostane stránku odkazov v reakcii, a potom jednu z nich ústretovému webovej stránky. Teraz si predstavte, táto aktivita sa odohráva z pohľadu vyhľadávača. Každý okamih, milióny otázok prichádzajú z celého sveta, a tento prúd otázok-čo Battelle (2006) nazval "databázy zámerov" - poskytuje priebežne aktualizovanú okno do kolektívneho globálnej vedomia. Avšak, sústruženie tento prúd informácií do merania výskytu chrípky je ťažké. Jednoducho sčítaním počtu otázok pre "chrípky opravných prostriedkov" nemusí dobre fungovať. Nie každý, kto má chrípku vyhľadá chrípka opravné prostriedky a nie každý, kto hľadači pre chrípkových opravných prostriedkov má chrípku.
Dôležitou a šikovný trik za Chrípkové trendy Google bolo premeniť problém merania do prognostického problém. Americká centra pre kontrolu a prevenciu chorôb (CDC) má monitorovací systém chrípky, ktorý zhromažďuje informácie od lekárov po celej krajine. Avšak, jeden problém s týmto systémom CDC je, že je dvojtýždňová správ lag; čas potrebný pre dáta prichádzajúce od lekárov, ktoré majú byť čistené, spracovávané a publikované. Ale pri manipulácii s objavujúce epidémie, verejné zdravie úrady nechcú vedieť, koľko chrípky došlo pred dvoma týždňami; chcú vedieť, koľko chrípky je práve teraz. V skutočnosti, v mnohých iných tradičných zdrojov sociálnych údajov, existujú rozdiely medzi vlnami zberu dát a zaostáva vykazovania. Väčšina veľkých dátových zdrojov, na druhej strane, sú vždy-on (pozri kapitolu 2.3.1.2).
Z tohto dôvodu Jeremy Ginsberg a jeho kolegovia (2009) sa pokúsil predpovedať dáta chrípky CDC z údajov vyhľadávania Google. Toto je príklad "predpovedá súčasná", pretože vedci sa snažili zmerať, koľko chrípka je teraz tým, že predpovedá budúce údaje z CDC, budúce dáta, ktoré merajú darček. Používanie strojového učenia, ktoré prehľadal 50 miliónov rôznych vyhľadávacích dotazov a zistiť, ktoré sú najviac prediktívne dát chrípky CDC. Nakoniec našli rad 45 rôznych otázok, ktoré sa zdalo byť najviac prediktívne, a výsledky boli celkom dobré: oni mohli používať dátové vyhľadávanie predpovedať dáta CDC. Čiastočne založený na tomto článku, ktorý bol uverejnený v časopise Nature, Google Flu Trends sa stal často opakoval úspech o sile veľkých dát.
Existujú dve dôležité výhrady k tomuto zjavným úspechom, však, a porozumenie cez tieto výhrady vám pomôže vyhodnotiť a vykonať predpovedanie a nowcastingu. Po prvé, výkon Chrípkové trendy Google bola v skutočnosti nie je o moc lepšie ako jednoduchý model, ktorý odhaduje množstvo chrípky na základe lineárnej extrapolácie z posledných dvoch meraniach chrípky prevalencia (Goel et al. 2010) . A počas niekoľkých časových obdobiach Google Flu Trends bola v skutočnosti horšie, než tento jednoduchý prístup (Lazer et al. 2014) . Inými slovami, Google Flu Trends so všetkými údajmi, strojového učenia a výkonnú výpočtovú nemal výrazne predčí jednoduché a zrozumiteľnejšie heuristickej. To naznačuje, že pri hodnotení akékoľvek počasie alebo nowcast je dôležité pre porovnanie proti východiskovej hodnote.
Druhým dôležitým upozornením o Chrípkové trendy Google je, že jeho schopnosť predpovedať dáta chrípky CDC bol náchylný ku krátkodobému výpadku a dlhodobú rozpadu pretože driftu a algoritmického mätúcich. Napríklad počas roka 2009 prasacej chrípky Chrípkové trendy Google dramaticky preceňovaná množstvo chrípky, pravdepodobne preto, že ľudia majú tendenciu meniť svoje vyhľadávacie správanie v reakcii na rozšírený strach z globálnej pandémie (Cook et al. 2011; Olson et al. 2013) . Okrem týchto krátkodobých problémov, výkon postupne rozkladal v priebehu času. Diagnostikovanie dôvody tohto dlhodobého úpadku sú ťažké, pretože algoritmy vyhľadávania Google sú proprietárne, ale zdá sa, že v roku 2011 Google vykonali zmeny, ktoré by naznačovali, súvisiace hľadané výrazy, keď ľudia hľadať príznaky ako "horúčka" a "kašľa" (to tiež zdá, táto funkcia už nie je aktívny). Pridanie tejto funkcie je úplne rozumná vec robiť, ak používate Profesionálny vyhľadávač výrobkov a to malo za následok generovanie viac vyhľadávanie v súvislosti so zdravím. Pravdepodobne sa jedná o úspech pre podnikanie, ale to spôsobilo Google Flu Trends nadhodnotenie chrípky prevalencia (Lazer et al. 2014) .
Našťastie sa tieto problémy s Chrípkové trendy Google sú opraviteľný. V skutočnosti, s použitím opatrnejší metód, Lazer et al. (2014) a Yang, Santillana, and Kou (2015) boli schopní dosiahnuť lepšie výsledky. Do budúcnosti predpokladám, že nowcastingu štúdie, ktoré kombinujú veľkých objemov dát s výskumníkom nazbieraná data-, ktoré kombinujú Duchamp štýlu readymades s Michaelangelo štýlu Custommades-umožní politikom produkovať rýchlejšie a presnejšie meranie prítomnosti a predpovede budúcnosti.