Előrejelzése a jövő nehéz, de előre a jelen könnyebb.
A második fő stratégiai kutató a megfigyelési adatokkal előre jelezhető . A jövőre vonatkozó találgatások igencsak nehézkesek, és talán éppen ezért az előrejelzés jelenleg nem része a társadalomkutatásnak (bár ez a demográfia, a közgazdaságtan, az epidemiológia és a politikai tudomány kicsi és fontos része). Itt azonban szeretnék összpontosítani egy speciális fajtája az előrejelzést nevezett nowcasting -a származó fogalmat ötvözi a „most” és a „előrejelzéséhez.” Ahelyett, hogy a jövő előrejelzése, nowcasting megpróbálja használni ötleteket előrejelzéséhez mérni a jelenlegi állapot a világnak; megpróbálja "megjósolni a jelenet" (Choi and Varian 2012) . A mostani közvetítés különösen hasznos lehet olyan kormányok és vállalatok számára, amelyek a világ időszerű és pontos intézkedéseit igénylik.
Az egyik olyan környezet, ahol az időszerű és pontos mérés szükségessége nagyon világos, az epidemiológia. Vegye figyelembe az influenza ("influenza") esetét. A szezonális influenza járványok évente több millió betegséget és több százezer halálesetet okoznak szerte a világon. Továbbá minden évben fennáll annak a lehetősége, hogy újfajta influenza alakulhat ki, amely több millió embert ölt meg. A becslések szerint például az 1918-as influenza járvány kitört 50 és 100 millió ember között (Morens and Fauci 2007) . Az influenza kitörések nyomon követése és potenciális reagálása miatt a világ kormányai influenzavizsgálati rendszereket hoztak létre. Például az Egyesült Államok Centers for Disease Control és Prevention (CDC) rendszeresen és szisztematikusan összegyűjti az információkat a gondosan kiválasztott orvosoktól az ország egész területén. Bár ez a rendszer jó minőségű adatokat szolgáltat, jelentési késéssel rendelkezik. Az, hogy az orvosoktól érkező adatok tisztításához, feldolgozásához és közzétételéhez szükséges idő miatt a CDC rendszer becsléseket tesz közzé arról, hogy mennyi influenza volt két héttel ezelőtt. De egy feltörekvő járvány kezelésénél a közegészségügyi tisztviselők nem akarják tudni, hogy mennyi influenza volt két héttel ezelőtt; azt akarják tudni, hogy mennyi influenza van most.
Ugyanakkor, hogy a CDC adatokat gyűjt az influenza nyomon követésére, a Google ugyancsak gyűjt adatokat az influenza prevalenciájáról, jóllehet meglehetősen eltérő formában. A világ minden tájáról érkező lekérdezések folyamatosan küldik a Google-t, és ezek közül néhány - például az "influenzaszerű gyógyszerek" és az "influenzaszerű tünetek" közül néhányan azt mutatják, hogy a lekérdezést végző személynek van influenza. De ezeknek a keresési lekérdezéseknek az alkalmazása az influenza prevalenciájának megbecsüléséhez nem megfelelő: nem mindenki, aki az influenzával rendelkezik influenzaszerű keresést végez, és nem minden influenzához kapcsolódó kereséstől származik az influenzavírus.
Jeremy Ginsberg és egy kollégák csapata (2009) , néhány a Google-nál és néhány a CDC-nél volt fontos és okos ötlet ezen két adatforrás összekapcsolására. Nagyjából egyfajta statisztikai alkímia révén a kutatók összekapcsolták a gyors és pontatlan keresési adatokat a lassú és pontos CDC-adatokkal annak érdekében, hogy gyors és pontos méréseket végezzenek az influenza prevalenciájáról. Egy másik módja annak, hogy gondoljunk rá, hogy a keresési adatokat használta fel a CDC adatok felgyorsítására.
Pontosabban, 2003-tól 2007-ig terjedő adatok felhasználásával Ginsberg és munkatársai becslése szerint az influenza prevalenciáját a CDC adatok és a keresési volumen közötti 50 millió különbségre becsülik. Ebből a folyamatból, amely teljesen adatvezérelt és nem igényelt speciális orvosi ismereteket, a kutatók összesen 45 különböző lekérdezést találták, amelyek úgy tűnt, hogy a leginkább előrejelezhetőek a CDC influenza prevalenciájáról. Ezután a 2003-2007-es adatokból származó kapcsolatok felhasználásával Ginsberg és munkatársai tesztelték modelljüket a 2007-2008-as influenza szezon alatt. Megállapították, hogy az eljárásuk valóban hasznos és pontos műtárgyakat eredményezhet (2.6. Ábra). Ezek az eredmények megjelentek a Természetben, és adományozó sajtófedést kaptak. Ez a projekt - amelyet a Google Influenzatrendeknek hívtak - gyakran ismétlődő példává vált a nagy adatok erejével a világ megváltoztatására.
Azonban ez a látszólagos sikertörténet végül zavart okozott. Idővel a kutatók két fontos korlátot fedeztek fel, amelyek a Google Influenzatrendeket kevésbé lenyűgözővé tették, mint eredetileg. Először is, a Google Influenzatrendek teljesítménye valójában nem sokkal jobb, mint egy egyszerű modell, amely becslése szerint az influenza mennyiségét az influenza prevalenciájának két legfrissebb mérésével (Goel et al. 2010) származó lineáris extrapoláció alapján állapították meg. És bizonyos időtartamok alatt a Google Influenzatrendek valójában rosszabbak voltak, mint ez az egyszerű megközelítés (Lazer et al. 2014) . Más szóval, a Google Influenzatrendek minden adataival, a gépi tanulással és az erőteljes számítástechnikával nem jártak drasztikusan felülmúlja egy egyszerű és könnyebben érthető heurisztikus megoldást. Ez azt sugallja, hogy az előrejelzés vagy az elárasztás értékelése során fontos összehasonlítani egy alapvonalat.
A Google Influenzatrendekről szóló második fontos megjegyzés, hogy a CDC influenza-adatok előrejelzésére való képesség hajlamos a rövid távú meghibásodásra és a hosszú távú bomlásra a sodródás és az algoritmikus zavarok miatt . Például a 2009-es sertésinfluenza-kitörés során a Google Influenzatrendek drasztikusan túlbecsülték az influenza mennyiségét, valószínűleg azért, mert az emberek hajlamosak megváltoztatni keresési magatartásukat a globális világjárvány széles körű félelmére adott válaszként (Cook et al. 2011; Olson et al. 2013) . Ezen rövid távú problémák mellett a teljesítmény fokozatosan idővel romlott. A hosszú távú bomlás okának diagnosztizálása nehézkes, mivel a Google keresési algoritmusai saját tulajdonúak, de úgy tűnik, hogy 2011-ben a Google a kapcsolódó keresési kifejezéseket javasolta, amikor az emberek olyan influenzaszerű tüneteket keresnek, mint a "láz" és a "köhögés" (úgy tűnik, ez a funkció már nem aktív). Ez a funkció hozzáadása teljesen ésszerűnek tűnik, ha keresőmotort futtat, de ez az algoritmikus változás hatására több, az egészségi vonatkozású keresést eredményezett, ami a Google Influenzatrendeket túlbecsülte az influenza prevalenciájával kapcsolatban (Lazer et al. 2014) .
Ez a két megfogalmazás bonyolítja a jövőbeni erőfeszítéseket, de nem árt meg. Valójában óvatosabb módszerek alkalmazásával Lazer et al. (2014) és Yang, Santillana, and Kou (2015) képesek voltak elkerülni ezt a két problémát. Előrehaladva azt gondolom, hogy a nagy adatforrások és a kutatók által összegyűjtött adatok kombinálásával kapcsolatos kutatások lehetővé teszik a vállalatok és a kormányok számára, hogy időszerűbb és pontosabb becsléseket hozzanak létre, lényegében felgyorsítva az idő múlásával ismételten végrehajtott méréseket, némi késéssel. A mostani promóciós projektek, például a Google Influenzatrendek azt is megmutatják, hogy mi történhet, ha a nagy adatforrások kombinálódnak a hagyományosabb adatokkal, amelyeket a kutatás céljából hoztak létre. Az 1. fejezet művészi analógiájára való gondolkodásmódban a mai műveknek lehetősége van arra, hogy Duchamp-stílusú readymades-t ötvözzenek a Michelangelo-stílusú custommades-szel, hogy a döntéshozók pontosabb és pontosabb méréseket adjanak a jelen és a közeljövő előrejelzéseinek.