2.4.2 Az előrejelzés és nowcasting

Előrejelzése a jövő nehéz, de előre a jelen könnyebb.

A második fő stratégia a kutatók a megfigyelési adatok jósol. Előrejelzése a jövő közismerten nehéz, de ez is hihetetlenül fontos a döntéshozók számára, hogy működnek a cégek vagy kormányok.

Kleinberg et al. (2015) kínál két történetet, hogy tisztázza, hogy fontos az előrejelzés az egyes politikai problémákat. Képzeljünk el egy döntéshozó, hívom őt Anna, aki szembesül a szárazság és el kell döntenie, hogy bérel egy sámán, hogy csinál egy eső tánc növeli az esélyét az eső. Egy másik döntéshozó, hívom őt Bob, el kell döntenie, hogy egy esernyő dolgozni, hogy elkerüljék, hogy nedves úton hazafelé. Anna és férje, Bob, hogy jobb döntést, ha értik az időjárás, de tudniuk kell, különböző dolog. Anna meg kell értenie, hogy az eső táncot okoz esőt. Bob, a másik viszont, nem kell, hogy a megértés semmit okság; csak meg kell pontos előrejelzést. Társadalomkutatók gyakran összpontosít mi Kleinberg et al. (2015) hívja "esőtáncot-szerű" politikai problémákat, amelyek középpontjában a kauzalitás-és figyelmen kívül hagyja "esernyő-szerű" politika problémákat, amelyek középpontjában az előrejelzést.

Szeretnék koncentrálni, azonban egy speciális fajtája az előrejelzési úgynevezett nowcasting -a származó fogalmat ötvözi a "most" és a "előrejelzés". Ahelyett, a jövő kifürkészésére, nowcasting megpróbálja megjósolni a jelenlegi (Choi and Varian 2012) . Más szóval, nowcasting használ előrejelzési módszereket problémák mérésére. Mint ilyen, különösen hasznosak lehetnek a kormányok, akik kellő időben történő és pontos intézkedések mintegy saját országukban. Nowcasting lehet illusztrálni a legvilágosabban a példa a Google Flu Trends.

Képzeld el, hogy az érzés egy kicsit az időjárás, így írja: "influenza elleni orvosságok" egy kereső, kap egy oldal link válaszként, és kövesse az egyiket egy hasznos weboldal. Most képzeljük el ezt a tevékenységet játszódott le, abból a szempontból a kereső. Minden pillanat, több millió lekérdezést érkeznek a világ minden tájáról, és ezt az áramot lekérdezések-mi Battelle (2006) már az úgynevezett "adatbázis szándék" - egy folyamatosan frissített ablak a kollektív globális tudat. Azonban fordult ez a patak információt a mérés a prevalenciája az influenza nehéz. Egyszerűen számítva fel száma lekérdezések "influenza elleni orvosságok" lehet, hogy nem működik jól. Nem mindenki, aki az influenza megkeresi influenza elleni orvosságok, és nem mindenki, aki a keresők számára influenza elleni orvosságok influenzás.

Az a fontos, és ügyes trükk mögött Google Flu Trends volt, hogy viszont a mérési probléma egy előrejelzési probléma. Az amerikai Centers for Disease Control and Prevention (CDC) egy influenza monitoring rendszer, amely adatokat gyűjt az orvosok szerte az országban. Azonban az egyik probléma ezzel a CDC rendszer van egy két hetes jelentési lag; mennyi időt vesz igénybe az érkező adatok orvosokat meg kell tisztítani, feldolgozása, és teszik közzé. De, ha kezelése egy feltörekvő járvány, közegészségügyi hivatalok nem akarja tudni, hogy mennyi az influenza volt két hete; akarják tudni, hogy mennyi az influenza van most. Tény, hogy sok más hagyományos forrásai társadalmi adatok, vannak hiányosságok hullámok között az adatgyűjtés és a jelentéstétel lemaradásokat. A legtöbb nagy adatforrások másrészt, mindig-on (Section 2.3.1.2).

Ezért Jeremy Ginsberg és munkatársai (2009) próbálta megjósolni a CDC influenza adatokat a Google keresési adatokat. Ez egy példa az "előre a jelen", mert a kutatók megpróbálták mérni, hogy mennyi az influenza van már azzal, hogy előre a jövőbeli adatok a CDC, jövő adatokat méri a jelen. A gépi tanulás, átkutatták a 50 millió különböző keresési kifejezésekre, amelyek a leginkább prediktív a CDC influenza adatokat. Végső soron, találtak egy sor 45 különböző lekérdezéseket úgy tűnt, hogy a legtöbb prediktív, és az eredmény elég jó: tudták használni a keresési adatokat megjósolni a CDC adatai. Alapján készült ez a dokumentum, amelyet a Nature című folyóiratban, a Google Flu Trends vált gyakran ismételt sikertörténet a hatalom nagy adat.

Két fontos kifogások, hogy ez a látszólagos siker, azonban, és megérteni ezeket a megfigyeléseket segít értékelni, és nem előrejelzés és nowcasting. Először is, a teljesítménye Google Influenzatrendek valójában nem sokkal jobb, mint egy egyszerű modellt, amely megbecsüli a mennyisége influenza alapuló lineáris extrapoláció a két legutóbbi mérések az influenza előfordulása (Goel et al. 2010) . És át néhány időszakok Google Influenzatrendek valójában rosszabb, mint ez az egyszerű módszer (Lazer et al. 2014) . Más szóval, a Google Flu Trends minden adata, a gépi tanulás, és nagy teljesítményű számítástechnikai nem drámaian felülmúlják egyszerű és könnyebben érthető heurisztikus. Ez azt sugallja, hogy értékelésekor bármilyen előrejelzést vagy nowcast fontos összehasonlítani viszonyítási alap.

A második fontos kikötés a Google Flu Trends, hogy képes megjósolni a CDC influenza adatok hajlamos volt a rövid távú kudarc és a hosszú távú bomlás miatt sodródás és algoritmikus zavaró. Például a 2009-es sertésinfluenza járvány Google Flu Trends drámaian túlértékelni összege influenza, valószínűleg azért, mert az emberek hajlamosak megváltoztatni a keresési viselkedését mutatják elterjedt félelem a globális járvány (Cook et al. 2011; Olson et al. 2013) . Amellett, hogy ezek a rövid távú problémák, a teljesítmény fokozatosan romlott az idő múlásával. Diagnosztizálása ennek az oka a hosszú távú hanyatlás nehéz, mert a Google keresési algoritmusok tulajdonát képezik, de úgy tűnik, hogy 2011-ben a Google módosította, ami azt sugallná kapcsolatos keresési kifejezések, amikor az emberek keresni a tünetek, mint a "láz" és a "köhögés" (ez is úgy tűnik, hogy ez a funkció nem aktív). Hozzátéve ez a funkció teljesen ésszerű dolog, ha fut a kereső üzleti, és ez volt a hatása, ami több egészséggel kapcsolatos keresések. Ez volt talán a siker az üzleti, de ez okozott Google Flu Trends fölébecslés influenza előfordulása (Lazer et al. 2014) .

Szerencsére, ezek a problémák a Google Flu Trends is javítható. Tény, hogy a használó több óvatos módszerek, Lazer et al. (2014) és a Yang, Santillana, and Kou (2015) tudták, hogy jobb eredményeket. Megy előre, azt várom, hogy nowcasting tanulmányok, amelyek egyesítik a nagy adatokat kutató gyűjtött adatokkal, amelyek egyesítik a Duchamp-style Readymades a Michaelangelo stílusú Custommades-lehetővé teszi a politikai döntéshozók számára gyorsabb és pontosabb méréseket a jelen és előrejelzések a jövő.