2.4.2 Napovedovanje in kratkoročnega napovedovanja

Napovedovanje prihodnosti je težko, vendar napovedujejo darilo je lažje.

Druga glavna strategija, ki jo uporabljajo raziskovalci pri opazovalnih podatkov napovedovanje. Napovedovanje prihodnosti je notoričen težko, vendar je lahko zelo pomembna za nosilce odločanja, ali delajo v podjetjih ali vlade.

Kleinberg et al. (2015) ponuja dve zgodbi, ki pojasnjujejo pomen napovedi za nekatere probleme politike. Predstavljajte si, da eno politično kavo, bom poklical svojo Ano, ki se sooča s sušo in se mora odločiti, ali najeti šaman narediti dež ples poveča možnost dežja. Druga politika kavo, ga bom poklical Bob, se mora odločiti, ali bo dežnik za delo, da se prepreči pridobivanje mokro na poti domov. Tako Anna in Bob lahko boljšo odločitev, če bodo razumeli vreme, vendar pa je treba vedeti, različne stvari. Anna je treba razumeti, ali je dež ples povzroča dež. Bob, po drugi strani pa ni treba razumeti ničesar vzročno; je samo potrebuje natančne napovedi. Družboslovni raziskovalci pogosto osredotočajo na to, kaj Kleinberg et al. (2015) klic "dež ples, kot so" težave-tiste politike, ki se osredotočajo na vzročnosti, in prezreti "krovne podobne" težave politike, ki so osredotočeni na napovedi.

Rad bi, da se osredotoči pa se na posebne vrste napovedi imenovano kratkoročnih napovedih -a izraz, ki izhaja iz kombiniranja "zdaj" in "napovedi". Namesto da napovedovanje prihodnosti, kratkoročnega napovedovanja poskuse za napovedovanje sedanjost (Choi and Varian 2012) . Z drugimi besedami, kratkoročnega napovedovanja uporablja metode napovedovanja za probleme merjenja. Kot tak mora biti še posebej koristno za vlade, ki potrebujejo pravočasne in natančne ukrepe, o njihovih državah. Kratkoročnega napovedovanja je mogoče najbolj jasno ponazarja s primerom Google Flu Trends.

Predstavljajte si, da se počutiš malo pod vreme, tako da vtipkate "sredstva gripe" v iskalnik, prejmejo stran povezav v odgovor, nato pa sledi eden izmed njih koristen spletni strani. Zdaj pa si predstavljajte, pri čemer se ta dejavnost odvija z vidika iskalnika. Vsak trenutek, na milijone poizvedb prihajajo iz celega sveta, in ta tok poizvedb-kaj Battelle (2006) je imenovan "baza podatkov o namerah" - zagotavlja stalno posodablja okno v skupne globalne zavesti. Vendar pa se obrača ta tok informacij v merjenju razširjenosti gripe je težko. Preprosto štetje celotnega števila poizvedb za "gripi pravnih sredstev" morda ne deluje dobro. Ni vsak, ki ima iskanja gripi za pravna sredstva proti gripi in ne vsakdo, ki iščejo za pravna sredstva proti gripi ima gripo.

Pomembno in pameten trik za Google Flu Trends je obrniti problem merjenja v problem napovedovanja. V ZDA Centri za nadzor in preprečevanje bolezni (CDC) je sistem za spremljanje gripe, ki zbira podatke od zdravnikov po vsej državi. Vendar je en problem s tem sistemom CDC je, da je poročanje lag dva tedna; čas, potreben za podatke, ki prihajajo od zdravnikov, ki se čistijo, obdelajo in objavijo. Toda, pri ravnanju z nastajajočo epidemijo, javno zdravje pisarne ne želite vedeti, koliko gripe je bilo pred dvema tednoma; želijo vedeti, koliko influenca je zdaj. V resnici, v mnogih drugih tradicionalnih virov socialnih podatkov, obstajajo razlike med valove zbiranja podatkov in zamikov poročanja. Večina velikih viri podatkov, na drugi strani pa so vedno-on (oddelek 2.3.1.2).

Zato, Jeremy Ginsberg in sodelavci (2009) poskušal napovedati podatke gripe CDC iz podatkov Google iskanja. To je primer "napovedujejo sedanji", ker so raziskovalci so poskušali izmeriti, koliko gripa je zdaj s napovedovanju prihodnjih podatke iz CDC, prihodnji podatkov, ki se meri sedanjost. Uporaba strojnega učenja, so iskali prek 50 milijonov različnih iskanih izrazov za prikaz, ki so najbolj napovedujejo podatkov gripe CDC. Konec koncev, so našli niz 45 različnih vprašanj, ki se je zdelo, da je najbolj predvidevanja in rezultati so bili dokaj dobri: da bi lahko uporabili podatke iskanja napovedati podatke CDC. Deloma temelji na tem dokumentu, ki je bila objavljena v reviji Nature, Google Flu Trends postal pogosto ponovi zgodba o uspehu o moči velikih podatkov.

Obstajata dve pomembni opozorili na ta navidezni uspeh, vendar pa razumevanje teh omejitvah vam bo pomagal ovrednotiti in ne napovedi in kratkoročnega napovedovanja. Najprej je bil nastop Google Flu Trends pravzaprav ni veliko bolje kot preprost model, ki ocenjuje znesek gripe, ki temelji na linearno ekstrapolacijo iz zadnjih dveh meritev razširjenosti gripe (Goel et al. 2010) . In čez nekaj časovnih obdobjih je Google Flu Trends dejansko slabši od tega enostavnega pristopa (Lazer et al. 2014) . Z drugimi besedami, Google Flu Trends z vsemi svojimi podatki, strojnega učenja in zmogljivo računalništvo ni bistveno prekašajo enostavno in lažje razumeti hevristično. To kaže, da je pri ocenjevanju kakršne koli napovedi ali nowcast pomembno primerjati proti izhodišču.

Drugo pomembno opozorilo o Google Flu Trends je, da je njegova sposobnost, da napovedati podatke gripe CDC nagnjeni k kratkoročni odpovedi in dolgoročno razpada zaradi zdrsa in algoritmično zavajajočih. Na primer, v 2009 izbruh prašičje gripe Google Flu Trends močno precenjeni znesek gripe, verjetno zato, ker ljudje spremenijo svoje vedenje iskanja v odgovor na široko strahu svetovne pandemije (Cook et al. 2011; Olson et al. 2013) . Poleg teh kratkoročnih težav, uspešnost postopoma razpadlo v daljšem časovnem obdobju. Diagnosticiranje razloge za to dolgoročno razpada, je težko, ker so Googlovi algoritmi iskanja lastniški, vendar se zdi, da je v letu 2011 Google so spremembe, ki bi napeljevali povezane iskalne izraze, ko ljudje iščejo simptome, kot so "kuge" in "kašelj" (prav tako zdi da je ta funkcija ni več aktiven). Dodajanje te funkcije je popolnoma razumna stvar, če ste vodenje poslovanja iskalnik, in je imela za posledico ustvarjanje več iskanj, povezanih z zdravjem. To je verjetno uspeh za podjetje, vendar je povzročil Google Flu Trends do prevelike oceni razširjenosti gripe (Lazer et al. 2014) .

Na srečo, so ti problemi z Google Flu Trends je moč fiksirati. V bistvu, z uporabo bolj previdni metod, Lazer et al. (2014) in Yang, Santillana, and Kou (2015) so lahko dobili boljše rezultate. V prihodnje pričakujem, da kratkoročnega napovedovanja študije, ki združujejo velike podatke z raziskovalcem zbranih podatkov, ki združujejo Duchamp slogu readymade z Michaelangelo stilu Custommades-bodo omogočili oblikovalcem politik za proizvodnjo hitrejše in bolj natančne meritve sedanjosti in napovedi za prihodnost.