2.4.2 Forecasting jeung nowcasting

Ngaramal mangsa nu bakal datang anu teuas, tapi ngaramal hadir nyaeta gampang.

Strategi utama kadua dipaké ku panalungtik jeung data observational ieu forecasting. Ngaramal mangsa nu bakal datang téh notoriously hésé, tapi bisa incredibly penting pikeun makers kaputusan, naha maranehna gawe di pausahaan atawa pamaréntah.

Kleinberg et al. (2015) nawarkeun dua carita anu netelakeun pentingna forecasting keur masalah kawijakan tangtu. Bayangkeun hiji maker kawijakan, Abdi gé nelepon Anna nya, anu nyanghareup halodo jeung kudu mutuskeun pikeun nyewa shaman ka lampahkeun tari hujan nambahan kasempetan hujan. maker kawijakan sejen, Abdi gé nelepon manéhna Bob, kudu mutuskeun pikeun nyokot payung digawekeun pikeun nyegah lalaki baseuh dina jalan imah. Boh Anna jeung Bob bisa nyieun kaputusan hade lamun maranehna ngarti cuaca, tapi kudu nyaho hal beda. Anna perlu ngarti naha tari hujan ngabalukarkeun hujan. Bob, di sisi séjén, teu kudu ngarti nanaon ngeunaan kausalitas; manéhna ngan perlu an ramalan akurat. Panalungtik sosial mindeng difokuskeun naon Kleinberg et al. (2015) nelepon "hujan tari kawas" kawijakan masalah-jalma anu difokuskeun kausalitas-jeung malire "payung kawas" masalah kawijakan nu fokus kana forecasting.

Kuring remen museurkeun kitu, dina jenis husus forecasting disebut nowcasting -a istilah asalna ti ngagabungkeun "ayeuna" jeung "forecasting". Tinimbang ngaramal mangsa nu bakal datang, nowcasting usaha keur prediksi hadir (Choi and Varian 2012) . Dina basa sejen, nowcasting ngagunakeun métode forecasting keur masalah ukuran. Salaku kitu, kudu utamana mangpaat pikeun pamaréntah anu merlukeun ukuran timely jeung akurat ngeunaan nagara maranéhanana. Nowcasting bisa gambar paling jelas jeung conto Google Flu Tren.

Bayangkeun yén anjeun ngarasa saeutik dina cuaca jadi Anjeun ngetik "remedies flu" jadi search engine, nampa hiji kaca tumbu di response, sarta teras turutan salah sahijina ka Kalurahan mantuan. Ayeuna dibayangkeun kagiatan ieu keur diputer kaluar ti sudut pandang tina search engine. Unggal moment, jutaan queries anu anjog ti sakuliah dunya, sarta stream ieu queries-naon Battelle (2006) geus disebut "database tina karsa" - nyadiakeun jandela terus diropéa kana eling global koléktif. Tapi, ngarobah stream ieu informasi kana ukuran tina Prévalénsi flu kasebut hésé. Kantun cacah nepi ka jumlah queries pikeun "remedies flu" bisa jadi teu berpungsi ogé. Teu dulur anu boga maluruh flu pikeun remedies flu jeung teu dulur anu searchers keur remedies flu ngabogaan flu teh.

Nu trik penting jeung palinter balik Google Flu Tren ieu ngahurungkeun masalah ukuran jadi masalah forecasting. Nu puseur US pikeun Control Kasakit jeung Pencegahan (CDC) boga sistim monitoring influenza nu ngumpulkeun informasi ti dokter kira-kira nagara. Tapi, hiji masalah jeung sistem CDC ieu aya ngalaporkeun lag dua minggu; waktu nu diperlukeun keur data anjog ti dokter jadi cleaned, diolah, sarta dipedar. Tapi, lamun nanganan hiji wabah munculna, kantor kaséhatan masarakat teu hayang nyaho sabaraha influenza aya dua minggu ka tukang; maranehna hayang nyaho sabaraha influenza aya ayeuna. Malah dina loba sumber tradisional séjén data sosial, aya jurang antawis gelombang tina kumpulan data jeung ngalaporkeun katinggaleun. Kalolobaan sumber data gedé, di sisi séjén, sok-on (Bagéan 2.3.1.2).

Ku alatan éta, Jeremy Ginsberg sareng kolega (2009) usaha prediksi data flu CDC ti data search Google. Ieu conto "ngaramal hadir" sabab panalungtik anu nyoba ngukur sabaraha flu aya ayeuna ku ngaramal data nu bakal datang ti CDC, data nu bakal datang anu ukur hadir teh. Maké learning mesin, maranéhanana searched ngaliwatan 50 juta istilah panéang nu beda nempo nu paling predictive data flu CDC. Pamustunganana, maranéhanana kapanggih susunan 45 queries beda nu seemed jadi paling predictive, sarta hasil éta cukup alus: maranéhanana bisa ngagunakeun data search keur prediksi data CDC. Dumasar sabagian dina makalah ieu, nu dimuat dina Alam, Google Flu Tren jadi hiji carita kasuksésan mindeng ngulang ngeunaan kakawasaan data gedé.

Aya dua caveats penting pikeun kasuksésan katempo ieu, kumaha oge, jeung pamahaman caveats ieu bakal mantuan Anjeun evaluate jeung ulah forecasting jeung nowcasting. Kahiji, kinerja Google Flu Tren ieu sabenerna teu leuwih hadé ti model basajan nu ngira-ngira jumlah flu dumasar kana extrapolation linier tina dua ukuran panganyarna tina Prévalénsi flu (Goel et al. 2010) . Jeung, leuwih sababaraha perioda waktu Flu Google Tren ieu sabenerna leuwih goreng ti pendekatan basajan ieu (Lazer et al. 2014) . Dina basa sejen, Google Flu Tren sareng sadaya data anak, learning mesin, sarta computing kuat teu nyirorot outperform basajan jeung gampang ngarti heuristik. Ieu nunjukkeun yen lamun evaluating ramalan mana wae atawa nowcast hal anu penting pikeun ngabandingkeun ngalawan dasar a.

Nu caveat penting kadua ngeunaan Google Flu Tren nyaeta pangabisa anak keur prediksi data flu CDC ieu rawan kagagalan jangka pondok jeung buruk jangka panjang alatan drift jeung confounding algorithmic. Contona, salila 2009 Flu Khinzir wabah Google Flu Tren nyirorot leuwih-estimasi jumlah influenza, meureun kusabab urang condong pikeun ngarobah paripolah search maranéhanana di response ka sieun nyebar tina pandemic global (Cook et al. 2011; Olson et al. 2013) . Sajaba masalah jangka pondok ieu, kinerja laun decayed kana waktu. Diagnosing alesan pikeun buruk jangka panjang ieu hésé sabab algoritma search Google nu proprietary, tapi muncul dina 2011 Google dijieun parobahan nu tangtu nyarankeun watesan search patali lamun urang milarian gejala kawas "demam" jeung "batuk" (ogé sigana nu fitur ieu aya deui aktif). Nambahan fitur ieu téh hiji hal sagemblengna akal anu kudu dipigawé lamun Anjeun keur ngajalankeun bisnis search engine, sarta miboga pangaruh generating leuwih maluruh kaséhatan patali. Ieu meureun hiji kasuksésan keur bisnis, tapi disababkeun Google Flu Tren ka Prévalénsi flu leuwih-estimasi (Lazer et al. 2014) .

Untungna, masalah ieu jeung Google Flu Tren nu fixable. Dina kanyataan, ngagunakeun métode leuwih ati-ati, Lazer et al. (2014) jeung Yang, Santillana, and Kou (2015) éta bisa pikeun meunangkeun hasil nu leuwih alus. Bade maju, kuring ngaharepkeun nu studi nowcasting nu ngagabung data gedé jeung panalungtik dikumpulkeun data-nu ngagabung Readymades Duchamp-gaya jeung Michaelangelo-gaya Custommades-bakal ngaktifkeun makers kawijakan pikeun ngahasilkeun ukuran leuwih gancang jeung leuwih akurat tina hadir jeung prediksi tina mangsa nu bakal datang.