2.4.2 Forecasting kaj nowcasting

Antaŭdirante la estonteco estas malfacile, sed antaŭdirante la ĉeestanta estas facila.

La dua ĉefa strategio uzita de esploristoj kun observaj datenoj estas prognozanta. Antaŭdirante la estonteco estas fifame malfacila, sed ĝi povas esti nekredeble gravaj por decidantoj, ĉu ili laboras en entreprenoj aŭ registaroj.

Kleinberg et al. (2015) proponas du rakontojn kiuj klarigas la gravecon de prognozanta por certaj politikaj problemoj. Imagu unu politiko fabrikisto, mi vokos ŝian Anna, kiu alfrontas la sekeco kaj devas decidi ĉu por dungi ŝamano fari pluv danco pliigi la ŝancon de pluvo. Alia politiko fabrikisto, mi vokos lin Bob, devas decidi ĉu por preni ombrelon labori eviti trempi sur la vojo hejmen. Ambaŭ Anna kaj Bob povas fari pli bonan decidon se ili komprenas vetero, sed ili bezonas scii malsamaj aferoj. Anna bezonas kompreni ĉu la pluvo danco kaŭzas pluvon. Bob, aliflanke, ne bezonas kompreni ion pri causalidad; Li nur bezonas precizan prognozon. Sociaj esploristoj ofte enfokusigi kion Kleinberg et al. (2015) nomas "pluvo danco-simila" politiko problemoj -tiuj kiuj temigas kaŭzeco-kaj ignori "ombrelformaj" politiko problemoj kiuj temigis prognozanta.

Mi ŝatus enfokusigi, tamen, sur speciala speco de prognozanta nomita nowcasting -a termino derivita de kombinado "nun" kaj "prognozanta." Anstataŭ antaŭdirante la estonteco, nowcasting provoj antaŭdiri la ĉeestanta (Choi and Varian 2012) . Alivorte, nowcasting uzas prognozanta metodoj por problemoj de mezurado. Kiel tia, ĝi devus esti precipe utila por registaroj kiuj postulas oportuna kaj preciza mezuroj pri iliaj landoj. Nowcasting eblas ilustrita plej klare kun la ekzemplo de Google Flu Trends.

Imagu ke vi sentas iom sub la vetero tiom vi tajpas "gripo rimedoj" en serĉilo, ricevi paĝo de ligoj en respondo, kaj poste sekvi unu el ili al helpemaj retpaĝo. Nun imagas ĉi aktiveco estanta ludita ekstere de la perspektivo de la serĉilo. Cxiumomente, milionoj de konsultoj alvenas el la tuta mondo, kaj tiu fluo de demandoj-kio Battelle (2006) nomis la "datumbazo de intencoj" - disponigas konstante ĝisdatigita fenestro en la kolektiva tutmonda konscio. Tamen, turninte tiu fluo de informo en mezurado de la tropezo de la gripo estas malfacila. Simple rakonti la numeron de konsultoj por "gripo kuraciloj" eble ne funkcios bone. Ne cxiu, kiu havas la gripo serĉoj por gripo rimedojn kaj ne ĉiuj kiuj serĉistoj por gripo kuraciloj havas la gripo.

La grava kaj ruza truko malantaŭ Google Flu Trends iris turni mezuro problemo en prognozanta problemo. Usono Centroj por Malsankontrolo kaj Prevention (CDC) havas gripon monitorado sistemo kiu kolektas informojn de kuracistoj ĉirkaŭ la lando. Tamen, unu problemo kun ĉi CDC sistemo estas estas du semajno raportado lag; la tempo necesa por la datumoj kiuj alvenas de kuracistoj por esti purigita, procesita, kaj eldonita. Sed, al la manipuli emerĝa epidemio, publika sano oficoj ne volas scii kiom gripo estis du semajnoj; Ili volas scii kiom gripo estas nun. Fakte, en multaj aliaj tradiciaj fontoj de socia datumoj, estas breĉoj inter ondoj de datenkolektado kaj raportado postrestas. Plej grandaj datumoj fontoj, aliflanke, ĉiam-sur (Sekcio 2.3.1.2).

Sekve, Jeremy Ginsberg kaj kolegoj (2009) provis antaŭdiri la CDC gripo datumoj de la Google serĉo datumoj. Tio estas ekzemplo de "antaŭdirante la ĉeestanta" ĉar la esploristoj provis mezuri kiom gripo estas nun por antaŭdirado estonteco datumoj de la CDC, futura datumoj kiu mezuras la ĉeestanta. Uzante maŝino lernado, ili traserĉis tra 50 milionoj malsamaj serĉvorton vidi kiu estas plej prognozaj de la CDC gripo datumoj. Finfine, ili trovis aron de 45 malsamaj demandoj kiu ŝajnis esti plej predictiva, kaj la rezultoj estis sufiĉe bonaj: ili povus uzi la serĉo datumoj antaŭdiri la CDC datumoj. Bazita delvis sur tiu papero, kiu estis eldonita en Nature, Google Flu Trends iĝis ofte ripetis sukceson rakonto pri la potenco de grandaj datumoj.

Estas du gravaj donita ekzistas al tiu ŝajna sukceso, tamen, kaj kompreni tiujn donita ekzistas helpos vin taksi kaj fari prognozanta kaj nowcasting. Unue, la agado de Google Flu Trends estis fakte ne multe pli bone ol simpla modelo kiu taksas la kvanton de gripo bazita sur lineara ekstrapolo de la du plej lastatempaj mezuradojn de gripo prevalencia (Goel et al. 2010) . Kaj, super iu tempo periodoj Google Flu Trends estis fakte pli malbona ol tiu simpla alproksimiĝo (Lazer et al. 2014) . Alivorte, Google Flu Trends kun ĉiuj liaj datumoj, maŝina lerno kaj potenca komputado ne draste outperform simpla kaj facila kompreni heŭristiko. Tio sugestas ke kiam pritaksanta ajna prognozo aŭ nowcast estas grave kompari kontraŭ baza linio.

La dua grava averto pri Google Flu Trends estas kiu lia kapablo antaŭdiri la CDC gripo datumoj estis inklina al mallongperspektiva fiasko kaj longtempa dekadenco pro drivo kaj algoritma konfuzante. Ekzemple, dum la 2009 Swine Flu eksplodo Google Flu Trends draste super-taksita la kvanto de gripo, verŝajne ĉar homoj emas ŝanĝi siajn serĉo konduto en respondo al ĝeneraligita timo de tutmonda pandemio (Cook et al. 2011; Olson et al. 2013) . Krom tiuj mallongatempaj problemoj, la agado grade deprimita super tempo. Diagnozi la motivojn de ĉi longtempe dekadenco estas malfacila pro la Google serĉo algoritmoj estas proprieta, sed ŝajnas ke en 2011 Google faris ŝanĝojn kiuj sugestus rilata serĉvorton kiam homoj serĉas simptomoj kiel "febro" kaj "tuso" (ĝi ankaŭ ŝajnas ke tiu trajto jam ne estas aktiva). Aldonante ĉi trajto estas tute racia afero por fari se vi kuras serĉilon negoco, kaj ĝi havis la efikon de generante pli sano rilatigitaj serĉoj. Tio estis verŝajne sukceso por la negoco, sed kaŭzis Google Flu Trends troa takso gripo prevalencia (Lazer et al. 2014) .

Feliĉe, ĉi tiuj problemoj kun Google Flu Trends estas fikseblaj. Fakte, uzante pli zorgema metodoj, Lazer et al. (2014) kaj Yang, Santillana, and Kou (2015) estis kapabla akiri pli bonajn rezultojn. Irante antaŭen, mi atendas ke nowcasting studojn kiuj kombinas grandajn datumojn esploristo kolektita datumo-kiuj kombinas Duchamp-stilo Readymades kun Michaelangelo stilo Custommades-ebligos politikaj fabrikistoj produkti pli rapida kaj pli preciza mezuradojn de la nuntempo kaj antaŭdiroj de la estonteco.