2.4.2 prognozēšana un nowcasting

Prognozējot nākotni ir grūti, taču prognozējot klāt ir vieglāk.

Otrs galvenais stratēģija, ko pētnieki izmanto ar novērojumu datiem prognozē. Prognozējot nākotni, ir ļoti grūti, bet tas var būt neticami svarīgi lēmumu pieņēmējiem, vai viņi strādā uzņēmumos vai valdības.

Kleinberg et al. (2015) piedāvā divus stāstus, kas precizē, ka ir svarīgi prognozēšanas noteiktiem politikas problēmām. Iedomājieties, kāds no politikas veidotājiem, es saukšu viņas Anna, kurš saskaras ar sausumu un ir jāizlemj, vai nolīgt šamanis darīt lietus deju, lai palielinātu izredzes lietus. Vēl politikas veidotājs, es zvanu viņam Bob, ir jāizlemj, vai ņemt lietussargu strādāt, lai izvairītos no kļūst slapjš ceļā uz mājām. Gan Anna un Jānis var padarīt labāku lēmumu, ja viņi saprot laika, bet viņiem ir jāzina dažādas lietas. Anna ir saprast, vai lietus deja izraisa lietus. Bob, no otras puses, nav nepieciešams, lai saprastu kaut ko par cēloņsakarības; viņš vienkārši vajag precīzu prognozi. Sociālie pētnieki bieži koncentrējas uz to, ko Kleinberg et al. (2015) sauc "lietus deju, piemēram," politikas problēmas-tiem, kas koncentrējas uz cēloņsakarību, un ignorēt "jumta līdzīgu" politikas problēmas, kas ir vērsti uz prognozēšanu.

Es gribētu pievērst uzmanību, tomēr par īpašu veida prognozēšanas sauc nowcasting -a termins, kas iegūti no apvienojot "tagad" un "prognozēšanu." Tā vietā, prognozējot nākotni, nowcasting mēģinājums paredzēt tagadni (Choi and Varian 2012) . Citiem vārdiem sakot, nowcasting izmanto prognozēšanas metodes novērtēšanas problēmu. Tā, piemēram, tas būtu īpaši noderīgi, lai valdībām, kuriem ir nepieciešama savlaicīga un precīza pasākumus par savām valstīm. Nowcasting var visskaidrāk ilustrēt ar piemēru Google gripas izplatība.

Iedomājieties, ka jums ir sajūta mazliet zem laika, lai jūs tips "gripa aizsardzības līdzekļus" Into meklētājprogrammu, saņem lapu ar saitēm, atbildot, un pēc tam viens no tiem noderīgu mājas lapu. Tagad iedomājieties šī darbība tiek izspēlēta no viedokļa meklētājprogrammas. Ik brīdi, miljoniem vaicājumu ierodas no visas pasaules, un šī plūsma vaicājumu-ko Battelle (2006) ir sauc par "datu bāze nodomiem" - nodrošina pastāvīgi atjauninātu logu kolektīvo pasaules apziņā. Tomēr pagriežot šo plūsmu informāciju par mērījumiem izplatību gripu ir grūti. Vienkārši skaitīs skaitu vaicājumu par "gripas aizsardzības līdzekļi" var nedarboties labi. Ne visi, kas ir gripa meklē par gripas aizsardzības līdzekļiem un ne visi, kas meklētājiem par gripas aizsardzības līdzekļiem ir gripa.

Svarīgs un gudrs triks aiz Google gripas izplatība bija pārvērst mērījumu problēmu vērā prognozēšanas problēmu. ASV Centers Slimību kontroles un profilakses (CDC) ir gripas monitoringa sistēmu, kas apkopo informāciju no ārstiem visā valstī. Tomēr viena problēma ar šo CDC sistēma ir tur ir divu nedēļu ziņošanas lag; laiks, kas nepieciešams, lai datiem ierodas no ārstiem jātīra, apstrādā un publicē. Bet, kad apstrādes situāciju jaunu epidēmiju, sabiedrības veselības biroju negribu zināt, cik daudz gripa bija pirms divām nedēļām; viņi vēlas zināt, cik daudz gripa ir tieši tagad. Patiesībā, daudzi citi tradicionālajiem avotiem sociālo datu, pastāv atšķirības starp viļņiem datu vākšanas un ziņošanas laika nobīdes. Lielākā daļa lielo datu avotiem, no otras puses, vienmēr-on (2.3.1.2 iedaļu).

Tāpēc, Jeremy Ginsberg un kolēģi (2009) mēģināja prognozēt CDC gripas datus no Google meklēšanas dati. Šis ir piemērs, "prognozē pašreizējā", jo pētnieki centās noteikt, cik daudz gripa ir tagad ar prognozējot nākotnes datus no CDC, nākotnes datus, kas ir mērījumu tagadni. Izmantojot mašīna mācīšanās, viņi meklēja caur 50 miljoni dažādu meklēšanas nosacījumus, lai redzētu, kas ir visvairāk prognozēt CDC gripas datiem. Galu galā, viņi konstatēja virkni 45 dažādu vaicājumu, kas, šķiet, ir visvairāk jutīgo, un rezultāti bija diezgan laba: viņi varētu izmantot meklēšanas datus, lai prognozētu CDC datiem. Pamatojoties arī uz šajā dokumentā, kas tika publicēts Nature, Google gripas izplatība kļuva bieži atkārtoja veiksmes stāsts par spēku lieliem datu.

Ir divi svarīgi atrunas šo acīmredzamo panākumu, tomēr, un izprast šos brīdinājumus palīdzēs jums novērtēt un darīt prognozēšanu un nowcasting. Pirmkārt, veicot Google gripas izplatība faktiski nebija daudz labāk nekā vienkāršu modeli, kas lēš, ka summu, gripa, pamatojoties uz lineāru ekstrapolāciju no diviem jaunākajiem mērījumiem gripas izplatības (Goel et al. 2010) . Un, nekā dažos laika posmos Google gripas izplatība bija tiešām sliktāka nekā šo vienkāršo pieeju (Lazer et al. 2014) . Citiem vārdiem sakot, Google gripas izplatība ar visiem saviem datiem, mašīnu mācīšanās un jaudīgu datoru nebija būtiski pārspēj vienkārša un vieglāk saprast heiristiku. Tas liecina, ka, izvērtējot jebkādas prognozes vai nowcast ir svarīgi salīdzināt pret bāzes līniju.

Otrs svarīgs brīdinājums par Google gripas izplatība ir tāda, ka tās spēja prognozēt CDC gripas dati tika pakļauti īstermiņa mazspēju un ilgtermiņa samazinājuma dēļ drift un algoritmiskās sajauktiem. Piemēram, 2009. gada Cūku gripas uzliesmojums Google gripas izplatība laikā dramatiski pārvērtētas apjomu gripu, iespējams, tāpēc, ka cilvēki mēdz mainīt savu meklēšanas uzvedību, atbildot uz plaši bailēm no globālās pandēmijas (Cook et al. 2011; Olson et al. 2013) . Papildus šiem īstermiņa problēmas, sniegums pakāpeniski bojāto laika gaitā. Diagnostikai iemeslus šo ilgtermiņa sabrukšanas ir grūti, jo Google meklēšanas algoritmi ir patentēta, bet šķiet, ka 2011. gadā Google veiktas izmaiņas, kas liek domāt, kas saistīti meklēšanas nosacījumus, kad cilvēki meklē simptomiem, piemēram, "drudzis" un "klepus" (tas arī šķiet ka šī funkcija vairs nav aktīvs). Pievienojot šo funkciju, ir pilnīgi pamatota lieta, ko darīt, ja jūs izmantojat meklētājprogrammu uzņēmējdarbību, un tā sekas bija radot vairāk meklē veselību saistīti. Iespējams, tas bija panākums biznesā, bet tas izraisīja Google gripas izplatība pārvērtēt gripas izplatība (Lazer et al. 2014) .

Par laimi, šīs problēmas ar Google gripas izplatība ir fixable. Faktiski, izmantojot uzmanīgāk metodes, Lazer et al. (2014) un Yang, Santillana, and Kou (2015) bija iespēja saņemt labākus rezultātus. Iet uz priekšu, es ceru, ka nowcasting pētījumi, kas apvieno lielas datus ar pētnieka apkopoti datu, kas apvieno Dišāns stila Readymades ar Michaelangelo stila Custommades-ļaus politikas veidotājiem ražot ātrāk un precīzāk mērījumus tagadnes un prognozes nākotnē.