2.4.2 Կանխատեսում եւ nowcasting

Գուշակում ապագան դժվար է, բայց գուշակում ներկան ավելի հեշտ է.

Երկրորդ հիմնական ռազմավարությունը օգտագործվում է հետազոտողների հետ դիտողական տվյալների կանխատեսման: Գուշակում ապագան է notoriously դժվար է, բայց դա կարող է լինել աներեւակայելի կարեւոր է որոշում կայացնողների, թե արդյոք նրանք աշխատում են ընկերությունների կամ կառավարությունների կողմից:

Kleinberg et al. (2015) Առաջարկում է երկու պատմություններ, որոնք բացահայտում կարեւորությունը կանխատեսման համար որոշակի քաղաքականության խնդիրների: Պատկերացրեք, մեկ Քաղաքականություն մշակող, ես կզանգեմ նրան Աննան, ով կանգնած է երաշտ եւ պետք է որոշել, թե արդյոք պետք է վարձել շամանական է անել մի անձրեւը պարը բարձրացնել հնարավորություն անձրեւի. Մեկ այլ քաղաքականությունն ստեղծողի, ես կզանգեմ նրան Bob, պետք է որոշի, թե արդյոք վերցնել հովանոց է աշխատել խուսափել թաց ճամփին տուն. Երկուսն էլ Աննա եւ Bob կարող եք կատարել ավելի լավ է, եթե նրանք հասկանում են, եղանակը, բայց նրանք պետք է իմանալ, թե տարբեր բաներ են: Anna պետք է հասկանալ, թե արդյոք անձրեւը պարը առաջացնում անձրեւ: Bob, մյուս կողմից, չի պետք է հասկանալու մասին ոչինչ պատճառականություն. նա պարզապես պետք է ճիշտ կանխատեսումը: Սոցիալական հետազոտողները հաճախ կենտրոնանալ, թե ինչ Kleinberg et al. (2015) Զանգահարեք «անձրեւ պարային նման» քաղաքականությունը խնդիր, նրանք ովքեր կենտրոնանալ պատճառականություն եւ անտեսել «Հովանոցը նման» քաղաքականությունը խնդիրները, որոնք կենտրոնացած է կանխատեսումների.

Ես կցանկանայի կենտրոնանալ, սակայն, հատուկ տեսակի կանխատեսումների կոչված nowcasting -a ժամկետը ստացված համատեղելով «հիմա» եւ «կանխատեսումներիԵվ» փոխարեն կանխատեսել ապագան, nowcasting փորձերը կանխատեսել ներկան (Choi and Varian 2012) : Այլ կերպ ասած, nowcasting օգտագործում կանխատեսման մեթոդների համար խնդիրների լուծման չափման. Որպես այդպիսին, այն պետք է լինի, հատկապես օգտակար է կառավարություններին, որոնք պահանջում ժամանակին եւ ճշգրիտ միջոցներ ձեռնարկել իրենց երկրներում: Nowcasting կարելի պատկերազարդ առավել հստակ օրինակով Google Flu միտումները:

Պատկերացրեք, որ դուք զգում մի քիչ տակ եղանակին, որպեսզի դուք մուտքագրել "գրիպի միջոցները,« մեջ որոնման, ստանում են էջը հղումների, ի պատասխան, ապա հետեւեք դրանցից մեկը մի օգտակար կայքէջում: Այժմ պատկերացրեք, այս գործունեությունը են խաղացել դուրս տեսանկյունից որոնման. Ամեն պահ, միլիոնավոր հարցումներ են ժամանում է ամբողջ աշխարհում, եւ այդ հոսքը հարցումների, թե ինչ Battelle (2006) - Ը, որը կոչվում է «բազան մտադրությունների», - ապահովում է մշտապես թարմացվում պատուհանը դեպի հավաքական համաշխարհային գիտակցության: Սակայն, շրջադարձային այս հոսքի տեղեկատվության մեջ չափման տարածվածության վերաբերյալ գրիպի դժվար է. Պարզապես չհաշված մինչեւ շարք հարցումների համար "Գրիպի պաշտպանության միջոցների» կարող է լավ աշխատել: Ոչ ոք, ով ունի գրիպի որոնումները համար գրիպի պաշտպանության միջոցների եւ ոչ թե բոլորին, ովքեր searchers համար գրիպի պաշտպանության միջոցների ունի գրիպով:

Կարեւորն ու խելացի հնարք ետեւում Google գրիպի միտումները էր դիմել մի չափման խնդիրը մեջ կանխորոշում խնդրի. ԱՄՆ-Կենտրոնների Հիվանդությունների վերահսկման եւ կանխարգելման (CDC) ունի գրիպի մոնիտորինգի համակարգ, որը հավաքում է տեղեկատվություն բժիշկների ամբողջ երկրում. Սակայն, մեկ խնդիր այս CDC համակարգով կա մի երկու շաբաթ հաշվետվությունների ուշացում. ժամանակն է, որ տեւում է տվյալների ժամանող բժիշկների է մաքրել, վերամշակված, եւ հրապարակվում է: Սակայն, երբ բեռնաթափման զարգացող համաճարակը, հանրային առողջապահական գրասենյակները չեն ուզում իմանալ, թե որքան գրիպի կար երկու շաբաթ առաջ. նրանք ցանկանում են իմանալ, թե որքան գրիպի կա հենց հիմա: Ի դեպ, շատ այլ ավանդական աղբյուրների սոցիալական տվյալների, կան բացեր միջեւ ալիքների տվյալների հավաքագրման եւ հաշվետու ուշացում: Շատ մեծ տվյալների աղբյուրները, մյուս կողմից էլ, միշտ-ին (Բաժին 2.3.1.2).

Հետեւաբար, Jeremy Ginsberg եւ գործընկերները (2009) Փորձել է կանխատեսել CDC գրիպի տվյալները Google- ի որոնողական տվյալներով: Սա օրինակ է, «գուշակում ներկան», քանի որ հետազոտողները փորձում էին չափել, թե որքան գրիպը կա հիմա գուշակում ապագա տվյալներ CDC, ապագա տվյալների, որը չափման ներկան. Օգտագործելով Machine Learning, նրանք փնտրում միջոցով 50 միլիոն տարբեր որոնման պայմաններով տեսնել, որոնք առավել կանխատեսող The CDC գրիպի տվյալները. Ի վերջո, նրանք գտել են մի շարք 45 տարբեր հարցումների, որոնք կարծես առավել կանխատեսող, եւ արդյունքները բավականին լավ. Նրանք կարող են օգտագործել որոնման տվյալները կանխատեսել CDC տվյալները: Հիմնված մասի վրա այս թղթի վրա, որը հրապարակվել է Nature, Google գրիպի միտումները դարձել հաճախ կրկնվում հաջողություններ պատմություն իշխանության խոշոր տվյալների:

Գոյություն ունեն երկու կարեւոր caveats է այս ակնհայտ հաջողության, սակայն, եւ հասկանալով այդ caveats կօգնի եք գնահատում եւ անել կանխատեսման եւ nowcasting. Նախ, կատարումը Google գրիպի միտումները, ըստ էության, շատ ավելի լավ է, քան պարզ մոդել, որը գնահատում է գումարը գրիպի հիման վրա գծային էքստրապոլյացիայի երկու վերջին չափումների գրիպի տարածվածության (Goel et al. 2010) : Եւ ավելի քան որոշ ժամանակահատվածներում Google գրիպի միտումները, ըստ էության, ավելի վատ, քան այս պարզ մոտեցման (Lazer et al. 2014) : Այլ կերպ ասած, Google գրիպի միտումները իր բոլոր տվյալները, մեքենա ուսուցման եւ հզոր computing չի կտրուկ outperform է պարզ եւ հեշտ է հասկանալ, թե էվրիստիկ ալգորիթմը: Սա ենթադրում է, որ այն ժամանակ, երբ գնահատելիս որեւէ կանխատեսում կամ nowcast դա կարեւոր է համեմատել դեմ բազային:

Երկրորդ կարեւոր նախազգուշացում մասին Google գրիպի միտումները այն է, որ նրա կարողությունը կանխատեսել CDC գրիպի տվյալները հակված է կարճաժամկետ ձախողման եւ երկարաժամկետ քայքայման պատճառով կիտել եւ ալգորիթմական Խառը: Օրինակ, 2009 թ. Խոզի գրիպի համաճարակի Google գրիպի միտումները կտրուկ գնահատել գումարը գրիպի, հավանաբար, այն պատճառով, որ մարդիկ հակված են փոխել իրենց որոնման վարքագծի պատասխան համատարած վախի գլոբալ համաճարակի (Cook et al. 2011; Olson et al. 2013) : Բացի այդ կարճաժամկետ խնդիրների, կատարումը աստիճանաբար քայքայված ժամանակի ընթացքում: Ախտորոշումը պատճառները այս երկարատեւ քայքայման են դժվար է, քանի որ Google- ի որոնման ալգորիթմները են գույքային, սակայն պարզվեց, որ 2011 թ. Google- ը փոփոխություններ է, որ կառաջարկեի առնչվող փնտրման տերմիններ, երբ մարդիկ փնտրում ախտանիշներից, ինչպիսիք են, «ջերմություն» եւ «cough» (այն նաեւ թվալ որ այս հատկությունը այլեւս ակտիվ): Ավելացնելով, որ այս հատկությունը բոլորովին խելամիտ բան անել, եթե դուք են վազում որոնման բիզնես, եւ դա ուներ ազդեցությունը արտադրող ավելի շատ առողջության հետ կապված որոնումները: Սա, հավանաբար, հաջողություն է բիզնեսի համար, սակայն այն առաջացրել Google Flu միտումները over-նախահաշվի գրիպի տարածվածությունը (Lazer et al. 2014) :

Բարեբախտաբար, այդ խնդիրները Google գրիպի միտումները fixable. Ի դեպ, օգտագործելով ավելի զգույշ մեթոդներ, Lazer et al. (2014) եւ Yang, Santillana, and Kou (2015) կարողացանք ստանալ ավելի լավ արդյունքներ: Առաջ շարժվելով, ես ակնկալում եմ, որ nowcasting ուսումնասիրությունները, որոնք միավորել մեծ տվյալների գիտաշխատող հավաքագրվել տվյալների, որոնք միավորել DuChamp ոճով մոդայիկ հետ Michaelangelo ոճի Custommades-թույլ կտա քաղաքականություն մշակողների արտադրել ավելի արագ եւ ավելի ճշգրիտ չափումներ ներկայի եւ կանխատեսումներ ապագայի: