2.4.2 Prognoză și nowcasting

Prezicerea viitorului este greu, dar prezicerea prezent este mai ușor.

A doua strategie principală folosită de cercetători cu datele de observatie este prognoza. Prezicerea viitorului este foarte dificil, dar poate fi extrem de important pentru factorii de decizie, indiferent dacă aceștia lucrează în companii sau guverne.

Kleinberg et al. (2015) oferă două povești care clarifica importanța previziunilor pentru anumite probleme de politică. Imaginați-vă un singur factor de decizie politică, o să sun Anna ei, care se confruntă cu o secetă și trebuie să decidă dacă să angajeze un șaman pentru a face un dans de ploaie pentru a crește șansa de ploaie. O altă politică de filtru, am să-l sun pe Bob, trebuie să decidă dacă să ia o umbrelă pentru a lucra pentru a evita obtinerea umed pe drum spre casă. Atât Anna și Bob poate lua o decizie mai bună dacă înțeleg vreme, dar ei trebuie să știe lucruri diferite. Anna are nevoie să înțeleagă dacă dansul de ploaie cauzează ploaie. Bob, pe de altă parte, nu are nevoie să înțeleagă nimic despre cauzalitate; el are nevoie doar de o previziune precisă. Cercetatorii sociale de multe ori se concentreze pe ceea ce Kleinberg et al. (2015) numesc "ploaie de dans , cum ar fi" probleme-acele politici care se concentrează asupra cauzalității și ignora problemele de politică "umbrela cum ar fi" care sunt axate pe prognoză.

Aș vrea să se concentreze, cu toate acestea, pe un tip special de prognoză numit nowcasting -un termen derivat din combinarea "acum" și "prognoză." Mai degrabă decât a prezice viitorul, nowcasting tentative de a prezice prezent (Choi and Varian 2012) . Cu alte cuvinte, nowcasting utilizează metode de previziune pentru probleme de măsurare. Ca atare, ar trebui să fie util în special guvernelor care necesită măsuri în timp util și exacte cu privire la țările lor. Nowcasting poate fi ilustrat cel mai clar cu exemplul Google Tendințele gripei.

Imaginați-vă că vă simțiți un pic sub vreme, astfel încât să tastați "remedii de gripă" într-un motor de căutare, de a primi o pagină de link-uri ca răspuns, și apoi urmați unul dintre ei la o pagină web de ajutor. Acum imaginează-ți această activitate fiind jucată din punctul de vedere al motorului de căutare. În fiecare moment, milioane de interogări sosesc din întreaga lume, iar acest flux de interogări ce Battelle (2006) a numit "baza de date de intenții" - oferă o fereastră actualizată constant în conștiința colectivă la nivel mondial. Cu toate acestea, transformarea acestui flux de informații într-o măsurare a prevalenței gripei este dificil. Pur și simplu numărând până la numărul de cereri pentru "remedii gripa" s-ar putea să nu funcționeze bine. Nu toți cei care au cautarile gripa pentru căile de atac ale gripei și nu toți cei care caută pe căi de atac de gripa are gripa.

Cel mai important și inteligent truc în spatele Google Tendințele gripei a fost de a transforma o problemă de măsurare într - o problemă de prognoză. Centrele de SUA pentru Controlul si Prevenirea Bolilor (CDC) are un sistem de monitorizare a gripei, care colectează informații de la medici din intreaga tara. Cu toate acestea, o problemă cu acest sistem CDC există un decalaj de raportare două săptămâni; timpul necesar pentru datele care sosesc de la medici care urmează să fie curățate, prelucrate și publicate. Dar când manipularea o epidemie in curs de dezvoltare, birouri de sanatate publica nu vor sa stie cat de mult de gripa nu a existat în urmă cu două săptămâni; ei vor să știe cât de mult de gripa este chiar acum. De fapt, în multe alte surse tradiționale de date sociale, există decalaje între valuri de colectare a datelor și de lag-uri de raportare. Cele mai multe surse de date mari, pe de altă parte, sunt întotdeauna pe (secțiunea 2.3.1.2).

De aceea, Jeremy Ginsberg si colegii sai (2009) au încercat să prezică date privind gripa CDC din datele de căutare Google. Acesta este un exemplu de "prezice prezent", deoarece cercetatorii au incercat sa masoare cat de mult de gripa este acum anticipând datele viitoare de la CDC, datele de viitor, care măsoară în prezent. Cu ajutorul mașinii de învățare, au căutat prin 50 de milioane de termeni de căutare diferite pentru a vedea care sunt cele mai predictive a datelor de gripa CDC. În cele din urmă, au găsit un set de 45 de interogări diferite, care părea să fie cel mai de predictie, iar rezultatele au fost destul de bune: acestea ar putea folosi datele de căutare pentru a prezice datele CDC. Bazat parțial pe această lucrare, care a fost publicat in Nature, Google Tendințele gripei a devenit o poveste de succes de multe ori repetat despre puterea de date mari.

Există două importante obiecții la acest aparent de succes, cu toate acestea, și înțelegerea acestor restricții va ajuta să evaluați și de a face prognoză și nowcasting. În primul rând, performanța de Google Tendințele gripei a fost de fapt , nu cu mult mai bine decât un model simplu , care estimează cantitatea de gripă bazată pe o extrapolare lineară de la cele două măsurători mai recente ale prevalenței gripei (Goel et al. 2010) , (Goel et al. 2010) . Si, peste anumite perioade de timp Google Tendințele gripei a fost de fapt mai rău decât această abordare simplă (Lazer et al. 2014) , (Lazer et al. 2014) . Cu alte cuvinte, Google Tendințele gripei cu toate datele sale, masina de învățare, și puternică de calcul nu a depasi dramatic un simplu și mai ușor de înțeles euristice. Acest lucru sugerează că atunci când se evaluează orice previziune sau nowcast este important să se compare cu o linie de bază.

Cea de a doua rezervă importantă despre Google Tendințele gripei este că , capacitatea sa de a prezice datele de gripa CDC a fost predispus la eșec pe termen scurt și decădere pe termen lung din cauza abaterii și intricate algoritmice. De exemplu, în timpul 2009 Porcine Gripa focar Google Tendințele gripei în mod dramatic supra-estimat cantitatea de gripă, probabil pentru că oamenii tind să -și schimbe comportamentul de căutare ca răspuns la teama pe scara larga a unei pandemii globale (Cook et al. 2011; Olson et al. 2013) , (Cook et al. 2011; Olson et al. 2013) . În plus față de aceste probleme pe termen scurt, performanța putrezite treptat în timp. Diagnosticarea motivele acestei degenerări pe termen lung sunt dificile, deoarece algoritmii de căutare Google sunt proprietare, dar se pare că, în 2011, Google a făcut modificări care ar sugera termenii de căutare legate atunci când oamenii caută simptome, cum ar fi "febra" si "tuse" (ea, de asemenea, par că această caracteristică nu mai este activ). Adăugarea de această caracteristică este un lucru total rezonabil de a face în cazul în care se execută o afacere motor de căutare, și a avut ca efect generarea mai multor căutări legate de sănătate. Acest lucru a fost , probabil , un succes pentru afaceri, dar a cauzat Google Tendințele gripei prevalența gripei supra-estimare (Lazer et al. 2014) , (Lazer et al. 2014) .

Din fericire, aceste probleme cu Google Tendințele gripei pot fi remediate. De fapt, folosind metode mai atentă, Lazer et al. (2014) și Yang, Santillana, and Kou (2015) au putut obține rezultate mai bune. Mergând mai departe, mă aștept ca studiile nowcasting care combină datele mari cu cercetătorul a colectat date care combina-readymade-Duchamp-style cu Michaelangelo stil Custommades-va permite factorilor de decizie politică pentru a produce măsurători mai rapide și mai precise ale prezentului și predicții ale viitorului.