2.4.2 predviđanja i nowcasting

Predviđanje budućnosti je teško, ali predviđanje sadašnjost je lakše.

Druga glavna strategija koristi od strane istraživača sa posmatranja podataka predviđanje. Predviđanje budućnosti je izuzetno teško, ali može biti izuzetno važno za donosioce odluka, bez obzira da li oni rade u kompanijama ili vlada.

Kleinberg et al. (2015) nudi dva priče da pojasni važnost predviđanja za određene probleme politike. Zamislite jedan politika za kavu, ja ću zvati nju Anna, koji se suočava suše i mora odlučiti da li da zaposli šaman da uradi kiša ples povećati šanse za kišu. Još jedna politika za kavu, ja ću ga zvati Bob, mora odlučiti hoće li uzeti kišobran da rade na izbjeći uzimajući mokro na putu kući. Oba Anna i Bob može napraviti bolju odluku, ako oni razumiju Vrijeme, ali im je potrebno da znaju različite stvari. Anna treba da shvati da li je kiša ples izaziva kiša. Bob, s druge strane, ne treba razumijevanje ništa o uzročnosti; Samo je potreban precizan prognoza. Društveni istraživači često se fokusiraju na ono što Kleinberg et al. (2015) nazivaju "kiša ples-kao što je" problem-one koje se fokusiraju na uzročnost-i ignorirati probleme "kišobran-kao što je" politika koje su usmjerene na predviđanja politike.

Voleo bih da se fokusiramo, međutim, na posebnu vrstu predviđanja zove nowcasting -a termin izveden iz kombinirajući "sada" i "predviđanja." Umjesto da predviđanje budućnosti, nowcasting pokušaja da se predvidi sadašnjosti (Choi and Varian 2012) . Drugim riječima, nowcasting koristi metode predviđanja za probleme mjerenja. Kao takav, ne bi trebalo biti posebno korisno za vlade koje zahtijeva pravovremene i tačne mere o njihovim zemljama. Nowcasting se može ilustrovati najjasnije na primjeru Google Flu Trends.

Zamislite da ste osjećaj malo pod vremenskim tako upišete "lijekovi gripe" u tražilicu, primiti strana linkova u odgovor, a zatim pratite jedan od njih na pomoći web stranice. Sada zamislite ovu aktivnost koja se igra iz perspektive tražilice. Svaki trenutak, milijune upita dolaze iz cijelog svijeta, a ovaj tok upita šta Battelle (2006) nazvao "baze podataka o namjerama" - predviđa stalno ažuriraju prozor u kolektivnu globalnu svijest a. Međutim, pretvarajući ovaj tok informacija u mjerenje rasprostranjenosti gripe je teško. Jednostavno računajući se broj upita za "lijekovi gripa" možda neće dobro raditi. Nije svako ko ima traži grip za pravni lijekovi gripa, a ne svima koji su tragači za pravne lijekove gripa ima grip.

Važna i pametan trik iza Google Flu Trends je da uključite problem mjerenja u problem predviđanja. Američki Centar za kontrolu i prevenciju bolesti (CDC) ima sistem za praćenje gripe koji prikuplja informacije od doktora širom zemlje. Međutim, jedan problem sa ovim CDC sistem postoji izvještavanje lag dvije sedmice; vrijeme koje je potrebno za podacima koji dolaze od doktora da se očisti, obrađeni i objavljeni. Ali, pri rukovanju epidemije u nastajanju, javno zdravlje ureda ne žele znati koliko gripa nije bilo prije dvije sedmice; oni žele da znaju koliko je gripa je sada. U stvari, u mnogim drugim tradicionalnim izvorima socijalnih podataka, postoje razlike između valova prikupljanja podataka i LAG izvještavanja. Većina velikih izvora podataka, s druge strane, su uvijek na (odjeljak 2.3.1.2).

Stoga, Jeremy Ginsberg i kolege (2009) pokušao predvidjeti podacima CDC gripa iz Google podataka pretragu. Ovo je primjer "predviđanja ovog", jer su istraživači su pokušali izmjeriti koliko gripa je sada tamo predviđanje budućih podataka iz CDC, budući podaci da se mjerenje sadašnjost. Koristeći mašinsko učenje, oni tražili preko 50 miliona različitih termina za pretraživanje da biste vidjeli koje su najviše prediktivne podataka CDC gripa. Na kraju krajeva, oni pronašli set od 45 različitih upita koji se činilo da je većina prediktivni, a rezultati su bili prilično dobri: oni mogu koristiti podatke pretraživanje predvidjeti podacima CDC. Sa sjedištem u dijelu o ovom radu, koji je objavljen u časopisu Nature, Google Flu Trends postao često ponavlja uspjeh priča o moći velikih podataka.

Postoje dva važna upozorenja na ovaj očigledan uspjeh, međutim, i razumijevanje ovih upozorenja će vam pomoći procijeniti i učiniti predviđanja i nowcasting. Prvo, performanse Google Flu Trends zapravo nije mnogo bolje nego jednostavan model koji procjenjuje iznos od gripa na osnovu linearna ekstrapolacija iz dva najnovija mjerenja rasprostranjenosti gripe (Goel et al. 2010) . I, nad nekim vremenskim periodima Google Flu Trends je zapravo gore nego ovaj jednostavan pristup (Lazer et al. 2014) . Drugim riječima, Google Flu Trends sa svim svojim podacima, mašinsko učenje, i moćan računarstvo nije dramatično nadmašiti jednostavnu i lakše shvatiti heurističke. To ukazuje na to da prilikom procjene bilo prognoza ili nowcast važno je uporediti protiv osnova.

Drugi važan upozorenje o Google Flu Trends je da je njegova sposobnost da predvidi podacima CDC gripa bio sklon kratkoročne neuspjeh i dugoročne raspada zbog drifta i algoritamske zbunjujući. Na primjer, u toku 2009. svinjske gripe epidemije Google Flu Trends dramatično precijenjen u iznosu od gripa, vjerojatno zato što ljudi imaju tendenciju da promijene svoje ponašanje pretraživanje odgovor na rasprostranjenog straha od globalne pandemije (Cook et al. 2011; Olson et al. 2013) . Pored ovih kratkoročnih problema, performanse postupno raspao tokom vremena. Utvrđivanje razloga za to dugoročno propadanje je teško, jer je Google pretraživanje algoritmi su vlasnički, ali čini se da je u 2011. Google je promjene koje će predložiti u vezi pojam kada ljudi tražiti simptome kao što su "groznica" i "kašalj" (to također čini da ova funkcija više nije aktivan). Dodavanje ova funkcija je potpuno razumna stvar ako radite biznis tražilica, i imao je učinak stvaranja više zdravstvenih pretraga. To je vjerojatno uspjeh za poslovanje, ali je izazvalo Google Flu Trends da prevalencija gripa preko-procjena (Lazer et al. 2014) .

Srećom, ovi problemi sa Google Flu Trends su popraviti. U stvari, koristeći oprezniji metoda, Lazer et al. (2014) i Yang, Santillana, and Kou (2015) bili u mogućnosti da biste dobili bolje rezultate. U narednom periodu, očekujem da nowcasting studije koje kombiniraju velike količine podataka sa istraživač prikupljenih podataka koji kombinuju Duchamp-stil Readymades sa Michaelangelo stilu Custommades-omogućit će kreatori politike za proizvodnju brže i preciznije mjerenja sadašnjosti i predviđanja budućnosti.