2.4.2 ennustaminen ja lyhyen aika välin

Tulevaisuuden ennustaminen on vaikeaa, mutta ennustaminen läsnä on helpompaa.

Toinen tärkeä strategia, jota tutkijat kanssa havaintoaineistoa ennustaa. Tulevaisuuden ennustaminen on tunnetusti vaikeaa, mutta se voi olla uskomattoman tärkeä päättäjät, ovatko he työskentelevät yrityksissä tai hallitusten.

Kleinberg et al. (2015) on kahdessa kerroksessa, jotka selventävät merkitys ennusteita tiettyjen koskevia ongelmia. Kuvittele yksi päättäjille, soitan hänelle Anna, joka on edessään kuivuudesta ja täytyy päättää palkata shamaani tehdä sadetanssiin lisätä sateen mahdollisuus. Toinen päättäjille, soitan hänelle Bob, on päätettävä ottaa sateenvarjo töihin välttää kastumista matkalla kotiin. Sekä Anna ja Bob voi tehdä paremman päätöksen, jos he ymmärtävät sää, mutta ne täytyy tietää eri asioita. Anna on ymmärrettävä, onko sadetanssiin aiheuttaa sade. Bob, toisaalta, ei tarvitse ymmärtää mitään syy; hän vain tarvitsee tarkkaa ennustetta. Sosiaalinen tutkijat keskittyvät usein mitä Kleinberg et al. (2015) kutsua "sateen tanssillinen" koskevia ongelmia, jotka keskittyvät syy-ja sivuuttaa "sateenvarjon kaltainen" koskevia ongelmia, jotka keskittyvät ennustamista.

Haluaisin keskittyä kuitenkin on erikoinen ennustaminen kutsutaan lyhyen aika välin -a termi on yhdistelmä "nyt" ja "ennustaminen." Sen sijaan ennustaa tulevaisuutta, lyhyen aika välin yrittää ennustaa nykyisen (Choi and Varian 2012) . Toisin sanoen, lyhyen aika välin käyttää ennustamisen menetelmiä ongelmia mittauksessa. Sellaisena se pitäisi olla erityisen hyödyllistä hallitukset, jotka tarvitsevat ajantasaista ja tarkkaa toimenpiteitä niiden maiden. Lyhyen aika välin voidaan selvimmin kanssa esimerkin Google Flu Trends.

Kuvittele, että sinulla on tunne hieman alle sää niin kirjoitat "flunssa korjaustoimenpiteitä" hakukoneeseen, saavat sivun linkkien vasteen, ja sitten seuraa yhden niistä hyödyllinen verkkosivun. Nyt kuvitella tätä toimintaa on pelattu näkökulmasta hakukoneen. Joka hetki, miljoonia kyselyt saapuu ympäri maailmaa, ja tämä virta kyselyjä-mitä Battelle (2006) on nimeltään "tietokanta aikeista" - tarjoaa jatkuvasti päivitettävä ikkuna kollektiiviseen maailmanlaajuinen tietoisuus. Kuitenkin kääntämällä tämä tietovirta tulee mittaus esiintyvyys influenssa on vaikea. Yksinkertaisesti laskemalla jopa useita kyselyitä varten "flunssa korjaustoimenpiteitä" ei ehkä toimi hyvin. Ei jokainen, joka on flunssa etsii flunssa korjaustoimenpiteitä eikä kaikille, jotka etsijät flunssa korjaustoimenpiteitä on flunssa.

Tärkeä ja taitava temppu takana Google Flu Trends oli kääntää mittaus ongelma osaksi ennustaminen ongelma. Yhdysvaltain Centers for Disease Control and Prevention (CDC) on influenssa seurantajärjestelmä, joka kerää tietoja lääkäreiden ympäri maata. Kuitenkin yksi ongelma tässä CDC-järjestelmä on olemassa kahden viikon raportoinnin viive; aika, joka kuluu datan saapuvien lääkäreiden puhdistettava, käsitellään ja julkaistaan. Mutta, kun käsitellään syntymässä epidemia, kansanterveyden toimistot eivät halua tietää, kuinka paljon influenssan oli kaksi viikkoa sitten; he haluavat tietää, kuinka paljon influenssa on juuri nyt. Itse asiassa monissa muissa perinteisiin lähteitä sosiaalisen tiedon, on aukkoja välillä aallot tiedonkeruun ja raportoinnin viiveitä. Useimmat suuret tietolähteitä, toisaalta, ovat aina päällä (kohta 2.3.1.2).

Siksi Jeremy Ginsberg ja työtovereiden (2009) yrittivät ennustaa CDC flunssatietoja Googlen hakutietoja. Tämä on esimerkki "ennustettaessa esillä", koska tutkijat yrittivät mitata, kuinka paljon flunssa on nyt ennustamalla tulevaa dataa CDC, tuleva data että mittaa läsnä. Käyttämällä koneoppimisen, etsittiin kautta 50 miljoonaa eri hakutermejä, mitkä ovat kaikkein ennustavat CDC flunssatietoja. Lopulta he löysivät joukko 45 eri kyselyiden tuntui olevan kaikkein ennakoivaa, ja tulokset olivat melko hyviä: he voisivat käyttää hakutietoja ennustaa CDC. Perustuu osittain tässä asiakirjassa, joka julkaistiin Nature Google Flu Trends tuli usein toistuva menestystarina mahdista iso data.

On olemassa kaksi tärkeää varoitukset tähän ilmeiseen menestykseen, kuitenkin, ja ymmärtäminen nämä varoitukset auttavat arvioimaan ja tehdä ennusteita ja lyhyen aika välin. Ensinnäkin, suorituskyky Google Flu Trends oli itse asiassa ole paljon parempi kuin yksinkertainen malli, joka arvioi määrä flunssa perustuu lineaariseen ekstrapolointi kahden viimeisimmän mittauksen flunssa esiintyvyys (Goel et al. 2010) . Ja joistakin ajanjaksot Google Flu Trends oli oikeastaan ​​pahempi kuin tämä yksinkertainen lähestymistapa (Lazer et al. 2014) . Toisin sanoen, Google Flu Trends kaikkine tiedot, koneoppimisen ja tehokas laskenta ei merkittävästi parempia yksinkertaisen ja helpompi ymmärtää heuristinen. Tämä viittaa siihen, että kun arvioidaan ennusteista tai nowcast on tärkeää verrata verrataan tilanteeseen.

Toinen tärkeä varoitus Google Flu Trends on, että sen kyky ennustaa CDC flunssatietoja oli altis lyhyen aikavälin vika ja pitkäaikainen rappeutuminen, koska drift ja algoritmeihin sekoittavia. Esimerkiksi vuoden 2009 sikainfluenssa puhkeamisen Google Flu Trends dramaattisesti yliarvioida määrä influenssa, luultavasti koska ihmiset yleensä muuttaa haun käyttäytymistään laajalti pelkoa maailmanlaajuisen pandemian (Cook et al. 2011; Olson et al. 2013) . Näiden lyhyen aikavälin ongelmia, suorituskyky vähitellen rapistunut ajan. Diagnosointi syy tähän pitkän aikavälin rappeutuminen ovat vaikeita, koska Googlen hakualgoritmeilla ovat patentoituja, mutta näyttää siltä, ​​että vuonna 2011 Google tehnyt muutoksia, jotka viittaisivat siihen liittyviä hakutermejä, kun ihmiset etsivät oireita, kuten "kuume" ja "yskä" (se myös näyttää että tämä ominaisuus ei ole enää aktiivinen). Lisäämällä tämä ominaisuus on täysin kohtuullinen asia tehdä jos käytössä hakukoneen liiketoimintaa, ja sillä oli vaikutusta tuottaa enemmän terveyteen liittyviä hakuja. Tämä oli luultavasti menestys liike, mutta se aiheutti Google Flu Trends yliarvioimaan flunssa esiintyvyys (Lazer et al. 2014) .

Onneksi nämä ongelmat Google Flu Trends ovat korjattavissa. Itse asiassa käyttämällä enemmän varovainen menetelmiä, Lazer et al. (2014) ja Yang, Santillana, and Kou (2015) pystyivät saamaan parempia tuloksia. Jatkossa odotan, että lyhyen aika välin tutkimuksista, joissa yhdistyy suuri tietoja tutkija kerättyjen tietojen, jotka yhdistävät Duchamp-tyyliin Readymades kanssa Michaelangelo-style Custommades-mahdollistaa päättäjät tuottaa nopeamman ja tarkemman mittauksia nykyisen ja tulevaisuuden ennusteita.