Tulevaisuuden ennustaminen on vaikeaa, mutta ennustaminen läsnä on helpompaa.
Toinen päästrategian tutkija voi käyttää havainnointiin liittyvien tietojen ennustamista . Tulevaisuuden arvostaminen on tunnetusti vaikeaa, ja ehkä siksi ennuste ei ole tällä hetkellä suuri osa sosiaalista tutkimusta (vaikka se on pieni ja tärkeä osa väestötieteitä, taloustieteitä, epidemiologiaa ja poliittista tiedettä). Tässä haluan kuitenkin keskittyä erityiseen ennusteeseen, jota kutsutaan nowcasting- termiksi, joka on peräisin yhdistelmästä "nyt" ja "ennusteesta". Tulevaisuuden ennustamisen sijaan nytcasting yrittää käyttää ideoita arvioidakseen nykyisen tilan mittaamista maailmasta; se yrittää "ennustaa nykyhetkeä" (Choi and Varian 2012) . Nowcastingilla on potentiaalia olla erityisen hyödyllisiä hallituksille ja yrityksille, jotka tarvitsevat ajankohtaisia ja tarkkoja mittauksia maailmalta.
Yksi tapaus, jossa tarve ajankohtaiseen ja tarkkaan mittaukseen on hyvin selkeä, on epidemiologia. Harkitse influenssan tapausta ("influenssa"). Vuosittain kausiluonteiset influenssapandemit aiheuttavat miljoonia sairauksia ja satoja tuhansia kuolonuhreja ympäri maailmaa. Lisäksi joka vuosi on olemassa mahdollisuus, että ilmenee uusi influenssavirta, joka tappaa miljoonia. Esimerkiksi vuoden 1918 influenssan puhkeamisen arvioidaan tapettavan 50-100 miljoonaa ihmistä (Morens and Fauci 2007) . Koska on tarpeen seurata ja mahdollisesti vastata influenssan puhkeamiseen, hallitukset ympäri maailmaa ovat luoneet influenssan valvontajärjestelmiä. Esimerkiksi Yhdysvaltojen keskukset sairauksien ehkäisyyn ja ennaltaehkäisyyn (CDC) keräävät säännöllisesti ja järjestelmällisesti tietoja huolellisesti valituista lääkäreistä ympäri maata. Vaikka järjestelmä tuottaa laadukkaita tietoja, sillä on raportointiviive. Toisin sanoen CDC-järjestelmä julkaisee arvioita siitä, kuinka paljon influenssa on ollut kaksi viikkoa sitten, koska lääkäreiltä tulevat tiedot puhdistetaan, käsitellään ja julkaistaan. Mutta kun käsittelee uutta epidemiaa, kansanterveysvirkamiehet eivät halua tietää, kuinka paljon influenssaa oli kaksi viikkoa sitten; he haluavat tietää, kuinka paljon influenssaa on juuri nyt.
Samaan aikaan kun CDC kerää tietoja influenssan seuraamiseksi, Google kerää myös tietoja influenssan esiintyvyydestä, vaikka se on melko erilaisessa muodossa. Ihmiset ympäri maailmaa lähettävät jatkuvasti kyselyjä Googlelle, ja jotkut näistä kyselyistä, kuten "influenssaruoat" ja "flunssan oireet", kertovat, että kyselylomakkeen henkilöllä on influenssa. Käyttämällä näitä hakukyselyjä arvioimaan influenssan esiintyvyyttä on kuitenkin hankalaa: ei kaikki, joilla on influenssa, aiheuttavat influenssatutkimuksen, eikä kaikki flunssaan liittyvät haut ole peräisin flunssasta.
Jeremy Ginsberg ja kollegani (2009) , jotkut Googlessa ja jotkut CDC: ssä, olivat tärkeitä ja fiksuja ajatuksia yhdistää nämä kaksi tietolähdettä. Hiukan tietyn tilastollisen alchemin kautta tutkijat yhdistivät nopeat ja epätarkat hakutiedot hidas ja tarkka CDC-data voidakseen tuottaa nopeasti ja tarkkoja influenssan esiintyvyyden mittauksia. Toinen tapa ajatella, että he käyttivät hakutietoja nopeuttaakseen CDC-tietoja.
Tarkemmin sanottuna, vuosien 2003 ja 2007 välisenä aikana Ginsberg ja kollegat arvioivat influenssan esiintyvyyden suhdetta CDC-tietoihin ja 50 miljoonan erillisen termin etsintätilavuuden. Tästä prosessista, joka oli täysin datapohjainen eikä vaadi erikoislääketieteellistä tietämystä, tutkijat löysivät joukon 45 erilaista kyselyä, jotka näyttivät olevan eniten ennustavia CDC-influenssan esiintyvyystietoja. Sitten, käyttämällä suhteita, jotka he oppivat 2003-2007 tiedot, Ginsberg ja kollegat testasivat mallin aikana 2007-2008 influenssan kausi. He havaitsivat, että heidän menettelyt voisivat todellakin tehdä hyödyllisiä ja tarkkoja lähetyksiä (kuva 2.6). Nämä tulokset julkaistiin Luonnossa ja saivat adoring lehdistökatteen. Tämä projekti, jota kutsuttiin nimellä Google Influenz Trends, tuli usein toistuva vertaus suurien tietojen voimasta muuttaa maailmaa.
Kuitenkin tämä ilmeinen menestystarina muuttui lopulta häpeäksi. Ajan myötä tutkijat löysivät kaksi tärkeää rajoitusta, jotka tekivät Google Influenssavirheet vähemmän vaikuttaviksi kuin alun perin ilmestyi. Ensinnäkin Google Influenz Trendsin suorituskyky ei todellisuudessa ollut paljon parempi kuin yksinkertainen malli, joka arvioi flunssan määrän, joka perustuu lineaariseen ekstrapolointiin kahdesta viimeisimmästä influenssan esiintyvyydestä (Goel et al. 2010) . Ja tietyissä ajanjaksoissa Google Influenza Trends oli todella huonompi kuin tämä yksinkertainen lähestymistapa (Lazer et al. 2014) . Toisin sanoen, Google Influenza Trends ja kaikki sen tiedot, koneen oppiminen ja tehokas tietojenkäsittely eivät ole dramaattisesti parempia kuin yksinkertainen ja helpommin ymmärrettävä heuristinen. Tämä viittaa siihen, että arvioitaessa ennusteita tai muutoksia, on tärkeää verrata perusarvoja.
Toinen tärkeä huomionosoitus Google Flu Trends -ohjelmasta on se, että sen kyky ennustaa CDC-influenssatietoja oli altis lyhytaikaiselle epäonnistumiselle ja pitkän aikavälin hajoamisesta johtuen ajautumisesta ja algoritmisesta häirinnästä . Esimerkiksi vuoden 2009 sikainfluenssan puhkeamisen aikana Google Influenz Trends ylitti voimakkaasti influenssan määrän, todennäköisesti siksi, että ihmiset pyrkivät muuttamaan hakukäyttäytymistään vastauksena maailmanlaajuisen pandemian laajaan pelkoon (Cook et al. 2011; Olson et al. 2013) . Näiden lyhyen aikavälin ongelmien lisäksi suorituskyky väheni asteittain ajan myötä. Tämän pitkän aikavälin hajoamisen syiden selvittäminen on vaikeaa, koska Google-hakualgoritmit ovat omistettuja, mutta näyttää siltä, että Google alkoi vuonna 2011 ehdottaa asiaan liittyviä hakutermejä, kun ihmiset etsivät flunssan oireita, kuten "kuumetta" ja "yskää" (näyttää siltä, että tämä ominaisuus ei ole enää aktiivinen). Tämän ominaisuuden lisääminen on täysin järkevää tehdä, jos käytät hakukonea, mutta tämän algoritmisen muutoksen vaikutukset aiheuttivat enemmän terveyteen liittyviä hakuja, jotka aiheuttivat Google Influenz Trendsin yliarvioivan influenssan esiintyvyyden (Lazer et al. 2014) .
Nämä kaksi varoitusta vaikeuttavat tulevia muutoksia, mutta ne eivät tuomitse niitä. Itse asiassa käyttämällä tarkempia menetelmiä, Lazer et al. (2014) ja Yang, Santillana, and Kou (2015) pystyivät välttämään nämä kaksi ongelmaa. Jatkossa eteenpäin, odotan, että suurten tietolähteiden ja tutkijoiden keräämien tietojen yhdistämiseen perustuvat tutkimukset antavat yrityksille ja hallituksille mahdollisuuden luoda ajantasaisempia ja tarkempia arvioita olennaisesti nopeuttaen mittauksia, jotka tehdään toistuvasti ajan myötä jonkin verran myöhässä. Google-influenssa-trendit, kuten esimerkiksi Google Influence Trends, kertovat, mitä voi tapahtua, jos suuret tietolähteet yhdistetään perinteisempään tutkimustarkoitukseen tuotettuihin tietoihin. Ajattelemalla luvun 1 art analogiaa, nytcastingilla on mahdollisuus yhdistää Duchamp-tyyppisiä valmiuksia Michelangelon tyyliin, jotta päätöksentekijät voivat tehdä ajankohtaisempia ja tarkempia mittauksia lähitulevaisuuden nykyisistä ja ennusteista.