Forudsige fremtiden er hårdt, men forudsige foreliggende er nemmere.
Den anden vigtigste strategi, der anvendes af forskere med observationsdata er at kunne forudsige. Forudsige fremtiden er notorisk vanskeligt, men det kan være utroligt vigtigt for beslutningstagerne, uanset om de arbejder i virksomheder eller regeringer.
Kleinberg et al. (2015) tilbyder to historier, der præciserer betydningen af prognoser for visse politiske problemer. Forestil dig en politisk beslutningstager, vil jeg kalde hende Anna, som står over for en tørke og skal beslutte, om at leje en shaman til at gøre en regndans at øge chancen for regn. En anden politisk beslutningstager, vil jeg kalde ham Bob, skal beslutte, om at tage en paraply til at arbejde for at undgå at blive våd på vej hjem. Både Anna og Bob kan gøre en bedre beslutning, hvis de forstår vejr, men de har brug for at vide forskellige ting. Anna har brug for at forstå, om regnen dans forårsager regn. Bob, på den anden side, ikke behøver at forstå noget om kausalitet; han bare brug for en præcis prognose. Sociale forskere fokuserer ofte på hvad Kleinberg et al. (2015) kalder "regndans-lignende" politiske problemer-dem, der fokuserer på kausalitet-og ignorere "paraply-lignende" politiske problemer, der er fokuseret på prognoser.
Jeg vil gerne fokusere dog på en særlig form for prognoser kaldet udarbejdelse af korttidsprognoser -a udtryk afledt kombinere "nu" og "forecasting." I stedet for at forudsige fremtiden, udarbejdelse af korttidsprognoser forsøg på at forudsige den nuværende (Choi and Varian 2012) . Med andre ord, udarbejdelse af korttidsprognoser bruger prognosemetoderne til problemer med måling. Som sådan bør det være særligt nyttigt til regeringer, der kræver rettidige og nøjagtige foranstaltninger om deres lande. Udarbejdelse af korttidsprognoser kan illustreres mest tydeligt med eksemplet med Google Flu Trends.
Forestil dig, at du føler dig lidt under vejr, så du skriver "influenza retsmidler" i en søgemaskine, får en side med links som svar, og følg derefter en af dem til en hjælpsom webside. Nu forestille denne aktivitet bliver spillet ud fra perspektivet af søgemaskinen. Hvert øjeblik, er millioner af forespørgsler ankommer fra hele verden, og denne strøm af forespørgsler-hvad Battelle (2006) har kaldt "database intentioner" - giver et konstant opdateret vindue i den kollektive globale bevidsthed. Imidlertid slår denne strøm af information til en måling af forekomsten af influenza er vanskelig. Du skal blot tælle op antallet af forespørgsler for "influenza retsmidler" kunne ikke fungerer godt. Ikke alle, der har influenza søger efter influenza retsmidler og ikke alle, der søgende for influenza retsmidler har influenza.
Det vigtige og smart trick bag Google Flu Trends var at slå en måling problem i en forecasting problem. De amerikanske Centers for Disease Control og Forebyggelse (CDC) har en influenza overvågningssystem, der indsamler oplysninger fra læger rundt om i landet. Men et problem med denne CDC-systemet er der er en to ugers rapportering forsinkelse; den tid det tager for data, der ankommer fra læger, der skal renses, behandles og offentliggøres. Men, når du håndterer en ny epidemi, folkesundhed kontorer ønsker ikke at vide, hvor meget influenza var der for to uger siden; de ønsker at vide, hvor meget influenza er der lige nu. I virkeligheden, i mange andre traditionelle kilder til sociale data, der er huller mellem bølger af dataindsamling og rapportering halter. De fleste store datakilder, på den anden side, er altid-on (afsnit 2.3.1.2).
Derfor Jeremy Ginsberg og kolleger (2009) har forsøgt at forudsige CDC influenza data fra søgedata Google. Dette er et eksempel på "forudsige den foreliggende", fordi forskerne forsøgte at måle, hvor meget influenza er der nu ved at forudsige fremtidige data fra CDC, fremtidige data, der måler den foreliggende. Ved hjælp af machine learning, de søgte gennem 50 millioner forskellige søgetermer at se, hvilke er mest prædiktive for CDC influenza data. I sidste ende fandt de et sæt af 45 forskellige forespørgsler, syntes at være mest forudsigende, og resultaterne var ganske godt: de kunne bruge søgningen til at forudsige CDC data. Delvist baseret på dette papir, som blev offentliggjort i Nature, Google Flu Trends blev en ofte gentaget succeshistorie om styrken af store data.
Der er to vigtige forbehold til denne tilsyneladende succes, dog, og forstå disse forbehold vil hjælpe dig med at evaluere og gøre prognoser og udarbejdelse af korttidsprognoser. Først, udførelsen af Google Flu Trends var faktisk ikke meget bedre end en simpel model, der estimerer mængden af influenza er baseret på en lineær ekstrapolation fra de to seneste målinger af forekomsten influenza (Goel et al. 2010) . Og, over nogle perioder var Google Flu Trends faktisk værre end denne simple metode (Lazer et al. 2014) . Med andre ord, har Google Flu Trends med alle sine data, maskinindlæring og kraftfuld computing ikke dramatisk bedre end en enkel og lettere at forstå heuristisk. Dette antyder, at når de evaluerer enhver prognose eller nowcast er det vigtigt at sammenligne med en baseline.
Den anden vigtig advarsel om Google Flu Trends er, at dens evne til at forudsige CDC influenza data var udsat for kortsigtet fiasko og langsigtet forfald på grund af afdrift og algoritmisk confounding. For eksempel, i løbet af 2009 svineinfluenza udbrud Google Flu Trends dramatisk overvurderet mængden af influenza, sandsynligvis fordi folk har en tendens til at ændre deres søgning adfærd som reaktion på udbredt frygt for en global pandemi (Cook et al. 2011; Olson et al. 2013) . Ud over disse kortsigtede problemer, ydeevne henfaldet gradvist over tid. Diagnosticering årsagerne til denne langsigtede forfald er vanskeligt, fordi Google søgealgoritmer er proprietære, men det lader til, at Google i 2011 foretaget ændringer, der vil foreslå relaterede søgeord når folk søger efter symptomer som "feber" og "hoste" (det synes også at denne funktion er ikke længere aktiv). Tilføjelse denne funktion er en helt rimelig ting at gøre, hvis du kører en søgemaskine virksomhed, og det havde den virkning at skabe mere sundhed relaterede søgninger. Dette var sandsynligvis en succes for virksomheden, men det forårsagede Google Flu Trends til influenza forekomst overvurdere (Lazer et al. 2014) .
Heldigvis disse problemer med Google Flu Trends er fixable. Faktisk ved anvendelse af mere omhyggelige metoder, Lazer et al. (2014) og Yang, Santillana, and Kou (2015) var i stand til at få bedre resultater. Fremadrettet forventer jeg, at udarbejdelse af korttidsprognoser undersøgelser, der kombinerer store data med forsker indsamlede data-, der kombinerer Duchamp-stil readymades med Michaelangelo-stil Custommades-vil sætte de politiske beslutningstagere til at producere hurtigere og mere præcise målinger af den nuværende og forudsigelser om fremtiden.