2.4.2 Forecasting en nowcasting

Het voorspellen van de toekomst is moeilijk, maar het voorspellen van het heden is makkelijker.

De tweede belangrijkste strategie gebruikt door onderzoekers met waarnemingsgegevens voorspelt. Het voorspellen van de toekomst is notoir moeilijk, maar het kan ongelooflijk belangrijk voor beslissers zijn, of ze nu werken in bedrijven of overheden.

Kleinberg et al. (2015) biedt twee verhalen die het belang van forecasting te verduidelijken voor bepaalde problemen beleid. Stelt u zich eens een beleidsmaker, zal ik haar Anna, die wordt geconfronteerd met een droogte en moet beslissen of om een ​​sjamaan te huren om te doen een regendans om de kans op regen verhogen noemen. Een ander beleid maker, zal ik hem bellen Bob, moet beslissen of een paraplu te nemen aan het werk om te voorkomen dat nat op de weg naar huis. Zowel Anna en Bob kan een betere beslissing te nemen als ze weer te begrijpen, maar ze moeten om verschillende dingen te weten. Anna moet begrijpen of de regendans veroorzaakt regen. Bob, aan de andere kant, niet nodig om iets over causaliteit te begrijpen; hij moet gewoon een accurate voorspelling. Sociale wetenschappers vaak focussen op wat Kleinberg et al. (2015) noemen "rain dance-achtige" beleidsproblemen-degenen die zich richten op de causaliteit-en 'paraplu-achtige "beleidsproblemen die gericht zijn op forecasting negeren.

Ik zou graag willen focussen echter op een speciaal soort forecasting genaamd nowcasting -een term afgeleid van het combineren van "nu" en "prognoses." In plaats van het voorspellen van de toekomst, nowcasting pogingen om de huidige voorspellen (Choi and Varian 2012) . Met andere woorden, nowcasting gebruikt forecasting methoden voor de problemen van de meting. Als zodanig moet het vooral handig om regeringen die tijdige en accurate maatregelen over hun landen eisen zijn. Nowcasting kan het duidelijkst geïllustreerd worden met het voorbeeld van Google Grieptrends.

Stel je voor dat je het gevoel een beetje onder het weer, zodat u het type "griep remedies" in een zoekmachine, ontvangt u een pagina met links in reactie, en volg een van hen een nuttig webpagina. Stel je nu voor deze activiteit wordt uitgevoerd vanuit het perspectief van de zoekmachine gespeeld. Elk moment, miljoenen vragen zijn afkomstig uit de hele wereld, en deze stroom van vragen: wat Battelle (2006) de "databank van de intenties" heeft genoemd - zorgt voor een continu bijgewerkte raam in het collectieve mondiale bewustzijn. Echter, om van deze informatiestroom een ​​meetsysteem van de prevalentie van de griep moeilijk. Gewoon tellen het aantal zoekopdrachten voor "griep remedies" misschien niet goed werken. Niet iedereen die de griep zoekopdrachten voor griep remedies en niet iedereen die zoekers naar griep remedies heeft de griep.

De belangrijke en slimme truc achter Google Grieptrends was om een meting probleem om te zetten in een forecasting probleem. De Amerikaanse Centers for Disease Control and Prevention (CDC) heeft een influenza-bewakingssysteem dat de informatie van de artsen in het hele land verzamelt. Echter, een probleem met dit CDC-systeem is er een twee weken rapportage lag; de tijd die nodig is voor de gegevens die vanuit artsen te reinigen, verwerkt en gepubliceerd. Maar, bij de behandeling van een opkomende epidemie, volksgezondheid kantoren wil niet weten hoeveel influenza was er twee weken geleden; ze willen weten hoeveel influenza is er op dit moment. In feite, in veel andere traditionele bronnen van sociale gegevens, zijn er verschillen tussen de golven van het verzamelen van gegevens en rapportage vertragingen. Meeste grote gegevensbronnen, daarentegen, zijn altijd ingeschakelde (Sectie 2.3.1.2).

Daarom Jeremy Ginsberg en collega's (2009) probeerde de CDC griep data voorspellen van de zoekgegevens van Google. Dit is een voorbeeld van "het voorspellen van de onderhavige" omdat de onderzoekers probeerden te meten hoeveel griep er nu door het voorspellen van toekomstige gegevens van de CDC, toekomstige gegevens meet deze. Met behulp van machine learning, zochten ze door 50 miljoen verschillende zoektermen te zien welke het meest voorspellende van de CDC griep gegevens. Uiteindelijk vonden ze een set van 45 verschillende vragen die leek het meest voorspellend te zijn, en de resultaten waren heel goed: zij konden de zoekgegevens te gebruiken om de CDC gegevens te voorspellen. Mede op basis van dit document, dat in Nature werd gepubliceerd, Google Flu Trends werd een vaak herhaald succesverhaal over de kracht van big data.

Er zijn twee belangrijke kanttekeningen bij deze schijnbare succes, echter, en begrijpen van deze waarschuwingen zullen u helpen evalueren en te doen prognoses en nowcasting. Ten eerste, de prestaties van Google Grieptrends was eigenlijk niet veel beter dan een eenvoudig model dat de hoeveelheid van de griep op basis van een lineaire extrapolatie van de twee meest recente metingen van griep prevalentie schat (Goel et al. 2010) . En na verloop van enige tijd periodes Google Flu Trends was eigenlijk nog erger dan deze eenvoudige benadering (Lazer et al. 2014) . Met andere woorden, heeft Google Flu Trends met al zijn data, machine learning, en krachtige computermogelijkheden niet dramatisch beter presteren dan een eenvoudige en gemakkelijker te heuristische begrijpen. Dit suggereert dat bij de beoordeling van voorspellingen of nowcast is het belangrijk om te vergelijken met een basislijn.

De tweede belangrijke waarschuwing over Google Flu Trends is dat zijn vermogen om de CDC griep data te voorspellen was gevoelig voor de korte termijn falen en lange termijn verval als gevolg van drift en algoritmische verwarrende. Bijvoorbeeld, tijdens de 2009 Mexicaanse griep uitbraak Google Flu Trends dramatisch overschat het bedrag van de griep, waarschijnlijk omdat mensen de neiging om hun zoekgedrag in reactie veranderen om wijdverspreide angst voor een wereldwijde pandemie (Cook et al. 2011; Olson et al. 2013) . Naast deze problemen op korte termijn, de prestaties geleidelijk rotte tijd. De diagnose van de redenen voor deze lange termijn verval zijn moeilijk, omdat de Google-zoekalgoritmen zijn eigendom, maar het blijkt dat in 2011 Google maakte veranderingen die zou suggereren gerelateerde zoektermen wanneer mensen zoeken naar symptomen zoals "koorts" en "hoesten" (het lijkt ook deze functie is niet meer actief). Het toevoegen van deze functie is een heel redelijke ding om te doen als u werkt met een zoekmachine bedrijf, en het had het effect van het genereren van meer gezondheid gerelateerde zoekopdrachten. Dit was waarschijnlijk een succes voor het bedrijf, maar het veroorzaakt Google Flu Trends tot overschatting griep prevalentie (Lazer et al. 2014) .

Gelukkig zijn deze problemen met Google Flu Trends zijn opgelapt worden. In feite is het gebruik voorzichtiger methoden Lazer et al. (2014) en Yang, Santillana, and Kou (2015) waren in staat om betere resultaten te krijgen. In de toekomst verwacht ik dat nowcasting studies die big data te combineren met onderzoeker verzamelde gegevens, dat Duchamp-stijl Readymades combineren met Michaelangelo-stijl Custommades-zal de beleidsmakers in staat stellen om sneller en nauwkeuriger metingen van het heden en voorspellingen van de toekomst te produceren.