2.4.2 Prognoser och Nowcasting

Att förutsäga framtiden är svårt, men att förutsäga detta är lättare.

Den andra huvudstrategi som används av forskare med observationsdata räknar. Att förutsäga framtiden är notoriskt svårt, men det kan vara oerhört viktigt för beslutsfattare, oavsett om de arbetar i företag eller myndigheter.

Kleinberg et al. (2015) har två berättelser som tydliggör vikten av prognoser för vissa politiska problem. Föreställ en beslutsfattare, jag ringer henne Anna, som står inför en torka och måste besluta om att anlita en shaman att göra en regndans för att öka risken för regn. En annan beslutsfattare, jag ringer honom Bob, måste besluta om att ta ett paraply för att arbeta för att undvika att bli blöt på vägen hem. Både Anna och Bob kan göra ett bättre beslut om de förstår väder, men de behöver veta olika saker. Anna måste förstå om regnet dans orsakar regn. Bob, å andra sidan, behöver inte förstå något om kausalitet; han behöver bara en korrekt prognos. Sociala forskare ofta fokusera på vad Kleinberg et al. (2015) kallar "regndans-liknande" politiska problem-de som fokuserar på orsaks-och ignorera "paraplyliknande" politiska problem som är inriktade på prognoser.

Jag skulle vilja fokusera dock på en speciell typ av prognoser kallas Nowcasting -a term som härrör från att kombinera "nu" och "prognoser." I stället för att förutsäga framtiden, nowcasting försök att förutsäga den nuvarande (Choi and Varian 2012) . Med andra ord använder Nowcasting prognosmetoder för problem med mätningen. Som sådan bör det vara särskilt användbar för regeringar som kräver snabba och korrekta åtgärder om deras länder. Nowcasting kan illustreras tydligast med exempel på Google Flu Trends.

Föreställ dig att du känner dig lite krasslig så du skriver "influensamedel" i en sökmotor får en sida med länkar som svar, och sedan följa en av dem till en bra webbsida. Föreställ dig nu denna verksamhet som spelas ut ur sökmotorn. Varje ögonblick är miljontals förfrågningar som kommer från hela världen, och denna ström av förfrågningar-vad Battelle (2006) har kallat "databas av avsikter" - ger en ständigt uppdaterad fönster i det kollektiva globala medvetandet. Emellertid, svarvning denna ström av information i en mätning av förekomsten av influensa är svårt. Helt enkelt räkna upp antalet förfrågningar för "influensa åtgärder" kanske inte fungerar bra. Inte alla som har influensa söker efter influensamedel och inte alla som söker för influensa åtgärder har influensa.

Det viktiga och smart trick bakom Google Flu Trends var att vända ett mätproblem i en prognos problem. De amerikanska Centers for Disease Control and Prevention (CDC) har ett system för övervakning av influensa som samlar in information från läkare runt om i landet. Men det är ett problem med detta CDC systemet finns en två veckors rapportering lag; den tid det tar för data som anländer från läkare, som skall rengöras, bearbetas och publiceras. Men, vid hantering av en ny epidemi, folkhälso kontor vill inte veta hur mycket influensa fanns två veckor sedan; de vill veta hur mycket influensa finns just nu. Faktum är att i många andra traditionella källor för sociala data, det finns luckor mellan vågor av datainsamling och rapportering eftersläpning. De flesta stora datakällor, å andra sidan, är alltid på (avsnitt 2.3.1.2).

Därför Jeremy Ginsberg och kollegor (2009) försökte att förutsäga influensa uppgifter CDC från sökdata Google. Detta är ett exempel på "att förutsäga den nuvarande" eftersom forskarna försökte mäta hur mycket influensa finns det nu genom att förutsäga framtida data från CDC, framtida data som mäter detta. Med hjälp av maskininlärning, sökte de igenom 50 miljoner olika söktermer för att se vilka som är mest prediktiva av influensadata CDC. I slutändan, fann de en uppsättning av 45 olika frågor som tycktes vara mest prediktiva, och resultaten var ganska bra: de kunde använda sökdata att förutsäga CDC data. Delvis baserad på detta dokument, som publicerades i Nature, blev Google Flu Trends en ofta upprepad framgångssaga om kraften i stora uppgifter.

Det finns två viktiga förbehåll till denna uppenbara framgång, dock, och förstå dessa varningar kommer att hjälpa dig att utvärdera och göra prognoser och Nowcasting. För det första resultatet av Google Flu Trends var faktiskt inte mycket bättre än en enkel modell som uppskattar mängden av influensa baserad på en linjär extrapolering från de två senaste mätningarna av influensa prevalensen (Goel et al. 2010) . Och under vissa tidsperioder Google Flu Trends var faktiskt värre än denna enkla metod (Lazer et al. 2014) . Med andra ord, har Google Flu Trends med alla dess data, maskininlärning, och kraftfull dator inte dramatiskt bättre än en enkel och lättare att förstå heuristisk. Detta tyder på att vid bedömningen av någon prognos eller NowCast det är viktigt att jämföra mot en baslinje.

Den andra viktiga varning om Google Flu Trends är att dess förmåga att förutsäga influensa uppgifter CDC var benägna att kortsiktiga misslyckande och långsiktig förfall på grund av drift och algoritm confounding. Till exempel, under 2009 svininfluensans utbrott Google Flu Trends dramatiskt överskattat mängden av influensa, förmodligen eftersom människor tenderar att ändra sitt sökbeteende som svar på utbredd rädsla för en global pandemi (Cook et al. 2011; Olson et al. 2013) . Förutom dessa kortsiktiga problem, prestanda gradvis förföll över tiden. Diagnostisera orsakerna till detta långsiktiga förfall är svårt eftersom Googles sökalgoritmer är egenutvecklade, men det verkar som om Google under 2011 gjort ändringar som skulle föreslå relaterade sökord när folk söker efter symptom som "feber" och "hosta" (det också verkar att denna funktion är inte längre aktiv). Lägga denna funktion är en helt rimlig sak att göra om du kör en sökmotor företag, och det fick till följd att generera fler hälsorelaterade sökningar. Detta var förmodligen en framgång för verksamheten, men det orsakade Google Flu Trends till överskatta influensa prevalens (Lazer et al. 2014) .

Lyckligtvis dessa problem med Google Flu Trends är repareras. Att använda mer noggranna metoder, Lazer et al. (2014) och Yang, Santillana, and Kou (2015) kunde få bättre resultat. Framöver förväntar jag mig att nowcasting studier som kombinerar stora data med forskare insamlade data-som kombinerar Duchamp stil readymades med Michael stil Custommades-gör det möjligt för beslutsfattare att producera snabbare och mer exakt mätning av den nuvarande och förutsägelser om framtiden.