2.4.2 Prognozowanie i krótkoterminowego prognozowania

Przewidywanie przyszłości jest trudne, ale przewidywania obecny jest łatwiejsze.

Drugim głównym strategia stosowana przez naukowców z danymi obserwacyjnymi prognozuje. Przewidywanie przyszłości jest bardzo trudne, ale może być bardzo ważne dla decydentów, czy pracują w firmach lub rządów.

Kleinberg et al. (2015) oferuje dwie historie, które wyjaśniają znaczenie przewidywania pewnych problemów politycznych. Wyobraźmy sobie jeden zestaw do polityki, zadzwonię do jej Anna, który jest skierowany na suszę i musi zdecydować, czy zatrudnić szamana zrobić taniec deszczu, aby zwiększyć szanse na deszcz. Innym decydent, zadzwonię do niego Bob, musi zdecydować, czy wziąć parasol do pracy, aby uniknąć zamoczenia w drodze do domu. Zarówno Anna i Robert może zrobić lepszą decyzję, czy oni rozumieją pogodę, ale muszą wiedzieć różne rzeczy. Anna musi zrozumieć, czy taniec deszczu wywołuje deszcz. BOB, z drugiej strony, nie jest konieczne do zrozumienia nic o przyczynowości; on po prostu potrzebuje dokładnej prognozy. Badacze społeczni często koncentrują się na tym, co Kleinberg et al. (2015) nazywają "Rain Dance-podobny" problem-tych zasad, które koncentrują się na przyczynowości, i ignorować problemów politycznych "parasola-like", które koncentrują się na prognozowaniu.

Chciałbym skupić się jednak na specjalnym rodzaju prognozowania nazwie krótkoterminowego prognozowania -a termin pochodzący z połączenia "teraz" i "prognozowania". Zamiast przewidywania przyszłości, krótkoterminowego prognozowania próby przewidzenia prezent (Choi and Varian 2012) . Innymi słowy, krótkoterminowego prognozowania wykorzystuje metody prognozowania problemy pomiaru. Jako taki powinien być szczególnie użyteczne dla rządów, które wymagają szybkich i dokładnych środków o swoich krajach. Krótkoterminowego prognozowania można zilustrować najwyraźniej na przykładzie Google Flu Trends.

Wyobraźmy sobie, że czujesz się trochę pod pogody, więc wpiszesz "środki grypy" w wyszukiwarce, otrzymasz stronę linki w odpowiedzi, a następnie jeden z nich pomocnej stronie. Teraz wyobraź sobie, działalność ta rozgrywa się z perspektywy wyszukiwarki. Każda chwila, miliony zapytań przyjeżdżają z całego świata, a ten strumień zapytaniami-co Battelle (2006) nazwał "bazy danych intencji" - zapewnia stale aktualizowany okno do zbiorowej świadomości globalnej. Jednakże, obrót ten strumień danych do pomiaru występowania grypy jest trudne. Po prostu liczy się liczbę zapytań dla "środków zaradczych przeciw grypie" nie może działać dobrze. Nie każdy, kto ma wyszukiwań grypie środków grypę i nie każdy, kto wyszukiwarki dla środków grypa grypę.

Ważną i sprytna sztuczka za Google Flu Trends było włączyć problem pomiaru do problemu prognozowania. Amerykańskie Centrum Kontroli i Zapobiegania Chorobom (CDC) posiada system monitorowania grypy, który zbiera informacje od lekarzy z całego kraju. Jednak jeden problem z tym systemem CDC jest raportowanie dwa tygodnie opóźnienia; czas potrzebny na dane przybywających z lekarzy, aby być oczyszczone, przetwarzane i publikowane. Ale przy obchodzeniu się nową epidemią, urzędy zdrowia publicznego nie chce wiedzieć, ile grypy było dwa tygodnie temu; chcą wiedzieć, ile grypy istnieje teraz. W rzeczywistości w wielu innych tradycyjnych źródeł danych społecznych, istnieją luki między falami zbierania danych i raportowania opóźnień. Większość dużych źródeł danych, z drugiej strony, są zawsze włączone (sekcja 2.3.1.2).

Dlatego Jeremy Ginsberg i jego współpracownicy (2009) starał się przewidzieć dane grypy CDC z danych wyszukiwania Google. To jest przykład "przewidywania obecny", ponieważ naukowcy próbowali zmierzyć ile grypy istnieje obecnie przez przewidywaniu przyszłych danych z CDC, przyszłego danych, które mierzy prezent. Korzystanie uczenie maszynowe, szukali przez 50 milionów różnych haseł, aby zobaczyć, które są najbardziej predykcyjna danych grypy CDC. Ostatecznie znaleźli zestaw 45 różnych zapytań, który wydawał się być najbardziej predykcyjna, a wyniki były całkiem dobre: ​​mogą korzystać z danych wyszukiwania przewidzieć dane CDC. Częściowo na podstawie tego artykułu, który został opublikowany w Nature, Google Flu Trends stał się często powtarza się sukcesem o sile dużych danych.

Istnieją dwa istotne zastrzeżenia do tego pozornego sukcesu, jednak i rozumiejąc te zastrzeżenia, pomogą ocenić i zrobić prognozowania i krótkoterminowego prognozowania. Po pierwsze, wyniki Google Flu Trends faktycznie nie wiele lepiej niż prosty model, który szacuje kwotę grypą opartego na liniowej ekstrapolacji z dwóch ostatnich pomiarów występowania grypy (Goel et al. 2010) . A na niektórych okresach Google Flu Trends był rzeczywiście gorsze od tego prostego podejścia (Lazer et al. 2014) . Innymi słowy, Google Flu Trends ze wszystkimi jego danymi, uczenia maszynowego i potężny komputerów nie znacznie przewyższają proste i łatwiejsze do zrozumienia heurystyki. Sugeruje to, że podczas oceny jakichkolwiek prognozę lub nowcast należy porównać przed rozpoczęciem leczenia.

Drugie istotne zastrzeżenie o Google Flu Trends jest to, że jego zdolność do przewidywania danych grypy CDC było podatne na uszkodzenia krótkoterminowego i długoterminowego zaniku z powodu dryfu i algorytmicznej mylenia. Na przykład, w trakcie 2009 wybuchu epidemii świńskiej grypy Google Flu Trends znacznie zawyżona ilość grypy, prawdopodobnie dlatego, że ludzie mają tendencję do zmiany ich zachowania wyszukiwania w odpowiedzi na powszechne obawy o globalną pandemią (Cook et al. 2011; Olson et al. 2013) . Oprócz tych problemów krótkoterminowych, wydajność stopniowo rozpadła się w czasie. Diagnozowanie przyczyn tego długiego zaniku pojęcia są trudne, ponieważ algorytmy wyszukiwania Google są zastrzeżone, ale wydaje się, że w 2011 roku Google wprowadziło zmiany, które sugerowałyby związanych haseł, gdy ludzie szukają objawów jak "Fever" i "kaszel" (również wydaje że ta funkcja nie jest aktywna). Dodanie tej funkcji jest całkowicie rozsądne rzeczą do zrobienia, jeśli prowadzenie działalności gospodarczej w wyszukiwarkach, a to miało wpływ na generowanie więcej wyszukiwań związanych ze zdrowiem. Prawdopodobnie było to sukces dla biznesu, ale to spowodowane Google Flu Trends przecenić występowania grypy (Lazer et al. 2014) .

Na szczęście te problemy z Google Flu Trends to naprawić. W rzeczywistości, przy użyciu metod bardziej ostrożny, Lazer et al. (2014) i Yang, Santillana, and Kou (2015) udało się uzyskać lepsze wyniki. Idąc dalej, spodziewam się, że krótkoterminowego prognozowania badania, które łączą duże ilości danych z badacza zbierane DANYCH które łączą Readymades Duchamp stylu z Michaelangelo stylu Custommades-pozwolą decydentom produkować szybsze i dokładniejsze pomiary teraźniejszości i przewidywania przyszłości.