Przewidywanie przyszłości jest trudne, ale przewidywania obecny jest łatwiejsze.
Drugą główną strategią, którą badacze mogą wykorzystać do prognozowania, są dane obserwacyjne. Podejmowanie domysłów na temat przyszłości jest niezwykle trudne i być może dlatego prognozy nie stanowią obecnie dużej części badań społecznych (choć jest to mała i ważna część demografii, ekonomii, epidemiologii i nauk politycznych). Tutaj jednak chciałbym skupić się na specjalnym rodzaju prognozowania zwanym terazcastcastingiem - termin wywodzący się z połączenia "teraz" i "prognozowania". Zamiast przewidywać przyszłość, teraz prognozuje próby wykorzystania pomysłów z prognozowania do pomiaru obecnego stanu na świecie; próbuje "przewidzieć teraźniejszość" (Choi and Varian 2012) . Nowcasting może być szczególnie przydatny dla rządów i firm, które wymagają terminowych i dokładnych pomiarów na świecie.
Jednym z warunków, w których potrzeba szybkiego i dokładnego pomiaru jest bardzo jasna, jest epidemiologia. Rozważ przypadek grypy ("grypa"). Każdego roku epidemie grypy sezonowej powodują miliony chorób i setki tysięcy zgonów na całym świecie. Co więcej, każdego roku może pojawić się nowa forma grypy, która zabiłaby miliony. Szacuje się, że na przykład wybuch epidemii grypy z 1918 roku zabił od 50 do 100 milionów ludzi (Morens and Fauci 2007) . Ze względu na potrzebę śledzenia i potencjalnej reakcji na epidemie grypy, rządy na całym świecie stworzyły systemy nadzoru grypy. Na przykład amerykańskie Centra Kontroli i Zapobiegania Chorób (CDC) regularnie i systematycznie zbierają informacje od starannie wybranych lekarzy z całego kraju. Chociaż ten system generuje wysokiej jakości dane, ma opóźnienie raportowania. Oznacza to, że ze względu na czas potrzebny do oczyszczenia, przetworzenia i opublikowania danych od lekarzy, system CDC publikuje szacunki ilości wirusa grypy sprzed 2 tygodni. Jednak przy reagowaniu na pojawiającą się epidemię urzędnicy zdrowia publicznego nie chcą wiedzieć, ile grypy miało miejsce dwa tygodnie temu; chcą wiedzieć, ile jest obecnie grypy.
W tym samym czasie, gdy CDC zbiera dane do śledzenia grypy, Google zbiera również dane na temat rozpowszechnienia grypy, chociaż w zupełnie innej formie. Ludzie z całego świata stale wysyłają zapytania do Google, a niektóre z tych zapytań - na przykład "środki zaradcze przeciwko grypie" i "objawy grypy" - mogą wskazywać, że osoba wysyłająca zapytanie ma grypę. Jednak wykorzystanie tych zapytań do oszacowania częstości występowania grypy jest trudne: nie każdy, kto ma grypę, przeprowadza poszukiwanie grypowe, a nie każde poszukiwanie grypowe pochodzi od osoby, która ma grypę.
Jeremy Ginsberg i zespół współpracowników (2009) , niektórzy z Google, a niektórzy z CDC, mieli ważny i sprytny pomysł na połączenie tych dwóch źródeł danych. Z grubsza, dzięki swoistej statystycznej alchemii naukowcy połączyli szybkie i niedokładne dane z wyszukiwania z powolnymi i dokładnymi danymi CDC, aby uzyskać szybkie i dokładne pomiary częstości występowania grypy. Innym sposobem na przemyślenie tego jest to, że wykorzystali dane wyszukiwania do przyspieszenia danych CDC.
Dokładniej mówiąc, wykorzystując dane z lat 2003-2007, Ginsberg i współpracownicy oszacowali związek pomiędzy występowaniem grypy w danych CDC a liczbą wyszukiwań dla 50 milionów różnych terminów. Z tego procesu, który był całkowicie oparty na danych i nie wymagał specjalistycznej wiedzy medycznej, naukowcy odkryli zestaw 45 różnych zapytań, które wydawały się najbardziej predykcyjne dla danych o występowaniu grypy CDC. Następnie, wykorzystując relacje, których nauczyli się z danych z lat 2003-2007, Ginsberg i współpracownicy przetestowali swój model w sezonie epidemicznym 2007-2008. Okazało się, że ich procedury rzeczywiście mogą przydać się w czasie rzeczywistym (zob. Rys. 2.6). Wyniki te zostały opublikowane w Nature i otrzymały uwielbianą relację z prasy. Ten projekt, który nazywał się Google Flu Trends, stał się często powtarzaną przypowieścią o sile dużych danych do zmiany świata.
Jednak ta pozorna historia sukcesu ostatecznie przerodziła się w zażenowanie. Z biegiem czasu naukowcy odkryli dwa ważne ograniczenia, które sprawiają, że Google Flu Trends jest mniej imponujący niż początkowo się pojawił. Po pierwsze, wydajność Google Flu Trends nie była w rzeczywistości lepsza niż w przypadku prostego modelu, który szacuje ilość grypy na podstawie liniowej ekstrapolacji z dwóch ostatnich pomiarów rozpowszechnienia grypy (Goel et al. 2010) . Przez pewien okres czasu Google Flu Trends był gorszy od tego prostego podejścia (Lazer et al. 2014) . Innymi słowy, Google Flu Trends ze wszystkimi swoimi danymi, uczeniem maszynowym i wydajnymi komputerami nie drastycznie przewyższył prostą i łatwiejszą do zrozumienia heurystykę. Sugeruje to, że przy ocenie każdej prognozy lub nowcastingu ważne jest porównanie z wartością bazową.
Drugim ważnym zastrzeżeniem dotyczącym Google Flu Trends jest to, że jego zdolność do przewidywania danych grypy CDC była podatna na krótkoterminową awarię i długotrwałe rozpad ze względu na dryf i algorytmiczne zakłócenia . Na przykład podczas epidemii świńskiej grypy Google Flu Trends drastycznie przeceniło ilość grypy, prawdopodobnie dlatego, że ludzie mają tendencję do zmiany swoich zachowań poszukiwawczych w odpowiedzi na powszechny strach przed globalną pandemią (Cook et al. 2011; Olson et al. 2013) . Oprócz tych krótkoterminowych problemów, wydajność stopniowo z czasem ulegała rozkładowi. Diagnozowanie przyczyn tego długotrwałego rozpadu jest trudne, ponieważ algorytmy wyszukiwania Google są zastrzeżone, ale wydaje się, że w 2011 r. Google zaczął sugerować pokrewne terminy wyszukiwania, gdy ludzie szukają objawów grypy, takich jak "gorączka" i "kaszel" (wydaje się również, że ta funkcja nie jest już aktywna). Dodanie tej funkcji jest całkowicie rozsądną czynnością, jeśli korzystasz z wyszukiwarki, ale ta zmiana algorytmiczna spowodowała wygenerowanie większej liczby wyszukiwań związanych ze zdrowiem, które spowodowały, że Google Flu Trends przecenił częstość występowania grypy (Lazer et al. 2014) .
Te dwa zastrzeżenia komplikują przyszłe wysiłki nowcastingowe, ale nie powodują ich zguby. W rzeczywistości, stosując bardziej ostrożne metody, Lazer et al. (2014) i Yang, Santillana, and Kou (2015) byli w stanie uniknąć tych dwóch problemów. Idąc dalej, spodziewam się, że studia nowcastingowe łączące duże źródła danych z danymi zebranymi przez badaczy pozwolą firmom i rządom na tworzenie bardziej aktualnych i dokładniejszych danych szacunkowych, zasadniczo przyspieszając wszelkie pomiary dokonywane wielokrotnie z pewnym opóźnieniem. Projekty prognozujące, takie jak Google Flu Trends, pokazują również, co może się stać, jeśli duże źródła danych zostaną połączone z bardziej tradycyjnymi danymi, które zostały utworzone do celów badawczych. Wracając do analogii sztuki z rozdziału 1, nowcasting ma potencjał, by połączyć gotowe style Duchampa z kustoszami w stylu Michała Anioła, aby zapewnić decydentom bardziej aktualne i dokładniejsze pomiary teraźniejszości i przewidywań na najbliższą przyszłość.