Prezicerea viitorului este greu, dar prezicerea prezent este mai ușor.
Cea de-a doua strategie principală pe care cercetătorii o pot utiliza cu datele observaționale este prognoza . Efectuarea de presupuneri despre viitor este notorie dificilă și, probabil, din acest motiv, prognoza nu reprezintă în prezent o mare parte a cercetării sociale (deși este o mică și importantă parte a demografiei, economiei, epidemiologiei și științei politice). Aici, totuși, aș dori să mă concentrez asupra unui tip special de prognoză numit nowcasting - termen derivat din combinarea "acum" și "prognoză". Mai degrabă decât să prezicem viitorul, acum încercările de a folosi ideile de la prognoză pentru a măsura starea actuală a lumii; încearcă să "prezică prezentul" (Choi and Varian 2012) . Nowcasting are potențialul de a fi deosebit de util guvernelor și companiilor care necesită măsuri la timp și corecte ale lumii.
Unul dintre situațiile în care nevoia de măsurare la timp și precisă este foarte clară este epidemiologia. Luați în considerare cazul gripei ("gripa"). În fiecare an, epidemiile de gripă sezonieră provoacă milioane de boli și sute de mii de decese din întreaga lume. În plus, în fiecare an, există posibilitatea ca o formă nouă de gripă să apară, care ar ucide milioane. Focarul de gripă din 1918, de exemplu, se estimează că a ucis între 50 și 100 de milioane de persoane (Morens and Fauci 2007) . Din cauza necesității de a urmări și a putea reacționa la focare de gripă, guvernele din întreaga lume au creat sisteme de supraveghere a gripei. De exemplu, Centrele Americane pentru Controlul și Prevenirea Bolilor (CDC) colectează în mod regulat și sistematic informații de la medici atent selectați din întreaga țară. Deși acest sistem produce date de înaltă calitate, are un decalaj de raportare. Adică din cauza timpului necesar pentru ca datele provenite de la medici să fie curățate, prelucrate și publicate, sistemul CDC eliberează estimări privind cât de multă gripă a fost acum două săptămâni. Dar, atunci când se ocupă de o epidemie emergentă, oficialii din domeniul sănătății publice nu doresc să știe cât de mult a fost gripa acolo acum două săptămâni; ei vor să știe cât de multă gripă există acum.
În același timp, că CDC colectează date pentru a urmări gripa, Google colectează, de asemenea, date despre prevalența gripei, deși într-o formă destul de diferită. Oamenii din întreaga lume transmit în mod constant întrebări către Google, iar unele dintre aceste întrebări - cum ar fi "remedii împotriva gripei" și "simptome ale gripei" - pot indica faptul că persoana care face interogarea are gripa. Dar, folosind aceste interogări de căutare pentru a estima prevalența gripei, este dificil: nu toți cei care au gripa fac o căutare legată de gripa și nu toate căutările legate de gripa provin de la cineva care are gripa.
Jeremy Ginsberg și o echipă de colegi (2009) , unii la Google și alții la CDC, au avut ideea importantă și inteligentă de a combina aceste două surse de date. Aproximativ, printr-un fel de alchimie statistică, cercetătorii au combinat datele de căutare rapide și inexacte cu datele CDC lente și exacte pentru a produce măsurători rapide și exacte ale prevalenței gripei. Un alt mod de a gândi este că au folosit datele de căutare pentru a accelera datele CDC.
Mai exact, folosind datele din 2003 până în 2007, Ginsberg și colegii au estimat relația dintre prevalența gripei în datele CDC și volumul de căutare pentru 50 de milioane de termeni distinși. Din acest proces, care a fost complet condus de date si nu necesita cunoastere medicala specializata, cercetatorii au descoperit un set de 45 de intrebari diferite care pareau a fi cea mai predictiva a datelor de prevalenta a gripei CDC. Apoi, folosind relațiile pe care le-au învățat din datele din 2003-2007, Ginsberg și colegii și-au testat modelul în timpul sezonului de gripă 2007-2008. Ei au descoperit că procedurile lor ar putea într-adevăr să facă acumcastri utile și exacte (figura 2.6). Aceste rezultate au fost publicate în Nature și au primit acoperire de presă adoratoare. Acest proiect - care a fost numit Google Trends - a devenit o parabolă adesea repetată despre puterea datelor mari de a schimba lumea.
Cu toate acestea, această poveste de succes aparent sa transformat într-o jenă. De-a lungul timpului, cercetatorii au descoperit doua limitari importante care fac din Google Trends Gripa mai putin impresionant decat a aparut initial. În primul rând, performanța Google Flu Trends nu a fost de fapt mult mai bună decât cea a unui model simplu care estimează cantitatea de gripă bazată pe o extrapolare liniară din cele două evaluări cele mai recente ale prevalenței gripei (Goel et al. 2010) . Și, de-a lungul unor perioade de timp, Google Trends Gripa a fost de fapt mai rău decât această abordare simplă (Lazer et al. 2014) . Cu alte cuvinte, Google Flu Trends, cu toate datele sale, învățarea mașinilor și computerele puternice nu au depășit în mod dramatic un euristic simplu și mai ușor de înțeles. Acest lucru sugerează că atunci când evaluează orice prognoză sau acum, este important să comparăm cu o linie de bază.
Cea de-a doua avertizare importantă despre Google Flu Trends este că abilitatea acesteia de a prezice datele privind gripa CDC a fost predispusă la eșecuri pe termen scurt și la decădere pe termen lung din cauza deranjamentului și confuziei algoritmice . De exemplu, în timpul epidemiei de gripa porcină din 2009, tendințele gripei Google au supraestimat dramatic cantitatea de gripă, probabil pentru că oamenii tind să-și schimbe comportamentul de căutare ca răspuns la teama extinsă a unei pandemii globale (Cook et al. 2011; Olson et al. 2013) . În plus față de aceste probleme pe termen scurt, performanța a scăzut treptat în timp. Diagnosticarea motivelor acestei degradări pe termen lung este dificilă deoarece algoritmii de căutare Google sunt proprietari, dar se pare că în 2011 Google a început să sugereze termeni de căutare corelați atunci când oamenii caută simptome de gripă precum "febră" și "tuse" această caracteristică nu mai este activă). Adăugarea acestei funcții este un lucru rezonabil de făcut în cazul în care executați un motor de căutare, dar această modificare algoritmică a avut ca efect generarea unor căutări legate de sănătate care au provocat tendințele gripei Google să supraestimă prevalența gripei (Lazer et al. 2014) .
Aceste două măsuri de avertizare complică eforturile viitoare de acum, dar ele nu le fac rău. De fapt, prin utilizarea unor metode mai atente, Lazer et al. (2014) și Yang, Santillana, and Kou (2015) au reușit să evite aceste două probleme. Mergând mai departe, mă aștept ca studiile acumulate care combină mari surse de date cu datele colectate de cercetători vor permite companiilor și guvernelor să creeze estimări mai precise și mai rapide prin accelerarea esențială a oricăror măsurători efectuate în mod repetat în timp, cu o anumită întârziere. Proiectele Nowcasting, cum ar fi Google Flu Trends, arată, de asemenea, ce se poate întâmpla dacă sursele de date mari sunt combinate cu date mai tradiționale care au fost create în scopul cercetării. Gândindu-se la analogia artei din capitolul 1, nowcasting are potențialul de a combina gata pregătirile stilului Duchamp cu personalizările stilului Michelangelo pentru a oferi factorilor de decizie măsurători mai precise și mai precise ale prezentului și previziunile viitorului apropiat.