Gələcək proqnozlaşdırılması çətindir, lakin indiki proqnozlaşdırılması asandır.
İkinci əsas strategiya tədqiqatçıları müşahidə məlumatları ilə istifadə edə biləcəyini proqnozlaşdırır . Gələcək haqqında təxminlər etmək çox çətindir və bəlkə də buna görə də proqnozlaşdırma hazırda demoqrafiyanın, iqtisadiyyatın, epidemioloji və siyasət elminin kiçik və əhəmiyyətli bir hissəsi olsa da, sosial tədqiqatın böyük bir hissəsidir. Bununla belə, mən indi "indi" və "proqnozlaşdırma" kimi birləşmədən əldə edilmiş bir fərziyyə proqnozuna diqqət yetirmək istərdim. Gələcəyin proqnozlaşdırılmasının əvəzinə, proqnozdan ideyaları mövcud vəziyyəti ölçmək üçün istifadə etmək cəhdləri dünyanın; "indiki vaxtda" proqnozlaşdırmağa çalışır (Choi and Varian 2012) . Hazırda, dünyanın müasir və dəqiq tədbirləri tələb edən hökumət və şirkətlərə xüsusilə faydalı olmaq potensialı var.
Müvəqqəti və dəqiq ölçmə ehtiyacının çox aydın olduğu bir vəziyyət epidemiolojidir. Qrip ("qrip") iddiasını nəzərdən keçirin. Hər il mövsümi qrip epidemiyası milyonlarla xəstəlik və yüz minlərlə ölümlə nəticələnir. Əlavə olaraq, hər il milyonlarla insanın öldürəcəyi yeni bir qrip növü meydana çıxa bilər. Məsələn, 1918-ci il qripi virusu, 50-100 milyon insan arasında öldürüldü (Morens and Fauci 2007) . Qripə yoluxma ehtimalını izləmək və potensial olaraq cavablandırmaq üçün dünya miqyasında hökumətlər qripə nəzarət sistemlərini yaratmışlar. Məsələn, ABŞ Xəstəlikləri İdarəetmə və Müalicə Mərkəzləri (CDC) ölkədə diqqətlə seçilmiş həkimlərdən məlumatları müntəzəm və sistematik şəkildə toplayır. Bu sistem yüksək keyfiyyətli məlumatlar istehsal etsə də, bir hesabat gecikdirir. Yəni, həkimlərdən gələn məlumatların təmizlənməsi, işlənilməsi və yayımlanması üçün lazım olan vaxtdan ötəri, CDC sistemi iki həftə əvvəl nə qədər grip olduğuna dair proqnozları açıqlayıb. Ancaq ortaya çıxan bir epidemiya işləyərkən, ictimai səhiyyə işçiləri iki həftə əvvəl nə qədər grip olduğunun bilinməsini istəmir; indi nə qədər gripin olduğunu bilmək istəyirlər.
Eyni zamanda, CDC qripi izləmək üçün məlumat toplayarkən, Google olduqca fərqli bir formada olmasına baxmayaraq qripin yayılması ilə əlaqədar məlumat toplayır. Dünyadakı insanlar daim Google-a sorğu göndərirlər və bu sorğulardan bəziləri - "qripə yoluxma" və "qrip əlamətləri" kimi - sorgunun qripi olan şəxsin olduğunu göstərir. Qriplərin yayılmasını qiymətləndirmək üçün bu axtarış sorgularını istifadə etmək çətin deyil: qripi olan hər kəs qripə bağlı axtarış edir və hər bir qriplə bağlı axtarış qripi olan bir kəsdən deyil.
Jeremy Ginsberg və bir qrup həmkarları (2009) , bəziləri Google və bəzi CDC-də bu iki məlumat mənbəyini birləşdirmək üçün vacib və ağıllı bir fikrə sahib idi. Təxminən bir növ statistik simya sayəsində, tədqiqatçılar sürətli və dəqiq olmayan axtarış məlumatlarını yoluxucu yayılmanın sürətli və dəqiq ölçülməsini təmin etmək üçün yavaş və dəqiq CDC məlumatları ilə birləşdirdilər. Bu barədə düşünmək üçün başqa bir vasitədir ki, CDC məlumatlarını sürətləndirmək üçün axtarış məlumatlarını istifadə edirlər.
Daha konkret olaraq, 2003-cü ildən 2007-ci ilə qədər Ginsberg və həmkarları məlumatları istifadə edərək, CDC məlumatlarında və 50 milyon fərqli şərtlərlə axtarış həcmində qrip yayılmasının əlaqəsini qiymətləndirdi. Tədqiqatçılar tamamilə məlumatlara əsaslanan və xüsusi tibbi məlumatlara ehtiyac olmadığı bu prosesdən, tədqiqatçılar CDC grip yayılma məlumatlarının ən çox öngörücü olduğu kimi görünən 45 müxtəlif sorguları tapdılar. 2003-2007-ci illərdən əldə etdikləri məlumatları istifadə edərək, Ginsberg və həmkarları 2007-2008-ci il qrip mövsümündə modellərini test etdilər. Onlar prosedurlarının həqiqətən faydalı və dəqiq hazırlaşdıqlarını aşkar etdilər (şəkil 2.6). Bu nəticələr Təbiətdə nəşr olundu və mətbuatla tanış oldu. Google Flu Trends adlanan bu layihə, dünyanın dəyişməsi üçün böyük məlumatların gücünə dair tez-tez təkrarlanan bir misal oldu.
Ancaq bu aydın müvəffəqiyyət hekayəsi nəticədə utanırdı. Tədqiqatçılar, Google Flu Trends-in başlanğıcdan daha az təsirli olmasını təmin edən iki mühüm məhdudiyyət aşkar etdilər. Birincisi, Google Flu Trends-in performansları faktiki olaraq güllərin yayılmasının iki ən son ölçüsündən (Goel et al. 2010) doğrusal ekstrapolyasiya əsasında qrip miqdarını qiymətləndirən sadə modeldən daha yaxşı idi. Bəzi dövrlərdə Google Flu Trends, bu sadə bir yanaşmadan daha (Lazer et al. 2014) . Başqa sözlə, Google Flu Trends bütün məlumatları, maşın öyrənmə və güclü hesablama ilə sadə və asan anlayışlı heuristicdən daha yaxşı çıxış etməmişdir. Bu, hər hansı bir proqnozu və ya indikatoru qiymətləndirərkən bir əsas müqayisə etmək vacibdir.
Google Flu Trends ilə əlaqədar ikinci əhəmiyyətli xəbərdarlıq, CDC-nin qrip məlumatlarını proqnozlaşdırma qabiliyyəti, sürükleme və alqoritmik qarışıqlıq səbəbindən qısa davamlı çatışmamazlığa və uzun müddətli çürüməyə meyllidir. Məsələn, 2009-cu ildə donuz qripi epidemiyası zamanı Google Flu Trends qlobal pandemiyanın yaygın qorxusuna cavab olaraq insanların axtarış davranışlarını dəyişdirməsinə səbəb ola biləcəyi ehtimalı olduğundan, Google Flu Trends dramatik şəkildə qrip miqdarını yüksək qiymətləndirdi (Cook et al. 2011; Olson et al. 2013) . Bu qısa müddətli problemlərlə yanaşı, performans da zaman keçdikcə azaldı. Bu uzunmüddətli çürümənin səbəblərini anlamaq çətindir, çünki Google axtarış alqoritmləri mülkiyyətlidir, lakin 2011-ci ildə Google "ateş" və "öskürək" kimi grip belirtilerini axtararkən müvafiq axtarış şərtlərini təklif etməyə başlayır bu xüsusiyyət artıq aktiv deyil). Bu xüsusiyyəti əlavə etmək, axtarış mühərriki işləyərkən tamamilə məqbul bir şeydir, lakin bu alqoritmik dəyişiklik Google Flu Trends-in qrip yayılmasını (Lazer et al. 2014) üstün tutmasına səbəb olan sağlamlıqla əlaqəli axtarışların yaranmasına təsir göstərmişdir.
Bu iki xəbərdarlıq gələcəkdə həyata keçirən səyləri çətinləşdirir, amma onları məhv etmirlər. Əslində, daha diqqətli üsullardan istifadə edərək, Lazer et al. (2014) və Yang, Santillana, and Kou (2015) bu iki problemdən qaça bilmədi. Daha irəli gedirik ki, böyük məlumat mənbəyini tədqiqatçı topladığı məlumatlarla birləşdirən tədqiqatlar indi firmalara və hökumətlərə bəzi gecikmələrlə zamanla təkrarlanan hər hansı bir ölçəni sürətləndirərək daha zamanlı və dəqiq hesablamalar yaratmağa imkan verəcəkdir. Google Flu Trends kimi hazırlanmış layihələr, böyük məlumat mənbələri tədqiqat məqsədləri üçün yaradılan daha çox ənənəvi məlumatlarla birləşdirildikdə nə baş verə biləcəyini də göstərir. Fəsilin 1-ci bəndi ilə müqayisə edildiyi düşünülür ki, hazırda Duchamp üslubunun hazırlanmasını Michelangelo tərzi ilə bir araya gətirən potensiala malikdir və qərarlar qəbul edənlərə gələcək və gələcək öhdəlikləri daha vaxtlı və dəqiq şəkildə qiymətləndirmək imkanı verir.