Geleceği tahmin zordur, ancak mevcut tahmin daha kolaydır.
İkinci ana strateji araştırmacılar gözlemsel veriler tahmininde bulunuyor ile kullanabilirsiniz. Gelecek hakkında tahminler yapmak çok zor ve belki de bu nedenle, tahmin şu anda sosyal araştırmanın büyük bir kısmı değil (demografi, ekonomi, epidemiyoloji ve politik bilimin küçük ve önemli bir parçası olmasına rağmen). Bununla birlikte, şimdi, “şimdi” ve “öngörme” nin bir araya getirilmesinden türetilmiş bir terim olan nowcasting olarak adlandırılan özel bir tahmin türüne odaklanmak istiyorum. Geleceği tahmin etmekten ziyade, şimdiki durumu ölçmek için tahmin yapmaktan fikirleri kullanmaya yönelik girişimlerde bulunmaya çalışıyor. dünyanın; “şimdiki (Choi and Varian 2012) tahmin etmeye” çalışır (Choi and Varian 2012) . Şimdiki mesajlaşma, dünyanın zamanında ve doğru ölçümlerini gerektiren hükümetler ve şirketler için özellikle yararlı olma potansiyeline sahiptir.
Zamanında ve doğru ölçüm ihtiyacının çok açık olduğu bir ortam epidemiyolojidir. İnfluenza durumu (“grip”) düşünün. Her yıl mevsimsel grip salgınları dünya çapında milyonlarca hastalığa ve yüzbinlerce ölüme neden olmaktadır. Ayrıca, her yıl milyonlarca insanı öldürecek yeni bir grip formunun ortaya çıkması ihtimali vardır. Örneğin 1918'deki influenza salgınının 50 ila 100 milyon arasında öldüğü tahmin edilmektedir (Morens and Fauci 2007) . Grip salgınlarını takip etme ve potansiyel olarak yanıt verme ihtiyacı nedeniyle, dünyadaki hükümetler grip izleme sistemleri oluşturdu. Örneğin, ABD Hastalık Kontrol ve Önleme Merkezleri (CDC) düzenli ve sistematik olarak ülke çapında özenle seçilmiş doktorlardan bilgi toplar. Bu sistem yüksek kaliteli veri üretse de, bir raporlama gecikmesi vardır. Yani, doktorlardan gelen verilerin temizlenmesi, işlenmesi ve yayınlanması için gereken süreden ötürü, CDC sistemi iki hafta önce ne kadar grip olduğuna dair tahminler yayınlamaktadır. Ancak, ortaya çıkan bir salgınla başa çıkarken, halk sağlığı yetkilileri iki hafta önce ne kadar grip olduğunu bilmek istemiyorlar; Şu anda ne kadar grip olduğunu bilmek istiyorlar.
Aynı zamanda CDC'nin gripleri izlemek için veri toplaması, Google'ın da oldukça farklı bir formda olmasına rağmen, influenza prevalansı hakkında veri toplamaktadır. Dünyanın dört bir yanından insanlar sürekli olarak Google'a sorgu gönderiyor ve bu sorguların bazıları - "grip ilaçları" ve "grip belirtileri" gibi - sorguyu yapan kişinin grip olduğunu belirtebilir. Ancak, grip prevalansını tahmin etmek için bu arama sorgularını kullanmak oldukça zordur: grip olan herkes griple ilgili bir araştırma yapmaz ve griple ilgili her araştırma grip olan bir kişiden değildir.
Jeremy Ginsberg ve bir takım meslektaşları (2009) , bazıları Google'da ve bazıları CDC'de, bu iki veri kaynağını birleştirmek için önemli ve akıllı bir fikre sahipti. Bir tür istatistiksel simya yoluyla, araştırmacılar, hızlı ve doğru olmayan arama verilerini, hızlı ve doğru influenza prevalansı ölçümleri yapmak için yavaş ve doğru CDC verileriyle birleştirdiler. Bunu düşünmenin diğer bir yolu, CDC verilerini hızlandırmak için arama verilerini kullandıklarıdır.
Daha spesifik olarak, 2003'ten 2007'ye kadar olan verileri kullanarak Ginsberg ve arkadaşları, CDC verilerindeki influenza prevalansı ile 50 milyon farklı terimin arama hacmi arasındaki ilişkiyi tahmin ettiler. Tamamen veri güdümlü ve uzman tıbbi bilgi gerektirmeyen bu süreçten araştırmacılar, CDC gribi yaygınlık verilerinin en öngörücü olduğu görülen 45 farklı sorgudan oluşan bir set buldular. Ardından, 2003-2007 verilerinden öğrendikleri ilişkileri kullanarak Ginsberg ve arkadaşları, modellerini 2007-2008 grip mevsiminde test ettiler. Prosedürlerinin gerçekten de faydalı ve doğru bir şekilde faydalı olabileceğini keşfettiler (şekil 2.6). Bu sonuçlar Doğada yayınlandı ve hayranlık uyandıran basın duyurusu aldı. Google Grip Trendleri adı verilen bu proje, dünyayı değiştirmek için büyük verilerin gücü ile ilgili sık sık tekrarlanan bir şiir haline geldi.
Ancak, bu belirgin başarı hikayesi sonunda utanç haline dönüştü. Zamanla, araştırmacılar Google Grip Trendlerini başlangıçta göründüğünden daha az etkileyici yapan iki önemli sınırlama keşfettiler. İlk olarak, Google Grip Trendleri'nin performansı, grip prevalansının en son iki ölçümünden elde edilen doğrusal bir ekstrapolasyona dayanan gribin miktarını tahmin eden basit bir modelden çok daha iyi değildir (Goel et al. 2010) . Ve bazı dönemlerde Google Grip Trendleri aslında bu basit yaklaşımdan daha kötüydü (Lazer et al. 2014) . Diğer bir deyişle, Google Grip Eğilimleri, tüm verileri, makine öğrenimi ve güçlü bilgisayar kullanımı ile, basit ve anlaşılması kolay bir keşiften daha iyi performans göstermedi. Bu, herhangi bir tahminin ya da şimdiki değerlendirmenin değerlendirilmesinde, bir temel çizgiyle karşılaştırmanın önemli olduğunu göstermektedir.
Google Grip Trendleri ile ilgili ikinci önemli uyarı, CDC grip verilerini tahmin etme yeteneğinin, sürüklenme ve algoritmik karışıklık nedeniyle kısa vadeli başarısızlığa ve uzun vadeli bozulmaya eğilimli olmasıdır. Örneğin, 2009 Domuz Gribi salgını sırasında Google Grip Trendleri, influenza miktarını önemli ölçüde fazla tahmin ediyordu, çünkü insanlar, küresel bir pandeminin yaygın korkusuna yanıt olarak arama davranışlarını değiştirmeye eğilimli oldukları için muhtemelen (Cook et al. 2011; Olson et al. 2013) . Bu kısa vadeli sorunlara ek olarak, performans zamanla kademeli olarak azaldı. Bu uzun vadeli çürümenin nedenlerini teşhis etmek zor çünkü Google arama algoritmaları tescillidir, ancak 2011'de insanlar “ateş” ve “öksürük” gibi grip belirtileri ararken insanların alakalı arama terimlerini önerdiği görülmüştür. bu özellik artık aktif değil). Bu özelliği eklemek, bir arama motoru çalıştırıyorsanız yapmak için tamamen makul bir işlemdir, ancak bu algoritmik değişiklik, Google Grip Trendlerinin grip prevalansını abartmasına neden olan daha fazla sağlıkla ilgili aramalar oluşturma etkisine sahip olmuştur (Lazer et al. 2014) .
Bu iki uyarı, gelecekteki yayınlama çabalarını karmaşıklaştırıyor, ama onları mahvetmiyorlar. Aslında daha dikkatli yöntemler kullanarak, Lazer et al. (2014) ve Yang, Santillana, and Kou (2015) bu iki sorunu önleyebildiler. İleriye dönük olarak, büyük veri kaynaklarını araştırmacı tarafından toplanan verilerle birleştiren, şimdiden yapılan araştırmaların, şirketlerin ve hükümetlerin, zamanla bazı gecikmelerle tekrar tekrar yapılan herhangi bir ölçümü hızlandırarak daha doğru ve doğru tahminler oluşturmasını sağlayacağını umuyorum. Google Grip Trendleri gibi yayınlama projeleri, büyük veri kaynaklarının, araştırma amaçları için oluşturulan daha geleneksel verilerle birleştirilmesi durumunda neler olabileceğini de gösterir. 1. bölümün sanat benzetmesine geri dönersek düşünmek, şu anki kararda, karar vericilere günümüzün ve geleceğin tahminlerini daha doğru ve daha kesin ölçümlerle sunmak için Duchamp tarzı hazır olanları Michelangelo tarzı özel ürünlerle birleştirme potansiyeline sahiptir.