Geleceği tahmin zordur, ancak mevcut tahmin daha kolaydır.
Gözlemsel verilerle araştırmacılar tarafından kullanılan ikinci temel strateji öngörüyor. Geleceği tahmin çok zordur, ama onlar şirketler veya hükümetler çalışmak ister o, karar vericiler için inanılmaz derecede önemli olabilir.
Kleinberg et al. (2015) belirli politika sorunları için tahmin önemini açıklamak iki katlı sunmaktadır. bir politika yapıcı hayal, bir kuraklık karşı karşıya olduğu ve yağmur şansını artırmak için bir yağmur dansı yapmak için bir şaman işe karar vermeniz gerekir onu Anna, arayacağım. Başka bir politika yapıcı, eve giderken ıslanmasını önlemek için çalışmak için bir şemsiye almaya karar vermeniz gerekir, Bob onu arayacağım. onlar hava anlamak Anna ve Bob Hem daha iyi bir karar, ancak bunlar farklı şeyler bilmek gerekir. Anna yağmur dansı yağmur neden olup olmadığını anlamak gerekir. Bob, diğer taraftan, azalan hakkında bir şey anlamak gerek yoktur; o sadece doğru bir tahmin ihtiyacı var. Sosyal araştırmacılar genellikle neyin odaklanmak Kleinberg et al. (2015) "yağmur dansı gibi" politika sorunları-o odaklanmak nedensellik-ve tahmin odaklı "şemsiye gibi" politika sorunları görmezden diyoruz.
Ben "şimdi" birleştiren ve türetilen -a vadeli tahmin olarak adlandırılan Anlık Hava Tahmini özel bir tür, ancak, odaklanmak istiyorum "tahmin". Aksine geleceği tahmin yerine, bugünü tahmin etmek girişimleri Anlık Hava Tahmini (Choi and Varian 2012) . Diğer bir deyişle, Anlık Hava Tahmini ölçüm sorunlar için tahmin yöntemleri kullanır. Bunun gibi, kendi ülkelerinde ilgili zamanında ve doğru tedbirleri gerektiren hükümetlerin özellikle yararlı olacaktır. Anlık Hava Tahmini Google Grip Trendleri örneği ile en net gösterilebilir.
Bir arama motoruna "grip ilaçları" yazarsanız böylece hava altında biraz duygu düşünün, yanıt bağlantılarının bulunduğu bir sayfa almak ve daha sonra bir yardımcı web sayfasına bunlardan birini izleyin. Şimdi bu etkinlik arama motoru perspektifinden dışarı çalınan düşünün. Her an, sorgularının dünyada milyonlarca gelme ve sorguları-ne bu akım Battelle (2006) "niyetlerin veritabanı" çağrısında bulundu - kollektif küresel bilince sürekli güncellenen pencere sağlar. Ancak, grip yaygınlığı bir ölçüme Bu bilgi akışı dönüm zordur. Basitçe "grip ilaçları" için sorgu sayısını sayan iyi işe yaramayabilir. grip ilaçları için arama yapan grip grip grip ilaçları arar ve herkes sahip değil herkes.
Google Grip Trendleri arkasında önemli ve zeki hüner bir tahmin sorun haline ölçüm sorunu çevirmek oldu. Hastalık Kontrol ve Önleme Merkezleri (CDC) ülke çapında doktorlardan bilgi toplayan bir grip izleme sistemi vardır. Ancak, bu CDC sistemi ile bir sorun bir iki haftalık raporlama gecikme olmasıdır; o doktorlardan gelen veriler için gereken zaman, temizlenmiş işlenmiş ve yayımlanacak. gelişmekte olan bir salgın tutarken Fakat, halk sağlığı ofisleri iki hafta önce oldu ne kadar grip bilmek istemiyorum; Şu anda orada ne kadar grip onlar bilmek istiyorum. Aslında, sosyal verilerin diğer birçok geleneksel kaynaklarda, veri toplama dalgaları ve raporlama gecikme arasındaki boşluklar vardır. En büyük bir veri kaynakları, diğer yandan, her zaman açık (Bölüm 2.3.1.2) 'dir.
Bu nedenle, Jeremy Ginsberg ve arkadaşları (2009) Google arama verilerinden CDC grip verilerini tahmin etmeye çalıştı. Bu araştırmacılar şimdiki ölçme CDC, gelecek verilerden gelecek verilerin tahmin ederek orada şimdi ne kadar grip ölçmek için çalışıyorlardı çünkü "mevcut tahmin" bir örnektir. Makine öğrenimi kullanarak, CDC grip verilerinin en prediktif olduğunu görmek için 50 milyon farklı arama terimleri arandı. Sonuçta, onlar en prediktif görünüyordu 45 farklı sorgular bir dizi buldum ve sonuçlar oldukça iyiydi: onlar CDC verileri tahmin etmek arama verilerini kullanabilirsiniz. Nature dergisinde yayınlanan bu yazıda, kısmen dayanarak, Google Grip Trendleri büyük verinin gücünü sık sık tekrarlanan bir başarı öyküsü oldu.
Orada iki önemli uyarılar ancak bu bariz başarısı için, ve bu uyarılar anlamak, değerlendirmek ve tahmin ve Anlık Hava Tahmini yapacağız. İlk olarak, Google Grip Trendleri performansı aslında grip prevalansı son iki ölçümlerden doğrusal ekstrapolasyon dayalı grip miktarını tahmin basit bir modele göre çok iyi değildi (Goel et al. 2010) . Ve, bazı dönemler boyunca Google Grip Trendleri bu basit bir yaklaşım aslında daha kötüydü (Lazer et al. 2014) . Diğer bir deyişle, tüm veriler, makine öğrenmesi ve güçlü bilgisayar ile Google Grip Trendleri dramatik sezgisel anlamak için basit ve kolay daha iyi performans vermedi. Bu, herhangi bir tahmini değerlendirirken ya da nowcast zaman bir başlangıca karşı karşılaştırmak için önemli olduğunu göstermektedir.
Google Grip Trendleri hakkında ikinci önemli uyarı CDC grip verilerini tahmin kabiliyeti kısa süreli arıza nedeniyle sürüklenme ve algoritmik Etki karışımı uzun vadeli çürümeye eğilimli olmasıdır. Örneğin, 2009 Domuz Gribi salgını Google Grip Trendleri sırasında dramatik insanlar küresel pandemi yaygın korku yanıt olarak kendi arama davranışlarını değiştirmek eğiliminde muhtemelen çünkü grip miktarını fazla tahmin (Cook et al. 2011; Olson et al. 2013) . Bu kısa vadeli sorunlara ek olarak, performans zamanla çürümüş. Bu uzun vadeli çürüme nedenlerini Teşhis Google arama algoritmaları tescilli çünkü zordur, ama o (o da görünüyor insanlar "ateş" ve "öksürük" gibi belirtiler için arama yaparken 2011 yılında Google ile ilgili arama terimlerini öneririm değişiklikler yaptı görünür Bu özellik) artık aktif olduğunu söyledi. Bu özelliği ekleyerek bir arama motoru iş çalıştırıyorsanız yapmak için tamamen makul bir şeydir, ve daha sağlıkla ilgili aramalar üreten etkisi vardı. Bu muhtemelen iş için bir başarı, ama aşırı tahmin gribi yaygınlığı Google Grip Trendleri neden (Lazer et al. 2014) .
Neyse ki, Google Grip Trendleri ile bu sorunlar düzeltilebilir. Aslında, dikkat yöntemler kullanılarak Lazer et al. (2014) ve Yang, Santillana, and Kou (2015) daha iyi sonuçlar elde etmek mümkün. İleriye dönük olarak, ben araştırmacı ile büyük veri birleştiren Anlık Hava Tahmini çalışmalar verileri-Michelangelo tarzı ile Duchamp tarzı Readymades birleştirir Custommades-olacak hızlı ve daha doğru, mevcut ölçümleri ve geleceğin öngörüleri üretmek için politika yapıcılar olanak toplanan bekliyoruz.