التنبؤ بالمستقبل من الصعب، ولكن التنبؤ الحاضر أسهل.
الاستراتيجية الرئيسية الثانية التي يستخدمها الباحثون مع بيانات الرصد والتنبؤ. التنبؤ بالمستقبل أمر بالغ الصعوبة، ولكن يمكن أن يكون مهم للغاية بالنسبة لصانعي القرار، سواء كانوا يعملون في الشركات أو الحكومات.
Kleinberg et al. (2015) تقدم اثنين من القصص التي توضح أهمية التنبؤ لمشاكل سياسية معينة. تخيل صانع سياسة واحدة، سأتصل لها آنا، الذي يواجه الجفاف ويجب أن تقرر ما إذا كانت لاستئجار الشامان للقيام رقصة المطر لزيادة فرصة الامطار. صانع سياسية أخرى، وأنا سوف ندعو له بوب، يجب أن تقرر ما إذا كانت تأخذ مظلة للعمل على تجنب البلل في الطريق إلى البيت. كل من آنا وبوب يمكن اتخاذ قرار أفضل إذا فهموا الطقس، ولكنها تحتاج إلى معرفة أشياء مختلفة. آنا بحاجة إلى فهم ما إذا كانت رقصة المطر يسبب المطر. بوب، من ناحية أخرى، لا تحتاج إلى فهم أي شيء عن السببية. وقال انه مجرد يحتاج إلى توقعات دقيقة. غالبا ما تركز الباحثين الاجتماعيين على ما Kleinberg et al. (2015) دعوة "تشبه رقصة المطر" مشاكل تلك السياسات التي تركز على السببية وتجاهل مشاكل السياسة "تشبه المظلة" التي تركز على التنبؤ.
أود أن التركيز، ومع ذلك، على نوع خاص من التنبؤ يسمى التنبؤ الآني -a مصطلح مشتق من الجمع بين "الآن" و "التنبؤ". بدلا من التنبؤ بالمستقبل، التنبؤ الآني المحاولات للتنبؤ الحاضر (Choi and Varian 2012) . وبعبارة أخرى، يستخدم التنبؤ الآني طرق التنبؤ لمشاكل القياس. على هذا النحو، ينبغي أن يكون مفيدا بشكل خاص إلى الحكومات التي تتطلب اتخاذ تدابير آنية ودقيقة عن بلدانهم. التنبؤ الآني ويمكن توضيح أكثر وضوحا مع المثال من انفلونزا اتجاهات جوجل.
تخيل أنك الشعور قليلا تحت الطقس حتى تتمكن من نوع "لعلاج أنفلونزا" في محرك البحث، تظهر صفحة من الروابط ردا على ذلك، ثم اتبع أحدهم إلى صفحة ويب مفيدة. الآن تخيل هذا النشاط يجري لعبت بها من وجهة نظر محرك البحث. كل لحظة، الملايين من الاستفسارات يصلون من جميع أنحاء العالم، وهذا التيار استعلامات ما Battelle (2006) وتسمى "قاعدة بيانات النوايا" - يوفر نافذة تحديثها باستمرار في الوعي العالمي الجماعي. ومع ذلك، تحول هذا التيار من المعلومات في قياس مدى انتشار الانفلونزا أمر صعب. ببساطة عد يصل عدد الاستعلامات ل "لعلاج أنفلونزا" قد لا تعمل بشكل جيد. ليس كل من لديه بحث انفلونزا للعلاجات الانفلونزا وليس كل من الباحثين عن العلاج انفلونزا ديه انفلونزا.
كانت خدعة مهمة وذكية وراء انفلونزا اتجاهات جوجل لتحويل مشكلة القياس إلى مشكلة التنبؤ. المراكز الأمريكية لمكافحة الأمراض والوقاية منها (CDC) لديها نظام مراقبة الانفلونزا التي تقوم بجمع المعلومات من الأطباء في جميع أنحاء البلاد. ومع ذلك، مشكلة واحدة مع هذا النظام CDC هي هناك فارقا التقارير أسبوعين. الوقت الذي يستغرقه لبيانات القادمين من الأطباء لتنظيفها ومعالجتها، ونشرها. ولكن، عند التعامل مع وباء الناشئة، مكاتب الصحة العامة لا تريد أن تعرف كم الانفلونزا كان هناك قبل أسبوعين. أنها تريد أن تعرف كم أنفلونزا هناك في الوقت الحالي. في الواقع، في العديد من المصادر التقليدية الأخرى من البيانات الاجتماعية، هناك فجوات بين موجات من جمع البيانات والتخلف التقارير. معظم مصادر البيانات الكبيرة، من ناحية أخرى، هي دائما على (القسم 2.3.1.2).
لذلك، جيرمي جينسبرج وزملاؤه (2009) حاولت التنبؤ البيانات انفلونزا CDC من بيانات البحث جوجل. هذا هو مثال على "التنبؤ الحاضر" لأن الباحثين كانوا يحاولون قياس مدى انفلونزا هناك من خلال التنبؤ البيانات في المستقبل من مركز السيطرة على الأمراض، البيانات في المستقبل أن يتم قياس الحاضر الآن. باستخدام آلة التعلم، والبحث من خلال 50 مليون مصطلحات البحث المختلفة لمعرفة أي أكثر التنبؤية للبيانات انفلونزا CDC. في نهاية المطاف، وجدوا مجموعة من 45 الاستفسارات المختلفة التي يبدو أن معظم التنبؤية، وكانت النتائج جيدة جدا: فهي يمكن استخدام بيانات البحث للتنبؤ بيانات مركز السيطرة على الأمراض. تستند في جزء منها على هذه الورقة، التي نشرت في مجلة نيتشر، أصبح جوجل انفلونزا اتجاهات قصة نجاح كثيرا ما تتكرر عن قوة البيانات الكبيرة.
هناك نوعان من المحاذير الهامة لهذا النجاح واضح، ومع ذلك، وفهم هذه المحاذير تساعدك على تقييم والقيام التنبؤ والتنبؤ الآني. أولا، كان أداء انفلونزا اتجاهات جوجل في الواقع ليست أفضل بكثير من نموذج بسيط أن تقدر كمية من انفلونزا بناء على استقراء خطية من اثنين من القياسات الأخيرة من انتشار أنفلونزا (Goel et al. 2010) . و، على بعض فترات زمنية انفلونزا جوجل الاتجاهات كان الواقع أسوأ من هذا النهج البسيط (Lazer et al. 2014) . وبعبارة أخرى، لم انفلونزا اتجاهات جوجل مع جميع البيانات الخاصة به، والتعلم الآلي، وحوسبة قوية لا يتفوق بشكل كبير بسيطة وأسهل للفهم مجريات الأمور. هذا يشير إلى أن عند تقييم أي توقعات أو التنبؤ الآني من المهم للمقارنة على خط أساس.
التحذير الثاني المهم حول انفلونزا اتجاهات جوجل هي أن قدرته على التنبؤ البيانات انفلونزا CDC كانت عرضة للفشل على المدى القصير والاضمحلال على المدى الطويل بسبب الانجراف والخلط حسابي. على سبيل المثال، خلال عام 2009 اندلاع انفلونزا الخنازير الإنفلونزا من Google اتجاهات بشكل كبير الإفراط في تقدير القيمة الأنفلونزا، وربما لأن الناس يميلون إلى تغيير سلوك البحث في استجابة لمخاوف واسعة النطاق من وباء عالمي (Cook et al. 2011; Olson et al. 2013) . وبالإضافة إلى هذه المشاكل على المدى القصير، التهاوي أداء تدريجيا مع مرور الوقت. تشخيص أسباب هذا الاضمحلال المدى الطويل يصعب لأن خوارزميات البحث جوجل هي الملكية، ولكن يبدو أنه في عام 2011 قدمت جوجل التغييرات التي من شأنها أن تشير إلى مصطلحات البحث ذات الصلة عندما يبحث الناس عن أعراض مثل "حمى" و "سعال" (يبدو أيضا أن هذه الميزة لم تعد نشطة). إضافة هذه الميزة أمر معقول تماما أن تفعل إذا كنت تقوم بتشغيل الأعمال محرك البحث، وكان لذلك أثرا على توليد المزيد من عمليات البحث ذات الصلة بالصحة. وربما كان هذا النجاح لرجال الأعمال، ولكنه تسبب انفلونزا اتجاهات جوجل إلى الإفراط في تقدير انتشار انفلونزا (Lazer et al. 2014) .
لحسن الحظ، هذه المشاكل مع انفلونزا اتجاهات جوجل هي يمكن حلها. في الواقع، وذلك باستخدام أساليب أكثر حذرا، Lazer et al. (2014) و Yang, Santillana, and Kou (2015) كانت قادرة على الحصول على نتائج أفضل. للمضي قدما، وأتوقع أن دراسات التنبؤ الآني التي تجمع بين بيانات كبيرة مع الباحث بجمع البيانات التي تجمع بين Readymades على غرار دوشامب مع الطراز ميشايلانجيلو Custommades-سيمكن صانعي السياسات لإنتاج قياسات أسرع وأكثر دقة من الحاضر وتوقعات المستقبل.