التنبؤ بالمستقبل من الصعب، ولكن التنبؤ الحاضر أسهل.
الإستراتيجية الرئيسية الثانية التي يمكن للباحثين استخدامها مع بيانات الرصد هي التنبؤ . إن إجراء تخمينات حول المستقبل أمر صعب للغاية ، وربما لهذا السبب ، فإن التنبؤ ليس حاليًا جزءًا كبيرًا من البحث الاجتماعي (على الرغم من أنه جزء صغير وهام من الديموغرافيا والاقتصاد وعلم الأوبئة والعلوم السياسية). هنا ، أود التركيز على نوع خاص من التنبؤات يسمى التنبؤ الآني ، وهو مصطلح مشتق من الجمع بين "الآن" و "التنبؤ". بدلاً من التنبؤ بالمستقبل ، يحاول التنبؤ الآني استخدام الأفكار من التنبؤ لقياس الحالة الحالية من العالم؛ يحاول "التنبؤ بالحاضر" (Choi and Varian 2012) . من المحتمل أن يكون التنبؤ الآني مفيدا بشكل خاص للحكومات والشركات التي تتطلب اتخاذ تدابير دقيقة في الوقت المناسب من العالم.
ومن بين المواضع التي تكون فيها الحاجة إلى القياس الدقيق في الوقت المناسب واضحة للغاية ، هو علم الأوبئة. النظر في حالة الأنفلونزا ("الأنفلونزا"). كل عام ، تسبب أوبئة الأنفلونزا الموسمية الملايين من الأمراض ومئات الآلاف من الوفيات في جميع أنحاء العالم. علاوة على ذلك ، في كل عام ، هناك احتمال أن يظهر شكل جديد من الأنفلونزا يقتل الملايين. فعلى سبيل المثال ، يُقدر تفشي إنفلونزا عام 1918 بين 50 و 100 مليون شخص (Morens and Fauci 2007) . نظرًا للحاجة إلى تتبع تفشي الإنفلونزا والاستجابة له على الأرجح ، فقد أنشأت الحكومات في جميع أنحاء العالم أنظمة مراقبة للأنفلونزا. على سبيل المثال ، تقوم المراكز الأمريكية لمكافحة الأمراض والوقاية منها (CDC) بجمع المعلومات بانتظام من الأطباء المختارين بعناية في جميع أنحاء البلاد. على الرغم من أن هذا النظام ينتج بيانات عالية الجودة ، إلا أنه يعاني من تأخر في إعداد التقارير. وهذا بسبب الوقت الذي تستغرقه البيانات التي يتم الحصول عليها من الأطباء لتنظيفها ومعالجتها ونشرها ، يقوم نظام CDC بنشر تقديرات حول كمية الإنفلونزا التي حدثت قبل أسبوعين. ولكن ، عند التعامل مع وباء ناشئ ، لا يرغب مسؤولو الصحة العامة في معرفة كم كان هناك إنفلونزا منذ أسبوعين ؛ يريدون أن يعرفوا كم الأنفلونزا هناك الآن.
في نفس الوقت الذي تقوم فيه مراكز التحكم في الأمراض (CDC) بجمع البيانات لتتبع الأنفلونزا ، تقوم Google أيضًا بجمع بيانات حول انتشار الإنفلونزا ، وإن كان ذلك في شكل مختلف تمامًا. يرسل الأشخاص من جميع أنحاء العالم باستمرار استعلامات إلى Google ، وقد تشير بعض من هذه الاستعلامات - مثل "علاجات الأنفلونزا" و "أعراض الأنفلونزا" - إلى أن الشخص الذي قدم الاستفسار مصاب بالإنفلونزا. ولكن استخدام استعلامات البحث هذه لتقدير معدل انتشار المرض أمر صعب: فليس كل من يصاب بالأنفلونزا يقوم بعملية بحث ذات صلة بالإنفلونزا ، وليس كل بحث مرتبط بالإنفلونزا من شخص مصاب بالأنفلونزا.
كان لدى جيريمي غينسبرغ وفريق من الزملاء (2009) ، وبعضهم في Google وبعضهم في مراكز السيطرة على الأمراض ، فكرة مهمة وذكاء لدمج هذين المصدرين للبيانات. ما يقرب من ذلك ، من خلال نوع من الخيمياء الإحصائية ، جمع الباحثون بيانات البحث السريعة وغير الدقيقة مع بيانات CDC البطيئة والدقيقة من أجل إنتاج قياسات سريعة ودقيقة لانتشار الأنفلونزا. هناك طريقة أخرى للتفكير في الأمر وهي أنها استخدمت بيانات البحث لتسريع بيانات CDC.
وبشكل أكثر تحديدًا ، باستخدام البيانات من 2003 إلى 2007 ، قدر Ginsberg وزملاؤه العلاقة بين انتشار الأنفلونزا في بيانات CDC وحجم البحث عن 50 مليون مصطلح متميز. من هذه العملية ، التي كانت مدفوعة بالكامل بالبيانات ولا تتطلب معرفة طبية متخصصة ، وجد الباحثون مجموعة من 45 سؤال مختلف بدا أنها الأكثر تنبؤًا ببيانات انتشار إنفلونزا CDC. بعد ذلك ، وباستخدام العلاقات التي تعلموها من بيانات 2003-2007 ، اختبر Ginsberg وزملاؤه نموذجهم خلال موسم الأنفلونزا 2007-2008. ووجدوا أن إجراءاتهم يمكن أن تجعل من التقارير المفيدة والمفيدة في الوقت الحالي (الشكل 2.6). وقد نشرت هذه النتائج في مجلة Nature وتلقت تغطية صحفية. أصبح هذا المشروع - الذي أطلق عليه اسم اتجاهات الإنفلوانزا في Google - مثالًا متكررًا حول قوة البيانات الكبيرة لتغيير العالم.
ومع ذلك ، تحولت قصة النجاح الظاهرة هذه في النهاية إلى إحراج. بمرور الوقت ، اكتشف الباحثون تقييديْن مهمَين يجعلان من مؤشرات إنفلونزا Google أقل إبداعًا مما ظهر في البداية. أولاً ، لم يكن أداء Google Flu Trends في الواقع أفضل بكثير من نموذج بسيط يقدِّر كمية الأنفلونزا بناءً على استقراء خطي من القناتين الأحدث لانتشار الأنفلونزا (Goel et al. 2010) . وعلى مدى بعض الفترات الزمنية ، كانت اتجاهات الإنفلوانزا في Google أسوأ من هذا النهج البسيط (Lazer et al. 2014) . بعبارة أخرى ، لم تتفوق اتجاهات الإنفلوانزا من Google بجميع بياناتها ، وتعلمها الآلي ، والحوسبة القوية بشكل كبير على تفكير بسيط وسهل في الفهم. هذا يشير إلى أنه عند تقييم أي توقع أو نشرة ، فمن المهم مقارنة ضد خط الأساس.
ثاني أهم التحذيرات حول اتجاهات الإنفلوانزا في Google هو أن قدرتها على التنبؤ ببيانات انفلونزا CDC كانت عرضة للفشل قصير المدى والانحلال على المدى الطويل بسبب الانجراف والخوارزمية المربكة . على سبيل المثال ، خلال تفشّي إنفلونزا الخنازير لعام 2009 ، بالغت مؤشرات أنفلونزا الخنازير بشكل كبير في تقدير كمية الأنفلونزا ، ربما لأن الناس يميلون إلى تغيير سلوكهم البحثي استجابة لخوف واسع النطاق من وباء عالمي (Cook et al. 2011; Olson et al. 2013) . بالإضافة إلى هذه المشاكل على المدى القصير ، تآكل الأداء تدريجيا مع مرور الوقت. يعد تشخيص أسباب هذا الاضمحلال طويل الأمد أمرًا صعبًا لأن خوارزميات بحث Google هي ملكية خاصة ، ولكن يبدو أن شركة Google بدأت في عام 2011 في اقتراح عبارات بحث ذات صلة عندما يبحث الأشخاص عن أعراض الأنفلونزا مثل "الحمى" و "السعال" (يبدو أيضًا أن هذه الميزة لم تعد نشطة). تعد إضافة هذه الميزة أمرًا معقولًا تمامًا إذا كنت تدير محرك بحث ، ولكن هذا التغيير الخوارزمي كان له تأثير في إجراء مزيد من عمليات البحث ذات الصلة بالصحة والتي تسببت في أن تقوم Google Flu Trends بالإفراط في تقدير معدل انتشار المرض (Lazer et al. 2014) .
هذان التحذيران يعقدان جهود التنبؤ الآني المستقبلية ، لكنهما لا يحكمان عليها. في الواقع ، من خلال استخدام أساليب أكثر حذرا ، Lazer et al. (2014) وكان Yang, Santillana, and Kou (2015) قادرين على تجنب هاتين المشكلتين. وأنا أتوقع ، من خلال الدراسات المستقبلية التي تجمع بين مصادر البيانات الضخمة والبيانات التي تم جمعها من قبل الباحثين ، أن تمكن الشركات والحكومات من وضع تقديرات أكثر دقة في الوقت المناسب عن طريق تسريع أي قياس يتم إجراؤه مرارًا وتكرارًا مع مرور الوقت. تعرض مشروعات التنبؤ الآني مثل Google Flu Trends أيضًا ما يمكن أن يحدث إذا تم دمج مصادر البيانات الكبيرة مع بيانات أكثر تقليدية تم إنشاؤها لأغراض البحث. وبالرجوع إلى التشبيه الفني للفصل الأول ، فإن التنبؤ الآني يتضمن القدرة على الجمع بين الماكينات الجاهزة على غرار دوشامب وأطقم التجهيز المصنوعة من طراز مايكل أنجلو من أجل تزويد صانعي القرار بمقاييس أكثر دقة وأكثر دقة في الوقت الحاضر والتنبؤات في المستقبل القريب.