پیش بینی آینده سخت است، اما پیش بینی در حال حاضر آسان تر است.
محققان راهبردی دوم، می توانند با داده های مشاهدهی، پیش بینی کنند . تهیه حدس ها در مورد آینده بدیهی است دشوار است، و شاید به همین دلیل، پیش بینی در حال حاضر بخش بزرگی از تحقیقات اجتماعی نیست (اگر چه آن بخش کوچکی از بخش های جمعیت شناسی، اقتصاد، اپیدمیولوژی و علوم سیاسی است). با این حال، در اینجا، من می خواهم روی یک نوع خاص از پیش بینی به نام nowcasting متمرکز شویم - اصطلاح مشتق شده از ترکیب "اکنون" و "پیش بینی". به جای پیش بینی آینده، تلاش های Nowcasting برای استفاده از ایده ها از پیش بینی برای اندازه گیری وضعیت کنونی از جهان؛ آن را تلاش می کند تا "پیش بینی حال" (Choi and Varian 2012) . آب و هوای امروز امکان دارد که به ویژه برای دولت ها و شرکت هایی که نیاز به اندازه گیری دقیق و دقیق دنیا دارند، مفید باشد.
یک محیط که نیاز به اندازه گیری دقیق و دقیق دارد بسیار واضح است اپیدمیولوژی. در مورد آنفلوانزا (آنفولانزا) را در نظر بگیرید. هر ساله اپیدمی فصلی آنفولانزا موجب مرگ میلیون ها بیماری و صدها هزار نفر در سراسر جهان می شود. علاوه بر این، هر سال، احتمال وجود یک نوع جدیدی از آنفلوانزا وجود دارد که میلیون ها نفر را می کشد. به عنوان مثال، شیوع آنفلوآنزای 1918، بین 50 تا 100 میلیون نفر (Morens and Fauci 2007) کشته شده است. به دلیل نیاز به پیگیری و بالقوه پاسخ به شیوع آنفلوانزا، دولت ها در سراسر جهان سیستم های نظارت بر آنفولانزا را ایجاد کرده اند. به عنوان مثال، مرکز کنترل و پیشگیری از بیماری ها (CDC) ایالات متحده به طور مرتب و منظم اطلاعات را از پزشکان با دقت انتخاب شده در سراسر کشور جمع آوری می کند. اگر چه این سیستم تولید داده های با کیفیت بالا را دارد، اما تاخیر گزارش شده است. به این معنا که به دلیل زمان لازم برای دریافت اطلاعات از پزشکان برای تمیز کردن، پردازش و انتشار، سیستم CDC تخمین می زند که چقدر آنفولانزا دو هفته پیش وجود داشت. اما، هنگام رسیدگی به یک اپیدمی ظهور، مقامات بهداشت عمومی نمی خواهند بدانند که چقدر آنفولانزا دو هفته پیش وجود داشت. آنها می خواهند بدانند که آنفلوآنزا اکنون چقدر است.
در همان زمان که CDC اطلاعات را برای ردیابی آنفلوانزا جمع آوری می کند، گوگل همچنین اطلاعات مربوط به شیوع آنفلوآنزا را جمع آوری می کند، گرچه در شکل کاملا متفاوت است. افرادی از سراسر جهان به طور دائم در حال ارسال پرسشها به Google هستند و برخی از این پرسشها مانند «داروهای آنفلوآنزا» و «علائم آنفولانزا» نشان می دهند که فردی که این درخواست را دارد، آنفولانزا دارد. اما استفاده از این پرسشهای جستجو برای برآورد شیوع آنفلوانزا مشکل است: نه همه کسانی که آنفولانزا دارند، جستجو مربوط به آنفلوانزا را انجام می دهند، و نه هر جستجو مربوط به آنفلوآنزای افراد مبتلا به آنفولانزا است.
جرمی گینسبرگ و یک تیم از همکاران (2009) ، برخی در گوگل و برخی در CDC، ایده مهم و هوشمندانه ای را برای ترکیب این دو منبع داده داشتند. به طور تقریبی، از طریق یک نوع کیمیاگری آماری، محققان دادههای جستجوی سریع و نادرست را با دادههای CDC آهسته و دقیق ترکیب کردند تا اندازه گیریهای سریع و دقیق آنفلوانزا را تولید کنند. راه دیگری برای فکر کردن درباره آن این است که آنها از داده های جستجو برای سرعت بخشیدن به داده های CDC استفاده می کنند.
به طور خاص، با استفاده از داده ها از سال 2003 تا 2007، گینسبرگ و همکارانش ارتباط بین شیوع آنفلوانزا در داده های CDC و حجم جستجو را برای 50 میلیون واژه متمایز برآورد کردند. محققان از این فرآیند که به طور کامل مبتنی بر داده ها بود و نیازی به دانش تخصصی پزشکی نبود، مجموعه ای از 45 پرسش مختلف را که به نظر می رسید بیشتر پیش بینی از داده های شیوع بیماری آنفولانزای خوکی را نشان می داد. سپس، با استفاده از روابطی که آنها از داده های 2003-2007 آموخته اند، گینسبرگ و همکارانش مدل خود را در فصل 2007-2008 آنفلوانزا مورد آزمایش قرار دادند. آنها دریافتند که روش های آنها واقعا می تواند روزنامه های مفید و دقیق را به نمایش بگذارد (شکل 2.6). این نتایج در طبیعت منتشر شد و پوشش خبری مطبوعات را دریافت کرد. این پروژه که "گوگل آنفولانزا" نامیده می شد، به عنوان مثال تقریبا مکرر در مورد قدرت داده های بزرگ برای تغییر جهان تبدیل شد.
با این حال، این موفقیت موفقیت ظاهری در نهایت تبدیل به خجالت شد. با گذشت زمان، محققان دو محدودیت مهم را کشف کردند که گوگل آنفلوانزا را کمتر از آنچه در ابتدا ظاهر شد، کمتر می کند. اول، عملکرد گوگل آنفولانزای مرغی در واقع خیلی بهتر از مدل ساده ای بود که میزان آنفلوانزا را بر اساس یک برداشت خطی از دو اندازه گیری اخیر شیوع آنفلوآنزا برآورد می کند (Goel et al. 2010) . و در طی چند دوره زمانی، گوگل آنفولانزا روند بدتر از این روش ساده بود (Lazer et al. 2014) . به عبارت دیگر، گوگل آنفولانزا با همه داده ها، یادگیری ماشین و محاسبات قدرتمند، به طور چشمگیری پیشرفته تر از اکتشاف ساده و آسان برای شناخت بهتر نیست. این نشان می دهد که هنگام ارزیابی هر پیش بینی یا پیش بینی، مهم است که در مقایسه با یک خط پایه مقایسه کنید.
دومین نکته مهم درباره گوگل آنفولانزای مرغی این است که توانایی آن برای پیش بینی داده های آنفولانزای مرغی CDC مستلزم شکست کوتاه مدت و فروپاشی طولانی مدت به دلیل ریزش و اختلال الگوریتمی است . به عنوان مثال، در طی شیوع بیماری آنفولانزای خوکی در سال 2009، میزان گوگل آنفلوآنزا به شدت بر میزان آنفولانزا افزوده شد، احتمالا به این دلیل که مردم تمایل دارند رفتار جستجوی خود را در پاسخ به ترس گسترده از همه گیر همه گیر (Cook et al. 2011; Olson et al. 2013) . علاوه بر این مشکلات کوتاه مدت، عملکرد به تدریج در طول زمان فاسد شده است. تشخیص علل این فرسودگی طولانی مدت دشوار است زیرا الگوریتم های جستجوی گوگل اختصاصی هستند، اما به نظر می رسد که در سال 2011 گوگل شروع به ارائه کلمات مرتبط مرتبط با آن در هنگام جستجو برای علائم آنفلوانزا مانند تب و سرفه کرد این ویژگی دیگر فعال نیست) اضافه کردن این ویژگی یک چیز کاملا منطقی برای انجام یک موتور جستجو است، اما این تغییر الگوریتمی باعث ایجاد جستجوهای مرتبط با سلامت شد که سبب تسریع روند گوگل آنفلوآنزا شد تا میزان شیوع آنفلوانزا را به خطر بیندازد (Lazer et al. 2014) .
این دو اخطار تلاش های آینده آتی را پیچیده تر می کند، اما آنها آنها را محکوم نمی کنند. در حقیقت، با استفاده از روش های دقیق تر، Lazer et al. (2014) و Yang, Santillana, and Kou (2015) توانستند از این دو مشکل جلوگیری کنند. پیش بینی می کنم که مطالعات اکتشافی که منابع داده های بزرگ را با داده های جمع آوری شده توسط پژوهشگران ترکیب می کنند، شرکت ها و دولت ها را قادر می سازد تا برآوردهای دقیق تر و دقیق تر را با در نظر گرفتن سرعت هر اندازه گیری که بارها و بارها با تاخیر انجام می شود، افزایش دهد. پروژه های در حال پخش از قبیل Google Flu Trends همچنین نشان می دهد که اگر منابع داده بزرگ با داده های سنتی تر که برای اهداف تحقیق ایجاد شده اند، چه اتفاقی می افتد. با توجه به تقریب هنر فصل 1، امروزه می توان از آمادگی های سبک Duchamp به عنوان سفارشی سازی با سبک میکل آنژ استفاده کرد تا تصمیم گیرندگان را با ارزیابی دقیق تر و دقیق تر کنونی و پیش بینی های آینده نزدیک تر سازد.