پیش بینی آینده سخت است، اما پیش بینی در حال حاضر آسان تر است.
استراتژی اصلی دوم با داده های مشاهده ای که توسط محققان پیش بینی است. پیش بینی آینده بسیار دشوار است، اما می توان آن را فوق العاده برای تصمیم گیرندگان مهم، که آیا آنها در شرکت یا دولت کار می کنند.
Kleinberg et al. (2015) ارائه می دهد دو داستان است که مشخصات اهمیت پیش بینی برای مشکلات سیاست است. تصور کنید که یک پالیسی ساز، من آنا او، که مواجه است، خشکسالی و باید تصمیم بگیرد که آیا به استخدام یک شمن به انجام یک رقص باران برای افزایش احتمال بارش پاسخ. یکی دیگر از سیاست ساز، من او را پاسخ باب، باید تصمیم بگیرید که آیا به یک چتر به کار برای جلوگیری از خیس شدن در راه خانه. هر دو آنا و باب می توانید تصمیم گیری بهتر اگر آنها بفهمند آب و هوا، اما آنها نیاز به دانستن چیزهای مختلف. آنا نیاز به درک این که آیا رقص باران باعث باران. باب، از سوی دیگر، به درک هر چیزی در مورد علیت لازم نیست؛ او فقط نیاز پیش بینی دقیق. محققان اجتماعی اغلب در چه تمرکز Kleinberg et al. (2015) پاسخ "باران رقص مانند" سیاست مشکلات کسانی که در تمرکز علیت-و چشم پوشی از مشکلات سیاست "چتر مانند" است که بر روی پیش بینی متمرکز شده است.
من می خواهم به تمرکز، با این حال، در یک نوع خاص از پیش بینی به نام nowcasting -a مدت از ترکیب "کن" و مشتق شده "پیش بینی." به جای پیش بینی آینده، nowcasting تلاش برای پیش بینی در حال حاضر (Choi and Varian 2012) . به عبارت دیگر، با استفاده از روش nowcasting پیش بینی برای مشکلات اندازه گیری. به این ترتیب، آن را باید به ویژه به دولت که نیاز به اقدامات به موقع و دقیق در مورد کشور خود مفید باشد. Nowcasting می توان به وضوح با نمونه ای از گرایشات آنفلوانزای Google نشان داده شده.
تصور کنید که شما احساس کمی تحت آب و هوا، بنابراین شما از نوع "راه حل های آنفولانزا" به یک موتور جستجو، یک صفحه از لینک دریافت در پاسخ، و سپس به دنبال یکی از آنها به یک صفحه وب مفید است. حالا تصور کنید این فعالیت در حال از منظر موتور جستجو ایفا کرده است. هر لحظه، میلیون ها نمایش داده شد در حال ورود از در سراسر جهان، و این جریان نمایش داده شد چه Battelle (2006) به نام شده است "پایگاه داده از نیات" - یک پنجره طور مداوم به روز به آگاهی جمعی جهانی فراهم می کند. با این حال، تبدیل این جریان از اطلاعات را در اندازه گیری میزان شیوع آنفولانزا مشکل است. نگران نباشید، شمارش تا تعداد نمایش داده شد برای "درمان آنفولانزا" ممکن است به خوبی کار نمی کند. هر کسی که تا به جستجو آنفولانزا برای درمان آنفولانزا و نه هر کسی که جستجوگران برای درمان آنفولانزا است آنفولانزا.
فوت و فن مهم و هوشمندانه پشت آنفولانزای روند گوگل بود به نوبه خود یک مشکل اندازه گیری به یک مشکل پیش بینی. مراکز ایالات متحده برای کنترل و پیشگیری بیماری (CDC) دارای یک سیستم نظارت آنفولانزا که اطلاعات را از پزشکان در سراسر کشور جمع آوری. با این حال، مشکل این سیستم این CDC است تاخیر گزارش دو هفته وجود دارد. زمان آن را برای داده ها پس از رسیدن از پزشکان طول می کشد تا تمیز شود، پردازش و منتشر شده است. اما، هنگامی که دست زدن به یک بیماری همه گیر در حال ظهور، ادارات بهداشت عمومی نمی خواهید بدانید که چقدر آنفلوآنزا دو هفته پیش وجود دارد. آنها می خواهند بدانند که چقدر آنفلوانزا است در حال حاضر وجود دارد. در واقع، در بسیاری دیگر از منابع سنتی داده های اجتماعی، شکاف بین امواج جمع آوری داده ها و وقفه گزارش وجود دارد. اکثر منابع داده های بزرگ، از سوی دیگر، همیشه در (بخش 2.3.1.2).
بنابراین، جرمی گینزبرگ و همکاران (2009) تلاش برای پیش بینی داده آنفولانزا CDC از اطلاعات جستجو گوگل. این یک نمونه از "پیش بینی در حال حاضر" از آنجا که محققان در تلاش بودند برای اندازه گیری مقدار آنفلوآنزا در حال حاضر پیش بینی شده توسط داده های آینده از CDC، داده های آینده است که اندازه گیری در حال حاضر وجود دارد. با استفاده از یادگیری ماشین، آنها را از طریق 50 میلیون شرایط مختلف جستجو جستجو است که برای دیدن پیش بینی بسیاری از داده های آنفولانزا CDC هستند. در نهایت، آنها پیدا شده است مجموعه ای از 45 نمایش داده شد مختلف است که به نظر می رسید پیش بینی ترین، و نتایج بسیار خوب بود: آنها می توانند داده های جستجو برای پیش بینی داده های CDC استفاده کنید. بر اساس در بخش در این مقاله، که در طبیعت منتشر شد، گرایشات آنفلوانزای Google یک داستان موفقیت اغلب تکرار در مورد قدرت داده های بزرگ تبدیل شد.
وجود دارد دو نکته مهم در این موفقیت ظاهری، با این حال، و درک این هشدارهای شما کمک خواهد کرد ارزیابی و انجام پیش بینی و nowcasting. نخست، عملکرد آنفولانزای روند گوگل در واقع خیلی بهتر از یک مدل ساده که برآورد مقدار آنفلوآنزا بر اساس یک برون یابی خطی از دو اندازه گیری های اخیر از شیوع آنفولانزا بود (Goel et al. 2010) . و، بیش از برخی از دوره های زمانی گوگل ترند آنفولانزا در واقع بدتر از این روش ساده بود (Lazer et al. 2014) . به عبارت دیگر، گرایشات آنفلوانزای Google با تمام داده های آن، یادگیری ماشین و محاسبات قدرتمند را به طور چشمگیری بهتر نیست ساده و راحت تر درک اکتشافی. این نشان می دهد که در هنگام ارزیابی هر پیش بینی و یا nowcast مهم است که برای مقایسه در برابر یک پایه.
اخطار مهم دوم در مورد آنفولانزای روند گوگل این است که توانایی خود را برای پیش بینی داده آنفولانزا CDC مستعد ابتلا به شکست های کوتاه مدت و پوسیدگی بلند مدت به دلیل رانش و مخدوش الگوریتمی بود. به عنوان مثال، در طول 2009 شیوع آنفولانزای خوکی آنفولانزای روند گوگل به طور چشمگیری بیش از حد برآورد مقدار آنفلوانزا، احتمالا به خاطر مردم تمایل به تغییر رفتار جستجوی خود را در پاسخ به ترس گسترده از یک همه گیری جهانی (Cook et al. 2011; Olson et al. 2013) . علاوه بر این مشکلات کوتاه مدت، عملکرد تدریج در طول زمان فاسد. تشخیص دلایل این فروپاشی طولانی مدت مشکل است زیرا الگوریتم های جستجوی Google اختصاصی هستند، اما به نظر می رسد که در سال 2011 گوگل تغییرات که عبارات جستجو مربوط به پیشنهاد ساخته شده که مردم برای جستجوی نشانه هایی مانند "تب" و "سرفه" (آن را نیز به نظر می رسد که از این ویژگی دیگر فعال). اضافه کردن این ویژگی یک چیز کاملا منطقی انجام دهید اگر شما در حال اجرا یک کسب و کار موتور جستجو است، و آن اثر تولید جستجوهای مرتبط با سلامت بیشتر بود. این احتمالا یک موفقیت برای کسب و کار بود، اما آن را ناشی از آنفولانزای روند گوگل به بیش از برآورد شیوع آنفولانزا (Lazer et al. 2014) .
خوشبختانه، این مشکلات با Google Flu Trends ثبات پذیر هستند. در واقع، با استفاده از روش دقت بیشتری، Lazer et al. (2014) و Yang, Santillana, and Kou (2015) قادر به گرفتن نتایج بهتر بود. رفتن به جلو، من انتظار دارم که مطالعات nowcasting که ترکیب داده های بزرگ با محقق داده است که ترکیب Readymades دوشان سبک با Michaelangelo سبک Custommades-خواهد سیاست گذاران را قادر به تولید سریع تر و دقیق اندازه گیری از حال و پیش بینی از آینده جمع آوری شده.