Болашақты болжау қиын, бірақ сыйлық болжау оңай.
Екінші негізгі стратегиялық зерттеушілер байқаушы деректермен болжауға болады . Болашақ туралы болжам жасау өте қиын, және бәлкім, сондықтан болжау қазіргі уақытта әлеуметтік зерттеудің үлкен бөлігі болып табылмайды (ол демография, экономика, эпидемиология және саяси ғылымның кішігірім және маңызды бөлігі). Дегенмен, мен қазір «қазір» және «болжау» дегенді біріктіруден туындаған қазіргі заманғы болжамды арнайы болжау түріне баса назар аударғым келеді. Болашақты болжаудың орнына қазіргі жағдайды өлшеу үшін болжаудан идеяларды қолдануға әрекеттену. әлемнің; ол «болжауға» тырысады (Choi and Varian 2012) . Бүгінгі күні әлемнің уақтылы және нақты шараларын талап ететін үкіметтер мен компаниялар үшін әсіресе пайдалы болуы мүмкін.
Уақытты және дәл өлшеу қажеттілігі анықталған бір эпидемиология. Тұмауға қатысты жағдайды қарастырыңыз («тұмау»). Жыл сайын маусымдық тұмау эпидемиясы бүкіл әлем бойынша миллиондаған аурулар мен жүздеген мың өлімді тудырады. Бұдан басқа, жыл сайын миллиондаған адамды өлтіретін тұмаудың жаңа түрі пайда болуы мүмкін. Мысалы, 1918 жылғы тұмаудың өршуі 50-ден 100 миллионға дейін адам өлтірілген (Morens and Fauci 2007) . Тұмаудың таралуына жол бермеу және ықтимал жауап беру қажеттілігіне байланысты бүкіл әлемдегі үкіметтер тұмаудың қадағалау жүйесін құрды. Мысалы, АҚШ-тың Ауруларды бақылау және алдын алу жөніндегі орталықтары (CDC) елдегі мұқият іріктелген дәрігерлерден жүйелі түрде ақпарат жинайды. Бұл жүйе жоғары сапалы деректерді шығарса да, ол есеп беру уақытын жоғалтады. Яғни, дəрігерлерден тазартылған, өңделетін жəне жарияланатын деректерге уақыт қажет болғандықтан, CDC жүйесі екі апта бұрын болған тұмаудың бағаларын шығарады. Бірақ, қалыптасқан эпидемиямен айналысқан кезде, денсаулық сақтау қызметкерлері екі апта бұрын қанша тұмаудың болғанын білгісі келмейді; олар қазір қанша тұмау бар екенін білгісі келеді.
Сонымен бірге, CDC тұмауды қадағалау үшін деректер жинайды, Google тұмаудың таралуы туралы деректер жинайды, бірақ мүлдем басқаша. Бүкіл әлемдегі адамдар үнемі Google-ге сұраулар жіберіп отырады және кейбір сұраулар, мысалы, «тұмаудың алдын алу құралдары» және «тұмау белгілері» сияқты сұранымдар сұраныс жасайтын адам тұмауға ұшырайтынын көрсетеді. Бірақ, тұмаудың таралуын бағалау үшін осы іздестіру сұрауларын пайдалану өте қиын: тұмауға ұшыраған әрбір адам тұмауға байланысты іздеуді жасамайды, ал тұмаумен байланысты тұмаудың барлығы тұмауға шалдыққан адамнан емес.
Джереми Гинсберг және әріптестер тобы (2009) , кейбір Google және кейбір CDC, осы екі деректер көздерін біріктіруге маңызды және ақылды идеяға ие болды. Дәлірек, статистикалық алхимия түрінде зерттеушілер тұмаудың таралуын тез және дәл өлшеу үшін тез және дәл емес іздеу деректерін баяу және дәл CDC деректерімен біріктірді. Бұл туралы ойланудың тағы бір жолы, CDC деректерін жылдамдату үшін іздеу деректерін қолданған.
Нақтырақ айтқанда, 2003 жылдан 2007 жылға дейінгі деректерді пайдаланып, Гинсберг пен әріптестер CDC деректеріндегі тұмаудың таралуы мен 50 миллион нақты терминдер бойынша іздеу көлемінің арасындағы байланысты бағалады. Толық деректерге негізделген және мамандандырылған медициналық білімді қажет етпейтін бұл үдерістен ғалымдар CDC тұмауының таралуы туралы деректерді ең болжанған 45 түрлі сұрақтың жиынтығын тапты. Содан кейін, 2003-2007 жж. Деректерден алынған қарым-қатынастарды пайдаланып, Гинсберг және әріптестері 2007-2008 жж. Тұмау маусымы кезінде олардың үлгісін сынап көрді. Олар өз іс-әрекеттерінің шын мәнінде нақты және пайдалы болуы мүмкін екендігін анықтады (2.6-сурет). Бұл нәтижелер Табиғатта жарияланып, баспадан баспаға түсірілді. Google Flu Trends деп аталатын бұл жоба әлемді өзгерту үшін үлкен деректердің күші туралы жиі қайталанатын әңгіме болды.
Дегенмен, бұл табысты табысқа жету тарихы, ақырында, ұялмайды. Уақыт өте келе, зерттеушілер Google Flu Trends-ті бастапқыда пайда болғанға қарағанда әсер етпейтін екі маңызды шектеулерді тапты. Біріншіден, «Google Flu Trends» компаниясының өнімділігі тұмаудың таралуының соңғы екі өлшемінен желілік экстраполяцияға негізделген тұмаудың мөлшерін бағалайтын қарапайым модельге қарағанда әлдеқайда жақсы емес еді (Goel et al. 2010) . Біраз уақыт аралығында Google Flu Trends осы қарапайым тәсілге қарағанда әлдеқайда нашар болды (Lazer et al. 2014) . Басқаша айтқанда, Google Flu Trends барлық деректермен, машинада оқытумен және қуатты есептеумен қарапайым және жеңіл түсінуге болатын эвристиканы айтарлықтай жақсартпады. Бұл кез-келген болжамды немесе қазіргі таңда бағаланған кезде, бастапқы деңгейге қарағанда салыстыру маңызды.
Google Flu Trends туралы екінші маңызды ескерту - CDC тұмауы туралы деректерді болжау қабілеті қысқа мерзімді сәтсіздіктерге және ұзаққа созылған ауытқу және алгоритмдік шатастыруға байланысты ұзаққа созылған үрдістерге бейім. Мәселен, 2009 жылы шошқа тұмауының алдын алу Google Flu Trends тұмаудың мөлшерін күрт асырып алды, мүмкін, адамдар жаһандық пандемиядан қорқыныш кеңінен таралғандықтан, адамдар іздеу тәртібін өзгерте алады (Cook et al. 2011; Olson et al. 2013) . Осы қысқа мерзімді проблемалардан басқа, уақыт өте келе өнімділік біртіндеп ыдырады. Бұл ұзақ мерзімді ыдыраудың себебін диагностикалау өте қиын, себебі Google іздеу алгоритмдері жеке меншік болып табылады, бірақ 2011 жылы «қызба» және «жөтел» сияқты тұмау белгілерін іздесе, Google 2011 жылы іздеуге қатысты іздеуді ұсынады. бұл мүмкіндік енді белсенді емес). Бұл мүмкіндікті қосу іздеу механизмін іске қосқан кезде жасалуы керек, бірақ бұл алгоритмдік өзгеріс Google Flu Trends-ті тұмаудың таралуын асып (Lazer et al. 2014) әкеліп соғатын денсаулыққа қатысты қосымша зерттеулердің пайда болуына әсер етті (Lazer et al. 2014) .
Бұл екі ескерту келешектегі күш-жігерді қиындатады, бірақ олар оларды жоймайды. Іс жүзінде, мұқият әдістерді қолдану арқылы, Lazer et al. (2014) және Yang, Santillana, and Kou (2015) осы екі проблемадан аулақ болды. Алға қарай, үлкен деректер көздерін зерттеуші жинаған деректермен біріктіретін зерттеулер қазіргі уақытта компаниялар мен үкіметтерге бірнеше рет уақыт өткен сайын қайталанатын кез-келген өлшеулерді айтарлықтай жылдамдату арқылы уақытты және дәл бағалауды жасауға мүмкіндік береді деп күтемін. Google Flu Trends сияқты қазіргі заманғы жобалар, үлкен деректер көздері зерттеу мақсаттары үшін жасалған дәстүрлі деректермен біріктірілсе, не болуы мүмкін екенін көрсетеді. 1-тараудың көркемдік ұқсастығын ойлап, қазіргі таңда, шешім қабылдаушыларға қазіргі және болашақтағы өлшеулерді неғұрлым уақытылы және дәл өлшеуімен және жақын болашақтың болжауымен қамтамасыз ету үшін, Духамп стиліндегі дайындықтарды Микеланджело стиліндегі касомадалармен біріктіру мүмкіндігі бар.