2.4.2 болжау және қысқа мерзімді

Болашақты болжау қиын, бірақ сыйлық болжау оңай.

Бақылау деректерімен зерттеушілер пайдаланылатын екінші негізгі стратегиясы болжау болып табылады. Болашақты болжау баршаға қиын, бірақ олар компаниялар немесе үкімет жұмыс істейді ма, шешім қабылдайтын үшін керемет маңызды болуы мүмкін.

Kleinberg et al. (2015) , белгілі бір саясат проблемаларына арналған болжау маңыздылығын түсіндіру екі әңгімелер ұсынады. Мен құрғақшылық алдында тұр, оның Анна, қоңырау шаламыз және жаңбыр арттыру үшін жаңбыр би істеу бақсы жалдауға істейтіндігіңізді шешуіңіз керек, бір директивалық елестетіп көріңізші. Тағы бір директивалық, Мен Боб оны қоңырау шаламыз, үйге жолында дымқыл шалдығуды болдырмау үшін жұмыс істеу үшін қолшатыр алуға не істейтіндігіңізді шешуіңіз керек. олар ауа-райын түсіну, егер Анна және Боб Екі жақсы шешім жасауға болады, бірақ олар әр түрлі нәрселерді білу қажет. Анна жаңбыр би жаңбыр тудырады ма түсіну қажет. Боб, екінші жағынан, себебі туралы ештеңе түсінуіңіз қажет етпейді; ол жай ғана дәл болжамын қажет. Әлеуметтік зерттеушілер жиі нәрсеге көңіл Kleinberg et al. (2015) , «жаңбыр би сияқты» саясаты мәселелері-сол баса назар қоңырау себептері және болжамдау бағытталған «шатырлық сияқты» саясаты мәселелерін ескермеу.

Мен «. Болжамдау» қысқа мерзімді -a «енді» үйлестіре алынған мерзімді және деп аталатын болжау арнайы түріне, алайда, фокустау үшін ұнайды орнына болашағын болжау, сыйлық болжау әрекеттерін қысқа мерзімді келеді (Choi and Varian 2012) . Басқаша айтқанда, қысқа мерзімді өлшеу мәселелері бойынша болжау әдістерін қолданады. сияқты, бұл олардың елдер туралы уақтылы және дәл шараларын талап үкіметтер үшін әсіресе пайдалы болуы тиіс. Қысқа мерзімді Google тұмауын тенденциялары мысалы ең айқын салыстыруға болады.

Егер сіз іздеу қозғалтқышының «тұмауы фитопрепараттардың» теріңіз сондықтан сіз райын астында біраз сезім екенін елестетіп көріңізші, жауап сілтемелер бетті алуға, содан кейін пайдалы веб олардың біреуі орындаңыз. Енді бұл қызмет бойынша іздеу қозғалтқыштың тұрғысынан ойнатылады елестету. Әрбір сәт, сұраулар миллиондаған бүкіл әлем бойынша түсетін, және сұраулардың-не осы ағыны жатыр Battelle (2006) , «ниет дерекқоры» деп аталатын болды - ұжымдық жаһандық сана ішіне үнемі жаңартылып терезені қамтамасыз етеді. Алайда, тұмау таралуы өлшеу кезінде ақпаратты осы ағынын бұрап қиын. Жай «тұмауы компенсациялар» дұрыс жұмыс істемеуі мүмкін арналған сұраулар санын дейін санау. тұмау қорғау құралдарына арналған тұмау қорғау құралдарына емес, әркім пайдаланушылар үшін тұмауға іздеулерді бар емес әркім тұмауы бар.

Google тұмауын тенденциядан артта маңызды және ақылды трюк бір болжау мәселесіне ішіне өлшеу мәселені қосу үшін болды. Ауруларды бақылау және алдын алу орталықтары АҚШ (CDC) бүкіл ел дәрігерлер ақпаратты жинайды тұмау мониторинг жүйесі бар. Алайда, бұл CDC жүйесімен бір мәселе артта есеп екі апта бар болып табылады; дәрігерлер келген деректер, тазартылған өңделген және жарияланған болуы үшін уақыт, ол қабылдайды. дамушы індетіне ұстағанда Бірақ, қоғамдық денсаулық сақтау кеңселер, екі апта бұрын болған қанша тұмау білгісі келеді келмейді; Олар дәл қазір бар қанша тұмау білгісі келеді. Шын мәнінде, әлеуметтік деректер басқа да көптеген дәстүрлі көздерден деректерді жинау толқын және есеп кешігіп арасындағы алшақтық бар. Ең үлкен деректер көздері, екінші жағынан, әрқашан бойынша (бөлім 2.3.1.2) болып табылады.

Сондықтан, Джереми Ginsberg мен әріптестер (2009) Google іздеу деректерден CDC тұмауға деректер болжау тырысты. Бұл зерттеушілер CDC, сыйлық өлшеу болашақ деректерден болашақ деректерді болжау қазір бар қанша тұмауы өлшеу тырысты, өйткені «осы болжау» үлгісі болып табылады. машина оқыту пайдаланып, олар CDC тұмау деректердің ең болжалды болып табылатын көру үшін 50 млн түрлі іздеу шарттарына арқылы іздеген. Сайып келгенде, олар ең болжалды болып көрінген 45 түрлі сұраулар жиынтығын тауып, және нәтижелер өте жақсы болды: олар CDC деректерді болжау үшін іздеу деректерін пайдалана алады. Табиғат жарияланды осы қағаз, бір бөлігіне негізделген, Google тұмауын Trends үлкен деректер билік туралы жиі қайталанып жетістігі болды.

Бұл айқын табысқа екі маңызды ескертулер алайда, болып табылады, және бұл ескертулер түсіну сіз бағалауға көмектеседі және болжау және қысқа мерзімді жасаймыз. Біріншіден, Google тұмауын тенденциялары іс жүзінде тұмауға таралуы екі ең соңғы өлшемдер сызықты экстраполяция негізделген тұмауының құнын бағалайды қарапайым моделін қарағанда әлдеқайда жақсы емес еді орындау (Goel et al. 2010) . Ал, кейбір уақыт кезеңі ішінде Google тұмауын Trends шын мәнінде бұл қарапайым тәсіл бетер болды (Lazer et al. 2014) . Басқаша айтқанда, оның барлық деректер, машина оқыту, және қуатты компьютерлер Google тұмауын тенденциялары күрт қарапайым және эвристиканы түсіну оңай асып жоқ. Бұл кез келген болжам бағалау немесе оған nowcast кезде бастапқы қарсы салыстыруға маңызды деп болжайды.

Google тұмауын тенденциялар туралы екінші маңызды ескерту CDC тұмауы деректерді болжау қабілеті, өйткені дрейф және алгоритмдік қате қысқа мерзімді істен және ұзақ мерзімді ыдырауы бейім екенін болып табылады. Мысалы, адам пандемиясына кеңінен қорқыныш жауап өздерінің іздеу әрекетін өзгертуге бейім бәлкім, өйткені, тұмау артық бағаланған сомасы күрт 2009 шошқа тұмауының тұтануына Google тұмауын тенденциялары кезінде (Cook et al. 2011; Olson et al. 2013) . Осы қысқа мерзімді проблемаларды қатар, өнімділігі біртіндеп ұзақ уақыт бойы шіриді. Осы ұзақ мерзімді ыдырауы себептерін анықтау Google іздеу алгоритмдері патенттелген, өйткені қиын, бірақ ол 2011 жылы Google (ол сондай-ақ, меніңше адам «безгегі» және «жөтел» тәрізді белгілері іздеу кезінде байланысты іздеу шарттарын ұсынған еді өзгерістер енгізді, бұл пайда Бұл функция) бұдан былай белсенді екенін. Бұл мүмкіндікті қосу Сіз іздеу жүйесі бизнеспен егер істеу мүлдем ақылға қонымды нәрсе, және ол көп денсаулығына байланысты іздеулерді генерациялау әсер етті. Бұл, бәлкім, бизнес үшін табысты болды, бірақ ол артық смета тұмауы таралуы үшін Google тұмауын үрдіс туындаған (Lazer et al. 2014) .

Бақытымызға орай, Google тұмауын Trends осы проблемалар fixable болып табылады. Шын мәнінде, абай әдістерін пайдалана отырып, Lazer et al. (2014) және Yang, Santillana, and Kou (2015) жақсы нәтижелерге қол жеткізе алды. Болашақта Мен зерттеуші бар үлкен деректерді біріктіру қысқа мерзімді зерттеулер Michaelangelo-стилі деректерді-Duchamp-стилі Readymades біріктіру жиналған деп күтуге Custommades-Болашақта және қазіргі болжамдарды жылдам және дәл өлшеу өндіруге саясаткерлер мүмкіндік береді.