Ирээдүйг урьдчилан таамаглахад хэцүү байдаг, гэхдээ бэлэг таамаглахад хялбар байдаг.
Хоёр дахь гол стратеги судлаач ажиглалтын өгөгдөл нь урьдчилсан таамаглалыг ашиглаж болно. Ирээдүйн талаар таамаглахад хэцүү байдаг бөгөөд энэ шалтгааны улмаас таамаглал нь одоогоор нийгмийн судалгаа шинжилгээний томоохон хэсэг биш боловч хүн ам зүй, эдийн засаг, эпидемиологи, улс төрийн шинжлэх ухааны чухал хэсэг юм. Гэвч энд би -a цаг "одоо" ирээдүйг урьдчилан таамаглах хослуулах болон "таамаглал." Гэхээсээ илүү олсон nowcasting гэж нэрлэдэг урьдчилан таамаглах нь тусгай төрлийн анхаарч, одоогийн байдлыг хэмжих урьдчилан санаануудыг ашиглах оролдлого nowcasting хүсч байна дэлхий ертөнцийн; Энэ нь "одоогийнхыг урьдчилан таамаглах" оролдлого (Choi and Varian 2012) . Урамшуулал нь дэлхий дахинд цаг алдалгүй, үнэн зөв арга хэмжээ шаарддаг засгийн газар болон компаниудад ашигтай байх боломжтой юм.
Тодорхой цаг хугацаатай, үнэн зөв хэмжилт хийх хэрэгцээ шаардлага нэг дор байгаа нь эпидемиологи юм. Томуугийн тохиолдол ("ханиад"). Жил бүр улирлын томуугийн тахлаар дэлхий даяар сая сая өвчин, хэдэн зуун мянган хүн нас барж байна. Цаашилбал, жил бүр сая сая хүнийг алах боломжтой томуугийн шинэ хэлбэр бий болно. Тухайлбал, 1918 оны томуугийн дэгдэлт нь 50-100 сая хүн амиа алдсан гэж тооцогддог (Morens and Fauci 2007) . Томуугийн дэгдэлтийг хянах, хариу арга хэмжээ авах шаардлагатай учраас дэлхийн улс орнуудын засгийн газрууд томуугийн тандалтын системийг бий болгосон. Жишээлбэл, АНУ-ын Өвчний хяналт, урьдчилан сэргийлэх төв (CDC) нь улс орны өнцөг булан бүрт анхааралтай сонгогдсон эмч нарыг тогтмол цуглуулдаг. Хэдийгээр энэ систем нь өндөр чанартай өгөгдөл гаргаж байгаа боловч тайлагнах хоцрогдолтой байна. Энэ нь эмч нарыг цэвэрлэх, боловсруулах, хэвлэн нийтлэхэд шаардагдах мэдээллээс хойш хоёр долоо хоногийн өмнө ХДХВ-ийн халдварыг хэтрүүлэн үнэлэхийг тооцоолсон. Гэвч шинээр гарч ирж буй тахал өвчнийг эмчлэхэд эрүүл мэндийн ажилтнууд хоёр долоо хоногийн өмнө ямар томуунд байгааг мэдэхийг хүсэхгүй байна. Тэд томуугийн цаана байгаа эсэхийг мэдэхийг хүсч байна.
CDC томуугийн вирусыг хянахын тулд мэдээлэл цуглуулж байгаа бөгөөд Google нь томуугийн тархалтын талаар мэдээлэл цуглуулдаг. Дэлхийн өнцөг булан бүрт байгаа хүмүүс Google рүү байнга асуулга явуулдаг бөгөөд "зарим төрлийн хариу арга хэмжээ", "ханиадны шинж тэмдгүүд" зэрэг асуултын заримыг нь асууж буй хүнийг ханиадтай гэдгээ харуулж байна. Гэвч эдгээр хайлтын асуулгын тусламжтайгаар ханиадны тархалтыг үнэлэх нь төвөгтэй юм. Халдвартай хүн бүр ханиадтай холбоотой хайлт хийдэггүй бөгөөд ханиадтай холбоотой бүх хайлт нь ханиадтай хэн нэгнээс биш юм.
Жереми Гинзберг болон түүний хамтрагч нарын баг (2009) , Google-ийн зарим хүмүүс болон CDC-ийн зарим нь эдгээр хоёр эх сурвалжийг нэгтгэх чухал, ухаалаг санаа байсан. Статистикийн alchemy хэлбэрээр дамжуулан судлаачид томуугийн тархалтыг хурдан бөгөөд зөв хэмжих зорилгоор CDC-ийн удаан, үнэн зөв мэдээлэл хайж буй мэдээллийг хурдан, зөв нямбай хослуулсан. Үүнийг бодох бас нэг арга бол тэд CDC-ийн өгөгдлийг хурдасгахын тулд хайлтын өгөгдлийг ашигладаг явдал юм.
Ялангуяа 2003-2007 оны мэдээллээр Гинзберг болон түүний хамтрагчид CDC-ийн томуугийн тархалт болон 50 сая ялгаатай нэр томъёоны хайлтын хоорондох холбоог тооцоолжээ. Өгөгдөлд бүрэн тулгуурласан, мэргэжлийн нарийн мэдлэг шаарддаггүй энэхүү процессын үеэр судлаачид CDC-ийн томуугийн тархалтын талаарх хамгийн их таамаглалтай 45 төрлийн асуултыг судалж үзжээ. Дараа нь 2003-2007 оны мэдээнээс авсан судалгаануудыг ашиглан Гинзберг болон түүний хамтрагчид 2007-2008 оны томуугийн улирлын үеэр загвараа туршиж үзжээ. Тэдний процедур нь үнэхээр бодит үр дүнтэй, үнэн зөв байдлыг бий болгодог (Зураг 2.6). Эдгээр үр дүнг Nature сэтгүүлд хэвлүүлж , хэвлэлийн бага хурал хийлгэсэн. Google Flu Trends хэмээх төсөл нь дэлхий дахиныг өөрчлөх том дата хүчийг олон дахин давтагдсан сургаалт зүйрлэл болсон юм.
Гэсэн хэдий ч энэхүү амжилтанд хүрсэн түүх нь эцэстээ ичгэвтэр байдалд орсон. Цаг хугацаа өнгөрөхөд судлаачид Google Flu Trends нь анх удаагаа бодвол илүү гайхалтай сэтгэгдэл төрүүлдэг хоёр чухал хязгаарлалтыг илрүүлсэн. Нэгдүгээрт, Google Flu Trends-ийн гүйцэтгэл нь хамгийн сүүлийн үеийн хоёр хэмжилтийн тархалтын шугаман экстраполяцид суурилсан энгийн хэмжээний загварыг бодвол илүү сайн биш (Goel et al. 2010) . Зарим цаг хугацаанд Google Flu Trends нь энэ энгийн аргыг бодвол муу байсан (Lazer et al. 2014) . Өөрөөр хэлбэл, Google Flu Trends нь бүх өгөгдөл, машин суралцах, хүчирхэг компьютерийн тооцооллыг ашиглан энгийн, хялбар ойлгох чадварыг сайжруулаагүй байна. Энэ нь аливаа урьдчилсан таамаглал эсвэл одоо байгаа хугацааг үнэлэхэд суурь өгөгдөлтэй харьцуулах нь чухал юм.
Google-ийн Ханиад чиг хандлага-ий хоёр дахь чухал анхаарах нарийн зүйлс CDC томуугийн мэдээллийг урьдчилан таамаглах чадвар богино хугацааны алдаа, учир нь шилжилтийн болон алгоритмын confounding урт хугацааны задрал хандлагатай байсан байгаа юм. Жишээлбэл, 2009 оны Гахайн ханиадны дэгдэлтийн үед Google Flu Trends нь томуугийн цар хүрээг ихээхэн хэмжээгээр хэтрүүлэн үнэлэх явдал юм. Учир нь хүмүүс дэлхийн цар тахлын ертөнцийг түгшээж байгаа айдас түгшүүрээс болж тэдний эрэл хайгуулыг өөрчлөх хандлагатай байдаг (Cook et al. 2011; Olson et al. 2013) . Эдгээр богино хугацааны асуудлуудаас гадна гүйцэтгэл аажмаар буурч байсан. Google хайлтын алгоритмууд нь өмчийн шинжтэй учир шалтгааныг оношлоход хэцүү байдаг ч 2011 онд "халууралт", "ханиалга" гэх мэт ханиадны шинж тэмдгийг илрүүлэх үед Google нь холбогдох хайлтын нэр томъёогоор эхэлсэн байна. энэ функц идэвхгүй болсон). Хэрэв та хайлтын систем ажиллуулж байгаа бол энэ функцийг нэмэх нь хамгийн зөв арга байж болох юм. Гэхдээ энэ алгоритмын өөрчлөлт нь эрүүл мэндийн холбогдолтой хайлтыг үүсгэх нөлөөтэй байсан нь Google Flu Trends нь томуугийн тархалтыг үнэлэхэд нөлөөлсөн (Lazer et al. 2014) .
Эдгээр хоёр хүндрэл нь ирээдүйн үр дүнгийн хүчин чармайлтыг хүндрүүлдэг, гэхдээ тэдгээр нь тэднийг гутаадаггүй. Үнэндээ илүү болгоомжтой аргыг ашиглан Lazer et al. (2014) , Yang, Santillana, and Kou (2015) эдгээр хоёр бэрхшээлээс зайлсхийж чадсан. Ирээдүйд, том мэдээллийн эх сурвалжийг судлаачдаас цуглуулсан өгөгдөлтэй хослуулсан судалгаа нь компаниуд, засгийн газрууд цаг хугацааны явцад давтамжтайгаар хийгдэж байгаа хэмжилтийг хурдасгах замаар илүү цаг хугацаатай, илүү нарийвчлалтай тооцооллыг бий болгох боломжийг олгодог. Google Flu Trends зэрэг цацалтын төслүүд нь том мэдээллийн эх сурвалжийг судалгааны зорилгоор бий болгосон уламжлалт олон тооны өгөгдөлтэй хослуулсан тохиолдолд юу болж болохыг харуулсан. Ойрын 1-р бүлгийн урлагийн анализд эргэж хандах нь сэтгүүлч Микеланжело-стилийн хэв маягаар Duchamp загварын студитэй хослуулах боломж олгож байгаа бөгөөд ойрын ирээдүйд өнөөгийн болон ирээдүйн таамаглалыг цаг алдалгүй, илүү нарийвчлалтайгаар хэмжих боломжтой.