Predicting ang hinaharap ay mahirap, ngunit predicting sa kasalukuyan ay mas madali.
Ang ikalawang pangunahing diskarte na ginagamit ng mga mananaliksik na may pagmamatyag ng data ay forecasting. Predicting ang hinaharap ay notoriously mahirap, ngunit maaari itong maging hindi kapani-paniwalang mahalaga para gumagawa ng desisyon, kung sila magtrabaho sa mga kumpanya o pamahalaan.
Kleinberg et al. (2015) ay nagbibigay ng dalawang mga kuwento na linawin ang kahalagahan ng forecasting para sa ilang mga problema ng patakaran. Isipin isang patakaran maker, Tatawag ako sa kanya Anna, na nakaharap sa isang kawalan ng ulan at dapat magpasiya kung upang umarkila ng shaman na gawin ang isang rain dance upang madagdagan ang pagkakataon ng pag-ulan. Ang isa pang patakaran maker, Tatawag ako sa kanya Bob, ay dapat magpasiya kung upang kumuha ng payong sa trabaho upang maiwasan ang pagkuha ng basa sa home paraan. Parehong Anna at Bob ay maaaring gumawa ng isang mas mahusay na desisyon kung naiintindihan nila ng panahon, ngunit kailangan nila upang malaman iba't ibang mga bagay. Anna pangangailangan upang maunawaan kung ang rain dance nagiging sanhi ulan. Bob, sa ibang dako, ay hindi kailangan sa pag-unawa ng anumang bagay tungkol pananahilan; siya lamang ang mga pangangailangan ng isang tumpak na forecast. Social mananaliksik madalas na tumutok sa kung ano ang Kleinberg et al. (2015) tawagan ang "rain dance-tulad ng" mga problema-mga patakaran na-focus sa pananahilan-at huwag pansinin problema policy "umbrella-tulad ng" na nakatutok sa pagtataya.
Gusto kong mag-focus, gayunpaman, sa isang espesyal na uri ng forecasting tinatawag nowcasting -a termino na hango mula sa mga Kombinasyon "ngayon" at "pagtataya." Sa halip na predicting ang hinaharap, nowcasting pagtatangka upang mahulaan ang kasalukuyan (Choi and Varian 2012) . Sa ibang salita, nowcasting gumagamit ng mga pamamaraan sa pagtataya para sa mga problema ng pagsukat. Bilang tulad, ito ay dapat lalong kapaki-pakinabang sa mga pamahalaan na nangangailangan ng napapanahong at tumpak na mga panukala tungkol sa kanilang mga bansa. Nowcasting ay maaaring may larawan pinaka-malinaw na may mga halimbawa ng Google Flu Trends.
Isipin na ikaw ay pakiramdam ng isang bit sa ilalim ng panahon kaya nag-type ka "trangkaso remedyo" sa isang search engine, ay tatanggap ng pahina ng mga link bilang tugon, at pagkatapos ay sundin ang isa sa mga ito sa isang kapaki-pakinabang na webpage. Ngayon gunigunihin ang aktibidad na ito na-play out mula sa pananaw ng mga search engine. Bawat sandali, milyon-milyong ng mga query ay pagdating mula sa buong mundo, at ito stream ng mga query-ano Battelle (2006) ay tinatawag na ang "database ng intensyon" - ay nagbibigay ng isang patuloy na-update window sa kolektibong global malay. Gayunman, pag-on ito stream ng impormasyon sa isang pagsukat ng ang pagkalat ng trangkaso ay mahirap. Simpleng pagbibilang up ang bilang ng mga query para sa "remedyo flu" ay hindi maaaring gumana ng maayos. Hindi lahat ng tao kung sino ang may mga paghahanap trangkaso para flu remedyo at hindi lahat ng mga taong naghahanap para sa trangkaso remedyo ay may trangkaso.
Ang mahalaga at tuso lansihin sa likod ng Google Flu Trends ay upang buksan ang isang problema ng pagsukat sa isang problema forecasting. Ang US Centers for Disease Control at Prevention (CDC) ay may isang influenza monitoring system na nangongolekta ng impormasyon mula sa mga doktor sa buong bansa. Gayunman, ang isa problema sa ito CDC sistema ay may isang dalawang linggo pag-uulat lag; ang panahon na kailangan para sa mga data na dumarating mula sa mga doktor upang maging malinis, proseso, at nai-publish. Subalit, kapag paghawak ng isang umuusbong na epidemya, mga tanggapan ng pampublikong kalusugan ay hindi nais na malaman kung magkano ang influenza nagkaroon ng dalawang linggo nakaraan; gusto nilang malaman kung magkano ang influenza mayroong ngayon. Sa katunayan, sa maraming iba pang mga tradisyunal na pinagkukunan ng panlipunang data, may mga gaps sa pagitan ng mga waves ng mga koleksyon ng data at pag-uulat lags. Karamihan malaking pinagkukunan ng data, sa kabilang dako, ay palaging-on (Section 2.3.1.2).
Samakatuwid, Jeremy Ginsberg at kasamahan (2009) sinubukan upang mahulaan ang data CDC trangkaso mula sa data sa paghahanap ng Google. Ito ay isang halimbawa ng "predicting sa kasalukuyan" dahil ang mga mananaliksik ay sinusubukan upang masukat kung magkano ang flu diyan ay ngayon sa pamamagitan ng predicting hinaharap data mula sa CDC, hinaharap data na pagsukat sa kasalukuyan. Paggamit ng machine pag-aaral, sila ay naghanap sa pamamagitan ng 50 milyong iba't ibang mga terminong ginamit sa paghahanap upang makita kung saan ay pinaka mahuhulain ng data CDC trangkaso. Sa huli, natagpuan nila ang isang hanay ng mga 45 iba't ibang mga query na tila na maging pinaka mahuhulain, at ang mga resulta ay lubos na mabuti: hindi na nila gamitin ang data sa paghahanap upang mahulaan ang data CDC. Batay sa bahagi sa papel na ito, na kung saan ay nai-publish sa Nature, Google Flu Trends ay naging isang madalas na paulit-ulit na kuwento ng tagumpay tungkol sa kapangyarihan ng malaking data.
Mayroong dalawang mahalagang caveats sa ito maliwanag na tagumpay, gayunpaman, at pag-unawa ang mga caveats ay makakatulong sa iyo suriin at gawin pagtataya at nowcasting. Una, ang pagganap ng Google Flu Trends ay talagang hindi magkano ang mas mahusay kaysa sa isang simpleng modelo na tinatantya ang halaga ng trangkaso batay sa isang linear intindi mula sa data mula sa dalawang pinaka-kamakailang mga sukat ng trangkaso pagkalat (Goel et al. 2010) . At, sa paglipas ng ilang mga tagal ng panahon Google Flu Trends ay talagang mas masahol pa kaysa sa ito simpleng diskarte (Lazer et al. 2014) . Sa ibang salita, ang Google Flu Trends sa lahat ng data nito, machine learning, at malakas na computing ay hindi dramatically outperform isang simple at mas madaling maunawaan heuristic. Ito ay nagpapahiwatig na kapag pinahahalagahan ang anumang forecast o nowcast ito ay mahalaga upang ihambing laban sa isang baseline.
Ang pangalawang mahalagang caveat tungkol sa Google Flu Trends ay na ang kanyang kakayahan upang mahulaan ang data CDC trangkaso ay madaling kapitan ng sakit sa panandaliang pagkabigo at pang-matagalang pagkabulok dahil sa naaanod na at algorithmic confounding. Halimbawa, sa panahon ng 2009 baboy trangkaso pagsiklab Google Flu Trends dramatically over-tinatayang ang halaga ng influenza, marahil dahil ang mga tao ay may posibilidad na baguhin ang kanilang pag-uugali ng paghahanap sa tugon sa laganap na takot ng isang global pandemic (Cook et al. 2011; Olson et al. 2013) . Bilang karagdagan sa mga short-term problema, ang pagganap ay unti-unting bulok paglipas ng panahon. Diagnosing ang mga dahilan para sa mga ito pangmatagalang pagkabulok ay mahirap dahil ang mga search algorithm ng Google ay pagmamay-ari, ngunit ito ay lilitaw na sa 2011 Google gumawa ng mga pagbabago na iminumungkahi kaugnay na termino sa paghahanap kapag naghanap ang mga tao para sa mga sintomas tulad ng "fever" at "ubo" (ito rin ay tila na tampok na ito ay hindi na aktibo). Pagdaragdag ang tampok na ito ay isang ganap na makatwirang bagay na gawin kung ikaw ay nagpapatakbo ng isang search engine na negosyo, at ito ay ang epekto ng pagbuo ng mas maraming mga paghahanap sa kalusugan na may kaugnayan. Ito ay marahil ng isang tagumpay para sa mga negosyo, ngunit ito sanhi Google Flu Trends sa over-estimate flu pagkalat (Lazer et al. 2014) .
Sa kabutihang palad, ang mga problemang ito gamit ang Google Flu Trends ay fixable. Sa katunayan, ang paggamit ng mas maingat na paraan, Lazer et al. (2014) at Yang, Santillana, and Kou (2015) ay able sa makakuha ng mas mahusay na mga resulta. Pasulong, inaasahan ko na nowcasting pag-aaral na pagsamahin ang malaking data na may researcher nakolektang data-na pagsamahin Duchamp-style Readymades may Michaelangelo-style Custommades-ay paganahin mga gumagawa ng patakaran upang makabuo ng mas mabilis at mas tumpak na sukat ng sa kasalukuyan at mga paghuhula ng hinaharap.