ભવિષ્યમાં આગાહી મુશ્કેલ છે, પરંતુ હાજર આગાહી સરળ છે.
બીજા મુખ્ય વ્યૂહરચના સંશોધકો નિરીક્ષણ માહિતી સાથે આગાહી કરી શકે છે . ભાવિ વિશે અનુમાન કરવાથી નામચીન મુશ્કેલ છે, અને કદાચ આ કારણોસર, આગાહી હાલમાં સામાજિક સંશોધનનો એક મોટો ભાગ નથી (જોકે તે વસ્તી વિષયક, અર્થશાસ્ત્ર, રોગશાસ્ત્ર અને રાજકીય વિજ્ઞાનનો એક નાનો અને મહત્વનો ભાગ છે). અહીં, જો કે, હું "ખાસ કરીને" અને "આગાહી" ના સંયોજનથી ઉદ્ભવ્યો - હવે એક ખાસ પ્રકારની આગાહી પર ધ્યાન કેન્દ્રિત કરવા માંગું છું. ભવિષ્યની આગાહી કરવાને બદલે, હાલના રાજ્યને માપવા માટેના અનુમાનથી વિચારોનો ઉપયોગ કરવાના પ્રયાસો દુનિયાનું; તે "હાલની આગાહી" (Choi and Varian 2012) હમણાં જ વર્તમાનમાં સરકારો અને કંપનીઓ માટે સમયસર અને સચોટ પગલા લેવાની જરૂર છે.
એક સેટિંગ જ્યાં સમયસર અને સચોટ માપની જરૂરિયાત ખૂબ જ સ્પષ્ટ છે તે મહામારીશાસ્ત્ર છે. ઈન્ફલ્યુએન્ઝા ("ફલૂ") ના કેસને ધ્યાનમાં લો. દર વર્ષે, મોસમી ઈન્ફલ્યુએન્ઝા રોગચાળાનું કારણ લાખો બિમારીઓ અને સમગ્ર વિશ્વમાં હજારોની સંખ્યામાં મૃત્યુ થાય છે. વધુમાં, દર વર્ષે, એવી શક્યતા છે કે એક ઈન્ફલ્યુએન્ઝાના નવલકથા સ્વરૂપે બહાર લાવશે જે લાખોને મારી નાખશે. ઉદાહરણ તરીકે, 1918 માં ઈન્ફલ્યુએન્ઝા ફાટી નીકળ્યો, અંદાજે 50 થી 100 મિલિયન લોકો (Morens and Fauci 2007) વચ્ચે માર્યા ગયા હોવાનો અંદાજ છે. ઈન્ફલ્યુએન્ઝા ફાટીને ટ્રેક કરવા અને સંભવિત રૂપે જવાબ આપવાની જરૂરિયાતને લીધે, સમગ્ર વિશ્વમાં સરકારોએ ઈન્ફલ્યુએન્ઝા સર્વેલન્સ સિસ્ટમ્સ બનાવી છે. ઉદાહરણ તરીકે, યુ.એસ. સેન્ટર્સ ફોર ડિસીઝ કન્ટ્રોલ એન્ડ પ્રિવેન્શન (સીડીસી) એ નિયમિતપણે અને વ્યવસ્થિતપણે દેશભરમાં કાળજીપૂર્વક પસંદ કરેલા ડોકટરોની માહિતી એકત્રિત કરે છે. જો કે આ સિસ્ટમ ઉચ્ચ ગુણવત્તાની માહિતી ઉત્પન્ન કરે છે, તેની પાસે એક રિપોર્ટિંગ લેગ છે. એટલે કે, ડોકટરોને સાફ કરવા, પ્રક્રિયા કરવા અને પ્રસિદ્ધ કરવાના ડેટા માટે તે જે સમય લે છે, તે સીડીસી પ્રણાલી દ્વારા બે અઠવાડિયા પહેલાં કેટલી ફલૂ થવાનો અંદાજ કાઢયો હતો. પરંતુ, ઉભરતી રોગચાળાને નિયંત્રિત કરતી વખતે, જાહેર આરોગ્ય અધિકારીઓ જાણતા નથી કે બે સપ્તાહ પહેલાં કેટલી ઈન્ફલ્યુએન્ઝા આવી હતી; તેઓ જાણતા હોય છે કે હમણાં કેટલા ઈન્ફલ્યુએન્ઝા છે
તે જ સમયે કે સીડીસી ઈન્ફલ્યુએન્ઝાને ટ્રેક કરવા માટે ડેટા એકઠી કરે છે, ગૂગલ પણ ઈન્ફલ્યુએન્ઝા પ્રચલિત વિશે માહિતી એકઠી કરે છે, તેમ છતાં એક તદ્દન અલગ સ્વરૂપમાં. વિશ્વભરના લોકો સતત Google ને ક્વેરી મોકલી રહ્યાં છે, અને આમાંની કેટલીક ક્વેરીઓ- જેમ કે "ફલૂના ઉપાયો" અને "ફલૂના લક્ષણો" -માત્ર સૂચવે છે કે ક્વેરી બનાવનાર વ્યક્તિ ફલૂ ધરાવે છે પરંતુ, ફલૂના પ્રસારનો અંદાજ કાઢવા માટે આ શોધ ક્વેરીઝનો ઉપયોગ કરવો મુશ્કેલ છે: ફલૂ ધરાવનાર દરેકને ફલૂથી સંબંધિત શોધ ન બનાવે છે, અને ફલૂથી સંબંધિત દરેક ફલૂને લગતી શોધ ન હોય તે વ્યક્તિમાંથી છે
જેરેમી ગિન્સબર્ગ અને સહકાર્યકરોની એક ટીમ (2009) , ગૂગલે કેટલાક અને કેટલાક સીડીસી, આ બે ડેટા સ્રોતોને જોડવાનું મહત્વનું અને ચપળ વિચાર હતો આશરે આંકડાકીય રસાયણ દ્વારા, સંશોધકોએ ઈન્ફલ્યુએન્ઝા પ્રચલિતતાનો ઝડપી અને સચોટ માપન કરવા માટે ધીમા અને સચોટ સીડીસી ડેટા સાથે ઝડપી અને અચોક્કસ શોધ ડેટાને સંયુક્ત કર્યા છે. આના વિશે વિચારવાનો બીજી રીત એ છે કે તેઓ સીડીસી ડેટાને ઝડપી બનાવવા માટે શોધ ડેટાનો ઉપયોગ કરે છે.
વધુ સ્પષ્ટ રીતે, 2003 થી 2007 સુધીના ડેટાનો ઉપયોગ કરીને, ગિન્સબર્ગ અને સહકર્મીઓએ સીડીસી ડેટામાં ઇન્ફ્લુએન્ઝાના પ્રસાર અને 50 મિલિયન જુદી જુદી શરતો માટેના શોધ વોલ્યુમ વચ્ચેના સંબંધનો અંદાજ કાઢ્યો છે. આ પ્રક્રિયામાંથી, જે સંપૂર્ણપણે ડેટા-આધારિત હતી અને વિશિષ્ટ તબીબી જ્ઞાનની આવશ્યકતા નહોતી, સંશોધકોએ 45 જુદી જુદી ક્વેરીઝના સમૂહને શોધી કાઢ્યા જે સીડીસીના પ્રવાહી પ્રસારના ડેટાને સૌથી વધુ આગાહી કરતા હતા. પછી, 2003-2007ના આંકડાથી તેઓ જે સંબંધો શીખ્યા તેનો ઉપયોગ કરીને, ગિન્સબર્ગ અને સહકાર્યકરોએ 2007-2008 ઈન્ફલ્યુએન્ઝા સીઝન દરમિયાન તેમના મોડેલનું પરીક્ષણ કર્યું. તેમને જાણવા મળ્યું હતું કે તેમની કાર્યવાહી ખરેખર ઉપયોગી અને સચોટ હવે (આંકડા 2.6) બનાવી શકે છે. આ પરિણામો કુદરતમાં પ્રકાશિત થયા હતા અને પ્રેસ કવરેજને સ્વીકાર્યું હતું. આ પ્રોજેક્ટ - જેને Google Flu Trends કહેવામાં આવતું હતું - તે વિશ્વને બદલવા માટે મોટા ડેટાની શક્તિ વિશે વારંવાર પુનરાવર્તિત બન્યો.
જો કે, આ સ્પષ્ટ સફળતા વાર્તા આખરે એક શરમજનક બની હતી. સમય જતાં સંશોધકોએ બે મહત્વની મર્યાદાઓ શોધી કાઢી હતી, જે શરૂઆતમાં દેખાયા તે કરતાં ગૂગલ ફ્લૂ પ્રવાહો ઓછા પ્રભાવશાળી બનાવે છે. પ્રથમ, ગૂગલ ફ્લૂ પ્રવાહોની કામગીરી ખરેખર સરળ મોડેલ કરતા વધુ સારી ન હતી જે ફલૂના અંદાજને આધારે ફલૂના અંદાજને આધારે બે સૌથી તાજેતરનાં માપના ફલૂની પ્રવૃતિ (Goel et al. 2010) ના રેખીય એક્સ્ટ્રાપોલિશન પર આધારિત છે. અને, કેટલાક સમયના ગાળામાં Google Flu Trends વાસ્તવમાં આ સરળ અભિગમ (Lazer et al. 2014) કરતા વધુ ખરાબ હતા. બીજા શબ્દોમાં કહીએ તો, ગૂગલ (Google) ફ્લૂ પ્રવાહો, તેના તમામ ડેટા, મશીન શિક્ષણ અને શક્તિશાળી કમ્પ્યુટિંગ સાથે નાટ્યાત્મક રીતે સરળ અને સરળ-થી-સમજિત સંશોધનાત્મક દેખાવ કરતા નથી આ સૂચવે છે કે જ્યારે કોઈપણ આગાહી અથવા નિરીક્ષણનું મૂલ્યાંકન કરતું હોય ત્યારે, બેઝલાઇનથી તુલના કરવા માટે મહત્વપૂર્ણ છે.
ગૂગલ ફ્લુ પ્રવાહો વિશેની બીજી મહત્ત્વની ચેતવણી એ છે કે સીડીસી (CDC) ફલૂના ડેટાને આગાહી કરવાની તેની ક્ષમતા ટૂંકા ગાળાના નિષ્ફળતા અને લાંબા ગાળાના સડોને કારણે થતી હતી કારણ કે ડ્રિફ્ટ અને અલ્ગોરિધમિક ગૂંચવણ . ઉદાહરણ તરીકે, 2009 સ્વાઈન ફ્લૂ ફાટી નીકળ્યા Google ફ્લૂ પ્રવાહો દરમિયાન નાટકીય રીતે ઈન્ફલ્યુએન્ઝાની સંખ્યાને વધુ પ્રમાણમાં દર્શાવી હતી, કદાચ કારણ કે લોકો વૈશ્વિક રોગચાળા (Cook et al. 2011; Olson et al. 2013) ના વ્યાપક ભયના પ્રતિભાવમાં તેમના શોધ વર્તનને બદલતા હોય છે (Cook et al. 2011; Olson et al. 2013) . આ ટૂંકાગાળાની સમસ્યાઓ ઉપરાંત, કામગીરી ધીમે ધીમે સમય જતા રહે છે. આ લાંબા ગાળાના સડોના કારણોનું નિદાન કરવું મુશ્કેલ છે કારણ કે Google શોધ એલ્ગોરિધમ્સ માલિકીનું હોય છે, પરંતુ એવું લાગે છે કે 2011 માં ગૂગલે સંબંધિત શોધ શબ્દો સૂચવવાનું શરૂ કર્યું હતું જ્યારે લોકો "તાવ" અને "ઉધરસ" જેવા ફ્લૂ લક્ષણો શોધે છે (તે પણ લાગે છે કે આ સુવિધા હવે સક્રિય નથી). જો તમે શોધ એન્જિન ચલાવી રહ્યા હોવ તો આ સુવિધાને એકદમ યોગ્ય બાબત છે, પરંતુ આ અલ્ગોરિધમિક ફેરફારથી વધુ સ્વાસ્થય સંબંધિત શોધ પેદા કરવાની અસર થઈ છે જે કારણે ગૂગલ ફ્લૂ પ્રવાહોએ ફલૂ વ્યાપ (Lazer et al. 2014) ને વધારે પડતો અંદાજ આપ્યો હતો.
આ બે ચેતવણીઓ ભવિષ્યના સમયના પ્રયત્નોને જટિલ બનાવે છે, પરંતુ તેઓ તેમને નષ્ટ નથી કરતા. હકીકતમાં, વધુ સાવચેત પદ્ધતિઓનો ઉપયોગ કરીને, Lazer et al. (2014) અને Yang, Santillana, and Kou (2015) આ બે સમસ્યાઓ ટાળવા માટે સક્ષમ હતા. આગળ જતાં, હું અપેક્ષા રાખું છું કે સંશોધકો દ્વારા એકત્રિત કરાયેલા ડેટા સાથેના મોટા ડેટા સ્ત્રોતોને ભેળવવાના અભ્યાસોને હવે થતાં અભ્યાસથી કંપનીઓ અને સરકારો કોઈ પણ માપને ઝડપી બનાવતા વધુ સમયસર અને વધુ સચોટ અંદાજ રચી શકે છે જે કેટલાક લેગ સાથે વારંવાર કરવામાં આવે છે. ગૂગલ ફ્લુ ટ્રેડ્સ જેવા નોવોકાસ્ટીંગ પ્રોજેક્ટ્સ પણ દર્શાવે છે કે જો મોટા ડેટા સ્રોતોને સંશોધનના હેતુઓ માટે બનાવવામાં આવેલા વધુ પરંપરાગત ડેટા સાથે જોડવામાં આવે તો શું થશે? પ્રકરણ 1 ની આર્ટ સાદ્રશ્યમાં વિચારીને, હાલના સમયમાં નજીકના ભવિષ્યની આગાહીઓના સમયસર અને વધુ સચોટ માપન સાથે નિર્ણયકર્તાઓને પ્રદાન કરવા માટે ડચચ-સ્ટાઈલ રીડમેડાઝ સાથે ડચમ્પ-સ્ટાઇલ તૈયાર કરવા માટે હવે ચાલવાની ક્ષમતા ધરાવે છે.