भविष्यमा भविष्यवाणी कठिन छ, तर वर्तमान भविष्यवाणी सजिलो छ।
दोस्रो मुख्य रणनीति शोधकर्ताहरूले अवलोकन डेटा संग भविष्यवाणी गर्न सक्दछन्। भविष्यको बारे अनुमान अनुमान लगाउन कठिन छ, र सम्भव छ कि कारणको लागि, भविष्यवाणी अहिले हाल सामाजिक अनुसन्धानको ठूलो भाग होइन (यद्यपि यो जनसांख्यिकी, अर्थशास्त्र, महामारी विज्ञान र राजनैतिक विज्ञानको एक सानो र महत्त्वपूर्ण भाग हो) होइन। यद्यपि, "म" र "भविष्यवाणी" संयोजनबाट व्युत्पन्न गरिएको विशेष प्रकारका भविष्यवाणीमा ध्यान केन्द्रित गर्न चाहन्छु। हालको स्थिति अनुमान गर्न भविष्यको तुलनामा, अब भविष्यमा भविष्यवाणी गर्ने विचारहरू प्रयोग गर्ने प्रयासहरू संसारको; यो "वर्तमान भविष्य" (Choi and Varian 2012) प्रयास गर्दछ। नाउकास्टिङका लागि विशेष गरी सरकारहरू र कम्पनीहरूको लागि उपयोगी हुन सक्ने क्षमता छ जुन संसारको समयमै र सही उपायहरू चाहिन्छ।
एक सेटिङ जहाँ समय र सही मापको आवश्यकता धेरै स्पष्ट छ महामारी विज्ञान हो। इन्फ्लुएंजा को मामला मा विचार गर्नुहोस ("फ्लू")। प्रत्येक वर्ष, मौसमी इन्फ्लुएंजा महामारीले लाखौं रोगहरू र संसारभरका सयौं हजारौं मृत्युको कारण बनाउँछ। यसबाहेक, प्रत्येक वर्ष, सम्भव छ कि इन्फ्लुएंजाको एक उपन्यास झिक्न सक्दछ जसले लाखौंलाई मार दिन्छ। 1 9 18 इन्फ्लूएंजा प्रकोप, उदाहरणका लागि, 50 र 100 लाख मान्छे (Morens and Fauci 2007) बीचमा मारिएको अनुमान गरिएको छ। ट्र्याक गर्न र सम्भावित रूपमा इन्फ्लुएंजा प्रकोपहरूमा प्रतिक्रियाको कारणले, विश्वभरका सरकारहरूले इन्फ्लुएंजा निगरानी प्रणाली सिर्जना गरेको छ। उदाहरणका लागि, रोग नियन्त्रण र रोकथामका लागि अमेरिकी केन्द्र नियमित रूपमा नियमित रूपमा र प्रणालीगत रूपमा देशभरको सावधानीपूर्वक चयन गरिएका डाक्टरहरूबाट जानकारी एकत्रित गर्दछ। यद्यपि यो प्रणालीले उच्च गुणस्तर डेटा उत्पादन गर्दछ, यसको रिपोर्टिङ ढङ्ग छ। यही कारणले गर्दा डाक्टरहरू सफा गर्ने, प्रशोधन गर्न र प्रकाशित हुन सक्ने डेटाको लागी समयको कारणले, सीडीसी प्रणाली दुई हप्ता पहिलेको फ्लू कति मात्राको अनुमानित रिलीजको अनुमान गर्दछ। तर, उभरिरहेको महामारीलाई सम्बोधन गर्दा, सार्वजनिक स्वास्थ्य अधिकारीहरूले जान्न चाहँदैनन् दुई हप्ता अघि त्यहाँ कति इन्फ्लुएंजा थियो; तिनीहरू जान्न चाहन्छन् कि अहिले त्यहाँ कति इन्फ्लुएंजा छ।
एकै समयमा सीडीसी इन्फ्लुएंजा ट्र्याक गर्न डाटा एकत्रित गर्दैछ, Google ले इन्फ्लुएंजा प्रसारको बारेमा डेटा सङ्कलन गर्दै गरेको छ, यद्यपि एकदम फरक रूपमा। संसारभरका मानिसहरू लगातार Google मा प्रश्नहरू पठाइरहेछन्, र यी प्रश्नहरूमध्ये "केहि फ्लो उपचारहरू" र "फ्लू उपचारहरू" - यसले स्पष्ट रूपमा संकेत गर्दछ कि क्वेरी बनाउने व्यक्ति फ्लू छ। तर, यी खोज प्रश्नहरू प्रयोग गर्न फ्लू फैलावट मुश्किल छ: फ्लू भएको सबैले फ्लू सम्बन्धित खोज बनाउँछ, र हरेक फ्लू सम्बन्धित खोज फ्लू छ कि कसैबाट होइन।
जेरेमी गिन्स्बर्गबर्ग र साथीहरूको टोली (2009) , Google मा केहि र सीडीसीमा केहि, यी दुई डाटा स्रोतहरू संयोजन गर्न महत्त्वपूर्ण र चालाक विचार थियो। लगभग एक प्रकारको सांख्यिकीय कीमिया माध्यमबाट, शोधकर्ताले इन्फ्लुएंजा प्रसारको छिटो र सही मापन प्रदान गर्न द्रुत र सटीक सीडीसी डेटाको साथ छिटो र गलत खोज डाटा मिलाउँदछ। यसको बारेमा सोच्ने अर्को तरिका यो छ कि तिनीहरूले सीडीसी डेटा गति गर्न खोजी डेटा प्रयोग गरे।
विशेष गरी, 2003 देखि 2007 सम्मको डाटा प्रयोग गरेर Ginsberg र सहकर्मीहरूको अनुमान छ कि सीडीसी डेटामा इन्फ्लुएंजाको प्रसार र 50 मिलियन फरक सर्तहरूको खोजी खोजीको बीच सम्बन्ध। यस प्रक्रियाबाट, जो पुरा तरिकाले डाटा-संचालित गरिएको र विशेष मेडिकल ज्ञानको आवश्यकता थिएन, शोधकर्ताहरूले 45 विभिन्न प्रश्नहरूको एक सेट फेला पारेका थिए जुन सीडीसी फ्लू फैलाउने डेटाको सबैभन्दा अनुमानित देखिन्छ। त्यसपछि, 2003-2007 डाटाबाट प्राप्त भएका सम्बन्धहरू प्रयोग गर्दै, गिन्स्बर्ग र साथीहरूले 2007-2008 इन्फ्लुएंजा सिजनको अवधिमा उनीहरूको मोडेल परीक्षण गरे। उनीहरूले पत्ता लगाए कि उनीहरूको प्रक्रियाले साँच्चै उपयोगी र सही बनाउन सक्छ। (आंकडा 2.6)। यो नतिजाहरू प्रकृतिमा प्रकाशित गरियो र एडियरिंग प्रेस कवरेज प्राप्त गरियो। यो प्रोजेक्ट - जुन Google फ्लू ट्रिनिज भनिन्थ्यो - विश्व परिवर्तन गर्न ठूलो डेटाको शक्तिको बारे प्रायः बारम्बार दृष्टान्त बन्नुभयो।
तथापि, यो स्पष्ट सफलताको कहानी अन्ततः शर्मिलापनमा परिणत भयो। समयको बेला, शोधकर्ताहरू दुई महत्त्वपूर्ण सीमाहरू पत्ता लगाए जसले Google फ्लू ट्रिनिङहरू भन्दा कम प्रभावशाली बनाउँदोरहेछ भन्दा यो प्रारम्भिक रूपमा देखा पर्दछ। पहिलो, Google Flu Trends को प्रदर्शन वास्तव मा एक साधारण मोडेल को तुलना मा अधिक भन्दा राम्रो थियो कि फ्लू को मात्रा को तुलना मा फ्लू को मात्रा को सबै भन्दा हाल मा मापन को फ्लू प्रसार (Goel et al. 2010) आधार मा रैखिक एक्सप्लोलोशन को आधार मा। र, केही समयको अवधिमा, गुगल फ्लो ट्रान्जिङ्ग वास्तवमा यो सरल दृष्टिकोण भन्दा खराब थियो (Lazer et al. 2014) । अन्य शब्दहरूमा, Google फ्लू ट्रान्जिङका सम्पूर्ण डेटा, मेसिन सिकाइर, र शक्तिशाली कम्प्युटिङको साथ नाटकीय रूप देखि बुझ्न सरल र सजिलो बुझ्न को लागी नाशुकै ढंगले नपुगेको थियो। यसले सुझाव दिन्छ कि कुनै भविष्यवाणी वा अहिलेको नतिजा मूल्यांकन गर्दा, आधारभूत विरुद्ध तुलना गर्न महत्त्वपूर्ण छ।
Google Flu Trends को बारे मा दोस्रो महत्वपूर्ण चेतावनी यो छ कि सीडीसी फ्लू डाटा को पूर्वानुमान को क्षमता बहाव र एल्गोरिदमम confounding को कारण छोटो अवधि को विफलता र लंबी अवधि को क्षय को लागी प्रकोप थियो। उदाहरणका लागि, सन् 200 9 को सुँगुर फ्लू फैलावटको समयमा Google फ्लू ट्रान्जिटले इन्फ्लुएंजाको मात्रा नाघेको छ, सम्भवतः यो कारणले गर्दा मानिसहरूले विश्वव्यापी डरको व्यापक डरको प्रतिक्रियामा उनीहरूको खोजी व्यवहार परिवर्तन गर्छन् (Cook et al. 2011; Olson et al. 2013) । यी छोटो अवधिको समस्याको अतिरिक्त, प्रदर्शन धीरे-धीरे समयको साथमा चल्दछ। यस लामो समयको क्षणको कारणहरू पत्ता लगाउन गाह्रो हुन्छ किनकि Google खोजी एल्गोरिदमहरू मालिकाना हुन्छन्, तर यो देखिन्छ कि 2011 मा Google ले सम्बन्धित खोजी सर्तहरू सुझाव गर्दथे जब मान्छे फ्लू लक्षणहरू जस्तै "बुखार" र "खाँसी" (यो पनि देखिन्छ कि यो सुविधा अब सक्रिय छैन)। यो सुविधा थप्न पूर्णतया व्यावहारिक कुरा हो यदि तपाईं खोज इन्जिन चलाइरहनुभएको छ, तर यो एल्गोरिदममै परिवर्तनले अधिक स्वास्थ्य सम्बन्धी खोजीहरू उत्पन्न गर्ने प्रभाव थियो जुन Google फ्लु ट्रान्सफ्लुले फ्लू फैलावट बढाउने (Lazer et al. 2014) कारणले गर्दा।
यी दुई caveats भविष्य अब प्रसारण गर्ने प्रयासहरू जटिल बनाउँछ, तर तिनीहरू तिनीहरूलाई कष्ट गर्दैनन्। वास्तवमा, अधिक सावधान तरिकाहरू प्रयोग गरेर, Lazer et al. (2014) र Yang, Santillana, and Kou (2015) यी दुई समस्याहरूबाट बच्नको लागि सक्षम थिए। अगाडी जाँदैछु, मलाई आशा छ कि अबकोस्टिङ अध्ययनहरूले शोधकर्तासँग ठूलो डाटा स्रोतहरू गठित गर्दछ - एकत्रित डाटाले कम्पनी र सरकारहरूले अधिक समयमै र अधिक सटीक अनुमानहरू सिर्जना गर्न सक्नेछन् अनि अनिवार्य रूपले केही मापदण्डलाई केही समयमै धेरै समयको साथ बनाइन्छ। Google फ्लो ट्रान्जिङहरू पनि यो प्रसारण हुन सक्दछ भने ठूला डेटा स्रोतहरू अनुसन्धानका उद्देश्यका लागि थप पारंपरिक डेटाहरूसँग जोडिएका हुन्छन्। अध्याय 1 को अनुसार आकृतिमा विचार गर्दै, अबकोस्टिङसँग मिशेलान्जी शैली-शैली अनुकूलनहरूको साथ डच्याम-स्टाइल रीमेममेडहरू संयोजन गर्ने क्षमता छ जुन निकट भविष्यको वर्तमान र भविष्यवाणीको अधिक समयमै र अधिक सटीक माप संग निर्णय गर्ने प्रबन्धहरू प्रदान गर्दछ।