2.4.2 पूर्वानुमान र nowcasting

भविष्यमा भविष्यवाणी कठिन छ, तर वर्तमान भविष्यवाणी सजिलो छ।

अवलोकनीय डाटा संग अनुसन्धानकर्ताहरूले प्रयोग दोस्रो मुख्य रणनीति पूर्वानुमान छ। भविष्यमा भविष्यवाणी कुख्यात गाह्रो छ, तर तिनीहरूले कम्पनीहरु वा सरकारको काम चाहे त्यो, निर्णय निर्माताका लागि अविश्वसनीय महत्त्वपूर्ण हुन सक्छ।

Kleinberg et al. (2015) केही नीति समस्याको लागि पूर्वानुमान महत्त्व स्पष्ट दुई कथाहरू प्रदान गर्दछ। एक नीति निर्माता कल्पना गर्नुहोस्, म एक खडेरी सामना र वर्षा को मौका वृद्धि गर्न एक वर्षा नृत्य गर्न एक जादूगर लेना कि निर्णय गर्नै पर्छ भएको छ उनको अन्ना, बोलाउछु। अर्को नीति निर्माता, म उसलाई बब, घर बाटो मा भिजेको रही जोगिन काम गर्न छाता लिन चाहे निर्णय गर्नै पर्छ बोलाउछु। तिनीहरूले मौसम बुझ्न भने अन्ना र बब दुवै एक राम्रो निर्णय गर्न सक्छन्, तर तिनीहरूले फरक-फरक कुरा जान्नु आवश्यक छ। अन्ना को वर्षा नृत्य वर्षा गराउँछ कि बुझ्न आवश्यक छ। बब, अर्कोतर्फ, कारणता बारेमा केही बुझ्न आवश्यक छैन; उनले सही पूर्वानुमान आवश्यक छ। सामाजिक अनुसन्धानकर्ताहरूले अक्सर कस्तो ध्यान Kleinberg et al. (2015) "वर्षा नृत्य-जस्तो" नीति समस्या-ती भनेर ध्यान केन्द्रित कारणता-र "छाता-जस्तो" नीति पूर्वानुमान मा केन्द्रित छन् कि समस्या बेवास्ता कल।

म वर्तमान भविष्यवाणी गर्न प्रयास nowcasting, -A शब्द "अब" संयोजन र व्युत्पन्न पूर्वानुमान भनिन्छ nowcasting को एक विशेष प्रकारको मा, तर ध्यान केन्द्रित गर्न चाहन्छु "पूर्वानुमान।" भविष्यमा भविष्यवाणी भन्दा बरु (Choi and Varian 2012) । अर्को शब्दमा, nowcasting मापन समस्याको लागि पूर्वानुमान विधिहरू प्रयोग गर्दछ। जस्तै, जसले आफ्नो देशहरूमा बारेमा समसामयिक र सही उपाय आवश्यक सरकारको विशेष गरी उपयोगी हुनुपर्छ। Nowcasting गुगल फ्लू चलन को उदाहरण सबैभन्दा स्पष्ट उदाहरणद्वारा बुझाउन सकिन्छ।

तपाईं मौसम अन्तर्गत एक बिट महसुस तपाईं एक खोज इन्जिन मा टाइप त "फ्लू उपचार" छन् भनेर कल्पना गर्नुहोस्, प्रतिक्रिया लिंक को पृष्ठ प्राप्त, र त्यसपछि एक सहयोगी वेबपेज तिनीहरूलाई को एक पालना गर्नुहोस्। अब कल्पना यो गतिविधि खोज इन्जिन को दृष्टिकोणबाट बाहिर प्ले भइरहेको। हरेक क्षण, प्रश्नहरु लाखौं विश्वभरिबाट पुगेपछि छन्, र प्रश्नहरु-के को यो धारा Battelle (2006) को "मनसाय को डेटाबेस" भनिएको छ - सामूहिक वैश्विक चेतना मा एक निरन्तर अद्यावधिक विन्डो प्रदान गर्दछ। तर, फ्लू को प्रसार को एक मापन मा जानकारी को यो धारा खोल्दै गाह्रो छ। केवल "फ्लू उपचार" को लागि प्रश्नहरु को संख्या अप गणना राम्रो काम नगर्न सक्छ। सबैले फ्लू उपचार लागि searchers फ्लू छ जो फ्लू उपचार लागि फ्लू खोजहरू र सबैले छ जो।

गुगल फ्लू चलन पछि महत्त्वपूर्ण र चतुर चाल एक पूर्वानुमान समस्या मा एक मापन समस्या बारी थियो। रोग नियन्त्रण र रोकथाम को लागि अमेरिकी केन्द्र (सीडीसी) एक इन्फ्लूएंजा अनुगमन प्रणाली देश वरिपरि डाक्टर ले जानकारी संकलन भएको छ। तर, यो सीडीसी प्रणाली संग एक समस्या एक दुई हप्ता रिपोर्टिङ ढिलाइ छ; यो डाक्टर ले पुगेपछि डाटा लागि लिन्छ समय, साफ गर्न सकिन्छ प्रक्रिया र प्रकाशित। तर, एक उदीयमान महामारी ह्यान्डल गर्ने गर्दा, सार्वजनिक स्वास्थ्य कार्यालय त्यहाँ दुई हप्ता अघि धेरै इन्फ्लूएंजा कस्तो थियो जान्न चाहन्छु छैन; तिनीहरूले त्यहाँ अहिले धेरै इन्फ्लूएंजा कसरी जान्न चाहन्छु। वास्तवमा, सामाजिक डाटा अन्य थुप्रै परम्परागत स्रोतहरू मा, त्यहाँ डाटा संग्रह को छालहरू र रिपोर्ट lags बीच अंतराल छन्। सबैभन्दा ठूलो डाटा स्रोतहरु, अर्कोतर्फ, सधैं-(धारा 2.3.1.2) छन्।

तसर्थ, जेरेमी Ginsberg र सहयोगिहरु (2009) गुगल खोज डाटा देखि सीडीसी फ्लू डाटा भविष्यवाणी गर्न खोजे। यो "वर्तमान भविष्यवाणी" शोधकर्ताओं त्यहाँ अब धेरै फ्लू कसरी वर्तमान नाप्ने छ कि सीडीसी, भविष्यमा डाटा भविष्य डाटा भविष्यवाणी द्वारा मापन गर्न प्रयास गरेका थिए किनभने एउटा उदाहरण हो। मेशिन शिक्षाका प्रयोग, तिनीहरूले जो सीडीसी फ्लू डाटा को सबै भन्दा भविष्यवाणी छन् हेर्न 50 लाख विभिन्न खोज सर्तहरू मार्फत खोजी। अन्ततः तिनीहरूलाई सबैभन्दा भविष्यवाणी हुन देखिन्थ्यो कि 45 विभिन्न प्रश्नहरु को एक सेट फेला, र परिणाम एकदम राम्रो थियो: तिनीहरूले सीडीसी डाटा भविष्यवाणी खोजी डाटा प्रयोग गर्न सक्छ। प्रकृति मा प्रकाशित भएको थियो जुन यस कागज, मा भाग मा आधारित, गुगल फ्लू चलन ठूलो डाटा शक्ति बारे एक अक्सर बारम्बार सफलताको कथा भयो।

त्यहाँ दुई महत्त्वपूर्ण निरंतरएक, यो स्पष्ट सफलता हो तर, र यी निरंतरएक समझ तपाईं मूल्याङ्कन मदत र पूर्वानुमान र nowcasting गर्नेछ। पहिलो, गुगल फ्लू चलन को प्रदर्शन वास्तवमा धेरै फ्लू प्रसार को दुई हालैको माप देखि एक रैखिक extrapolation आधारित फ्लू को मात्रा अनुमान एउटा सरल मोडेल भन्दा राम्रो थियो (Goel et al. 2010) । र, केही समय अवधिमा गुगल फ्लू चलन यो सरल दृष्टिकोण भन्दा वास्तवमा खराब थियो (Lazer et al. 2014) । अर्को शब्दमा, यसको सबै डाटा, मेशिन शिक्षाका र शक्तिशाली गणनाको गुगल फ्लू चलन नाटकीय एक सरल र सजिलो अनुमानी बुझ्न outperform थिएन। यो कुनै पनि पूर्वानुमान मूल्याङ्कन वा nowcast जब यो एक आधारलाइन विरुद्ध तुलना गर्न महत्त्वपूर्ण छ भनेर सुझाव।

गुगल फ्लू चलन बारे दोस्रो महत्त्वपूर्ण caveat को सीडीसी फ्लू डाटा भविष्यवाणी गर्न आफ्नो क्षमता अल्पकालीन विफलता र किनभने बहावएल्गोरिथमिक उलझाने को दीर्घकालीन क्षय झुकाउ थियो भन्ने छ। उदाहरणका लागि, 2009 फ्लू फैलन गुगल फ्लू चलन समयमा नाटकीय इन्फ्लूएंजा को राशि, मान्छे एक वैश्विक महामारी को व्यापक डर प्रतिक्रिया आफ्नो खोज व्यवहार परिवर्तन गर्छन कारण शायद भन्दा-अनुमानित (Cook et al. 2011; Olson et al. 2013) यी अल्पकालीन समस्या साथै, प्रदर्शन बिस्तारै समय decayed। गुगल खोज एल्गोरिदम स्वामित्व छन् किनभने यो लामो अवधि क्षय कारण निदान कठिन छन्, तर यो (यो पनि लाग्न 2011 मा गुगल मान्छे "ज्वरो" र "खोकी" जस्तै लक्षण खोजी गर्दा सम्बन्धित खोज सर्तहरू सुझाव भनेर परिवर्तन गरेको देखिन्छ यो सुविधा अब सक्रिय छ)। यो सुविधा थप्दै तपाईं एक खोज इन्जिन व्यापार चलिरहेको छ भने के गर्न एक पूर्ण रूपमा व्यावहारिक कुरा हो, र यसलाई थप स्वास्थ्य सम्बन्धित खोजहरू उत्पन्न प्रभाव थियो। यो शायद व्यापार को लागि एक सफलता थियो, तर यो भन्दा बढी-अनुमान फ्लू प्रसार गर्न Google फ्लू चलन कारण (Lazer et al. 2014)

खुसीको कुरा, गुगल फ्लू चलन यी समस्या fixable छन्। वास्तवमा, प्रयोग गरेर थप होसियार तरिका, Lazer et al. (2014)Yang, Santillana, and Kou (2015) राम्रो परिणाम प्राप्त गर्न सक्षम थिए। अगाडी जाँदैछन्, म शोधकर्ता संग ठूलो डाटा संयोजन कि nowcasting अध्ययन डाटा-कि Michaelangelo-शैली संग डुचैम्प-शैली Readymades संयोजन Custommades-गर्नेछ वर्तमान को छिटो र सही माप र भविष्यमा को भविष्यवाणी उत्पादन गर्न नीति निर्माता सक्षम संकलित भनेर आशा।