2.4.2 पूर्वानुमान और nowcasting

भविष्य की भविष्यवाणी मुश्किल है, लेकिन वर्तमान की भविष्यवाणी के लिए आसान है।

दूसरा मुख्य अवलोकन डेटा के साथ शोधकर्ताओं द्वारा इस्तेमाल की रणनीति की भविष्यवाणी है। भविष्य की भविष्यवाणी बेहद मुश्किल है, लेकिन यह निर्णय निर्माताओं के लिए अविश्वसनीय रूप से महत्वपूर्ण हो सकता है, चाहे वे कंपनियों या सरकारों में काम करते हैं।

Kleinberg et al. (2015) दो कहानियाँ है कि कुछ समस्याओं के लिए नीति की भविष्यवाणी के महत्व को स्पष्ट करता है। एक नीति निर्माता कल्पना कीजिए, मैं उसे अन्ना, जो एक सूखे का सामना करना पड़ रहा है और यह तय करना होगा कि क्या एक जादूगर किराया करने के लिए बारिश की संभावना बढ़ाने के लिए एक बारिश नृत्य करने के लिए फोन करता हूँ। एक और नीति निर्माता, मैं उसे बॉब फोन करता हूँ, यह तय करना होगा एक छाता ले जाने पर कि क्या घर के रास्ते पर गीला हो रहा से बचने के लिए काम करने के लिए। अगर वे मौसम को समझने दोनों अन्ना और बॉब एक ​​बेहतर निर्णय कर सकते हैं, लेकिन वे अलग अलग बातें जानने की जरूरत है। अन्ना को समझने के लिए बारिश नृत्य बारिश का कारण बनता है कि क्या जरूरत है। बॉब, दूसरे हाथ पर, करणीय के बारे में कुछ भी समझने की जरूरत नहीं है; वह सिर्फ एक सटीक पूर्वानुमान जरूरत है। सामाजिक शोधकर्ताओं अक्सर क्या पर ध्यान केंद्रित Kleinberg et al. (2015) "बारिश नृत्य की तरह" नीति की समस्याओं-उन है कि-करणीय और पर ध्यान केंद्रित है कि भविष्यवाणी पर ध्यान केंद्रित कर रहे हैं "छतरी की तरह" नीति की समस्याओं की अनदेखी कहते हैं।

मैं वर्तमान की भविष्यवाणी करने के प्रयास nowcasting, ध्यान केंद्रित करने की है, तथापि, भविष्यवाणी बुलाया nowcasting की एक विशेष प्रकार -एक अवधि के संयोजन "अब" और से निकाली गई पर करना चाहते हैं "भविष्यवाणी।" भविष्य की भविष्यवाणी के बजाय (Choi and Varian 2012) । दूसरे शब्दों में, nowcasting माप की समस्याओं के लिए भविष्यवाणी तरीकों का उपयोग करता है। जैसे, यह विशेष रूप से सरकारों को जो अपने देश के बारे में समय पर और सही उपायों की आवश्यकता के लिए उपयोगी होना चाहिए। Nowcasting Google फ़्लू रुझान के उदाहरण के साथ सबसे स्पष्ट रूप से यह साफ हो सकता है।

कल्पना कीजिए कि आप मौसम के अंतर्गत एक सा है ताकि आप एक खोज इंजन में टाइप "फ्लू के उपचार" महसूस कर रहे हैं, के जवाब में लिंक का एक पेज प्राप्त करते हैं, और फिर एक सहायक वेबपेज के लिए उनमें से एक का पालन करें। अब कल्पना कीजिए कि यह गतिविधि खोज इंजन के नजरिए से बाहर खेला जा रहा है। हर पल, प्रश्नों के लाखों दुनिया भर से आ रहे हैं, और प्रश्नों-क्या की इस धारा Battelle (2006) "इरादों का डेटाबेस" कहा जाता है - सामूहिक वैश्विक चेतना में एक लगातार अद्यतन खिड़की प्रदान करता है। हालांकि, फ्लू के प्रसार की एक माप में जानकारी की इस धारा मोड़ मुश्किल है। बस "फ्लू के उपचार के लिए" प्रश्नों की संख्या गिन अच्छी तरह से काम नहीं कर सकता। हर कोई जो फ्लू के उपचार के लिए फ्लू खोजें और नहीं हर कोई है जो फ्लू के उपचार के लिए खोजकर्ताओं फ्लू गया है।

Google फ़्लू रुझान के पीछे महत्वपूर्ण है और चतुर चाल के लिए एक भविष्यवाणी समस्या में एक माप समस्या बारी थी। रोग नियंत्रण और रोकथाम के लिए अमेरिकी केंद्र (सीडीसी) के एक इन्फ्लूएंजा निगरानी प्रणाली है कि देश भर के डॉक्टरों से जानकारी एकत्र की है। हालांकि, इस सीडीसी प्रणाली के साथ एक समस्या एक दो सप्ताह की रिपोर्टिंग अंतराल है; समय यह डेटा डॉक्टरों से पहुंचने के लिए ले जाता है, साफ करने के लिए किया जा संसाधित, और प्रकाशित किया। लेकिन, जब एक उभरती हुई महामारी से निपटने, सार्वजनिक स्वास्थ्य कार्यालयों में नहीं पता है कितना इन्फ्लूएंजा वहाँ दो सप्ताह पहले की बात है चाहता हूँ; वे जानना चाहते हैं कि कितना इन्फ्लूएंजा है अभी। वास्तव में, सामाजिक डेटा के कई अन्य परंपरागत स्रोतों में, डेटा संग्रह की लहरों और रिपोर्टिंग lags के बीच अंतराल हैं। अधिकांश बड़े डेटा स्रोतों, दूसरे हाथ पर, हमेशा पर (धारा 2.3.1.2) कर रहे हैं।

इसलिए, जेरेमी गिन्सबर्ग और उनके सहयोगियों (2009) Google खोज डेटा से सीडीसी फ्लू डेटा की भविष्यवाणी करने की कोशिश की। यह "वर्तमान की भविष्यवाणी" क्योंकि शोधकर्ताओं को मापने के लिए सीडीसी, भविष्य में डेटा है कि वर्तमान मापने है से भविष्य में डेटा की भविष्यवाणी से अब कितना फ्लू वहाँ कोशिश कर रहे थे की एक उदाहरण है। मशीन सीखने का प्रयोग, वे 50 लाख विभिन्न खोज शब्दों के माध्यम से खोजा जो सीडीसी फ्लू डेटा की सबसे भविष्य कहनेवाला हैं देखने के लिए। अंत में, वे कहते हैं कि सबसे भविष्य कहनेवाला होना प्रतीत होता है 45 विभिन्न प्रश्नों का एक सेट पाया, और परिणाम काफी अच्छे थे: वे सीडीसी डेटा भविष्यवाणी करने के लिए खोज डेटा का उपयोग कर सकता है। इस पत्र है, जो प्रकृति में प्रकाशित किया गया था पर भाग में स्थित, Google फ़्लू रुझान बड़ा डेटा की शक्ति के बारे में एक बार दोहराया सफलता की कहानी बन गई।

दो महत्वपूर्ण निरंतर, यह स्पष्ट सफलता के लिए कर रहे हैं, तथापि, और इन निरंतर समझने आप का मूल्यांकन में मदद मिलेगी और भविष्यवाणी और nowcasting करना होगा। सबसे पहले, Google फ़्लू रुझान के प्रदर्शन वास्तव में एक सरल मॉडल है कि दो फ्लू प्रसार का सबसे हाल के माप से एक रेखीय एक्सट्रपलेशन के आधार पर फ्लू की राशि का अनुमान नहीं की तुलना में ज्यादा बेहतर था (Goel et al. 2010) । और, कुछ समय अवधि में Google फ़्लू रुझान वास्तव में इस सरल दृष्टिकोण से भी बदतर था (Lazer et al. 2014) । दूसरे शब्दों में, अपने सभी डेटा, मशीन सीखने, और शक्तिशाली कंप्यूटिंग के साथ Google फ़्लू रुझान नाटकीय रूप से अनुमानी समझने के लिए एक सरल और आसान मात नहीं किया। यह पता चलता है कि यह एक आधारभूत खिलाफ तुलना करने के लिए महत्वपूर्ण है, जब किसी भी पूर्वानुमान nowcast मूल्यांकन या।

Google फ़्लू रुझान के बारे में दूसरा महत्वपूर्ण चेतावनी है कि सीडीसी फ्लू डेटा की भविष्यवाणी करने की क्षमता अल्पकालिक विफलता और बहाव और एल्गोरिथम confounding की वजह से लंबी अवधि के क्षय होने का खतरा था। उदाहरण के लिए, 2009 स्वाइन फ्लू फैलने Google फ़्लू रुझान के दौरान नाटकीय रूप से इन्फ्लूएंजा की राशि से अधिक का अनुमान है, शायद इसलिए कि लोगों को एक वैश्विक महामारी का व्यापक भय के जवाब में उनकी खोज के व्यवहार को बदलने के लिए जाते हैं (Cook et al. 2011; Olson et al. 2013) इन अल्पकालिक समस्याओं के अलावा, प्रदर्शन धीरे-धीरे समय के साथ सड़ा हुआ। इस लंबी अवधि के क्षय के लिए कारणों का निदान मुश्किल है क्योंकि गूगल खोज एल्गोरिदम मालिकाना कर रहे हैं, लेकिन ऐसा लगता है, जब लोग "बुखार" और "खाँसी" जैसे लक्षणों के लिए खोज है कि 2011 में गूगल परिवर्तन है कि संबंधित खोज शब्दों का सुझाव जाएगा बना दिया है (यह भी लग रहे हैं कि इस सुविधा को अब सक्रिय नहीं है)। इस सुविधा को जोड़ने से आप एक खोज इंजन व्यवसाय चला रहे हैं करने के लिए एक पूरी तरह से उचित बात है, और इसे और अधिक स्वास्थ्य से संबंधित खोजों को पैदा करने का प्रभाव नहीं पड़ा। यह शायद व्यापार के लिए एक सफलता थी, लेकिन यह Google फ़्लू रुझान अधिक-अनुमान फ्लू प्रसार करने के लिए कारण (Lazer et al. 2014)

सौभाग्य से, Google फ़्लू रुझान के साथ इन समस्याओं फिक्स कर रहे हैं। वास्तव में, और अधिक सावधान तरीकों का उपयोग कर, Lazer et al. (2014) और Yang, Santillana, and Kou (2015) बेहतर परिणाम प्राप्त करने में सक्षम थे। आगे जा रहे हैं, मुझे उम्मीद है कि nowcasting अध्ययन है कि शोधकर्ता के साथ बड़ा डेटा गठबंधन डेटा कि माइकेलएंजेलो-शैली के साथ डुचैम्प शैली रेडीमेड्स गठबंधन Custommades-होगा नीति निर्माताओं को सक्षम वर्तमान के तेजी से और अधिक सटीक मापन और भविष्य की भविष्यवाणियों का उत्पादन करने के लिए एकत्र।