भविष्य की भविष्यवाणी मुश्किल है, लेकिन वर्तमान की भविष्यवाणी के लिए आसान है।
दूसरा मुख्य रणनीति शोधकर्ता अवलोकन संबंधी डेटा के साथ उपयोग कर सकते हैं भविष्यवाणी कर रहा है । भविष्य के बारे में अनुमान बनाना बेहद मुश्किल है, और शायद इसी कारण से, पूर्वानुमान वर्तमान में सामाजिक शोध का एक बड़ा हिस्सा नहीं है (हालांकि यह जनसांख्यिकी, अर्थशास्त्र, महामारी विज्ञान और राजनीतिक विज्ञान का एक छोटा और महत्वपूर्ण हिस्सा है)। यहां, हालांकि, मैं अबकलिंग नामक एक विशेष प्रकार की भविष्यवाणी पर ध्यान केंद्रित करना चाहता हूं- "अब" और "भविष्यवाणी" के संयोजन से प्राप्त शब्द। भविष्य की भविष्यवाणी करने के बजाय, वर्तमान स्थिति को मापने के लिए पूर्वानुमान से विचारों का उपयोग करने के प्रयासों को आजकल करने का प्रयास दुनिया का; यह "वर्तमान की भविष्यवाणी" करने का प्रयास करता है (Choi and Varian 2012) । नाकास्टिंग में उन सरकारों और कंपनियों के लिए विशेष रूप से उपयोगी होने की संभावना है जिनके लिए दुनिया के समय पर और सटीक उपायों की आवश्यकता होती है।
एक सेटिंग जहां समय पर और सटीक माप की आवश्यकता बहुत स्पष्ट है महामारी विज्ञान है। इन्फ्लूएंजा ("फ्लू") के मामले पर विचार करें। प्रत्येक वर्ष, मौसमी इन्फ्लूएंजा महामारी दुनियाभर में लाखों बीमारियों और सैकड़ों हजारों मौतों का कारण बनती है। इसके अलावा, प्रत्येक वर्ष, एक संभावना है कि इन्फ्लूएंजा का एक उपन्यास उभर सकता है जो लाखों लोगों को मार देगा। उदाहरण के लिए, 1 9 18 इन्फ्लूएंजा प्रकोप, 50 से 100 मिलियन लोगों (Morens and Fauci 2007) बीच मारा गया है। इन्फ्लूएंजा प्रकोपों को ट्रैक करने और संभावित रूप से प्रतिक्रिया देने की आवश्यकता के कारण, दुनिया भर की सरकारों ने इन्फ्लूएंजा निगरानी प्रणाली बनाई है। उदाहरण के लिए, रोग नियंत्रण और रोकथाम (सीडीसी) के लिए अमेरिकी केंद्र नियमित रूप से और व्यवस्थित रूप से देश भर में ध्यान से चयनित डॉक्टरों से जानकारी एकत्र करते हैं। हालांकि यह प्रणाली उच्च गुणवत्ता वाले डेटा का उत्पादन करती है, लेकिन इसकी रिपोर्टिंग अंतराल है। यही कारण है कि डॉक्टरों से साफ होने, संसाधित और प्रकाशित होने वाले डेटा के लिए सीडीसी प्रणाली दो हफ्ते पहले कितनी फ्लू का अनुमान जारी करती है। लेकिन, एक उभरते महामारी को संभालने के दौरान, सार्वजनिक स्वास्थ्य अधिकारी यह नहीं जानना चाहते कि दो सप्ताह पहले कितना इन्फ्लूएंजा था; वे जानना चाहते हैं कि अभी कितना इन्फ्लूएंजा है।
साथ ही सीडीसी इन्फ्लूएंजा को ट्रैक करने के लिए डेटा एकत्र कर रही है, Google इन्फ्लूएंजा प्रसार के बारे में भी डेटा एकत्र कर रहा है, हालांकि काफी अलग रूप में। दुनिया भर के लोग लगातार Google को प्रश्न भेज रहे हैं, और इनमें से कुछ प्रश्न-जैसे "फ्लू उपचार" और "फ्लू के लक्षण" -माइट इंगित करते हैं कि क्वेरी बनाने वाले व्यक्ति में फ्लू होता है। लेकिन, फ्लू प्रसार का आकलन करने के लिए इन खोज प्रश्नों का उपयोग करना मुश्किल है: फ्लू वाले प्रत्येक व्यक्ति को फ़्लू से संबंधित खोज नहीं होती है, और फ्लू से संबंधित प्रत्येक फ्लू से संबंधित खोज नहीं होती है।
जेरेमी गिन्सबर्ग और सहयोगियों की एक टीम (2009) , कुछ Google और कुछ सीडीसी में, इन दो डेटा स्रोतों को गठबंधन करने के लिए महत्वपूर्ण और चालाक विचार था। असल में, एक प्रकार की सांख्यिकीय कीमिया के माध्यम से, शोधकर्ताओं ने इन्फ्लूएंजा प्रसार के तेज़ और सटीक माप के उत्पादन के लिए धीमे और सटीक सीडीसी डेटा के साथ तेज़ और गलत खोज डेटा को संयुक्त किया। इसके बारे में सोचने का एक और तरीका यह है कि उन्होंने सीडीसी डेटा को तेज करने के लिए खोज डेटा का उपयोग किया।
अधिक विशेष रूप से, 2003 से 2007 तक डेटा का उपयोग करके, गिन्सबर्ग और सहयोगियों ने सीडीसी डेटा में इन्फ्लूएंजा के प्रसार और 50 मिलियन अलग-अलग शर्तों के लिए खोज मात्रा के बीच संबंधों का अनुमान लगाया। इस प्रक्रिया से, जो पूरी तरह से डेटा संचालित था और विशेष चिकित्सा ज्ञान की आवश्यकता नहीं थी, शोधकर्ताओं ने 45 अलग-अलग प्रश्नों का एक सेट पाया जो सीडीसी फ्लू प्रसार डेटा का सबसे अनुमानित प्रतीत होता था। फिर, 2003-2007 डेटा से प्राप्त रिश्तों का उपयोग करते हुए, गिन्सबर्ग और सहयोगियों ने 2007-2008 इन्फ्लूएंजा सीज़न के दौरान अपने मॉडल का परीक्षण किया। उन्होंने पाया कि उनकी प्रक्रिया वास्तव में उपयोगी और सटीक नाकाबंदी (आंकड़ा 2.6) कर सकती है। ये परिणाम प्रकृति में प्रकाशित हुए और उन्हें प्रेस कवरेज प्राप्त हुआ। यह प्रोजेक्ट जिसे Google फ़्लू ट्रेंड्स कहा जाता था-दुनिया को बदलने के लिए बड़े डेटा की शक्ति के बारे में अक्सर बार-बार दृष्टांत बन गया।
हालांकि, यह स्पष्ट सफलता की कहानी अंततः शर्मिंदगी में बदल गई। समय के साथ, शोधकर्ताओं ने दो महत्वपूर्ण सीमाओं की खोज की जो Google फ़्लू रुझानों को शुरू में दिखाई देने से कम प्रभावशाली बनाते हैं। सबसे पहले, Google फ़्लू रुझान का प्रदर्शन वास्तव में एक साधारण मॉडल की तुलना में काफी बेहतर नहीं था जो फ्लू प्रसार (Goel et al. 2010) के दो सबसे हालिया मापों से रैखिक एक्सट्रापोलेशन पर आधारित फ्लू की मात्रा का अनुमान लगाता है। और, कुछ समय अवधि में, Google फ़्लू रुझान वास्तव में इस सरल दृष्टिकोण (Lazer et al. 2014) से भी बदतर था। दूसरे शब्दों में, Google Flu Trends अपने सभी डेटा, मशीन लर्निंग और शक्तिशाली कंप्यूटिंग के साथ नाटकीय रूप से एक सरल और आसानी से समझने वाले ह्युरिस्टिक को बेहतर प्रदर्शन नहीं करता था। इससे पता चलता है कि किसी भी पूर्वानुमान या नाकाबंदी का मूल्यांकन करते समय, आधारभूत आधार के साथ तुलना करना महत्वपूर्ण है।
Google फ़्लू रुझानों के बारे में दूसरी महत्वपूर्ण चेतावनी यह है कि सीडीसी फ्लू डेटा की भविष्यवाणी करने की इसकी क्षमता शॉर्ट टर्म विफलता और बहाव और एल्गोरिदमिक उलझन के कारण लंबी अवधि के क्षय के लिए प्रवण थी। उदाहरण के लिए, 200 9 के स्वाइन फ़्लू प्रकोप के दौरान Google फ़्लू रुझान ने नाटकीय रूप से इन्फ्लूएंजा की मात्रा को अधिक महत्व दिया, संभवतः क्योंकि लोग वैश्विक महामारी (Cook et al. 2011; Olson et al. 2013) व्यापक भय के जवाब में अपने खोज व्यवहार को बदलते हैं (Cook et al. 2011; Olson et al. 2013) । इन अल्पकालिक समस्याओं के अलावा, प्रदर्शन समय के साथ धीरे-धीरे क्षीण हो गया। इस दीर्घकालिक क्षय के कारणों का निदान करना मुश्किल है क्योंकि Google खोज एल्गोरिदम मालिकाना हैं, लेकिन ऐसा प्रतीत होता है कि 2011 में Google ने "बुखार" और "खांसी" जैसे फ्लू के लक्षणों की खोज करते समय संबंधित खोज शब्दों का सुझाव देना शुरू किया (यह भी लगता है कि यह सुविधा अब सक्रिय नहीं है)। यदि आप एक खोज इंजन चला रहे हैं तो इस सुविधा को जोड़ना एक पूरी तरह से उचित बात है, लेकिन इस एल्गोरिदमिक परिवर्तन से अधिक स्वास्थ्य से संबंधित खोज पैदा करने का असर पड़ा जिससे Google फ़्लू रुझान फ्लू प्रसार (Lazer et al. 2014) को अधिक महत्व देने के लिए प्रेरित हुए।
ये दो चेतावनी भावी उभरते प्रयासों को जटिल बनाती हैं, लेकिन वे उन्हें बर्बाद नहीं करते हैं। वास्तव में, अधिक सावधान तरीकों का उपयोग करके, Lazer et al. (2014) और Yang, Santillana, and Kou (2015) इन दो समस्याओं से बचने में सक्षम थे। आगे बढ़ते हुए, मैं उम्मीद करता हूं कि शोधकर्ता-एकत्रित डेटा के साथ बड़े डेटा स्रोतों को गठबंधन करने वाली कंपनियां और सरकारों को कुछ अंतराल के साथ बार-बार बार-बार किए गए किसी भी माप को तेज़ी से बढ़ाकर अधिक समय पर और अधिक सटीक अनुमान बनाने में सक्षम बनाता है। Google Flu Trends जैसे नाकास्टिंग प्रोजेक्ट यह भी दिखाते हैं कि क्या हो सकता है यदि बड़े डेटा स्रोत अनुसंधान के उद्देश्यों के लिए बनाए गए अधिक पारंपरिक डेटा के साथ संयुक्त होते हैं। अध्याय 1 के कला सादृश्य के बारे में सोचते हुए, अबकास्टिंग में निकट भविष्य के वर्तमान और भविष्यवाणियों के अधिक समय पर और अधिक सटीक माप के साथ निर्णय निर्माताओं को प्रदान करने के लिए माइकलएंजेलो-शैली के कस्टममेड के साथ डचैम्प-शैली के रेडीमेड को गठबंधन करने की क्षमता है।