ভবিষ্যতে পূর্বাভাসের কঠিন, কিন্তু বর্তমান পূর্বাভাসের সহজ.
দ্বিতীয় প্রধান পর্যবেক্ষণমূলক ডেটা সঙ্গে গবেষক দ্বারা ব্যবহৃত কৌশল পূর্বাভাস হয়. ভবিষ্যতে পূর্বাভাসের কুখ্যাত কঠিন, কিন্তু এটা সিদ্ধান্ত প্রস্তুতকারকদের জন্য অবিশ্বাস্যভাবে গুরুত্বপূর্ণ হতে পারে, কিনা তারা কোম্পানি বা সরকার কাজ.
Kleinberg et al. (2015) দুটি গল্প যে নির্দিষ্ট নীতি সমস্যার জন্য পূর্বাভাসের গুরুত্ব নির্মল উপলব্ধ করা হয়. এক নীতি নির্ধারক কল্পনা করুন, আমি তার আন্না, যারা একটি খরা সম্মুখীন হয় এবং সিদ্ধান্ত নিতে হবে একটি ওঝা ভাড়া কিনা বৃষ্টির সম্ভাবনা বৃদ্ধি একটি বৃষ্টি নাচ করতে ডাকবো. আরেকটি নীতি নির্ধারক, আমি তাকে বব ডাকবো, সিদ্ধান্ত নিতে হবে একটা ছাতা নিতে কিনা বাড়ির পথে ভিজেগেছে এড়াতে কাজ করতে. যদি তারা আবহাওয়া বুঝতে উভয় আন্না ও বব একটি ভাল সিদ্ধান্ত নিতে পারেন, কিন্তু তারা বিভিন্ন বিষয় জানা প্রয়োজন. আন্না বুঝতে বৃষ্টি নাচ বৃষ্টি ঘটায় কিনা দরকার. বব, অপরপক্ষে, কার্যকারণ সম্পর্কে কিছু বোঝার প্রয়োজন নেই; তিনি শুধু একটি সঠিক পূর্বাভাস দরকার. সামাজিক গবেষকরা প্রায়ই কি ফোকাস Kleinberg et al. (2015) "বৃষ্টি নাচ-মত" নীতি সমস্যা-ঐ যে-কার্যকারণ এবং ফোকাস যে পূর্বাভাস উপর দৃষ্টি নিবদ্ধ করা হয় "ছাতা মত" নীতি সমস্যা উপেক্ষা কল.
আমি বর্তমানে ভবিষ্যদ্বাণী করার প্রচেষ্টা nowcasting, ফোকাস করতে অবশ্য পূর্বাভাস বলা nowcasting একটি বিশেষ ধরনের -a শব্দটি মিশ্রন "এখন" এবং থেকে উদ্ভূত উপর চাই "পূর্বাভাস." ভবিষ্যতে পূর্বাভাসের চেয়ে বরং (Choi and Varian 2012) . অন্য কথায়, nowcasting পরিমাপের সমস্যার জন্য পূর্বাভাস পদ্ধতি ব্যবহার করে. যেমন, এটা বিশেষত সরকার যারা তাদের দেশ সম্পর্কে সময়মত এবং সঠিক ব্যবস্থা প্রয়োজন জন্য উপযোগী হতে হবে. Nowcasting গুগল ফ্লু প্রবণতা এর উদাহরণ দিয়ে সবচেয়ে পরিষ্কারভাবে দেখানো যেতে পারে.
কল্পনা করুন যে, আপনি আবহাওয়া অধীনে একটি বিট তাই আপনি একটি সার্চ ইঞ্জিন মধ্যে টাইপ করুন "ফ্লু প্রতিকার" বোধ হয়, প্রতিক্রিয়া সংযোগগুলি একটি পৃষ্ঠায় গ্রহণ, এবং তারপর একটি সহায়ক ওয়েবপেজ তাদের এক অনুসরণ. এখন কল্পনা করুন এই কার্যকলাপ সার্চ ইঞ্জিন এর দৃষ্টিকোণ থেকে অভিনয় হচ্ছে. প্রতিটি মুহূর্ত, প্রশ্নের লক্ষ লক্ষ সারা বিশ্ব থেকে আসছে, এবং প্রশ্নের-কি এই প্রবাহ Battelle (2006) "উদ্দেশ্য ডাটাবেস" বলা হয়েছে - সমষ্টিগত বিশ্ব চেতনা মধ্যে একটি ক্রমাগত আপডেট উইন্ডোর উপলব্ধ. তবে ফ্লুর প্রাদুর্ভাব একটি পরিমাপ মধ্যে তথ্য এই প্রবাহ বাঁক কঠিন. শুধু "ফ্লু প্রতিকার" জন্য প্রশ্নের সংখ্যা গণনা আপ ভাল কাজ করতে পারে না. না সবাই কে ফ্লু প্রতিকার জন্য ফ্লু অনুসন্ধান এবং সবাই কে ফ্লু প্রতিকার জন্য অনুসন্ধানকারীরা ফ্লু রয়েছে.
গুগল ফ্লু প্রবণতা পিছনে গুরুত্বপূর্ণ এবং চালাক কৌতুক একটি পূর্বাভাস সমস্যার মধ্যে একটি পরিমাপ সমস্যা চালু ছিল. রোগ নিয়ন্ত্রণ ও প্রতিরোধ কেন্দ্র (সিডিসি) একটি ইনফ্লুয়েঞ্জা পর্যবেক্ষণ সিস্টেম যে দেশের প্রায় ডাক্তারদের কাছ থেকে তথ্য সংগ্রহ করা হয়েছে. যাইহোক, এই সিডিসি সিস্টেমের সাথে এক সমস্যা দুই সপ্তাহে প্রতিবেদন ব্যবধান নেই; সময় এটি তথ্য ডাক্তারদের থেকে আসার জন্য সময় লাগে, পরিষ্কার করা প্রক্রিয়াজাত, এবং প্রকাশিত. কিন্তু, যখন একটি উঠতি মহামারী হ্যান্ডলিং, জনস্বাস্থ্য অফিস না জানি কত ইনফ্লুয়েঞ্জা সেখানে দুই সপ্তাহ আগে ছিল চান; তারা জানতে চান কত ইনফ্লুয়েঞ্জা নেই এখনই. বস্তুত, সামাজিক তথ্য অন্যান্য অনেক ঐতিহ্যগত উৎস, সেখানে তথ্য সংগ্রহ ঢেউয়ের এবং প্রতিবেদন lags মধ্যে ফাঁক হয়ে আছে. সর্বাধিক বড় তথ্য সূত্রে জানা গেছে, অন্যদিকে, সবসময় অন (অনুচ্ছেদ 2.3.1.2) হয়.
অতএব, জেরেমি গিনসবার্গ এবং সহকর্মীদের (2009) গুগল সার্চ ডেটা থেকে সিডিসি ফ্লু তথ্য ভবিষ্যদ্বাণী করার চেষ্টা করে. এই "বর্তমান পূর্বাভাসের" কারণ গবেষকরা পরিমাপ করতে সিডিসি, ভবিষ্যতে তথ্য যে উপস্থিত হয় পরিমাপ থেকে ভবিষ্যতে তথ্য পূর্বাভাসের দ্বারা এখন কত ফ্লু সেখানে চেষ্টা করছিল একটি উদাহরণ. মেশিন লার্নিং ব্যবহার করে তারা 50 মিলিয়ন বিভিন্ন শব্দ খঁুজুন- হাত্ড়ে যা সিডিসি ফ্লু তথ্য অধিকাংশ ভবিষ্যদ্বাণীপূর্ণ হয় দেখতে. পরিশেষে, তারা যে সবচেয়ে ভবিষ্যদ্বাণীপূর্ণ হতে যাচ্ছিলেন 45 বিভিন্ন প্রশ্নের একটি সেট পাওয়া যায়, এবং ফলাফল বেশ ভাল ছিল: তারা সিডিসি তথ্য ভবিষ্যদ্বাণী করা সার্চ তথ্য ব্যবহার করতে পারে. এই কাগজ, যা প্রকৃতি প্রকাশিত হয় উপর অংশে ভিত্তি করে, Google ফ্লু প্রবণতা বড় তথ্য শক্তি সম্পর্কে একটি প্রায়ই পুনরাবৃত্তি সাফল্যের গল্প হয়ে ওঠে.
দুটি গুরুত্বপূর্ণ আদেশ সহকারে, এই আপাত সাফল্যের আছে যদিও, এই আদেশ সহকারে বুঝতে আপনি মূল্যায়ন করতে এবং পূর্বাভাস ও nowcasting করবেন. প্রথম, গুগল ফ্লু প্রবণতা কর্মক্ষমতা আসলে একটি সহজ মডেল যে দুটি ফ্লু প্রাদুর্ভাব সাম্প্রতিকতম পরিমাপ থেকে একটি রৈখিক বহির্পাতন উপর ভিত্তি করে ফ্লু পরিমাণ অনুমান বেশী না অনেক ভালো ছিল (Goel et al. 2010) . এবং, কিছু সময় ধরে গুগল ফ্লু প্রবণতা আসলে এই সহজ পদ্ধতির চেয়েও খারাপ ছিল (Lazer et al. 2014) . অন্য কথায়, তার সব তথ্য, মেশিন লার্নিং, এবং শক্তিশালী কম্পিউটিং সঙ্গে গুগল ফ্লু প্রবণতা নাটকীয়ভাবে অনুসন্ধানমূলক বুঝতে একটি সহজ এবং সহজ সুখ্যাতি করা হয়নি. এর মানে দাড়ায় যে এটা একটি বেসলাইন বিরুদ্ধে তুলনা করা জরুরী যখন কোনো পূর্বাভাস nowcast মূল্যায়ন বা.
গুগল ফ্লু প্রবণতা সম্পর্কে দ্বিতীয় গুরুত্বপূর্ণ সতর্কীকরণ যে সিডিসি ফ্লু তথ্য ভবিষ্যদ্বাণী করার ক্ষমতা স্বল্পমেয়াদী ব্যর্থতা এবং ড্রিফট এবং আলগোরিদিমিক বিভ্রান্তি এর কারণ দীর্ঘমেয়াদী ক্ষয় প্রবণ ছিল. উদাহরণস্বরূপ, 2009 সোয়াইন ফ্লু প্রাদুর্ভাব গুগল ফ্লু প্রবণতা সময় নাটকীয়ভাবে ইনফ্লুয়েঞ্জা পরিমাণ ওভার আনুমানিক, কারণ সম্ভবত মানুষ বিশ্বব্যাপী পৃথিবীব্যাপি ব্যাপক ভয় প্রতিক্রিয়ায় তাদের সার্চ আচরণ পরিবর্তন করার ঝোঁক (Cook et al. 2011; Olson et al. 2013) . এই স্বল্পমেয়াদি সমস্যা ছাড়াও, কর্মক্ষমতা ধীরে ধীরে সময়ের জীর্ণ. এই দীর্ঘ মেয়াদী ক্ষয় কারণে নির্ণয়ের কঠিন কারণ গুগল সার্চ অ্যালগরিদম মালিকানা আছে, কিন্তু এটা মনে হচ্ছে যখন মানুষ "জ্বর" এবং "কাশি" মত লক্ষণ জন্য অনুসন্ধান যে 2011 সালে গুগল যে পরিবর্তন সম্পর্কিত শব্দ খঁুজুন- সুপারিশ করবে (যেমন এটি মনে যে এই বৈশিষ্ট্য আর সক্রিয় নেই). এই বৈশিষ্ট্য যোগ করার পদ্ধতি আপনি একটি সার্চ ইঞ্জিন ব্যবসা দৌড়াচ্ছে যদি না একটি সম্পূর্ণ যুক্তিসঙ্গত জিনিস, এবং এটা আরও স্বাস্থ্য সম্পর্কিত অনুসন্ধান উৎপাদিত প্রভাব ছিল. সম্ভবত এই ব্যবসার জন্য একটি সাফল্য ছিল, কিন্তু এটা গুগল ফ্লু প্রবণতা ওভার অনুমান ফ্লু প্রাদুর্ভাব থেকে সৃষ্ট (Lazer et al. 2014) .
সৌভাগ্যবসত, গুগল ফ্লু প্রবণতা দিয়ে এই সমস্যার নির্ধার্য হয়. আসলে, আরো সতর্ক পদ্ধতি ব্যবহার করে, Lazer et al. (2014) এবং Yang, Santillana, and Kou (2015) ভাল ফলাফল পেতে সক্ষম হয়েছি. এগিয়ে নিয়ে যাওয়া, আমি আশা যে nowcasting গবেষণায় যে গবেষক সঙ্গে বড় তথ্য একত্রিত তথ্য-যে Michaelangelo স্টাইলের সঙ্গে Duchamp স্টাইলের Readymades মেশা Custommades-হবে নীতিনির্ধারকেরা সক্ষম বর্তমানে দ্রুত এবং আরো সঠিক পরিমাপ এবং ভবিষ্যতের পূর্বাভাস উত্পাদন সংগৃহীত.