წინასწარმეტყველებდნენ მომავალს რთულია, მაგრამ ვარაუდობენ, რომ დღემდე არ არის ადვილი.
მეორე მთავარი სტრატეგიის გამოიყენება მკვლევარები ზედამხედველობითი მონაცემები პროგნოზირება. წინასწარმეტყველებდნენ მომავალს რთულია, მაგრამ ეს შეიძლება იყოს ძალიან მნიშვნელოვანი გადაწყვეტილების მიმღები პირები, თუ ისინი მუშაობენ კომპანიები და მთავრობები.
Kleinberg et al. (2015) სთავაზობს ორი ამბავი, რომელიც განმარტავს, რომ მნიშვნელოვანია პროგნოზირება გარკვეული პოლიტიკის პრობლემები. წარმოიდგინეთ ერთი პოლიტიკის მარკა, მე მასთან ანა, რომლებიც წინაშე გვალვა და უნდა გადაწყვიტოს თუ არა აყვანის shaman გავაკეთოთ rain dance გაზრდის შანსი წვიმა. სხვა პოლიტიკის მარკა, მე მოვუწოდებ მას Bob, უნდა გადაწყვიტოს მიიღოს ქოლგა მუშაობა, რათა თავიდან ავიცილოთ მიღების სველი გზაზე სახლში. როგორც ანა და ბობ შეუძლია მიიღოს შესაბამისი გადაწყვეტილება, თუ მათ ესმით, ამინდი, მაგრამ მათ უნდა იცოდნენ, სხვადასხვა ნივთები. Anna საჭიროებს თუ არა წვიმის ცეკვის იწვევს წვიმა. Bob, მეორეს მხრივ, არ უნდა გაგება იმის შესახებ, მიზეზობრიობის; მას მხოლოდ სჭირდება ზუსტი პროგნოზი. სოციალური მკვლევარები ხშირად ფოკუსირება რა Kleinberg et al. (2015) უწოდებენ "წვიმის ცეკვის მსგავსი" პოლიტიკის პრობლემები ვინც ფოკუსირება მიზეზისა და იგნორირება "ქოლგა როგორიცაა" პოლიტიკური პრობლემები, რომლებიც ორიენტირებულია პროგნოზირება.
მე მინდა ყურადღება, თუმცა, განსაკუთრებული სახის პროგნოზირების მოუწოდა nowcasting ანუ ტერმინი მომდინარეობს აერთიანებს "ახლა" და "პროგნოზირება." იმის ნაცვლად, წინასწარმეტყველებდნენ მომავალს nowcasting მცდელობა პროგნოზირება იმყოფება (Choi and Varian 2012) . სხვა სიტყვებით, nowcasting იყენებს პროგნოზირების მეთოდები პრობლემები გაზომვა. როგორც ასეთი, ეს უნდა იყოს განსაკუთრებით სასარგებლოა მთავრობები, რომლებიც საჭიროებენ და დროული ზომების შესახებ თავიანთ ქვეყნებში. Nowcasting შეიძლება ილუსტრირებული ყველაზე აშკარად მაგალითზე Google გრიპის ტენდენციები.
წარმოიდგინეთ, რომ თქვენ შეგრძნება ცოტა ქვეშ ამინდის, ასე რომ თქვენ აკრიფოთ "გრიპის საშუალებების" შევიდა საძიებო სისტემა, მიიღოს გვერდი ბმულები საპასუხოდ, და შემდეგ ერთი მათგანი სასარგებლო ვებგვერდზე. ახლა წარმოიდგინეთ, ამ საქმიანობის წყდება პერსპექტივა საძიებო სისტემა. ყოველი მომენტი, მილიონობით შეკითხვებს ჩამოდიან მსოფლიოს, და ეს ნაკადი შეკითხვებს რა Battelle (2006) უწოდა "მონაცემთა ბაზა განზრახვების" - უზრუნველყოფს მუდმივად განახლებადი window შევიდა კოლექტიური გლობალური ცნობიერების. თუმცა, გარდამტეხი ამ ნაკადის ინფორმაციის გაზომვა გავრცელების გრიპის რთულია. უბრალოდ დათვლის up რაოდენობის შეკითხვებს "გრიპის საშუალებები", შესაძლოა, არ მუშაობს კარგად. არა ყველას, ვისაც აქვს გრიპის ეძებს გრიპის საშუალებები და არა ყველას, ვინც საძიებო გრიპის საშუალებების გრიპი აღმოაჩნდა.
მნიშვნელოვანი და ჭკვიანი შეასრულა უკან Google გრიპის ტენდენციები იყო აქციოს საზომი პრობლემის პროგნოზირების პრობლემა. აშშ ცენტრების დაავადებათა კონტროლისა და პრევენციის (CDC) აქვს გრიპის მონიტორინგის სისტემა, რომელიც აგროვებს ინფორმაციას ექიმები მთელი ქვეყნის მასშტაბით. თუმცა, ერთი პრობლემა ამ CDC სისტემა არის ორი კვირის ანგარიშგების შუალედი; დრო სჭირდება მონაცემები ჩამოდის ექიმები უნდა გაიწმინდოს, დამუშავებული, და გამოიცა. მაგრამ, როდესაც გატარება განვითარებადი ეპიდემია, საზოგადოებრივი ჯანდაცვის ოფისები არ მინდა, რომ ვიცი, რამდენად გრიპის იყო ორი კვირის წინ; მათ აინტერესებთ, თუ რამდენად გრიპის არ არის ახლა. სინამდვილეში, ბევრი სხვა ტრადიციული წყაროების სოციალური მონაცემების, არსებობს ხარვეზები შორის ტალღების მონაცემების შეგროვება და ანგარიშგების lags. ყველაზე დიდი მონაცემები, მეორეს მხრივ, ყოველთვის-on (სექცია 2.3.1.2).
აქედან გამომდინარე, Jeremy გინსბერგი და მისი კოლეგები (2009) ცდილობდა პროგნოზირება CDC გრიპის მონაცემების საძიებო მონაცემები. ეს არის მაგალითი "ვარაუდობენ, რომ დღევანდელი" იმიტომ, რომ მკვლევარები ცდილობდნენ გავზომოთ რამდენი გრიპის იქ არის წინასწარ, მომავალში მონაცემების CDC, მომავალი მონაცემები, რომ საზომი დღემდე. გამოყენება მანქანა სწავლის, გაჩხრიკეს მეშვეობით 50 მილიონი სხვადასხვა ძიება პირობები ვხედავ, რომლებიც ყველაზე ემთხვევა, CDC გრიპის მონაცემები. საბოლოო ჯამში, მათ აღმოაჩინეს, კომპლექტი 45 სხვადასხვა შეკითხვებს, რომ როგორც ჩანს, ყველაზე პროგნოზირების და შედეგები საკმაოდ კარგი: ისინი შეიძლება გამოიყენოთ ძებნის მონაცემები პროგნოზირება CDC მონაცემები. ნაწილობრივ დაფუძნებულია ამ დოკუმენტში, რომელიც გამოქვეყნდა ბუნება, Google გრიპის ტენდენციები გახდა ხშირად მეორდება წარმატების ამბავი ძალა დიდი მონაცემები.
არსებობს ორი მნიშვნელოვანი დეტალი, ამ აშკარა წარმატება, თუმცა, და გაგება ამ აპირებს დაგეხმარებათ შეაფასოს და ამის პროგნოზირება და nowcasting. პირველი, შესრულების Google გრიპის ტენდენციები იყო, ფაქტობრივად, არ არის ბევრად უკეთესი, ვიდრე უბრალო მოდელი, რომელიც აფასებს თანხის გრიპის საფუძველზე ხაზოვანი extrapolation ორი ყველაზე ბოლო ღონისძიებების გრიპის გავრცელების (Goel et al. 2010) . და, დროთა გარკვეული დროის პერიოდები Google გრიპის ტენდენციები იყო, ფაქტობრივად, უარესი, ვიდრე ეს მარტივი მიდგომა (Lazer et al. 2014) . სხვა სიტყვებით, Google გრიპის ტენდენციები მისი მონაცემები, მანქანა სწავლის, და ძლიერი გამოთვლითი არ მკვეთრად ზემდგომი მარტივი და ადვილად ესმით ევრისტიკული. ეს ნიშნავს, რომ შეფასებისას ნებისმიერ პროგნოზი ან nowcast მნიშვნელოვანია, რომ შედარება წინააღმდეგ საბაზისო.
მეორე მნიშვნელოვანი caveat შესახებ Google გრიპის ტენდენციები არის, რომ მისი უნარი პროგნოზირება CDC გრიპის მონაცემები მიდრეკილება მოკლევადიანი უკმარისობა და გრძელვადიანი decay გამო დრიფტი და ალგორითმული confounding. მაგალითად, 2009 წლის ღორის გრიპის ეპიდემიის Google გრიპის ტენდენციები მკვეთრად შეაფასა თანხის გრიპის, ალბათ იმიტომ, რომ ადამიანი, როგორც წესი შეცვალოს მათი ძებნის ქცევის საპასუხოდ გავრცელებული შიში გლობალური პანდემიის (Cook et al. 2011; Olson et al. 2013) . გარდა ამისა, ეს მოკლევადიანი პრობლემები, შესრულების თანდათან გახრწნილი დროთა განმავლობაში. დიაგნოსტიკა მიზეზები ამ გრძელვადიანი ხრწნის რთულია, რადგან Google ძებნის ალგორითმები საკუთრების, მაგრამ, როგორც ჩანს, რომ 2011 წელს Google ცვლილებები, რომელიც ვარაუდობს, დაკავშირებული ძიება პირობები, როდესაც ადამიანები მოძებნოთ სიმპტომები, როგორიცაა "სიცხე" და "ხველა" (ასევე, როგორც ჩანს, რომ ეს ფუნქცია აღარ არის აქტიური). ამ ფუნქციის დამატებაზე არის სრულიად გონივრული რამ უნდა გააკეთოს, თუ თქვენ გაშვებული საძიებო ბიზნესის, და ეს ჰქონდა ეფექტი მომტანი უფრო ჯანმრთელობის ძიება. ეს იყო ალბათ წარმატება ბიზნესში, მაგრამ ეს გამოიწვია Google გრიპის ტენდენციები ზედმეტად შეფასებით გრიპის გავრცელების (Lazer et al. 2014) .
საბედნიეროდ, ეს პრობლემა Google გრიპის ტენდენციები აქვს fixable. ფაქტობრივად, გამოყენებით უფრო ფრთხილად მეთოდები, Lazer et al. (2014) და Yang, Santillana, and Kou (2015) იყო შეუძლია მიიღოს უკეთესი შედეგების მისაღებად. წინსვლის, ვიმედოვნებ, რომ nowcasting კვლევები, რომელიც აერთიანებს დიდი მონაცემების მკვლევარი შეგროვილი მონაცემები, რომ გაერთიანდება Duchamp სტილის Readymades ერთად Michaelangelo სტილის Custommades მისცემთ პოლიტიკოსები აწარმოოს უფრო სწრაფი და ზუსტი გაზომვები აწმყოსა და პროგნოზები მომავალი.