ทำนายอนาคตเป็นเรื่องยาก แต่การคาดการณ์ในปัจจุบันเป็นเรื่องง่าย
ที่สองกลยุทธ์หลักที่ใช้โดยนักวิจัยที่มีข้อมูลการสังเกตการณ์คาด ทำนายอนาคตเป็นเรื่องยากที่ฉาวโฉ่ แต่ก็สามารถเป็นสิ่งที่สำคัญอย่างเหลือเชื่อสำหรับผู้มีอำนาจตัดสินใจว่าพวกเขาทำงานใน บริษัท หรือรัฐบาล
Kleinberg et al. (2015) มีสองเรื่องที่ชี้แจงถึงความสำคัญของการคาดการณ์สำหรับปัญหานโยบายบางอย่าง ลองนึกภาพผู้กำหนดนโยบายหนึ่งฉันจะเรียกเธอว่าแอนนาที่กำลังเผชิญปัญหาภัยแล้งและต้องตัดสินใจว่าจะจ้างหมอผีที่จะทำฝนเต้นรำเพื่อเพิ่มโอกาสของฝน ชงนโยบายอื่นผมจะเรียกเขาว่าบ๊อบต้องตัดสินใจว่าจะใช้ร่มที่จะทำงานเพื่อหลีกเลี่ยงการเปียกระหว่างทางกลับบ้าน ทั้งแอนนาและบ๊อบสามารถตัดสินใจดีกว่าถ้าพวกเขาเข้าใจสภาพอากาศ, แต่พวกเขาต้องการที่จะรู้ว่าสิ่งที่แตกต่าง แอนนาต้องเข้าใจว่าการเต้นรำฝนทำให้เกิดฝนตก บ๊อบบนมืออื่น ๆ ที่ไม่จำเป็นต้องทำความเข้าใจอะไรเกี่ยวกับเวรกรรม; เขาเพียงแค่ต้องการการคาดการณ์ที่ถูกต้อง นักวิจัยสังคมมักจะมุ่งเน้นในสิ่ง Kleinberg et al. (2015) เรียกว่า "ฝนเต้นรำเหมือน" นโยบายปัญหาที่มุ่งเน้นไปที่เวรกรรมและไม่สนใจปัญหานโยบาย "ร่มเหมือน" ที่มุ่งเน้นไปที่การคาดการณ์
ฉันต้องการที่จะมุ่งเน้น แต่ในชนิดพิเศษของการพยากรณ์ที่เรียกว่า nowcasting -a ระยะที่ได้มาจากการรวม "ตอนนี้" และ "การคาดการณ์." มากกว่าการคาดการณ์อนาคต nowcasting ความพยายามที่จะคาดการณ์ในปัจจุบัน (Choi and Varian 2012) ในคำอื่น ๆ nowcasting ใช้วิธีการคาดการณ์สำหรับปัญหาของการวัด เช่นนี้มันควรจะเป็นประโยชน์โดยเฉพาะอย่างยิ่งให้กับรัฐบาลที่ต้องการมาตรการที่รวดเร็วและถูกต้องเกี่ยวกับประเทศของพวกเขา Nowcasting สามารถแสดงอย่างชัดเจนมากที่สุดกับตัวอย่างของ Google แนวโน้มไข้หวัดใหญ่
ลองจินตนาการว่าคุณกำลังรู้สึกบิตภายใต้สภาพอากาศเพื่อให้คุณพิมพ์ "การเยียวยาไข้หวัด" เป็นเครื่องมือค้นหารับหน้าของการเชื่อมโยงในการตอบสนองจากนั้นทำตามหนึ่งของพวกเขาไปยังหน้าเว็บที่เป็นประโยชน์ ตอนนี้คิดว่ากิจกรรมนี้ถูกเล่นออกมาจากมุมมองของเครื่องมือค้นหา ทุกช่วงเวลานับล้านคำสั่งจะมาถึงจากทั่วโลกและกระแสของการค้นหาสิ่งนี้ Battelle (2006) ได้เรียกว่า "ฐานข้อมูลของความตั้งใจ" - มีหน้าต่างปรับปรุงอย่างต่อเนื่องเข้ามาในจิตสำนึกทั่วโลกโดยรวม อย่างไรก็ตามการเปลี่ยนกระแสของข้อมูลนี้ในการวัดความชุกของโรคไข้หวัดใหญ่เป็นเรื่องยาก เพียงแค่นับจำนวนการค้นหาสำหรับ "เยียวยาไข้หวัด" อาจจะทำงานได้ไม่ดี ทุกคนไม่ได้ที่มีการค้นหาไข้หวัดไข้หวัดใหญ่สำหรับการเยียวยาและไม่ใช่ทุกคนที่ค้นหาสำหรับการเยียวยาไข้หวัดมีการระบาดของไข้หวัด
เคล็ดลับที่สำคัญและฉลาดอยู่เบื้องหลัง Google แนวโน้มไข้หวัดใหญ่คือการเปิดปัญหาการวัดเป็นปัญหาการพยากรณ์ สหรัฐศูนย์ควบคุมและป้องกันโรค (CDC) มีระบบการตรวจสอบโรคไข้หวัดใหญ่ที่เก็บรวบรวมข้อมูลจากแพทย์ทั่วประเทศ แต่ปัญหาหนึ่งที่มีระบบนี้ CDC ก็คือมีความล่าช้าในการรายงานสองสัปดาห์ เวลาที่ใช้สำหรับข้อมูลที่มาจากแพทย์ที่จะต้องทำความสะอาด, การประมวลผลและการตีพิมพ์ แต่เมื่อการจัดการโรคระบาดที่เกิดขึ้นใหม่, สำนักงานสาธารณสุขไม่ต้องการที่จะทราบวิธีไข้หวัดใหญ่มากมีสองสัปดาห์ที่ผ่านมา พวกเขาต้องการที่จะทราบวิธีไข้หวัดใหญ่มากมีอยู่ในขณะนี้ ในความเป็นจริงในหลายแหล่งดั้งเดิมอื่น ๆ ของข้อมูลทางสังคมที่มีช่องว่างระหว่างคลื่นของการเก็บรวบรวมข้อมูลและการรายงานล่าช้า ส่วนใหญ่แหล่งที่มาของข้อมูลขนาดใหญ่บนมืออื่น ๆ อยู่เสมอบน (มาตรา 2.3.1.2)
ดังนั้นเจเรมี Ginsberg และเพื่อนร่วมงาน (2009) พยายามที่จะคาดการณ์ข้อมูลไข้หวัด CDC จากข้อมูลการค้นหาของ Google นี่คือตัวอย่างของ "การคาดการณ์ในปัจจุบัน" เพราะนักวิจัยกำลังพยายามที่จะวัดว่าไข้หวัดมากมีอยู่ในขณะนี้โดยการคาดคะเนข้อมูลในอนาคตจาก CDC ให้ข้อมูลในอนาคตที่มีการวัดในปัจจุบัน โดยใช้กลไกการเรียนรู้ที่พวกเขาค้นหาผ่าน 50 ล้านคำค้นหาที่แตกต่างกันเพื่อดูว่ามีการคาดการณ์ส่วนใหญ่ของข้อมูลไข้หวัด CDC ในท้ายที่สุดพวกเขาพบว่าชุดของ 45 คำสั่งต่าง ๆ ที่ดูเหมือนจะมีการคาดการณ์มากที่สุดและผลลัพธ์ที่ได้ค่อนข้างดี: พวกเขาสามารถใช้การค้นหาข้อมูลที่จะคาดการณ์ข้อมูล CDC อยู่ในส่วนที่เกี่ยวกับบทความนี้ซึ่งได้รับการตีพิมพ์ในวารสาร Nature, Google แนวโน้มไข้หวัดใหญ่กลายเป็นเรื่องราวความสำเร็จซ้ำบ่อยเกี่ยวกับอำนาจของข้อมูลขนาดใหญ่
มีอยู่สองประการที่สำคัญต่อความสำเร็จที่ชัดเจนนี้อย่างไรและความเข้าใจคำเตือนเหล่านี้จะช่วยให้คุณประเมินและคาดการณ์และการทำ nowcasting ขั้นแรกให้ประสิทธิภาพการทำงานของ Google แนวโน้มไข้หวัดใหญ่เป็นจริงไม่ได้ดีกว่ารูปแบบที่เรียบง่ายที่ประมาณการปริมาณของไข้หวัดอยู่บนพื้นฐานของการคาดการณ์เชิงเส้นจากทั้งสองวัดล่าสุดความชุกของโรคไข้หวัด (Goel et al. 2010) และช่วงเวลาบางอย่างของ Google แนวโน้มไข้หวัดใหญ่เป็นจริงเลวร้ายยิ่งกว่าวิธีการง่ายๆนี้ (Lazer et al. 2014) ในคำอื่น ๆ Google แนวโน้มไข้หวัดใหญ่มีข้อมูลทั้งหมดในการเรียนรู้เครื่องและคอมพิวเตอร์ที่มีประสิทธิภาพไม่ได้อย่างรวดเร็วมีประสิทธิภาพสูงกว่าที่ง่ายและง่ายต่อการเข้าใจการแก้ปัญหา นี้แสดงให้เห็นว่าเมื่อมีการประเมินการคาดการณ์ใด ๆ หรือ nowcast มันเป็นสิ่งสำคัญที่จะเปรียบเทียบกับพื้นฐาน
ข้อแม้สำคัญที่สองเกี่ยวกับ Google แนวโน้มไข้หวัดใหญ่คือความสามารถในการคาดการณ์ข้อมูลไข้หวัด CDC มีแนวโน้มที่จะล้มเหลวในระยะสั้นและระยะยาวเพราะการสลายตัวของลอยและรบกวนอัลกอริทึม ตัวอย่างเช่นในระหว่างการระบาดของโรคไข้หวัดใหญ่ 2009 สุกร Google แนวโน้มไข้หวัดใหญ่อย่างรวดเร็วกว่าประมาณการจำนวนของโรคไข้หวัดใหญ่อาจจะเป็นเพราะผู้คนมีแนวโน้มที่จะเปลี่ยนพฤติกรรมการค้นหาของพวกเขาในการตอบสนองต่อความกลัวอย่างแพร่หลายของโรคระบาดทั่วโลก (Cook et al. 2011; Olson et al. 2013) นอกจากปัญหาเหล่านี้ในระยะสั้นประสิทธิภาพค่อยๆสลายตัวเมื่อเวลาผ่านไป การวินิจฉัยสาเหตุของการนี้สลายตัวในระยะยาวเป็นเรื่องยากเพราะขั้นตอนวิธีการค้นหาของ Google เป็นกรรมสิทธิ์ แต่ปรากฏว่าในปี 2011 Google ได้ทำการเปลี่ยนแปลงที่จะแนะนำคำค้นหาที่เกี่ยวข้องเมื่อมีผู้ค้นหาอาการเช่น "ไข้" และ "ไอ" (มันก็ดูเหมือนว่า ว่าคุณลักษณะนี้ใช้งานไม่) เพิ่มคุณลักษณะนี้เป็นสิ่งที่สมเหตุสมผลโดยสิ้นเชิงที่จะทำอย่างไรถ้าคุณกำลังดำเนินธุรกิจของเครื่องมือค้นหาและจะมีผลในการสร้างมากขึ้นการค้นหาที่เกี่ยวข้องกับสุขภาพ นี่อาจจะเป็นความสำเร็จสำหรับธุรกิจ แต่มันเกิดจาก Google แนวโน้มไข้หวัดใหญ่กว่าประมาณการความชุกของโรคไข้หวัด (Lazer et al. 2014)
โชคดีที่ปัญหาเหล่านี้กับ Google แนวโน้มไข้หวัดใหญ่นี้แน่นอน ในความเป็นจริงโดยใช้วิธีการระมัดระวังมากขึ้น, Lazer et al. (2014) และ Yang, Santillana, and Kou (2015) ก็สามารถที่จะได้รับผลดี ก้าวไปข้างหน้าผมคาดหวังว่าการศึกษา nowcasting ที่รวมข้อมูลขนาดใหญ่ที่มีการเก็บรวบรวมข้อมูลที่รวม Readymades Duchamp สไตล์ Michaelangelo สไตล์ Custommades-จะช่วยให้ผู้กำหนดนโยบายในการผลิตได้เร็วขึ้นและถูกต้องมากขึ้นวัดในปัจจุบันและการคาดการณ์ในอนาคต