ทำนายอนาคตเป็นเรื่องยาก แต่การคาดการณ์ในปัจจุบันเป็นเรื่องง่าย
นักวิจัยด้านกลยุทธ์หลักที่สองสามารถใช้กับข้อมูลเชิงสังเกตคือการ คาดการณ์ การคาดเดาเกี่ยวกับอนาคตเป็นสิ่งที่ยากลำบากและอาจเป็นเพราะเหตุนี้การคาดการณ์จึงไม่ได้เป็นส่วนสำคัญของการวิจัยทางสังคม (แม้ว่าจะเป็นส่วนสำคัญและเล็กของประชากรวิทยาเศรษฐศาสตร์ระบาดวิทยาและรัฐศาสตร์) อย่างไรก็ตามในที่นี้ฉันต้องการเน้นการคาดการณ์แบบพิเศษที่เรียกว่า nowcasting ซึ่งเป็นคำที่มาจากการรวม "ตอนนี้" และ "การคาดการณ์" แทนที่จะเป็นการคาดการณ์ในอนาคตความพยายามที่จะใช้ความคิดจากการคาดการณ์ในอนาคตเพื่อวัดสถานะปัจจุบัน ของโลก มันพยายามที่จะ "ทำนายในปัจจุบัน" (Choi and Varian 2012) Nowcasting มีศักยภาพที่จะเป็นประโยชน์อย่างยิ่งต่อรัฐบาลและ บริษัท ต่างๆที่ต้องการมาตรการที่ถูกต้องและทันเวลาของโลก
การตั้งค่าหนึ่งที่จำเป็นสำหรับการวัดที่ทันเวลาและแม่นยำมากคือระบาดวิทยา พิจารณากรณีไข้หวัดใหญ่ ("ไข้หวัดใหญ่") ในแต่ละปีการระบาดของโรคไข้หวัดใหญ่ตามฤดูกาลทำให้ผู้ป่วยนับล้าน ๆ คนเสียชีวิตและนับแสนรายทั่วโลก นอกจากนี้ในแต่ละปีมีความเป็นไปได้ว่ารูปแบบใหม่ของโรคไข้หวัดใหญ่อาจเกิดขึ้นที่จะฆ่าล้าน ตัวอย่างการระบาดของไข้หวัดใหญ่ปีพ. ศ. 2461 คาดว่าจะมีผู้เสียชีวิตระหว่าง 50 ถึง 100 ล้านคน (Morens and Fauci 2007) เนื่องจากความจำเป็นในการติดตามและอาจตอบสนองต่อการระบาดของโรคไข้หวัดใหญ่รัฐบาลทั่วโลกได้สร้างระบบเฝ้าระวังไข้หวัดใหญ่ ยกตัวอย่างเช่นสหรัฐอเมริกาศูนย์ควบคุมและป้องกันโรค (CDC) เป็นประจำและเป็นระบบรวบรวมข้อมูลจากแพทย์ที่ได้รับการคัดเลือกอย่างรอบคอบทั่วประเทศ แม้ว่าระบบนี้จะสร้างข้อมูลที่มีคุณภาพสูง แต่ก็มีความล่าช้าในการรายงาน นั่นคือเนื่องจากเวลาที่ใช้สำหรับข้อมูลที่แพทย์มาถึงจะได้รับการทำความสะอาดประมวลผลและเผยแพร่ระบบ CDC จะเผยแพร่ค่าประมาณของไข้หวัดใหญ่ที่มีอยู่เมื่อสองสัปดาห์ก่อน แต่เมื่อมีการระบาดของโรคที่เกิดขึ้นใหม่เจ้าหน้าที่สาธารณสุขไม่ต้องการรู้ว่ามีไข้หวัดใหญ่กี่สัปดาห์มาแล้ว พวกเขาต้องการทราบจำนวนไข้หวัดใหญ่ที่มีอยู่ในขณะนี้
ในเวลาเดียวกันที่ CDC กำลังรวบรวมข้อมูลเพื่อติดตามไข้หวัดใหญ่ Google ก็กำลังรวบรวมข้อมูลเกี่ยวกับความชุกของโรคไข้หวัดใหญ่แม้ว่าจะอยู่ในรูปแบบที่แตกต่างกันออกไป ผู้คนจากทั่วโลกกำลังส่งคำค้นหาไปยัง Google ตลอดเวลาและบางส่วนของข้อความค้นหาเหล่านี้เช่น "ไข้หวัดใหญ่" และ "อาการไข้หวัดใหญ่" อาจบ่งบอกว่าบุคคลที่ทำการสอบถามมีไข้หวัด แต่การใช้ข้อความค้นหาเหล่านี้เพื่อประเมินความชุกของโรคไข้หวัดใหญ่เป็นเรื่องที่ยุ่งยาก: ไม่ใช่ทุกคนที่เป็นไข้หวัดใหญ่จะทำการค้นหาไข้หวัดใหญ่และไม่ใช้การค้นหาไข้หวัดใหญ่ทุกครั้งจากผู้ที่เป็นไข้หวัดใหญ่
Jeremy Ginsberg และทีมงานของเพื่อนร่วมงาน (2009) บางส่วนของ Google และ CDC มีแนวคิดที่สำคัญและฉลาดในการรวมแหล่งข้อมูลทั้งสองนี้ นักวิจัยได้ใช้ข้อมูลการค้นหาที่รวดเร็วและไม่ถูกต้องกับข้อมูล CDC ที่ช้าและแม่นยำเพื่อให้สามารถวัดความชุกของโรคไข้หวัดใหญ่ได้อย่างรวดเร็วและแม่นยำ อีกวิธีหนึ่งคือการใช้ข้อมูลการค้นหาเพื่อเร่งข้อมูล CDC
โดยเฉพาะอย่างยิ่งการใช้ข้อมูลตั้งแต่ปี 2003 ถึงปี 2007 Ginsberg และเพื่อนร่วมงานประเมินความสัมพันธ์ระหว่างความชุกของโรคไข้หวัดใหญ่ในข้อมูล CDC และปริมาณการค้นหา 50 ล้านคำที่แตกต่างกัน จากกระบวนการนี้ซึ่งเป็นข้อมูลที่ขับเคลื่อนด้วยข้อมูลโดยสิ้นเชิงและไม่จำเป็นต้องมีความรู้ด้านการแพทย์โดยเฉพาะนักวิจัยพบว่ามีแบบสอบถาม 45 ข้อที่แตกต่างกันซึ่งดูเหมือนจะเป็นข้อมูลที่คาดการณ์ได้มากที่สุดเกี่ยวกับข้อมูลความชุกของโรคไข้หวัดใหญ่ CDC จากนั้นใช้ความสัมพันธ์ที่พวกเขาได้เรียนรู้จากข้อมูลปี 2003-2007 Ginsberg และเพื่อนร่วมงานทดสอบโมเดลของตนในช่วงฤดูไข้หวัด 2007-2008 พวกเขาพบว่าขั้นตอนของพวกเขาสามารถทำให้เป็นปัจจุบันที่มีประโยชน์และถูกต้อง (รูปที่ 2.6) ผลการวิจัยเหล่านี้ถูกตีพิมพ์ในวารสาร Nature และได้รับความสนใจจากสื่อมวลชน โครงการนี้ซึ่งเรียกว่า Google แนวโน้มไข้หวัดใหญ่กลายเป็นคำอุปมาที่กล่าวถึงบ่อยๆเกี่ยวกับพลังของข้อมูลขนาดใหญ่ที่จะเปลี่ยนแปลงโลก
อย่างไรก็ตามเรื่องนี้ประสบความสำเร็จอย่างเห็นได้ชัดที่สุดกลายเป็นความละอายใจ เมื่อเวลาผ่านไปนักวิจัยค้นพบข้อ จำกัด สำคัญสองข้อที่ทำให้ Google แนวโน้มไข้หวัดใหญ่ไม่ค่อยน่าประทับใจมากกว่าที่ปรากฏในขั้นแรก ประการแรกประสิทธิภาพของ Google เทรนด์ไข้หวัดใหญ่ไม่ได้ดีไปกว่าโมเดลง่ายๆที่ใช้ในการประมาณการจำนวนไข้หวัดใหญ่โดยอาศัยการอนุมานเชิงเส้นจากการวัดความชุกของโรคไข้หวัดใหญ่ 2 ตัวล่าสุด (Goel et al. 2010) และในบางช่วงเวลา Google แนวโน้มไข้หวัดใหญ่เป็นสิ่งที่แย่กว่าวิธีง่ายๆ (Lazer et al. 2014) กล่าวอีกนัยหนึ่ง Google แนวโน้มไข้หวัดใหญ่ด้วยข้อมูลทั้งหมดการเรียนรู้ด้วยเครื่องและการประมวลผลที่มีประสิทธิภาพไม่ค่อยมีผลดีต่อพฤติกรรมการเรียนรู้ที่เรียบง่ายและเข้าใจง่ายกว่า นี้แสดงให้เห็นว่าเมื่อประเมินการคาดการณ์ใด ๆ หรือ nowcast สิ่งสำคัญคือการเปรียบเทียบกับพื้นฐาน
คำเตือนที่สำคัญประการที่สองเกี่ยวกับ Google แนวโน้มไข้หวัดใหญ่คือความสามารถในการคาดการณ์ข้อมูลไข้หวัดใหญ่ของ CDC มีแนวโน้มที่จะเกิดความล้มเหลวในระยะสั้นและการสลายตัวในระยะยาวเนื่องจากการ ดริฟท์ และ อัลกอริธึมการรบกวน ตัวอย่างเช่นในระหว่างการระบาดของโรคไข้หวัดใหญ่ 2009 ใน Google แนวโน้มไข้หวัดใหญ่ใน Google คาดการณ์ถึงจำนวนไข้หวัดใหญ่อย่างมากอาจเป็นเพราะคนมักจะเปลี่ยนพฤติกรรมการค้นหาของตนเพื่อตอบสนองต่อความกลัวอย่างกว้างขวางเกี่ยวกับการระบาดทั่วโลก (Cook et al. 2011; Olson et al. 2013) . นอกเหนือจากปัญหาระยะสั้นเหล่านี้แล้วประสิทธิภาพการทำงานยังลดลงเรื่อย ๆ การวิเคราะห์สาเหตุของการสลายตัวในระยะยาวนี้เป็นเรื่องยากเนื่องจากอัลกอริทึ่มการค้นหาของ Google เป็นกรรมสิทธิ์ แต่ปรากฏว่าในปี 2011 Google เริ่มเสนอคำค้นหาที่เกี่ยวข้องเมื่อผู้คนค้นหาอาการไข้หวัดใหญ่เช่น "ไข้" และ "ไอ" (ดูเหมือนว่า คุณลักษณะนี้ไม่ทำงานอีกต่อไป) การเพิ่มคุณลักษณะนี้เป็นสิ่งที่ควรทำอย่างสมบูรณ์หากคุณใช้งานเครื่องมือค้นหา แต่การเปลี่ยนแปลงตามขั้นตอนนี้มีผลต่อการสร้างการค้นหาที่เกี่ยวข้องกับสุขภาพมากขึ้นซึ่งทำให้ Google แนวโน้มไข้หวัดใหญ่ประเมินความชุกของโรคไข้หวัดใหญ่ที่สูงเกินไป (Lazer et al. 2014)
ข้อควรระวังทั้งสองข้อนี้ทำให้เกิดความพยายามในการสร้างความพยายามในอนาคตในอนาคต แต่พวกเขาไม่ได้ลงโทษพวกเขา ในความเป็นจริงโดยใช้วิธีระมัดระวังมากขึ้น Lazer et al. (2014) และ Yang, Santillana, and Kou (2015) สามารถหลีกเลี่ยงปัญหาทั้งสองได้ นับจากนี้เป็นต้นไปฉันคาดหวังว่าการศึกษาเกี่ยวกับการรวมกันของแหล่งข้อมูลขนาดใหญ่กับข้อมูลที่รวบรวมจากนักวิจัยจะช่วยให้ บริษัท และรัฐบาลสามารถสร้างการประมาณเวลาที่ถูกต้องและเที่ยงตรงขึ้นโดยเร่งการวัดที่เกิดขึ้นซ้ำ ๆ โครงการ Nowcasting เช่น Google แนวโน้มไข้หวัดใหญ่ยังแสดงให้เห็นถึงสิ่งที่อาจเกิดขึ้นหากแหล่งข้อมูลขนาดใหญ่ถูกรวมเข้ากับข้อมูลแบบดั้งเดิมที่สร้างขึ้นเพื่อการวิจัย การคิดย้อนกลับไปถึงบทเปรียบเทียบของบทที่ 1 ปัจจุบันการรวมกันของไฟล์มีความเป็นไปได้ที่จะนำมาใช้ร่วมกันในรูปแบบ Duchamp กับบทประพันธ์ของ Michelangelo เพื่อให้ผู้มีอำนาจตัดสินใจสามารถวัดผลได้อย่างทันท่วงทีและแม่นยำมากขึ้นในปัจจุบันและการคาดการณ์ในอนาคตอันใกล้นี้