2.4.2 חיזוי nowcasting

חיזוי העתיד הוא קשה, אבל בניבוי הנוכחי הוא קל יותר.

האסטרטגיה העיקרית השנייה בשימוש על ידי חוקרים עם נתונים תצפיתיים היא חיזוי. חיזוי העתיד הוא קשה לשמצה, אבל זה יכול להיות חשוב מאוד עבור מקבלי החלטות, בין אם הם עובדים בחברות או ממשלות.

Kleinberg et al. (2015) מציע שתי קומות המבהירות את החשיבות של חיזוי עבור בעיות מדיניות מסוימות. תארו לעצמכם קובע מדיניות אחת, אני אתקשר אליה אנה, שמתגונן הבצורת חייב להחליט אם לשכור שמאן לעשות את ריקוד הגשם להגדיל את סיכוי לגשם. עוד קובע מדיניות, אני אתקשר אליו בוב, חייב להחליט אם לקחת מטריה לעבוד להימנע להירטב בדרך הביתה. שניהם אנה ובוב יכולים לקבל החלטה טובה יותר אם הם מבינים מזג אוויר, אבל הם צריכים לדעת דברים שונים. אנה צריכה להבין אם ריקוד הגשם גורם גשם. בוב, מצד שני, לא צריך להבין משהו על סיבתיות; הוא פשוט צריך תחזית מדויקת. חוקרי ציבור לרוב להתמקד במה Kleinberg et al. (2015) מכנים "ריקוד גשם דמוי" בעיות אלה מדיניות המתמקדות סיבתיות-ולהתעלם בעיות מדיניות "דמוי מטריה" כי הם התמקדו חיזוי.

הייתי רוצה להתמקד, לעומת זאת, על סוג מיוחד של nowcasting חיזוי שנקרא -a מונח שמקורו שילוב "עכשיו" ו- "חיזוי". במקום לנבא את העתיד, nowcasting ניסיונות לחזות את ההווה (Choi and Varian 2012) . במילים אחרות, nowcasting משתמשת בשיטות חיזוי עבור בעיות של המדידה. ככזה, הוא צריך להיות שימושי במיוחד לממשלות זקוקות אמצעים עדכני ומדויקים על מדינותיהם. Nowcasting יכול להיות מתואר בצורה ברורה ביותר עם הדוגמא של Google Flu Trends.

תארו לעצמכם שאתם מרגישים קצת תחת מזג האוויר אז אתה מקליד "תרופות שפעת" במנוע חיפוש, וקבל דף קישורים בתגובה, ולאחר מכן בצע אחת מהן לדף אינטרנט מועיל. עכשיו דמיין פעילות זו ששוחקה מנקודת המבט של מנוע החיפוש. כל רגע, מיליוני שאילתות מגיעים מכל רחבי העולם, ואת הזרם הזה של שאילתות-מה Battelle (2006) כינה את "מסד הנתונים של כוונות" - מספק חלון מתעדכן כל הזמן בתודעה העולמית הקולקטיבית. עם זאת, הפיכת זרם זה של מידע לתוך מדידת השכיחות של השפעת קשה. כל שעליך לעשות הוא לספור את מספר השאילתות של "תרופות שפעת" לא יכול לעבוד טוב. לא כל אחד שיש לו את החיפושים שפעת לסעדי שפעת ולא כל מי למחפשים עבור תרופות שפעת יש שפעת.

הטריק החשוב וחכם מאחורי של Google Flu Trends היה להעלים בעיית מדידה לתוך בעית החיזוי. המרכז האמריקאי לבקרת מחלות ומניעתן (CDC) יש מערכת ניטור שפעת שאוספת מידע מרופא ברחבי הארץ. עם זאת, בעיה אחת עם מערכת ה- CDC זה יש פרש דיווח שבועות; הזמן שלוקח את הנתונים המגיעים מרופא כדי להתנקות, מעובד, ופורסם. אבל, בעת טיפול מגיפה מתעוררת, משרדי בריאות הציבור לא רוצים לדעת כמה שפעת הייתה לפני שבועות; הם רוצים לדעת כמה שפעת יש עכשיו. למעשה, הרבה מקורות מסורתיים אחרים של נתונים חברתיים, קיימים פערים בין גלי איסוף נתוני פיגורים בדיווח. רוב מקורות נתונים גדולים, מצד השני, הם תמיד-על (סעיף 2.3.1.2).

לכן, ג'רמי גינסברג ועמיתיו (2009) ניסו לחזות את נתוני שפעת CDC מנתוני החיפוש של Google. זוהי דוגמא של "חיזוי ההווה" כי החוקרים ניסו למדוד כמה שפעת יש עכשיו על ידי חיזוי נתונים עתידיים מן CDC, הנתונים עתידיים כי הוא מדידה בהווה. באמצעות למידת מכונה, הם חפשו דרך 50 מיליון מונחי חיפוש שונים כדי לראות אילו הם המנבאות הטובות ביותר של נתוני שפעת CDC. בסופו של דבר, הם מצאו קבוצה של 45 שאילתות שונות, ששמש ככל הנראה חזוי ביותר, והתוצאות היו די טובות: הם יכולים להשתמש בנתוני החיפוש לחזות את נתוני ה- CDC. בהתבסס בין היתר על מסמך זה, אשר פורסם בכתב עת Nature, Google Flu Trends הפך לסיפור הצלחה חזר פעמים רבות על כוחה של נתונים גדולים.

ישנן שתי נקודות חשובות ביחס הצלחה לכאורה זו, עם זאת, והבנת אזהרות אלו תעזורנה לך להעריך ולעשות חיזוי nowcasting. ראשית, את הביצועים של Google Flu Trends היה למעשה לא הרבה יותר טוב מאשר מודל פשוט מעריך את סכום שפעת מבוסס על אקסטרפולציה ליניארית משתי המדידות האחרונות ביותר של שכיחות שפעת (Goel et al. 2010) . וגם, על כמה תקופות זמן Google Flu Trends היה הרבה יותר גרוע מאשר גישה פשוטה זו (Lazer et al. 2014) . במילים אחרות, Google Flu Trends עם כל הנתונים שלה, למידת מכונה, ומחשוב עוצמה לא להכות באופן דרמטי פשוטה יותר קל להבין האוריסטי. הדבר מצביע על כך בעת הערכת כל תחזית או nowcast חשוב להשוואה מול בסיס.

האזהרה החשובה השנייה על של Google Flu Trends היא כי ביכולתה לחזות את נתוני שפעת CDC הייתה נוטה כישלון לטווח קצר וריקבון לטווח ארוך בגלל ההיסחפות מבלבלת אלגוריתמי. לדוגמה, במהלך מגמות 2009 שפעת החזירים פרוץ Google Flu דרמטי יתר העריכו את סכום שפעת, כנראה משום שאנשים נוטים לשנות התנהגות החיפוש שלהם בתגובה חששות כבדים של מגיפה עולמית (Cook et al. 2011; Olson et al. 2013) . בנוסף לבעיות לטווח קצר אלה, הביצועים רקובים בהדרגה לאורך זמן. אבחון סיבות ריקבון לטווח ארוך זה קשה כי את אלגוריתם החיפוש של Google הוא קניינים, אך נראה כי בשנת 2011 ערכת Google שינויים היכולה להעיד על מונחי חיפוש קשורים כאשר אנשים מחפשים סימפטומים כמו "קדחת" ו "שיעול" (זה גם נראה כי תכונה זו אינה פעילה יותר). הוספת תכונה זו היא דבר סביר לחלוטין לעשות אם אתה מפעיל עסק מנוע החיפוש, וזה היה אפקט של יצירת חיפושים קשורים בריאות יותר. זה היה כנראה הצלחה עבור העסק, אבל זה גרם Google Flu Trends יתר אומדן שכיחות שפעת (Lazer et al. 2014) .

למרבה המזל, בעיות אלה עם Google Flu Trends, ניתנות לתיקון. למעשה, בשיטות זהירות יותר, Lazer et al. (2014) ו Yang, Santillana, and Kou (2015) הצליח להשיג תוצאות טובות יותר. במבט קדימה, אני מצפה כי מחקרי nowcasting המשלבים נתונים גדולים עם חוקר אסף נתוני המשלבים readymades בסגנון דושאן עם מיכאלאנג'לו בסגנון Custommades-יאפשר לקובעי מדיניות לייצר מדידות מהר יותר ומדויק יותר של הווה תחזיות לעתיד.