חיזוי העתיד הוא קשה, אבל בניבוי הנוכחי הוא קל יותר.
החוקרים העיקריים השני אסטרטגיה יכולים להשתמש עם נתונים תצפיתי הוא חיזוי . ניבוי הניחושים לגבי העתיד הוא קשה לשמצה, ואולי משום כך, חיזוי אינו כיום חלק גדול ממחקר חברתי (אם כי הוא חלק קטן וחשוב של דמוגרפיה, כלכלה, אפידמיולוגיה ומדעי המדינה). עם זאת, כאן אני רוצה להתמקד בסוג מיוחד של חיזוי הנקרא " שידור עכשיו" - מונח הנגזר משילוב של "עכשיו" ו"חיזוי ". במקום לחזות את העתיד, הניסיונות הניסיוניים להשתמש ברעיונות מתחזיות כדי למדוד את המצב הנוכחי של העולם; הוא מנסה "לחזות את ההווה" (Choi and Varian 2012) . Newcasting יש פוטנציאל להיות שימושי במיוחד עבור ממשלות וחברות הדורשות אמצעים מדויקים בזמן אמת של העולם.
הגדרה אחת שבה הצורך המדידה בזמן מדויק היא ברורה מאוד אפידמיולוגיה. שקול את מקרה של שפעת ("שפעת"). מדי שנה, מגיפת שפעת עונתית גורמת למיליוני מחלות ומאות אלפי מקרי מוות ברחבי העולם. יתר על כן, בכל שנה, קיימת אפשרות כי צורה חדשה של שפעת יכול לצאת כי יהרוג מיליונים. התפרצות שפעת 1918, למשל, נאמדה בין 50 ל -100 מיליון בני אדם (Morens and Fauci 2007) . בגלל הצורך לעקוב אחר פוטנציאל התפרצויות שפעת, ממשלות ברחבי העולם יצרו מערכות מעקב שפעת. לדוגמה, המרכזים האמריקאים לבקרת מחלות ומניעתן (CDC) אוספים באופן שוטף ובאופן שיטתי מידע מרופאים שנבחרו בקפידה ברחבי הארץ. למרות מערכת זו מייצרת נתונים באיכות גבוהה, יש לו פיגור דיווח. כלומר, בגלל הזמן שנדרש לנתונים המגיעים מהרופאים לניקוי, לעיבוד ולפרסום, משחררת מערכת ה- CDC אומדנים לשפעת כמה שבועות לפני שבועיים. אבל כאשר מטפלים במגפה מתעוררת, אנשי בריאות הציבור אינם רוצים לדעת כמה שפעת הייתה לפני שבועיים; הם רוצים לדעת כמה שפעת יש כרגע.
יחד עם זאת, ה- CDC אוספת נתונים כדי לעקוב אחר שפעת, גוגל גם אוספת נתונים על שכיחות שפעת, אם כי בצורה שונה לגמרי. אנשים מרחבי העולם שולחים כל הזמן שאילתות ל- Google, וכמה משאלות אלה - כגון "תרופות נגד שפעת" ו"סימפטומים של שפעת "- מעידים על כך שהאדם שמבצע את השאילתה סובל משפעת. עם זאת, שימוש בשאילתות חיפוש אלה כדי להעריך את שכיחות שפעת הוא מסובך: לא כל מי שיש לו שפעת עושה חיפוש הקשורים שפעת, ולא כל חיפוש הקשורים שפעת הוא ממישהו שיש לו שפעת.
ג 'רמי גינסברג וצוות של עמיתים (2009) , כמה ב- Google וחלק ב- CDC, היה רעיון חשוב וחכם לשלב את שני מקורות הנתונים. בערך, באמצעות אלכימיה סטטיסטית, החוקרים שילבו את נתוני החיפוש המהירים והלא מדויקים עם נתוני ה- CDC האיטיים והמדויקים, על מנת לייצר מדידות מהירות ומדויקות של שכיחות שפעת. דרך נוספת לחשוב על זה היא שהם השתמשו בנתוני החיפוש כדי להאיץ את הנתונים CDC.
באופן ספציפי יותר, תוך שימוש בנתונים מ -2003 עד 2007, העריכו גינסברג ועמיתיו את הקשר בין שכיחות השפעת בשפעת ה- CDC לבין נפח החיפוש עבור 50 מיליון מונחים נפרדים. מתהליך זה, אשר היה מונע לחלוטין נתונים ולא נדרש ידע רפואי מיוחדים, החוקרים מצאו קבוצה של 45 שאילתות שונות, כי נראה מנבא ביותר של הנתונים שפעת CDC. לאחר מכן, תוך שימוש ביחסים שלמדו מנתוני 2003-2007, החוקרים בדקו את המודל שלהם במהלך עונת שפעת 2007-2008. הם מצאו כי ההליכים שלהם אכן יכול לעשות שימושי ומדויק עכשיו (איור 2.6). תוצאות אלו פורסמו בטבע וקיבלו סיקור עיתונאי מעריץ. פרויקט זה - שנקרא Google Flu Trends - הפך למשל חוזר על עצמו לעתים קרובות על כוחם של נתונים גדולים כדי לשנות את העולם.
עם זאת, סיפור הצלחה לכאורה זה הפך בסופו של דבר למבוכה. עם הזמן, החוקרים גילו שתי מגבלות חשובות שהופכות את Google Flu Trends למרשים פחות מכפי שנראה בתחילה. ראשית, הביצועים של Google Flu Trends לא היו טובים בהרבה מאלה של מודל פשוט, אשר מעריך את כמות השפעת בהתבסס על אקסטרפולציה ליניארית משתי המדידות האחרונות של שכיחות שפעת (Goel et al. 2010) . בנוסף, במשך תקופות זמן מסוימות, Google Flu Trends היה למעשה גרוע יותר מהגישה הפשוטה הזו (Lazer et al. 2014) . במילים אחרות, Google Flu Trends עם כל הנתונים, הלמידה של המחשב ומחשוב רב עוצמה לא הביאו לביצועים דרמטיים על היוריסטי פשוט וקל להבנה. זה מצביע על כך שכאשר מעריכים כל תחזית או נשד, חשוב להשוות לעומת הבסיס.
האזהרה החשובה השנייה על Google Flu Trends היא כי היכולת שלה לחזות את נתוני ה- CDC שפעת היה נוטה כישלון לטווח קצר ואת ריקבון לטווח ארוך בגלל נסחף ו בלבול אלגוריתמי . לדוגמה, במהלך התפרצות שפעת החזירים ב -2009 Google Flu Trends העריך בצורה דרמטית את כמות הנגיף, כנראה משום שאנשים נוטים לשנות את התנהגות החיפוש שלהם בתגובה לפחד נרחב ממגיפה עולמית (Cook et al. 2011; Olson et al. 2013) . בנוסף לבעיות קצרות אלה, ההופעה הלכה ופחתה עם הזמן. אבחון הסיבות לריקבון ארוך טווח זה קשה משום שאלגוריתמי החיפוש של Google הם קנייניים, אך נראה שב -2011 Google החלה להציע מונחי חיפוש קשורים כאשר אנשים מחפשים תסמינים של שפעת כמו "חום" ו"שיעול "(נראה שגם תכונה זו אינה פעילה עוד). הוספת תכונה זו היא דבר הגיוני לחלוטין לעשות אם אתה מפעיל מנוע חיפוש, אך לשינוי אלגוריתמי זה היתה השפעה של יצירת חיפושים הקשורים יותר לבריאות, שגרמו ל- Google Flu Trends להפריז בהערכת שכיחות השפעת (Lazer et al. 2014) .
שתי הסתייגויות אלה מסבכות את המאמצים לעתיד, אך הן אינן גורמות להן. למעשה, באמצעות שיטות זהירות יותר, Lazer et al. (2014) Yang, Santillana, and Kou (2015) הצליחו למנוע את שתי הבעיות הללו. בהמשך, אני מצפה כי מחקרים משלימים המשלבים מקורות נתונים גדולים עם נתונים שנאספו על ידי חוקר יאפשרו לחברות ולממשלות ליצור אומדנים מדויקים יותר ומדויקים יותר, על ידי האצת כל המדידה שנעשתה שוב ושוב לאורך זמן עם פיגור כלשהו. כמו כן, פרויקטים של שידורי טלוויזיה, כגון Google Flu Trends, מראים מה יכול לקרות אם מקורות נתונים גדולים משולבים בנתונים מסורתיים יותר שנוצרו למטרות מחקר. חשיבה לאחור על האנלוגיה האמנותית של פרק 1, היום יש את הפוטנציאל לשלב duchamp בסגנון readymades עם מנהגים בסגנון מיכלאנג 'לו על מנת לספק למקבלי החלטות עם מדידות בזמן מדויק יותר מדויק של ההווה ותחזיות של העתיד הקרוב.