פּרעדיקטינג די צוקונפֿט איז שווער, אָבער פּרידיקטינג די פאָרשטעלן איז גרינגער.
די רגע הויפּט סטראַטעגיע ריסערטשערז קענען נוצן מיט אָבסערוואַטיאָנאַל דאַטע איז פאָרקאַסטינג . מאכן געסיז וועגן דער צוקונפֿט איז נאָוטאָריאַסלי שווער, און טאָמער פֿאַר דעם סיבה, פאָרויסזאָגן איז נישט אַ גרויס טייל פון געזעלשאַפטלעך פאָרשונג (כאָטש עס איז אַ קליין און וויכטיק טייל פון דעמאָגראַפי, עקאָנאָמיק, עפּידעמיאָלאָגי און פּאָליטיש וויסנשאַפֿט). דאָ, אָבער, איך'ד ווי צו פאָקוס אויף אַ ספּעציעל מין פון פאָרקאַסטינג גערופן נאָוואַסטינג- אַ טערמין דערייווד פון קאַמביינינג "איצט" און "פאָרקאַסטינג." אלא ווי פּרידיקטינג די צוקונפֿט, נאָוואַסטינג פרווון צו נוצן געדאנקען פון פאָרקאַסטינג צו מעסטן די קראַנט שטאַט פון דער וועלט; עס פרוווט צו "פאָרויסזאָגן די פאָרשטעלן" (Choi and Varian 2012) . נאָוואַסטינג האט די פּאָטענציעל צו זיין ספּעציעל נוציק צו גאַדערינגז און קאָמפּאַניעס וואָס דאַרפן בייַצייַטיק און פּינטלעך מיטלען פון דער וועלט.
איינער באַשטעטיקן ווו די נויט פֿאַר בייַצייַטיק און פּינטלעך מעזשערמאַנט איז זייער קלאָר איז עפּידעמיאָלאָגי. באַטראַכטן דעם פאַל פון ינפלוענציע ("די פלו"). יעדער יאָר, סיזאַנאַל ינפלוענציע עפּידעמיקס גרונט מיליאַנז פון קראַנקייַט און הונדערטער פון טויזנטער פון דעטס אַרום די וועלט. ווייַטער, יעדער יאָר, עס איז אַ מעגלעכקייט אַז אַ ראָמאַן פאָרעם פון ינפלוענציע קען אַרויסקומען וואָס וואָלט טייטן מיליאַנז. די 1918 ינפלוענציע ויסברוך, פֿאַר בייַשפּיל, איז עסטימאַטעד צו האָבן געהרגעט צווישן 50 און 100 מיליאָן מענטשן (Morens and Fauci 2007) . ווייַל פון די דאַרפֿן צו שפּור און פּאַטענטשאַלי רעספּאָנד צו ינפלוענציע ויסברוך, רעגירונגס אַרום דער וועלט האָבן באשאפן ינפלוענזאַ סערוויילאַנס סיסטעמס. למשל, די יו. עס. סענטרעס פֿאַר דיסעאַסע קאָנטראָל און פּרעווענטיאָן (CDC) קעסיידער און סיסטאַמאַטיקאַללי קלייַבן אינפֿאָרמאַציע פון קערפאַלי אויסגעקליבן דאקטוירים אַרום די מדינה. כאָטש דעם סיסטעם טראגט הויך-קוואַליטעט דאַטן, עס האט אַ רעפּליקייטינג אָפּשטיי. דאָס איז, ווייַל פון די צייַט עס נעמט פֿאַר די דאַטן אָנקומען פון דאקטוירים צו זיין קלינד, פּראַסעסט און ארויס, די קדק סיסטעם ריליסיז עסטאַמאַץ פון ווי פיל פלו עס איז צוויי וואָכן צוריק. אָבער, ווען האַנדלינג אַן ימערדזשינג עפּידעמיע, עפנטלעך געזונט באאמטע טאָן נישט וועלן צו וויסן ווי פיל ינפלוענציע דאָרט איז געווען צוויי וואָכן צוריק; זיי ווילן צו וויסן ווי פיל ינפלוענזאַ עס איז רעכט איצט.
אין דער זעלביקער צייַט אַז די קדק איז קאַלעקטינג דאַטן צו שפּור ינפלוענציע, Google איז אויך קאַלעקטינג דאַטן וועגן ינפלוענציע פּרעוואַלאַנס, כאָטש אין אַ גאַנץ אַנדערש פאָרעם. מענטשן פון אַרום דער וועלט זענען קעסיידער שיקט קינסטלער צו Google, און עטלעכע פון די קוויריז - אַזאַ ווי "פלו רעמעדיעס" און "פלו סימפּטאָמס" -מאַכט אָנווייַזן אַז דער מענטש געמאכט די אָנפֿרעג האט די פלו. אבער, ניצן די זוכן קוויריז צו אָפּשאַצן די פלו פּרעוואַלאַנס איז טריקי: ניט אַלעמען וואָס די פלו מאכט אַ פלו-פֿאַרבונדענע זוכן, און ניט יעדער פלו זוכן זוכן איז פון עמעצער וואס האט די פלו.
דזשערעמי גינסבערג און אַ קאָלעקטיוו פון קאָלעגעס (2009) , עטלעכע בייַ Google און עטלעכע בייַ קדק, האט די וויכטיק און קלוג געדאַנק צו פאַרבינדן די צוויי דאַטן קוואלן. בעערעך, דורך אַ מין פון סטאַטיסטיש אַלטשעמי, די ריסערטשערז קאַמביינד די שנעל און ומפּינקטלעך זוכן דאַטן מיט די פּאַמעלעך און פּינטלעך קדק דאַטן אין סדר צו פּראָדוצירן שנעל און פּינטלעך מעזשערמאַנץ פון ינפלוענציע פּרעוואַלאַנס. אן אנדער וועג צו טראַכטן וועגן עס איז אַז זיי געניצט די זוכן דאַטן צו גיכקייַט אַרויף די קדק דאַטן.
מער ספּאַסיפיקלי, ניצן דאַטע פון 2003-2007, גינסבערג און חברים עסטימאַטעד די שייכות צווישן די פּרעוואַלאַנס פון ינפלוענציע אין די קדק דאַטן און די זוכן באַנד פֿאַר 50,000,000 פאַרשידענע ווערטער. פון דעם פּראָצעס, וואָס איז גאָר דאַטן-געטריבן און האט נישט דאַרפן ספּעשאַלייזד מעדיציניש וויסן, די ריסערטשערז געפונען אַ סכום פון 45 פאַרשידענע קוויריז וואָס סימפּאַטייז די מערסט פּרידיקטיוו פון די קדק פלו פּרעוואַלאַנס דאַטן. דערנאָך, ניצן די באציונגען וואָס זיי געלערנט פון די 2003-2007 דאַטע, גינסבערג און קאָללאַגעס טעסטעד זייער מאָדעל בעשאַס די 2007-2008 ינפלוענזאַ צייַט. זיי געפונען אַז זייער פּראָוסידזשערז קען טאַקע מאַכן נוצלעך און פּינטלעך נאָווקאַסץ (פיגורע 2.6). די רעזולטאַטן זענען פארעפנטלעכט אין נאַטור און באקומען אַדאָר דריקן קאַווערידזש. דעם פּרויעקט-וואָס איז גערופן Google Flu Trends-געווארן אַ אָפט-ריפּיטיד משל וועגן די מאַכט פון גרויס דאַטן צו טוישן די וועלט.
אָבער, דעם קלאָר הצלחה געשיכטע יווענטשאַוואַלי פארקערט אין אַ פאַרלעגנהייט. איבער צייט, ריסערטשערז האָבן דיסקאַווערד צוויי וויכטיק לימאַטיישאַנז וואָס מאַכן Google פלו טרענדס ווייניקער ימפּרעסיוו ווי עס ערשטער ארויס. ערשטער, דער פאָרשטעלונג פון Google פלו טרענדס איז פאקטיש ניט פיל בעסער ווי אַז פון אַ פּשוט מאָדעל אַז עסטימאַטעד די סומע פון פלו באזירט אויף אַ לינעאַר יקסטראַפּאַליישאַן פון די צוויי מערסט פריש מעזשערמאַנץ פון פלו פּרעוואַלאַנס (Goel et al. 2010) . און, איבער עטלעכע מאָל פּיריאַדז, Google Flu Trends איז פאקטיש ערגער ווי דעם פּשוט צוגאַנג (Lazer et al. 2014) . אין אנדערע ווערטער, Google פלו טרענדס מיט אַלע זייַן דאַטן, מאַשין לערנען, און שטאַרק קאַמפּיוטינג האט נישט דראַמאַטיקאַלי אָוטפּערפאָרמירן אַ פּשוט און גרינגער-צו-פאַרשטיין כיוריסטיק. דעם סאַגדזשעסץ אַז ווען עוואַלואַטינג קיין פאָרויסזאָגן אָדער סאַסטאַסט, עס איז וויכטיק צו פאַרגלייַכן קעגן אַ באַסעלינע.
די צווייטע וויכטיק קייוויאַט וועגן Google פלו טרענדס איז אַז זייַן פיייקייַט צו פאָרויסזאָגן די קדק פלו דאַטן איז געווען פּראָנע צו קורץ-טערמין דורכפאַל און לאַנג-טערמין פאַרהאַלטן ווייַל פון דריפט און אַלגערידאַמיק קאַנפאַונדינג . למשל, אין די 2009 Swine Flu outbreak Google Flu Trends דראַמאַטיקאַלי אָוווערעסטאַמייז די סומע פון ינפלוענציע, מיסטאָמע ווייַל מענטשן טענד צו טוישן זייער זוכן נאַטור אין ענטפער צו וויידספּרעד מורא פון אַ גלאבאלע פּאַנדעמיק (Cook et al. 2011; Olson et al. 2013) . אין דערצו צו די קורץ-טערמין פּראָבלעמס, די פאָרשטעלונג ביסלעכווייַז פאַרפוילט איבער צייַט. דיאַגנאָסינג די סיבות פֿאַר דעם לאַנג-טערמין פאַרפוילן זענען שווער ווייַל די Google זוכן אַלגערידאַמז זענען פּראַפּרייאַטערי, אָבער עס איז געווען אַז אין 2011 גוגל אנגעהויבן סאַגדזשינג שייַכות זוכן טערמינען ווען מענטשן זוכן פֿאַר פלו סימפּטאָמס ווי "היץ" און "הוסט" (עס אויך ויסקומען דעם שטריך איז ניט מער אַקטיוו). אַדדינג דעם שטריך איז אַ טאָוטאַלי גלייַך זאַך צו טאָן אויב איר זוכט אַ זוכן מאָטאָר, אָבער דעם אַלגערידאַמיק ענדערונג האט די ווירקונג פון דזשענערייטינג מער געזונט-פֿאַרבונדענע זוכןז וואָס געפֿירט Google פלו טרענדס צו אָוווערעסטאַמייט פלו פּרעוואַלאַנס (Lazer et al. 2014) .
די צוויי קאַוועאַץ קאָמפּליקירן די צוקונפֿט נייַקאַסטינג השתדלות, אָבער זיי טאָן ניט פאַרמאָגן זיי. אין פאַקט, דורך ניצן מער אָפּגעהיט מעטהאָדס, Lazer et al. (2014) און Yang, Santillana, and Kou (2015) זענען ביכולת צו ויסמייַדן די צוויי פראבלעמען. איך האָב פאָרויס, איך וואַרטן אַז סיסקאַסט סטודענטן וואָס פאַרבינדן גרויס דאַטן קוואלן מיט פאָרשער-געזאמלט דאַטן וועט געבן קאָמפּאַניעס און גאַווערנמאַנץ צו מאַכן מער בייַצייַטיק און מער פּינטלעך עסטאַמאַץ דורך יסענשאַלי גיכקייַט אַרויף קיין מעזשערמאַנט וואָס איז געמאכט ריפּיטידלי איבער צייַט מיט עטלעכע אָפּשטיי. נייקאַסטינג פראיעקטן אַזאַ ווי Google Flu Trends אויך ווייַזן וואָס קען פּאַסירן אויב גרויס דאַטן קוואלן זענען קאַמביינד מיט מער טראדיציאנעלן דאַטן וואָס זענען באשאפן פֿאַר די צוועקן פון פאָרשונג. אין דער צוקונפט פון דער קונסט אַנאַלאַדזשי פון קאַפּיטל 1, איצטקאָלדינג האט די פּאָטענציעל צו פאַרבינדן דאָוטשאַמפּ-נוסח גרייטמאַדעס מיט מיטשעלאַנגעלאָ-נוסח קוסטאָממאַדעס צו צושטעלן באַשלוסע מייקערז מיט מער בייַצייַטיק און מער פּינטלעך מעזשערמאַנץ פון די פאָרשטעלן און די פאָרויסזאָגן פון דעם לעבן צוקונפֿט.