א פאָרשער געניצט גרויס דאַטן פון טאַקסי מעטער צו לערנען באַשלוס-געמאכט פון טאַקסי דריווערס אין ניו יארק. די דאַטן איז געזונט סוטאַד פֿאַר דעם פאָרשונג.
איין בייַשפּיל פון די פּשוט מאַכט פון קאַונטינג די רעכט זאַך קומט פֿון הענרי פאַרבער ס (2015) לערנען פון די נאַטור פון ניו יארק סיטי טאַקסי דריווערס. כאָטש דעם גרופּע זאל ניט געזונט ינכעראַנטלי טשיקאַווע עס איז אַ סטראַטידזשיק פאָרשונג פּלאַץ פֿאַר טעסטינג צוויי קאַמפּיטינג טיעריז אין אַרבעט עקאָנאָמיק. פֿאַר די צוועקן פון פאַרבער ס פאָרשונג, עס זענען צוויי וויכטיק פֿעיִקייטן וועגן די ווערק סוויווע פון טאַקסי דריווערס: 1) זייער אַורלי לוין פלוקטואַטעס פון טאָג-צו-טאָג, באזירט אין טייל אויף סיבות ווי די וועטער און 2) די נומער פון שעה זיי אַרבעט קענען וואַקלענ זיך יעדער טאָג באזירט אויף די שאָפער 'ס דיסיזשאַנז. די פֿעיִקייטן פירן צו אַ טשיקאַווע קשיא וועגן דעם שייכות צווישן אַורלי לוין און שעה געארבעט. ניאָוקלאַסיקאַל מאָדעלס אין עקאָנאָמיק פאָרויסזאָגן אַז טאַקסי דריווערס וואָלט אַרבעט מער אויף טעג ווו זיי האָבן העכער אַורלי לוין. אַלטערנאַטיוועלי, מאָדעלס פון ביכייוויעראַל עקאָנאָמיק פאָרויסזאָגן פּונקט די פאַרקערט. אויב דריווערס שטעלן אַ באַזונדער האַכנאָסע ציל-זאָגן $ 100 פּער טאָג, און אַרבעטן ביז אַז ציל איז באגעגנט, דעמאָלט דריווערס וואָלט סוף אַרויף ארבעטן ווייניקערע שעה אויף טעג אַז זיי זענען ערנינג מער. לעמאָשל, אויב איר געווען אַ ציל ערנער, איר זאל סוף אַרויף ארבעטן 4 שעה אויף אַ גוט טאָג ($ 25 פּער שעה) און 5 שעה אויף אַ שלעכט טאָג (20 $ פּער שעה). אַזוי, טאָן דריווערס אַרבעט מער שעה אויף טעג מיט העכער אַורלי לוין (ווי פּרעדיקטעד דורך די ניאָוקלאַסיקאַל מאָדעלס) אָדער מער שעה אויף טעג מיט נידעריקער אַורלי לוין (ווי פּרעדיקטעד דורך ביכייוויעראַל עקאָנאָמיש מאָדעלס)?
צו ענטפֿערן דעם קשיא פאַרבער באקומען דאַטן אויף יעדער טאַקסי יאַזדע גענומען דורך ניו יארק סיטי קאַבז פראָם 2009 - 2013, דאַטן וואס זענען איצט פּובליקלי בנימצא . דאס דאַטן-וואָס איז געזאמלט דורך עלעקטראָניש מעטער אַז די שטאָט ריקווייערז טאַקסיס צו נוצן-כולל עטלעכע ברעקלעך פון אינפֿאָרמאַציע פֿאַר יעדער יאַזדע: אָנהייבן צייַט, אָנהייב אָרט, סוף צייַט, סוף אָרט, אָפּצאָל, און שפּיץ (אויב די שפּיץ איז געווען באַצאָלט מיט אַ קרעדיט קארטל). אין גאַנץ, פאַרבער ס דאַטן קאַנטיינד אינפֿאָרמאַציע אויף בעערעך 900,000,000 טריפּס גענומען בעשאַס בעערעך 40 מיליאָן שיפץ (אַ יבעררוק איז בעערעך איין טאָג ס 'אַרבעט פֿאַר איין שאָפער). אין פאַקט, עס איז געווען אַזוי פיל דאַטן, אַז פאַרבער נאָר געניצט אַ ראַנדאָם מוסטער פון עס פֿאַר זייַן אַנאַליסיס. ניצן דעם טאַקסי מעטער דאַטן, פאַרבער געפֿונען אַז רובֿ דריווערס אַרבעט מער אויף טעג ווען לוין זענען העכער, קאָנסיסטענט מיט די ניאָוקלאַסיקאַל טעאָריע. אין דערצו צו דעם הויפּט דערגייונג, פאַרבער איז געווען ביכולת צו לעווערידזש די גרייס פון די דאַטן פֿאַר אַ בעסער ונדערסטאַנדינג פון העטעראָגענעיטי און דינאַמיק. פאַרבער אויס אַז איבער צייַט Newer דריווערס ביסלעכווייַז לערנען צו אַרבעטן מער שעה אויף הויך לוין טעג (למשל, זיי לערנען צו ביכייוו ווי די ניאָוקלאַסיקאַל מאָדעלס פּרידיקס). און, נייַ דריווערס וואס ביכייוו מער ווי ציל עאַרנערס זענען מער מסתּמא צו פאַרלאָזן ווייל אַ טאַקסי שאָפער. ביידע פון די מער סאַטאַל פינדינגס, וואָס העלפן דערקלערן די באמערקט אָפּפירונג פון איצטיקן דריווערס, זענען נאָר מעגלעך ווייַל פון די גרייס פון דער דאַטאַסעט. זיי וואָלט האָבן שוין אוממעגלעך צו דיטעקט אין פריער שטודיום אַז געניצט פּאַפּיר יאַזדע שיץ פון אַ קליין נומער פון טאַקסי דריווערס איבער אַ קליין פּעריאָד פון צייַט (למשל, Camerer et al. (1997) ).
פאַרבער ס לערנען איז געווען נאָענט צו אַ בעסטער-פאַל פֿאַר אַ לערנען ניצן גרויס דאַטן. ערשטער, די דאַטן זענען נישט גויים-רעפּריזענאַטיוו ווייַל די שטאָט required דריווערס צו נוצן דיגיטאַל מעטער. און, די דאַטן זענען נישט דערענדיקט ווייַל די דאַטן וואָס איז געזאמלט דורך די שטאָט איז געווען שיין נאָענט צו די דאַטן אַז פאַרבער וואָלט האָבן געזאמלט אויב ער האט די ברירה (איין חילוק איז אַז פאַרבער וואָלט האָבן געוואלט דאַטע אויף גאַנץ געהאַלט-Fares פּלוס טיפּס- אָבער די שטאָט דאַטן בלויז ינקלודעד טרינקגעלט באַצאָלט דורך קרעדיט קאָרט). דער שליסל צו פאַרבער ס פאָרשונג איז קאַמביינינג אַ גוט קשיא מיט גוט דאַטן. די דאַטע אַליין זענען נישט גענוג.