מיר קענען אַפּפּראָקסימאַטע יקספּעראַמאַנץ אַז מיר האָבן נישט אָדער קען נישט טאָן. צוויי אַפּערטונאַטיז אַז ספּעציעל נוץ פון גרויס דאַטן קוואלן זענען נאַטירלעך יקספּעראַמאַנץ און וואָס ריכטן זיך.
עטלעכע וויכטיק וויסנשאפטלעכע און פּאָליטיק פראגעס זענען קאַוסאַל. פֿאַר בייַשפּיל, וואָס איז די ווירקונג פון אַ אַרבעט טריינינג פּראָגראַם אויף לוין? א פאָרשער וואָס האָט געפרוווט צו ענטפערן דעם קשיא קען פאַרגלייַכן די פאַרדינסט פון מענטשן וואס זענען פארבונדן פֿאַר טריינינג צו די וואס האבן ניט. אבער ווי פיל פון קיין חילוק אין לוין צווישן די גרופּעס איז ווייַל פון די טריינינג און ווי פיל איז ווייַל פון פּריקקסיסטינג דיפעראַנסיז צווישן די מענטשן וואָס צייכן אַרויף און די וואָס טאָן ניט? דאָס איז אַ שווערע פראגע, און עס איז איין וואָס טוט נישט אויטאָמאַטיש גיין אַוועק מיט מער דאַטן. אין אנדערע ווערטער, די דייַגע וועגן מעגלעך פּרירעקסיסטינג דיפעראַנסיז ערייזאַז קיין ענין ווי פילע טוערס זענען אין דיין דאַטן.
אין פילע סיטואַטיאָנס, די סטראָנגעסט וועג צו אָפּשאַצן די קאַוסאַל ווירקונג פון עטלעכע באַהאַנדלונג, אַזאַ ווי אַרבעט טריינינג, איז צו לויפן אַ ראַנדאַמייזד קאַנטראָולד עקספּערימענט ווו אַ פאָרשער ראַנדאַמלי דיליווערז די באַהאַנדלונג צו עטלעכע מענטשן און ניט אנדערע. איך וועל אָפּגעבן אַלע טשאַפּטער 4 צו יקספּעראַמאַנץ, אַזוי דאָ איך בין געגאנגען צו פאָקוס אויף צוויי סטראַטעגיעס אַז קענען זיין געוויינט מיט ניט-יקספּערמענאַל דאַטן. דער ערשטער סטראַטעגיע דעפּענדס אויף איר זוכט פֿאַר עפּעס געשעעניש אין דער וועלט אַז ראַנדאַמלי (אָדער קימאַט ראַנדאַמלי) אַסיינז די באַהאַנדלונג צו עטלעכע מענטשן און נישט אנדערע. די רגע סטראַטעגיע דעפּענדס אויף סטאַטיסטיש אַדזשאַסטינג ניט-יקספּערמענאַל דאַטן אין אַן פּרווון צו אַקאַונץ פֿאַר פּריעקיסטינג דיפעראַנסיז צווישן די וואס האבן און טאָן נישט באַקומען די באַהאַנדלונג.
א סקעפּטיקער קען פאָדערן אַז ביידע פון די סטראַטעגיעס זאָל זיין אַוווידאַד ווייַל זיי דאַרפן שטאַרק אַסאַמפּשאַנז, אַסאַמפּשאַנז אַז זענען שווער צו אַססעסס און אַז, אין פיר, זענען אָפט ווייאַלייטיד. בשעת איך בין סימפּאַטעטיק צו דעם פאָדערן, איך טראַכטן עס גייט אַ ביסל צו ווייַט. עס איז אַוואַדע אמת אַז עס איז שווער צו רילייאַבלי מאַכן קאַוסאַל עסטאַמאַץ פון ניט-יקספּערמענאַל דאַטע, אָבער איך טאָן נישט טראַכטן אַז מיטל אַז מיר זאָל קיינמאָל פּרובירן. אין באַזונדער, ניט-יקספּערמענאַל אַפּערטונאַטיז קענען זיין נוציק אויב לאָגיסטיק קאַנסטריינץ פאַרמייַדן איר פון קאַנדאַקטינג אַן עקספּערימענט אָדער אויב עטישע קאַנסטריינץ מיינען אַז איר טאָן נישט וועלן צו לויפן אַ עקספּערימענט. ווייַטער, ניט-יקספּערמענאַל אַפּערטונאַטיז קענען זיין נוציק אויב איר ווילן צו נוצן די דאַטן וואָס שוין עקסיסטירן אין סדר צו פּלאַן אַ ראַנדאַמייזד קאַנטראָולד עקספּערימענט.
איידער פּראַסידינג, עס איז אויך ווערט באמערקן אַז געמאכט קאַוסאַל עסטאַמאַץ איז איינער פון די מערסט קאָמפּליצירט טעמעס אין געזעלשאַפטלעך פאָרשונג, און איינער וואָס קענען פירן צו טיף און עמאָציאָנעל דעבאַטע. אין וואָס גייט, איך וועל צושטעלן אַן אָפּטימיסטיש באַשרייַבונג פון יעדער צוגאַנג אין סדר צו בויען ינטוישאַן וועגן אים, דעמאָלט איך וועל דיסקרייבד עטלעכע פון די טשאַלאַנדזשיז אַז אויפשטיין ווען ניצן דעם צוגאַנג. ווייַטערדיקע פרטים וועגן יעדער צוגאַנג זענען בנימצא אין די מאַטעריאַלס אין די סוף פון דעם קאַפּיטל. אויב איר פּלאַן צו נוצן איינער פון די אַפּערטונאַטיז אין דיין אייגן פאָרשונג, איך העכסט רעקאָמענדירן צו לייענען איינער פון די פילע ויסגעצייכנט ספרים אויף קאַוסאַל ינפעראַנס (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
איין צוגאַנג צו מאַכן קאַוסאַל עסטאַמאַץ פון ניט-יקספּערמענאַל דאַטן איז צו קוקן פֿאַר אַ געשעעניש וואָס ראַנדאַמלי אַסיינד אַ באַהאַנדלונג צו עטלעכע מענטשן און ניט צו אנדערע. די סיטואַטיאָנס זענען גערופן נאַטירלעך יקספּעראַמאַנץ . איינער פון די קלאָרסטע ביישפילן פון אַ נאַטירלעך עקספּערימענט קומט פון דער פאָרשונג פון יהושע אַנגעריסט (1990) מעסטן די ווירקונג פון מיליטעריש באַדינונגען אויף פאַרדינסט. בעשאַס די מלחמה אין וויעטנאַם, די פאַרייניקטע שטאַטן געוואקסן די גרייס פון זייַן אַרמד פאָרסעס דורך אַ פּלאַן. אין סדר צו באַשליסן וואָס בירגערס זאָל זיין גערופן אין דינסט, די יו. עס. רעגירונג געהאלטן אַ לאָטעריע. יעדער געבורט טאָג איז געשריבן אויף אַ שטיק פון פּאַפּיר, און, ווי געוויזן אין פיגורע 2.7, די ברעקלעך פון פּאַפּיר זענען אויסגעקליבן איינער אין אַ צייַט צו באַשטימען דעם סדר וואָס יונגע מענטשן וואָלט גערופן ווערן צו דינען צו דער פּלאַן). באַזירט אויף די רעזולטאַטן, מענטשן געבוירן אויף 14 סעפטעמבער זענען גערופן ערשטער, מענטשן געבוירן אויף אפריל 24 זענען גערופן רגע, און אַזוי אויף. לעסאָף, אין דעם לאָטעריע, מענטשן געבוירן אויף 195 פאַרשידענע טעג זענען דראַפטיד, בשעת מענטשן געבוירן אויף 171 טעג זענען נישט.
כאָטש עס קען ניט זיין מיד קלאָר, אַ פּלאַן לאָטעריע האט אַ קריטיש ענלעכקייַט צו אַ ראַנדאַמייזד קאַנטראָולד עקספּערימענט: אין ביידע סיטואַטיאָנס, פּאַרטיסאַפּאַנץ זענען ראַנדאַמלי אַסיינד צו באַקומען אַ באַהאַנדלונג. אין סדר צו לערנען די ווירקונג פון דעם ראַנדאַמייזד באַהאַנדלונג, אַנגריסט גענומען נוצן פון אַ שטענדיק-אויף גרויס דאַטע סיסטעם: די יו. עס. סאציאל סעקוריטי אַדמיניסטראַטיאָן, וואָס קאַלעקץ אינפֿאָרמאַציע אויף כמעט יעדער אמעריקאנער ס פאַרדינסט פון באַשעפטיקונג. דורך קאַמביינינג די אינפֿאָרמאַציע וועגן וואס איז געווען ראַנדאַמלי אויסגעקליבן אין דער פּלאַן לאָטעריע מיט די פאַרדינסט דאַטן וואָס איז געזאמלט אין רעגיאָנאַל אַדמיניסטראַטיווע רעקאָרדס, אַנגריסט געפונען אַז די פאַרדינסט פון וועטעראַנס זענען וועגן 15% ווייניקער ווי די פאַרדינסט פון פאַרגלייַכלעך ניט-וועטעראַנס.
ווי דעם בייַשפּיל ילאַסטרייץ, מאל סאציאלע, פּאָליטיש, אָדער נאַטירלעך פאָרסעס שטעלן טריטמאַנץ אין אַ וועג וואָס קענען זיין לעווערידזשד דורך ריסערטשערז, און מאל די יפעקס פון די טריטמאַנץ זענען קאַפּטשערד אין שטענדיק-אויף גרויס דאַטן קוואלן. דעם פאָרשונג סטראַטעגיע קענען זיין סאַמערייזד ווי: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
צו אילוסטרירן דעם סטראַטעגיע אין די דיגיטאַל עלטער, לאָזן מיר באַטראַכטן אַ לערנען דורך אַלעקסאַנדרע מאַס און ענריקאָ מאָרעטטי (2009) וואָס געפרוווט צו אָפּשאַצן די ווירקונג פון ארבעטן מיט פּראָדוקטיוו קאָלעקטיווס אויף אַ פּראַפעשאַנאַל אַרבעטער. איידער געזען די רעזולטאַטן, עס איז ווערט ווייַזן אַז עס זענען קאַנפליקטינג עקספּעקטיישאַנז אַז איר זאלט האָבן. אויף דעם איין, איר קען דערוואַרטן אַז ארבעטן מיט פּראָדוקטיוו קאָללאַריעס וואָלט פירן אַ אַרבעטער צו פאַרגרעסערן איר פּראָודאַקטיוואַטי ווייַל פון ייַנקוקנ דרוק. אָדער, אויף די אנדערע האַנט, איר זאלן דערוואַרטן אַז מיט שווער-ארבעטן פּירז קען פירן אַ אַרבעטער צו לויז אַוועק ווייַל די אַרבעט וועט זיין געטאן דורך איר פּערז. דער קליריסט וועג צו לערנען ייַנקוקן ווירקונג אויף פּראָודאַקטיוואַטי וואָלט זיין אַ ראַנדאַמייזד קאַנטראָולד עקספּערימענט וווערס זענען ראַנדאַמלי אַסיינד צו שיפץ מיט טוערס פון פאַרשידענע פּראָודאַקטיוויטי לעוועלס און דעריבער די ריזאַלטינג פּראָודאַקטיוויטי איז געמאסטן פֿאַר אַלעמען. די ריסערטשערז, אָבער, טאָן ניט קאָנטראָלירן די פּלאַן פון טוערס אין קיין פאַקטיש געשעפט, און אַזוי מאַס און מאָרעטטי האט צו פאַרלאָזנ אויף אַ נאַטירלעך עקספּערימענט ינוואַלווינג קאַשירז בייַ אַ סופּערמאַרק.
אין דעם באַזונדער סופּערמאַרק, ווייַל פון די וועג וואָס סקעדזשולינג איז געשען און די וועג וואָס שיפט אָוווערלאַפּט, יעדער קאַסירער האט פאַרשידענע קאָ-טוערס בייַ פאַרשידענע צייט פון טאָג. ווייַטער, אין דעם באַזונדער סופּערמאַרק, די אַסיינמאַנט פון קאַשירז איז געווען נישט פארלייכטערט צו די פּראָודאַקטיוויטי פון זייער פּירז אָדער ווי פאַרנומען די קראָם איז געווען. אין אנדערע ווערטער, כאָטש די סקעדזשולינג פון קאַשירז איז נישט באשלאסן דורך אַ לאָטעריע, עס איז געווען ווי אויב טוערס זענען מאל ראַנדאַמלי אַסיינד צו אַרבעטן מיט הויך (אָדער נידעריק) פּראָודאַקטיוויטי פּירז. גליק, דעם סופּערמאַרק אויך האט אַ דיגיטאַל-עלטער ויסשרייַבן סיסטעם אַז טראַקינג די ייטאַמז אַז יעדער קאַסירער איז סקאַנינג בייַ אַלע מאל. פון דעם ויסשרייַבן לאָג דאַטע, מאַס און מאָרעטטי זענען ביכולת צו שאַפֿן אַ פּינטלעך, יחיד, און שטענדיק-אויף מאָס פון פּראָודאַקטיוויטי: די נומער פון זאכן סקאַנד פּער סעקונדע. די קאַמביינינג די צוויי זאכן - די געוויינטלעך געשעעניש ווערייישאַן אין פּירי פּראָודאַקטיוואַטי און די שטענדיק-אויף מאָס פון פּראָודאַקטיוואַטי-מאַס און מאָרעטי עסטימאַטעד אַז אויב אַ קאַסירער איז אַסיינד גלויבנס-טוערס וואָס זענען 10% מער פּראָדוקטיוו ווי דורכשניטלעך, איר פּראָודאַקטיוויטי וואָלט פאַרגרעסערן דורך 1.5% . צום ביישפּיל, זיי האָבן גענוצט די גרייס און רייכנז פון זייערע דאַטן צו געפֿינען צוויי וויכטיק ישוז: די העטעראָגענעיטעט פון דעם ווירקונג (פֿאַר וועלכע ווערק פון טוערס איז די ווירקונג גרעסער?) און די מעקאַניזאַמז הינטער די ווירקונג (פארוואס בעת הויך-פּראָודאַקטיוויטי פּירז פירן צו העכער פּראָדוקטיוויטי?). מיר וועלן צוריקקומען צו די צוויי וויכטיק ישוז-העטעראָגענעיטי פון באַהאַנדלונג יפעקס און מעקאַניזאַמז - אין פּרק 4 ווען מיר דיסקוטירן יקספּעראַמאַנץ אין מער דעטאַל.
אין אַלגעמיין פון די צוויי שטודיום, טיש 2.3 סאַמערייז אנדערע שטודיום וואָס האָבן די זעלבע סטרוקטור: ניצן אַ שטענדיק-אויף דאַטן מקור צו מעסטן די ווירקונג פון עטלעכע טראַפיק ווערייישאַן. אין פיר, ריסערטשערז נוצן צוויי פאַרשידענע סטראַטעגיעס פֿאַר געפונען נאַטירלעך יקספּעראַמאַנץ, ביידע וואָס קענען זיין פרוכטיק. עטלעכע ריסערטשערז אָנהייבן מיט אַ שטענדיק-אויף דאַטן מקור און קוקן פֿאַר טראַפ - געשעענישן אין דער וועלט; אנדערע אָנהייבן אַ טראַפ - געשעעניש אין דער וועלט און קוק פֿאַר דאַטן קוואלן אַז כאַפּן זייַן פּראַל.
Substantive focus | מקור פון נאַטירלעך עקספּערימענט | שטענדיק-אויף דאַטן מקור | Reference |
---|---|---|---|
אָפט ווירקונג אויף פּראָודאַקטיוואַטי | Scheduling process | ויסשרייַבן דאַטן | Mas and Moretti (2009) |
פרייַנדשאַפט פאָרמירונג | Hurricanes | פאַסעבאָאָק | Phan and Airoldi (2015) |
פאַרשפּרייטן פון ימאָושאַנז | Rain | פאַסעבאָאָק | Lorenzo Coviello et al. (2014) |
ייַנטיילונג עקאָנאָמיש טראַנספערס | Earthquake | מאָביל געלט דאַטן | Blumenstock, Fafchamps, and Eagle (2011) |
פערזענלעכע קאַנסאַמשאַן נאַטור | 2013 יו. עס. רעגירונג שאַטדאַון | פערזענלעכע פינאַנצן דאַטן | Baker and Yannelis (2015) |
עקאָנאָמיש פּראַל פון רעקאַמענדז סיסטעמס | פאַרשידן | Browsing data at Amazon | Sharma, Hofman, and Watts (2015) |
ווירקונג פון אַנסטייבאַל בייביז | 2006 ישראל-העזבאָללאַה מלחמה | געבורט רעקאָרדס | Torche and Shwed (2015) |
לייענען נאַטור אויף וויקיפּעדיע | Snowden revelations | Wikipedia logs | Penney (2016) |
אָפט ווירקונג אויף געניטונג | Weather | טויגיקייַט טראַקערז | Aral and Nicolaides (2017) |
אין די דיסקוסיע אַזוי ווייַט וועגן נאַטירלעך יקספּעראַמאַנץ, איך ווע לינקס אויס אַ וויכטיק פונט: געגאנגען פון וואָס נאַטור האט צוגעשטעלט צו וואָס איר ווילן קענען מאל זיין גאַנץ טריקי. זאל ס צוריקקומען צו די וויעטנאַם פּלאַן בייַשפּיל. אין דעם פאַל, אַנגריסט איז געווען אינטערעסירט אין די אָפּשאַצן די ווירקונג פון מיליטער דינסט אויף פאַרדינסט. צום באַדויערן, מיליטעריש דינסט איז נישט ראַנדאַמלי אַסיינד; אלא עס איז געווען קאַנסאַלד וואָס איז געווען ראַנדאַמלי אַסיינד. אָבער, ניט אַלעמען וואס איז דיזיינד געדינט (דאָרט געווען אַ פאַרשיידנקייַט פון יגזעמשאַנז), און ניט אַלעמען וואס געדינט איז געווען געצווונגען (מען קען פרייַוויליקער צו דינען). ווייַל זייַענדיק דראַפּט איז ראַנדאַמלי אַסיינד, אַ פאָרשער קענען אָפּשאַצן די ווירקונג פון זייַענדיק דראַפטיד פֿאַר אַלע מענטשן אין די פּלאַן. אָבער אַנגריסט האט נישט וועלן צו וויסן די ווירקונג פון זייַענדיק דראַפטיד; ער געוואלט צו וויסן די ווירקונג פון דינען אין די מיליטעריש. צו מאַכן דעם אָפּשאַצונג, אָבער, נאָך אַסאַמפּשאַנז און קאַמפּלאַקיישאַנז זענען פארלאנגט. ערשטער, ריסערטשערז דאַרפֿן צו יבערמאַכן אַז די בלויז וועג וואָס מען דראַפטיד ימפּאָוזד פאַרדינסט איז דורך מיליטער דינסט, אַ האַשאָרע גערופן די יקסקלוזשאַן ריסטריקשאַן . דעם סיבה קען זיין אומרעכט אויב, למשל, מענטשן וואס האבן אויסגעדרייט סטייד אין שול מער אין סדר צו ויסמייַדן דינען אָדער אויב עמפּלויערס זענען ווייניקער מסתּמא צו דינגען די מענטשן וואס זענען אינטערעסירט. אין אַלגעמיין, די יקסקלוזשאַן ריסטריקשאַן איז אַ קריטיש האַשאָרע, און עס איז יוזשאַוואַלי שווער צו באַשטעטיקן. אפילו אויב די יקסקלוזשאַן ריסטריקשאַן איז ריכטיק, עס איז נאָך אוממעגלעך צו אָפּשאַצן די ווירקונג פון דינסט אויף אַלע מענטשן. אַנשטאָט, עס טורנס אויס אַז פאָרשער קענען נאָר אָפּשאַצן די ווירקונג אויף אַ ספּעציפיש סובסעט פון מענטשן גערופן קאָמפּליערערס (מענטשן וואס וואָלט דינען ווען דראַפטיד, אָבער וואָלט נישט דינען ווען ניט דראַפטיד) (Angrist, Imbens, and Rubin 1996) . קאָמפּליקערס, אָבער, זענען נישט די אָריגינעל באַפעלקערונג פון אינטערעס. באַמערקונג אַז די פּראָבלעמס אויפשטיין אַפֿילו אין די לעפיערעך ריין פאַל פון די לאָטעריע פּלאַן. א ווייַטער גאַנג פון קאַמפּלאַקיישאַנז אויפשטיין ווען די באַהאַנדלונג איז נישט אַסיינד דורך אַ גשמיות לאָטעריע. פֿאַר בייַשפּיל, אין מאַס און מאָרעטטי לערנען פון קאַשירז, נאָך פראגעס אויפשטיין וועגן די האַשאָרע אַז די אַסיינמאַנט פון פּירז איז יסענשאַלי טראַפ. אויב דאָס האַשאָרע איז שטארק ווייאַלייטיד, עס קען פאַרשאַפן זייער אָפּשאַצן. צו פאַרענדיקן, נאַטירלעך יקספּעראַמאַנץ קענען זיין אַ שטאַרק סטראַטעגיע צו מאַכן קאַוסאַל עסטאַמאַץ פון ניט-יקספּערמענאַל דאַטן, און גרויס דאַטן קוואלן פאַרגרעסערן אונדזער פיייקייַט צו קאַפּיטאַלייז אויף נאַטירלעך יקספּעראַמאַנץ ווען זיי פּאַסירן. אָבער, עס וועט מיסטאָמע דאַרפן גרויס זאָרג, און מאל שטאַרק אַסאַמפּשאַנז-צו גיין פון וואָס נאַטור האט צוגעשטעלט צו די אָפּשאַצונג אַז איר ווילט.
די רגע סטראַטעגיע איך וואָלט ווי צו דערציילן איר וועגן צו מאַכן קאַוסאַל עסטאַמאַץ פון ניט-יקספּערמענאַל דאַטן דעפּענדס אויף סטאַטיסטיקאַלי אַדזשאַסטינג ניט-יקספּערמענאַל דאַטן אין אַ פּרווון צו אַקאַונץ פֿאַר פּריעקיסטינג דיפעראַנסיז צווישן די וואס האבן און טאָן נישט באַקומען די באַהאַנדלונג. עס זענען פילע אַזאַ אַדזשאַסטמאַנט אַפּראָוטשיז, אָבער איך וועט פאָקוס אויף איינער גערופן ריכטן . אין גלייַכן, די פאָרשער קוקט דורך ניט-יקספּערמענאַל דאַטן צו מאַכן פּערז פון מענטשן וואָס זענען ענלעך כאָטש אַז מען האט באקומען די באַהאַנדלונג און מען האט נישט. אין דעם פּראָצעס פון וואָס ריכטן, ריסערטשערז זענען אַקשלי אויך פּרונינג ; אַז איז, דיסקאַרדינג קאַסעס ווו עס זענען ניט קלאָר ווי דער טאָג גלייַכן. אזוי, דעם אופֿן וואָלט זיין מער אַקיעראַטלי גערופן גלייַכן-און-פּרונינג, אָבער איך וועט שטעקן מיט דעם טראדיציאנעלן טערמין: וואָס ריכטן.
איין בייַשפּיל פון די מאַכט פון וואָס ריכטן סטראַטעגיעס מיט מאַסיוו ניט-יקספּערמענאַל דאַטן קוואלן קומט פון פאָרשונג אויף קאַנסומער נאַטור פון ליראַן יונאַוו און קאָאָלאַגעס (2015) . זיי זענען אינטערעסירט אין אָקשאַנז גענומען אויף eBay, און אין דיסקרייבינג זייער אַרבעט, איך וועט פאָקוס אויף דער ווירקונג פון ליציטאַציע סטאַרטינג פּרייַז אויף ליציטאַציע אַוטקאַמז, אַזאַ ווי די פאַרקויף פּרייַז אָדער די מאַשמאָעס פון אַ פאַרקויף.
דער רובֿ נאַיוו וועג צו אָפּשאַצן די ווירקונג פון סטאַרטינג פּרייַז אויף פאַרקויף פּרייַז וואָלט זיין צו פשוט רעכענען די לעצט פּרייַז פֿאַר אָקשאַנז מיט פאַרשידענע סטאַרטינג פּרייסיז. דעם צוגאַנג וואָלט זיין פייַן אויב איר געוואלט צו פאָרויסזאָגן דעם פאַרקויף פּרייַז געגעבן די סטאַרטינג פּרייַז. אָבער אויב דיין קשיא קאַנסערנז די ווירקונג פון די סטאַרטינג פּרייַז, דעמאָלט דעם צוגאַנג וועט נישט אַרבעטן ווייַל עס איז נישט באזירט אויף יאַריד קאַמפּעראַסאַנז; די אָקשאַנז מיט נידעריקער סטאַרטינג פּרייסיז זאל זיין אַנדערש אַנדערש פון יענע מיט העכער סטאַרטינג פּרייסיז (למשל, זיי קען זיין פֿאַר פאַרשידענע טייפּס פון סכוירע אָדער אַרייַננעמען פאַרשידענע טייפּס פון סעלערז).
אויב איר זענט שוין אַווער פון די פּראָבלעמס וואָס קענען אויפשטיין ווען איר מאַכן קאַססאַל עסטאַמאַץ פון ניט-יקספּערמענאַל דאַטן, איר קענען שפּרינגען די נאיוו צוגאַנג און באַטראַכטן פליסנדיק אַ פעלד עקספּערימענט ווו איר וואָלט פאַרקויפן אַ ספּעציפיש נומער-זאָגן, אַ גאָלף קלוב - מיט אַ פאַרפעסטיקט שטעלן פון ליציטאַציע פּאַראַמעטערס-זאָגן, פֿרייַ שיפּינג און ליציטאַציע עפענען פֿאַר צוויי וואָכן-אָבער מיט ראַנדאַמלי אַסיינד סטאַרטינג פּרייסיז. דורך קאַמפּערינג די ריזאַלטינג מאַרק רעזולטאטן, דעם פעלד עקספּערימענט וואָלט פאָרשלאָגן אַ זייער קלאָר מעאַסורעמענט פון די ווירקונג פון סטאַרטינג פּרייַז אויף פאַרקויף פּרייַז. אבער דעם מעאַסורעמענט וואָלט נאָר צולייגן צו אַ באַזונדער פּראָדוקט און שטעלן פון ליציטאַציע פּאַראַמעטערס. די רעזולטאַטן קען זיין אַנדערש, פֿאַר בייַשפּיל, פֿאַר פאַרשידענע טייפּס פון פּראָדוקטן. אָן אַ שטאַרק טעאָריע, עס איז שווער צו עקסטראַפּאָלייט פון דעם איין עקספּערימענט צו די פול קייט פון מעגלעך יקספּעראַמאַנץ וואָס קען האָבן לויפן. דערצו, פעלד יקספּעראַמאַנץ זענען גענוג טייַער אַז עס וואָלט זיין ומזעיק צו לויפן יעדער ווערייישאַן אַז איר זאל וועלן צו פּרובירן.
אין קאַנטראַסט צו די נאַיוו און יקספּערמענאַל אַפּראָוטשיז, יונאַוו און חברים גענומען אַ דריט צוגאַנג: וואָס ריכטן זיך. די הויפּט טריק אין זייער סטראַטעגיע איז צו אַנטדעקן זאכן ענלעך צו פעלד יקספּעראַמאַנץ אַז האָבן שוין געטראפן אויף עבייַ. למשל, פיגורע 2.8 ווייזט עטלעכע פון די 31 ליסטינגס פֿאַר פּונקט דער זעלביקער גאָלף קלוב-אַ טייַלאָרמאַדע בורנער 09 דרייווער-זייַענדיק פארקויפט דורך פּונקט די זעלבע טרעגער - "בודגעטמאָלפער." אבער, די 31 ליסטינגס האָבן אַ ביסל אַנדערש קעראַקטעריסטיקס, אַזאַ ווי סטאַרטינג פּרייַז, סוף דאַטעס, און שיפּינג פיז. אין אנדערע ווערטער, עס איז ווי אויב "בודזשעטגאָלפער" איז פליסנדיק יקספּעראַמאַנץ פֿאַר די ריסערטשערז.
די ליסטינגס פון די טייַלאָרמאַדע בורנער 09 דרייווער זייַנען פארקויפט דורך "בודגעטמאָלפער" זענען איין בייַשפּיל פון אַ מאַטשט שטעלן פון ליסטינגס, ווו די פּינטלעך זעלביקער נומער איז פארקויפט דורך די פּינטלעך זעלביקער סעללער, אָבער יעדער צייַט מיט אַ ביסל אַנדערש קעראַקטעריסטיקס. ין די מאַסיוו לאָגס פון עבייַ עס זענען ממש פון טויזנטער פון מאַטשט שטעלט ינוואַלווינג מיליאַנז פון ליסטינגס. אזוי, אלא ווי קאַמפּערינג די לעצט פּרייַז פֿאַר אַלע אָקשאַנז מיט אַ געגעבן סטאַרטינג פּרייַז, ונאַוו און חברים קאַמפּערד ין מאַטשט שטעלט. אין סדר צו פאַרבינדן רעזולטאַטן פון די קאַמפּעראַסאַנז ין די הונדערטער פון טויזנטער פון מאַטשט שטעלן, יונאַוו און קאָללאַגס שייַעך-אויסגעדריקט די סטאַרטינג פּרייַז און לעצט פּרייַז אין טערמינען פון די רעפֿערענץ ווערט פון יעדער נומער (למשל, זייַן דורכשניטלעך פאַרקויף פּרייַז). למשל, אויב די טייַלאָרמאַדע בורנער 09 דרייווער האט אַ רעפֿערענץ ווערט פון $ 100 (באזירט אויף זייַן פארקויפונג), דעמאָלט אַ סטאַרטינג פּרייַז פון $ 10 וואָלט זיין אויסגעדריקט ווי 0.1 און אַ לעצט פּרייַז פון $ 120 ווי 1.2.
צוריקרופן אַז יאָואַוו און חברים זענען אינטערעסירט אין דער ווירקונג פון אָנהייב פּרייַז אויף ליציטאַציע אַוטקאַמז. ערשטער, זיי געוויינט לינעאַר רעגרעססיאָן צו אָפּשאַצן אַז העכער סטאַרטינג פּרייסיז פאַרקלענערן די געוואקסן פון אַ פאַרקויף, און אַז העכער סטאַרטינג פּרייסיז פאַרגרעסערן די לעצט פאַרקויף פּרייַז (קאַנדישאַנאַל אויף אַ פאַרקויף געשעעניש). דורך זיך, די עסטאַמאַץ-וואָס שילדערן אַ לינעאַר שייכות און זענען אַוורידזשד איבער אַלע פּראָדוקטן - ניט אַלע וואָס טשיקאַווע. דעריבער, יונאַוו און חברים געניצט די מאַסיוו גרייס פון זייער דאַטן צו מאַכן אַ פאַרשיידנקייַט פון סאַטאַל עסטאַמאַץ. פֿאַר בייַשפּיל, דורך אָפּשאַצן די ווירקונג סעפּעראַטלי פֿאַר אַ פאַרשיידנקייַט פון פאַרשידענע סטאַרטינג פּרייסיז, זיי געפונען אַז די שייכות צווישן סטאַרטינג פּרייַז און פאַרקויף פּרייַז איז נאַנליניער (פיגורע 2.9). אין באַזונדער, פֿאַר סטאַרטינג פּרייסיז צווישן 0.05 און 0.85, די סטאַרטינג פּרייַז איז זייער קליין פּראַל אויף פאַרקויף פּרייַז, אַ געפונען וואָס איז גאָר מיסט דורך זייער ערשטער אַנאַליסיס. דעריבער, אַנאַוו און עמפּלוייז די דורכשניטלעך פּרייַז פֿאַר 23 זאכן (אַזאַ ווי ליבלינג סופּפּליעס, עלעקטראָניק, און ספורט מעמעראַביליאַ) (אַפּאַראַט 2,10), אַפּאַראַט ווי קאַמפּערד צו אַלע זאכן. די סקעדזשולז ווייַזן אַז פֿאַר מער אָפּשיידנדיק זאכן - אַזאַ ווי מעמעראַביליטי-סטאַרטינג פּרייַז האט אַ קלענערער ווירקונג אויף די מאַשמאָעס פון אַ פאַרקויף און אַ גרעסער ווירקונג אויף די לעצט פאַרקויף פּרייַז. דערצו, פֿאַר מער קאָממאָדיפיעד זאכן אַזאַ ווי דוודס, די סטאַרטינג פּרייַז כּמעט קיין פּראַל אויף די לעצט פּרייַז. אין אנדערע ווערטער, אַן דורכשניטלעך וואָס קאַמביינז רעזולטאַטן פון 23 פאַרשידענע קאַטעגאָריעס פון זאכן כיידז וויכטיק דיפעראַנסיז צווישן די זאכן.
אפילו אויב איר זענט נישט דער הויפּט אינטערעסירט אין אָקשאַנז אויף עבייַ, איר האָבן צו באַווונדערן די וועג אַז פיגורע 2.9 און פיגורע 2.10 פאָרשלאָגן אַ ריטשער פארשטייער פון עבייַ ווי פּשוט אָפּשאַצן וואָס שילדערן אַ לינעאַר שייכות און פאַרבינדן פילע פאַרשידענע קאַטעגאָריעס פון זאכן. ווייַטער, כאָטש עס וואָלט זיין סייאַנטיפיקלי מעגלעך צו דזשענערייט די מער סאַטאַל עסטאַמאַץ מיט פעלד יקספּעראַמאַנץ, די פּרייַז וואָלט מאַכן אַזאַ יקספּעראַמאַנץ יסענשאַלי אוממעגלעך.
ווי מיט נאַטירלעך יקספּעראַמאַנץ, עס זענען אַ נומער פון וועגן אַז וואָס ריכטן קענען פירן צו שלעכט סטייטמאַנץ. איך טראַכטן די ביגאַסט דייַגע מיט וואָס ריכטן עסטאַמאַץ איז אַז זיי קענען זיין בייאַסט דורך זאכן וואָס זענען נישט געניצט אין דעם ריכטן. פֿאַר בייַשפּיל, אין זייער הויפּט רעזולטאַטן, יונאַוו און חברים האבן פּונקט ריכטיק וואָס ריכטן זיך אויף פיר קעראַקטעריסטיקס: סעללער שייַן נומער, פּונקט קאַטעגאָריע, נומער פון זאכן, און סאַבטייטאַל. אויב די ייטאַמז זענען אַנדערש אין וועגן וואָס זענען נישט געניצט פֿאַר וואָס ריכטן זיך, דעמאָלט דאָס קען שאַפֿן אַ ומיוישערדיק פאַרגלייַך. פֿאַר בייַשפּיל, אויב "בודזשעטגאָלפער" לאָוערד פּרייסיז פֿאַר די טייַלאָרמאַדע בורנער 09 דרייווער אין די ווינטער (ווען גאָלף קלאַבז זענען ווייניקער פאָלקס), דעמאָלט עס קען דערשייַנען אַז נידעריקער סטאַרטינג פּרייסיז פירן צו נידעריקער לעצט פּרייסיז, ווען טאַקע דאָס איז געווען אַ אַרטאַפאַקט פון סיזאַנאַל ווערייישאַן אין מאָנען. איינער צוגאַנג צו אַדרעסינג דעם דייַגע איז טריינינג פילע פאַרשידענע מינים פון ריכטן. פֿאַר בייַשפּיל, עאַסאַוו און קאַונאַגז ריפּיטיד זייער אַנאַליסיס בשעת וועריינג די צייַט פֿענצטער געוויינט פֿאַר ריכטן זיך (מאַטשט שטעלט אַרייַנגערעכנט זאכן אויף פאַרקויף אין איין יאָר, ין איין חודש, און יונאַונפּאָראַנעאָוסלי). גליק, זיי געפונען ענלעך רעזולטאַטן פֿאַר אַלע די צייַט פֿענצטער. א ווייַטער זאַך מיט וואָס ריכטן אַריינז פון ינטערפּריטיישאַן. עסטימאַטעס פון וואָס ריכטן זיך אָנווענדן צו מאַטשט דאַטע; זיי טאָן ניט צולייגן צו די קאַסעס אַז קען נישט זיין מאַטשט. למשל, דורך לימאַטינג זייער פאָרשונג צו ייטאַמז וואָס האָבן קייפל ליסטינגס, עאַסאַוו און חברים זענען פאָוקיסינג אויף פאַכמאַן און האַלב-פאַכמאַן סעלערז. אזוי, ווען ינטערפּרעטינג די קאַמפּעראַסאַנז מיר מוזן געדענקען אַז זיי נאָר אַפּלייז צו דעם סובסעט פון עבייַ.
מאַטטשינג איז אַ שטאַרק סטראַטעגיע פֿאַר געפונען יאַריד קאָמפּאַריסאָנס אין ניט-יקספּערמענאַל דאַטן. צו פילע סאציאלע סייאַנטיס, וואָס ריכטן זיך פייַן צו דער עקספּערימענט, אָבער דאָס איז אַ גלויבן וואָס קענען זיין ריווייזד, אַ ביסל. וואָס ריכטן זיך אין מאַסיוו דאַטן זאל זיין בעסער ווי אַ קליין נומער פון פעלד יקספּעראַמאַנץ ווען (1) העטעראָגענעיטי אין יפעקס איז וויכטיק און (2) די וויכטיק וועריאַבאַלז וואָס זענען פארלאנגט פֿאַר וואָס ריכטן האָבן געמאסטן. טיש 2.4 גיט עטלעכע אנדערע ביישפילן פון וואָס ריכטן זיך קענען זיין גענוצט מיט גרויס דאַטן קוואלן.
Substantive focus | גרויס דאַטן מקור | Reference |
---|---|---|
ווירקונג פון שוטינגז אויף פּאָליצייַ גוואַלד | האַלטן-און-פריסק רעקאָרדס | Legewie (2016) |
ווירקונג פון 11 סעפטעמבער 2001 אויף משפחות און שכנים | וואָטעס רעקאָרדס און צושטייַער רעקאָרדס | Hersh (2013) |
סאציאל קאַנטיגשאַן | קאָמוניקאַציע און פּראָדוקט אַדאַפּטיוויישאַן | Aral, Muchnik, and Sundararajan (2009) |
אין מסקנא, סאַסעפּטינג קאַוסאַל יפעקס פון ניט-יקספּערמענאַל דאַטע איז שווער, אָבער אַפּראָוטשיז אַזאַ ווי נאַטירלעך יקספּעראַמאַנץ און סטאַטיסטיש אַדזשאַסטמאַנץ (למשל, וואָס ריכטן זיך) קענען זיין געוויינט. אין עטלעכע סיטואַטיאָנס, די אַפּפּראָאַטשעס קענען גיין באַדלי פאַלש, אָבער ווען דיפּלויד קערפאַלי, די אַפּפּראָאַטשעס קענען זיין אַ נוציק דערגאַנג צו די יקספּערמענאַל צוגאַנג וואָס איך דיסקרייבד אין קאַפּיטל 4. ווייַטער, די צוויי אַפּראָוטשאַז ויסקומען ספּעציעל מסתּמא צו נוץ פון די וווּקס פון שטענדיק- אויף, גרויס דאַטן סיסטעמס.