איין מין פון אַבזערווינג וואָס איז נישט אַרייַנגערעכנט אין דעם קאַפּיטל איז עטנאָגראַפי. פֿאַר מער אויף עטנאָגראַפי אין דיגיטאַל ספּייסיז, זען Boellstorff et al. (2012) , און פֿאַר מער אויף עטהנאָגראַפי אין געמישט דיגיטאַל און גשמיות ספּייסאַז, זען Lane (2016) .
עס איז ניט קיין איין קאָנסענסוס דעפֿיניציע פון "גרויס דאַטן," אָבער פילע דעפֿיניציע ויסקומען צו פאָקוס אויף די "3 ווס": באַנד, פאַרשיידנקייַט און גיכקייַט (למשל, Japec et al. (2015) ). זען De Mauro et al. (2015) פֿאַר אַ רעצענזיע פון זוך.
מייַן ינקלוזשאַן פון רעגירונג אַדמיניסטראַטיווע דאַטע אין די קאַטעגאָריע פון גרויס דאַטן איז אַ ביסל ומגעוויינטלעך, כאָטש אנדערע האָבן אויך געמאכט דעם פאַל, אַרייַנגערעכנט Legewie (2015) , Connelly et al. (2016) און Einav and Levin (2014) . פֿאַר מער וועגן די ווערט פון רעגירונג אַדמיניסטראַטיווע דאַטן פֿאַר פאָרשונג, זען Card et al. (2010) , Adminstrative Data Taskforce (2012) , און Grusky, Smeeding, and Snipp (2015) .
פֿאַר אַ מיינונג פון אַדמיניסטראַטיווע פאָרשונג אינעווייניק די רעגירונג סטאַטיסטיש סיסטעם, ספּעציעל די יו. עס. סענסוס ביוראָו, זען Jarmin and O'Hara (2016) . פֿאַר אַ בוך-לענג באַהאַנדלונג פון די אַדמיניסטראַטיווע רעקאָרדס פאָרשונג אין סטאַטיסטיק שוועדן, זען Wallgren and Wallgren (2007) .
אין דעם קאַפּיטל, איך בעקיצער קאַמפּערד אַ טראדיציאנעלער יבערבליק אַזאַ ווי די אַלגעמיינע סאציאל יבערבליק (גסס) מיט אַ געזעלשאַפטלעך מידיאַ דאַטן מקור אַזאַ ווי Twitter. פֿאַר אַ גרונטיק און אָפּגעהיט פאַרגלייַך צווישן טראדיציאנעלן סערווייז און געזעלשאַפטלעך מידיאַ דאַטן, זען Schober et al. (2016) .
די 10 טשאַראַקטעריסטיקס פון גרויס דאַטן זענען דיסקרייבד אין אַ פאַרשיידנקייַט פון פאַרשידענע וועגן דורך אַ פאַרשיידנקייַט פון פאַרשידענע מחברים. שרייבט אַז ינפלואַנסט מיין טראכטן אויף די ישוז כולל Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , און Goldstone and Lupyan (2016) .
איבער דעם קאַפּיטל, איך ווע געניצט די טערמין דיגיטאַל טראַסעס , וואָס איך טראַכטן איז לעפיערעך נייטראַל. אן אנדער פאָלקס טערמין פֿאַר דיגיטאַל טראַסעס איז דיגיטאַל פוטפּרינץ (Golder and Macy 2014) , אָבער ווי האַלב אַבעלאַנד, קענעדאַן, און הארי לויס (2008) פונט אויס, אַ מער צונעמען טערמין איז מיסטאָמע דיגיטאַל פינגגערפּרינץ . ווען איר שאַפֿן פוטפּרינץ, איר זענט אַווער פון וואָס איז געשעעניש און דיין פוטפּרינץ קענען נישט בכלל זיין טרייסט צו איר פּערסאַנאַלי. דער זעלביקער איז ניט אמת פֿאַר דיין דיגיטאַל טראַסעס. אין פאַקט, איר זענט געלאזן טראַסעס אַלע די צייַט וועגן וואָס איר האָט זייער קליין וויסן. און, כאָטש די טראַסעס טאָן ניט האָבן דיין נאָמען אויף זיי, זיי קענען אָפט זיין לינגקט צו איר. אין אנדערע ווערטער, זיי זענען מער ווי פינגגערפּרינץ: ומזעיק און פּערסאַנאַלי יידענטאַפייינג.
פֿאַר מער וועגן וואָס גרויס דאַטאַסעץ ריפּלייסט סטאַטיסטיש טעסץ פּראָבלעמאַטיק, זען M. Lin, Lucas, and Shmueli (2013) און McFarland and McFarland (2015) . די ישוז זאָל פירן פאָרשער צו פאָקוס אויף פּראַקטיש באַטייַט, ווי סטאַטיסטיש באַטייַט.
פֿאַר מער וועגן ווי ראַדזשי טשעטטי און חברים באקומען צוטריט צו די שטייַער רעקאָרדס, זען Mervis (2014) .
גרויס דאַטאַסעץ קענען אויך מאַכן קאַמפּיאַטיישאַנאַל פראבלעמען וואָס בכלל ווייַטער פון די קייפּאַבילאַטיז פון אַ איין קאָמפּיוטער. דעריבער, ריסערטשערז געמאכט קאַמפּאַטיישאַנז אויף גרויס דאַטאַסעץ אָפט פאַרשפּרייטן די אַרבעט איבער פילע קאָמפּיוטערס, אַ פּראָצעס מאל גערופן פּאַראַלעל פּראָגראַממינג . פֿאַר אַ הקדמה צו פּאַראַלעל פּראָגראַממינג, אין באַזונדער אַ שפּראַך גערופן האַדאָאָפּ, זען Vo and Silvia (2016) .
ווען באַטראַכטן שטענדיק-אויף דאַטן, עס איז וויכטיק צו באַטראַכטן צי איר זענען קאַמפּערינג די פּינטלעך זעלביקער מענטשן איבער דער צייַט אָדער צי איר פאַרגלייכן עטלעכע טשאַנגינג גרופּע פון מענטשן; זען ביישפּיל, Diaz et al. (2016) .
א קלאַסיש בוך וועגן נאַנרעאַקטיוו מיטלען איז Webb et al. (1966) . די ביישפילן אין דעם בוך רעדוצירן די דיגיטאַל עלטער, אָבער זיי זענען נאָך ילומאַנייטינג. פֿאַר ביישפילן פון מענטשן טשאַנגינג זייער אָפּפירונג ווייַל פון דעם בייַזייַן פון מאַסע סערוויילאַנס, זען Penney (2016) און Brayne (2014) .
רעאַקטיוויטי איז ענג פארבונדן צו וואָס ריסערטשערז רופן פאָדערונג יפעקס (Orne 1962; Zizzo 2010) און די האַווטהאָרנע ווירקונג (Adair 1984; Levitt and List 2011) .
פֿאַר מער אויף רעקאָרד לינגקאַדזש, זען Dunn (1946) און Fellegi and Sunter (1969) (היסטאָריש) און Larsen and Winkler (2014) (מאָדערן). ענלעכע אַפּוינטמאַנץ זענען אויך דעוועלאָפּעד אין קאָמפּיוטער וויסנשאַפֿט אונטער נעמען אַזאַ ווי דאַטע דעדופּליקאַטיאָן, יחיד לעגיטימאַציע, נאָמען וואָס ריכטן, דופּליקאַט דיטעקשאַן, און דופּליקאַט רעקאָרד דיטעקשאַן (Elmagarmid, Ipeirotis, and Verykios 2007) . עס זענען אויך פּריוואַטקייט-פּראַזערווינג אַפּראָוטשיז צו רעקאָרדינג לינגקאַדזש אַז דאַרפן די טראַנסמיסיע פון פּערסאַנאַלי יידענטאַפייינג אינפֿאָרמאַציע (Schnell 2013) . פאַסעבאָאָק אויך דעוועלאָפּעד אַ פּראָצעס צו פאַרבינדן זייער רעקאָרדס צו אָפּלייקענונג; דאָס איז געווען געטאן צו אָפּשאַצן אַ עקספּערימענט וואָס איך וועל זאָגן וועגן פּרק 4 (Bond et al. 2012; Jones et al. 2013) .
פֿאַר מער אויף בויען גילטיקייַט, זען פּרק 3 פון Shadish, Cook, and Campbell (2001) .
פֿאַר מער אויף די אַאָל זוכן זשורנאַל דעבאַקלע, זען Ohm (2010) . איך פאָרשלאָג עצה וועגן שוטעף מיט קאָמפּאַניעס און גאַווערמאַנץ אין פּרק 4 ווען איך באַשרייַבן יקספּעראַמאַנץ. א נומער פון מחברים האָבן אויסגעדריקט קאַנסערנז וועגן פאָרשונג וואָס רילייז אויף ינאַקסעסאַבאַל דאַטן, זען Huberman (2012) און boyd and Crawford (2012) .
איינער גוט וועג פֿאַר אוניווערסיטעט ריסערטשערז צו קריגן דאַטן צוטריט איז צו אַרבעטן אין אַ געזעלשאַפט ווי אַ ינטערן אָדער באזוכן פאָרשער. אין דערצו צו ענייבאַלינג דאַטע צוטריט, דעם פּראָצעס וועט אויך העלפן די פאָרשער לערנען מער וועגן ווי די דאַטן איז געשאַפֿן געוואָרן, וואָס איז וויכטיק פֿאַר אַנאַליסיס.
אין טערמינען פון גיינינג צוטריט צו רעגירונג דאַטן, Mervis (2014) דיסקאַווערז ווי ראַזש טשאַטי און חברים באקומען צוטריט צו די שטייַער רעקאָרדס געניצט אין זייער פאָרשונג אויף געזעלשאַפטלעך מאָביליטי.
פֿאַר מער וועגן די געשיכטע פון "רעפּרעסענטאַטיווענעסס" ווי אַ באַגריף, זען Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , און Kruskal and Mosteller (1980) .
מייַן סאַמעריז פון די אַרבעט פון סנאָו און די אַרבעט פון ליאַלקע און הילל זענען קורץ. פֿאַר מער אויף שניי ס ווערק אויף כאָלערע, זען Freedman (1991) . פֿאַר מער אויף די בריטיש דאקטוירים לערנען זען Doll et al. (2004) און Keating (2014) .
פילע ריסערטשערז וועט זיין סאַפּרייזד צו לערנען אַז כאָטש ליאַלקע און הילל געזאמלט דאַטן פון ווייַבלעך דאקטוירים און פון דאקטוירים אונטער 35, זיי וואָלט נישט נוצן דעם דאַטן אין זייער ערשטער אַנאַליסיס. ווי זיי אַרגיוד: "זינט לונג ראַק איז לעפיערעך זעלטן אין פרויען און מענטשן אונטער 35, נוציק פיגיערז זענען אַנלייקלי צו זיין באקומען אין די גרופּעס פֿאַר עטלעכע יאָרן צו קומען. אין דעם פּרילימאַנערי באַריכט, מיר האָבן דערמאנט אונדזער ופמערקזאַמקייַט צו מענטשן פון עלטער 35 און העכער. " Rothman, Gallacher, and Hatch (2013) , וואָס האט דעם פּראָוואָקאַטיווע טיטל" פארוואס רעפּרעסענטאַטיווע זאָל זיין אַוווידיד, "מאַכן אַ מער גענעראַל אַרגומענט פֿאַר די ווערט פון בכלל שאפן ניט רעפּרעסענטאַטיווע דאַטן.
ניט-רעפּרעסענטאַטיווע איז אַ הויפּט פּראָבלעם פֿאַר פאָרשער און רעגירונגס וואס ווילן צו מאַכן סטייטמאַנץ וועגן אַ גאַנץ באַפעלקערונג. דעם איז ווייניקער פון אַ דייַגע פֿאַר קאָמפּאַניעס, וואָס זענען typically focused on their users. פֿאַר מער אויף ווי סטאַטיסטיק נעטהערלאַנדס באַטראַכטן די אַרויסגעבן פון נאָנפּרעפּיסענטאַטיווענעסס פון געשעפט גרויס דאַטן, זען Buelens et al. (2014) .
פֿאַר ביישפילן פון ריסערטשערז יקספּרעסינג דייַגע וועגן ניט-רעפּריזענאַטיוו נאַטור פון גרויס דאַטן קוואלן, זען boyd and Crawford (2012) , K. Lewis (2015b) , און Hargittai (2015) .
פֿאַר אַ מער דיטיילד פאַרגלייַך פון די צילן פון געזעלשאַפטלעך סערווייז און עפּאַדימיאַלאַדזשיקאַל פאָרשונג, זען Keiding and Louis (2016) .
פֿאַר מער אויף פרווון צו נוצן Twitter צו מאַכן אויס-פון-מוסטער גענעראַלס וועגן וואָטערס, ספּעציעל די פאַל פון די דייַטש וואַלן 2009, זען Jungherr (2013) און Jungherr (2015) . סובסעקוואַנט צו די ווערק פון Tumasjan et al. (2010) ריסערטשערז אַרום די וועלט האָבן געניצט פאַנסיער מעטהאָדס אַזאַ ווי ניצן סענטימענט אַנאַליסיס צו ויסטיילן צווישן positive און נעגאַטיוו מענטיאָנס פון די פּאַרטיעס, אין סדר צו פֿאַרבעסערן די פיייקייַט פון טוויטטער דאַטן צו פאָרויסזאָגן אַ פאַרשיידנקייַט פון פאַרשידענע טייפּס פון ילעקשאַנז (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . דאָ ס ווי Huberty (2015) סאַמערייזד די רעזולטאַטן פון די פרווון צו פאָרויסזאָגן ילעקשאַנז:
"אלע באקאנטע פאָרויסזאָגן מעטהאָדס באזירט אויף געזעלשאַפטלעך מידיאַ האָבן דורכגעקאָכט ווען אונטערטעניק צו די פאדערונגען פון אמת פאָרויס-קוקן עלעקטאָראַל פאָרקאַסטינג. די פייליערז זייַנען רעכט צו פונדאַמענטאַל פּראָפּערטיעס פון געזעלשאַפטלעך מידיאַ, אלא ווי צו מעטאַדאַלאַדזשיקאַל אָדער אַלגערידאַמיק שוועריקייטן. אין קורץ, געזעלשאַפטלעך מידיאַ טאָן ניט, און מיסטאָמע קיינמאָל וועט, פאָרשלאָגן אַ סטאַביל, אַנבייאַסט, רעפּריזענאַטיוו בילד פון די ילעקטעראַט; און קאַנוויניאַנס סאַמפּאַלז פון געזעלשאַפטלעך מידיאַ פעלן דאַטן צו פאַרריכטן די פּראָבלעמס נאָך דעם. "
אין קאַפּיטל 3, איך וועט באַשרייַבן מוסטערונג און אָפּשאַצונג אין פיל גרעסער דעטאַל. אפילו אויב די דאַטע איז ניט רעפּרעסענטאַטיווע, אונטער עטלעכע באדינגונגען, זיי קענען זיין ווייטיד צו פּראָדוצירן גוטע עסטאַמאַץ.
סיסטעם דריפט איז זייער שווער צו זען פון די אַרויס. אָבער, די MovieLens פּרויעקט (דיסקרייבד מער אין קאַפּיטל 4) איז לויפן פֿאַר מער ווי 15 יאר דורך אַ אַקאַדעמיק פאָרשונג גרופּע. אזוי, זיי זענען ביכולת צו דאָקומענט און ייַנטיילן אינפֿאָרמאַציע וועגן די וועג וואָס די סיסטעם האט יוואַלווד איבער צייַט און ווי דאָס קען פּראַל אַנאַליז (Harper and Konstan 2015) .
א נומער פון געלערנטע האָבן פאָוקיסט אויף דריפט אין טוויטטער: Liu, Kliman-Silver, and Mislove (2014) און Tufekci (2014) .
איינער צוגאַנג צו האַנדלען מיט באַפעלקערונג דריפט איז צו שאַפֿן אַ טאַפליע פון וסערס, וואָס אַלאַוז ריסערטשערז צו לערנען די זעלבע מענטשן איבער צייַט, זען Diaz et al. (2016) .
איך ערשטער געהערט די טערמין "אַלגערידאַמיקאַללי קאַנפאַונדיד" געניצט דורך יאַן קלייןבערג אין אַ רעדן, אָבער ליידער איך טאָן ניט געדענקען ווען אָדער ווו די רעדן איז געגעבן. דער ערשטער מאָל אַז איך געזען דעם טערמין אין דרוק איז געווען אין Anderson et al. (2015) , וואָס איז אַ טשיקאַווע דיסקוסיע וועגן ווי די אַלגערידאַמז געניצט דורך דייטינג זייטלעך קען קאָמפּליצירן ריסערטשערז 'פיייקייַט צו נוצן דאַטן פון די וועבסיטעס צו לערנען געזעלשאַפטלעך פּרעפֿערענצן. דער דאָקטער איז אויפגעשטאנען דורך K. Lewis (2015a) אין ענטפער צו Anderson et al. (2014) .
אין דערצו צו פאַסעבאָאָק, Twitter אויך רעקאַמענדז מענטשן פֿאַר וסערס צו נאָכפאָלגן באזירט אויף דער געדאַנק פון טרייאַדיק קלאָוזשער; זען Su, Sharma, and Goel (2016) . אזוי די מדרגה פון טריאַדיש קלאָוזשער אין טוויטטער איז אַ קאָמבינאַציע פון עטלעכע מענטשנרעכט טענדענץ צו טריאַדיק קלאָוזשער און עטלעכע אַלגערידאַמיק טענדענץ צו העכערן טריאַדיק קלאָוזשער.
פֿאַר מער אויף פאָוטאַגראַטיוויטי, אין באַזונדער דער געדאַנק אַז עטלעכע געזעלשאַפטלעך וויסנשאַפֿט טיריז זענען "ענדזשאַנז ניט קאַמעראַס" (י.ע., זיי פאָרעם די וועלט, אָבער נישט נאָר דיסקרייבינג עס) -see Mackenzie (2008) .
רעגירונגס סטאַטיסטיש יידזשאַנסיז רופן דאַטן רייניקונג סטאַטיסטיש דאַטע עדיטינג . De Waal, Puts, and Daas (2014) באַשליסן סטאַטיסטיש דאַטע עדיטינג טעקניקס דעוועלאָפּעד פֿאַר יבערבליק דאַטן און ונטערזוכן די מאָס צו וואָס זיי זענען אָנווענדלעך צו גרויס דאַטע קוואלן, און Puts, Daas, and Waal (2015) פאָרשטעלן עטלעכע פון די זעלבע געדאנקען פֿאַר אַ מער גענעראַל וילעם.
פֿאַר אַ איבערבליק פון געזעלשאַפטלעך באָץ, זען Ferrara et al. (2016) . פֿאַר עטלעכע ביישפילן פון שטודיום פאָוקיסט אויף דערגייונג ספּאַם אין טוויטטער, זען Clark et al. (2016) און Chu et al. (2012) . צום סוף, Subrahmanian et al. (2016) באַשליסן די רעזולטאַטן פון די DARPA Twitter Bot Challenge, אַ מאַסע מיטאַרבעט דיזיינד צו פאַרגלייַכן אַפּראָוטשיז פֿאַר דיטעקטינג באָץ אויף טוויטטער.
Ohm (2015) באריכטן פריער פאָרשונג אויף דער געדאַנק פון שפּירעוודיק אינפֿאָרמאַציע און אָפפערס אַ Multi- פאַקטאָר פּרובירן. די פֿיר סיבות וואָס ער לייגט, זייַנען די שעדלעכע שאַרפן, די כוואַליע פון שאָדן, דעם בייַזייַן פון אַ קאַנפאַדענשאַל שייכות, און צי די ריזיקירן ריפלעקס מאַדזשעריטערי קאַנסערנז.
פערבער ס לערנען פון טאַקסיס אין ניו יארק איז באזירט אויף אַ פריער לערנען דורך Camerer et al. (1997) וואָס געניצט דרייַ פאַרשידענע קאַנוויניאַנס סאַמפּאַלז פון פּאַפּיר יאַזדע שיץ. דעם פריערדיקער לערנען געפונען אַז דריווערס געווען צו זיין עאַררינג: זיי געארבעט ווייניקער אויף טעג ווו זייער לוין געווען העכער.
אין סאַבסאַקוואַנט אַרבעט, מלך און חברים האָבן יקספּיריאַנסט אָנליין צענזור אין טשיינאַ (King, Pan, and Roberts 2014, [@king_how_2016] ) . פֿאַר אַ שייכות צו מעסטן אָנליין צענזור אין טשיינאַ, זען Bamman, O'Connor, and Smith (2012) . פֿאַר מער אויף סטאַטיסטיש מעטהאָדס ווי דער איינער געניצט אין King, Pan, and Roberts (2013) צו אָפּשאַצן די געפיל פון די 11,000,000 אַרטיקלען, זען Hopkins and King (2010) . פֿאַר מער אויף סופּערווייזד וויסן, זען James et al. (2013) (ווייניקער טעכניש) און Hastie, Tibshirani, and Friedman (2009) (מער טעכניש).
פאָרעקאַסטינג איז אַ גרויס טייל פון אינדוסטריעלע דאַטן וויסנשאַפֿט (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . איין טיפּ פון פאָרקאַסטינג אַז איז קאַמאַנלי געטאן דורך געזעלשאַפטלעך ריסערטשערז איז דעמאַגראַפיק פאָרקאַסטינג; זען, פֿאַר בייַשפּיל, Raftery et al. (2012) .
Google פלוו טרענדס איז נישט דער ערשטער פּרויעקט צו נוצן זוכן דאַטן צו ינסטאָלז גורל פון פּראַל. אין פאַקט, ריסערטשערז אין די פאַרייניקטע שטאַטן (Polgreen et al. 2008; Ginsberg et al. 2009) און שוועדן (Hulth, Rydevik, and Linde 2009) האָבן געפונען אַז זיכער זוכן טערמינען (למשל, "פלו") פּרעדיקטעד נאציאנאלע ציבור געזונט סערוויילאַנס דאַטן איידער עס איז באפרייט. דערנאָך פילע, פילע אנדערע פראיעקטן האָבן געפרוווט צו נוצן דיגיטאַל שפּור דאַטע פֿאַר קרענק סערוויילאַנס דיטעקשאַן; זען Althouse et al. (2015) פֿאַר אַ רעצענזיע.
אין דערצו צו נוצן דיגיטאַל שפּור דאַטע צו פאָרויסזאָגן געזונט רעזולטאטן, עס איז אויך געווען אַ ריזיק סומע פון אַרבעט ניצן Twitter דאַטע צו פאָרויסזאָגן וואַלן אַוטקאַמז; פֿאַר באריכטן זען Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (פּרק 7) און Huberty (2015) . נאָוואַסטינג פון עקאָנאָמיש ינדאַקייטערז, אַזאַ ווי גראָב דינער פּראָדוקט (גדפּ), איז אויך פּראָסט אין הויפט באַנקס, זען Bańbura et al. (2013) . טיש 2.8 כולל עטלעכע ביישפילן פון שטודיום וואָס נוצן עטלעכע סאָרט פון דיגיטאַל שפּור צו פאָרויסזאָגן עטלעכע מין פון געשעעניש אין דער וועלט.
דיגיטאַל שפּור | אַוטקאַם | Citation |
---|---|---|
טוויטער | באָקס אָפיס רעוועך פון קינאָ אין די יוז | Asur and Huberman (2010) |
זוכן לאָגס | פארקויפונג פון קינאָ, מוזיק, ביכער, און ווידעא שפּילערייַ אין די יוז | Goel et al. (2010) |
טוויטער | דאָוו דזשאָנעס אינדוסטריעלע דורכשניטלעך (יו. עס. לאַגער מאַרק) | Bollen, Mao, and Zeng (2011) |
געזעלשאַפטלעך מידיאַ און זוכן לאָגס | סורווייס פון ינוועסטער סענטימענט און לאַגער מארקפלעצער אין די פאַרייניקטע שטאַטן, אמעריקאנער קינגדאָם, קאַנאַדע, און טשיינאַ | Mao et al. (2015) |
זוכן לאָגס | פּרעוואַלאַנס פון דענגוע פיווער אין סינגאַפּאָר און באַנגקאָק | Althouse, Ng, and Cummings (2011) |
צום סוף, דזשאָנ קלייןבערג און קאָללאַרס (2015) האָבן אנגעוויזן אַז פאָרויסזאָגן פּראָבלעמס פאַלן אין צוויי, סאַטאַלי אַנדערש קאַטעגאָריעס און אַז געזעלשאַפטלעך סייאַנטיס האָבן טענדיד צו פאָקוס אויף איין און איגנאָרירן די אנדערע. ימאַדזשאַן איינער פּאָליטיק פאַבריקאַנט, איך וועל רופן איר אננא, וואָס איז פייערד אין אַ טריקעניש און מוזן באַשליסן צי צו אָנשטעלן אַ שאַמאַן צו טאָן אַ רעגן טאַנצן צו פאַרגרעסערן די געלעגנהייַט פון רעגן. אן אנדער פּאָליטיק פאַבריקאַנט, איך וועל רופן איר בעטי, מוזן באַשליסן צי צו נעמען אַ שירעם צו אַרבעטן צו ויסמייַדן ניסלעך אויף די וועג היים. ביידע אננא און בעטי קענען מאַכן אַ בעסער באַשלוס אויב זיי פֿאַרשטיין וועטער, אָבער זיי דאַרפֿן צו וויסן פאַרשידענע זאכן. אננא דאַרף צו פֿאַרשטיין צי דער רעגן טאַנצן ז רעגן. בעטי, אויף די אנדערע האַנט, טוט נישט דאַרפֿן צו פֿאַרשטיין עפּעס וועגן קאָזאַלאַטי; זי נאָר דאַרף אַ פּינטלעך פאָרויסזאָגן. סאציאל ריסערטשערז אָפט פאָקוס אויף די פראבלעמען ווי דער איינער פייסט דורך אננא-וואָס קלייןבערג און חברים רופן "רעגן טאַנצן-ווי" פּאָליטיק פּראָבלעמס, ווייַל זיי אַרייַנציען שאלות פון קאַוסאַליטי. פֿראגן ווי די איין פייסט דורך בעטי-וואָס קלייןבערג און חברים רופן "שירעם-ווי" פּאָליטיק פראבלעמען - קענען זיין גאַנץ וויכטיק אויך, אָבער האָבן באקומען פיל ווייניקער ופמערקזאַמקייַט פון געזעלשאַפטלעך ריסערטשערז.
די זשורנאַל פּס פּאָליטיש וויסנשאַפֿט האט אַ סימפּאָסיום אויף גרויס דאַטע, קאַוסאַל ינפעראַנס, און פאָרמאַל טעאָריע, און Clark and Golder (2015) סאַמערייז יעדער צושטייַער. דער זשורנאַל פּראָצעדונגען פון די נאַשאַנאַל אוניווערסיטעט פון ססיענסעס פון די פאַרייניקטע שטאַטן פון אַמעריקע האט אַ סימפּאָסיום אויף קאַוסאַל ינפעראַנס און גרויס דאַטן, און Shiffrin (2016) סאַמערייז יעדער צושטייַער. פֿאַר מאַשין לערנען אַפּראָוטשאַז אַז פּרווון צו אויטאָמאַטיש אַנטדעקן נאַטירלעך יקספּעראַמאַנץ ין פון גרויס דאַטן קוואלן, זען Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , און Sharma, Hofman, and Watts (2016) .
אין טערמינען פון נאַטירלעך יקספּעראַמאַנץ, Dunning (2012) גיט אַ ינטראַדאַקטערי, בוך-לענג באַהאַנדלונג מיט פילע ביישפילן. פֿאַר אַ סקעפּטיש מיינונג פון נאַטירלעך יקספּעראַמאַנץ, זען Rosenzweig and Wolpin (2000) (עקאָנאָמיק) אָדער Sekhon and Titiunik (2012) (פּאָליטיש וויסנשאַפֿט). Deaton (2010) און Heckman and Urzúa (2010) טייַנען אַז פאָוקיסינג אויף נאַטירלעך יקספּעראַמאַנץ קענען פירן פאָרשער צו פאָקוס אויף עסטימאַטינג אַנימפּאָרטאַנט סאַספּעקטיד יפעקס; Imbens (2010) קאָונטערס די אַרמאַמאַנץ מיט אַ מער אָפּטימיסטיש מיינונג פון די ווערט פון נאַטירלעך יקספּעראַמאַנץ.
ווען דיסקרייבינג ווי אַ פאָרשער געקענט פון אָפּשאַצן די ווירקונג פון זייַענדיק דראַפטיד צו דער ווירקונג פון געדינט, איך איז געווען דיסקרייבד אַ טעכניק גערופן ינסטרומענטאַל וועריאַבאַלז . Imbens and Rubin (2015) , אין זייער קאפיטלען 23 און 24, צושטעלן אַן הקדמה און נוצן דעם פּלאַן לאָטעריע ווי אַ בייַשפּיל. די ווירקונג פון מיליטער דינסט אויף קאָמפּליקערס איז מאל גערופן די קאַמפּליער דורכשניטלעך קאָזאַל ווירקונג (CAECE) און מאל די היגע דורכשניטלעך באַהאַנדלונג ווירקונג (לייט). Sovey and Green (2011) , Angrist and Krueger (2001) , און Bollen (2012) פאָרשלאָגן באריכטן פון די נוצן פון ינסטרומענטאַל וועריאַבאַלז אין פּאָליטיש וויסנשאַפֿט, עקאָנאָמיק און סאָציאָלאָגי, און Sovey and Green (2011) גיט אַ "לייענער ס טשעקליסט" יוואַליוייטינג שטודיום ניצן ינסטרומענטאַל וועריאַבאַלז.
עס טורנס אויס אַז די 1970 פּלאַן לאָטעריע איז נישט, אין פאַקט רעכט ראַנדאַמייזד; עס זענען קליין דיווייישאַנז פון ריין ראַנדאַמנאַס (Fienberg 1971) . Berinsky and Chatfield (2015) טענהט אַז דאָס קליין דעוויאַטיאָן איז נישט סאַבסטאַנטיוולי וויכטיק און דיסקוטירן די וויכטיקייט פון רעכט פירט ראַנדאַמיזיישאַן.
אין טערמינען פון ריכטונג, זען Stuart (2010) פֿאַר אַן אָפּטימיסטיש רעצענזיע, און Sekhon (2009) פֿאַר אַ פּעסימיסטיש רעצענזיע. פֿאַר מער אויף וואָס ריכטן זיך ווי אַ סאָרט פון פּרונינג, זען Ho et al. (2007) . געפֿינען אַ איין שליימעסדיק גלייַכן פֿאַר יעדער מענטש איז אָפֿט שווער, און דאָס ינטראַדוסיז אַ נומער פון קאַמפּלעקסיטיז. ערשטער, ווען פּינטלעך שוועבעלעך זענען ניט בנימצא, ריסערטשערז דאַרפֿן צו באַשליסן ווי צו מעסטן די ווייַטקייט צווישן צוויי וניץ און אויב אַ געגעבן ווייַטקייט איז נאָענט גענוג. א רגע קאַמפּלעקסיטי ערייזאַז אויב ריסערטשערז ווילן צו נוצן קייפל שוועבעלעך פֿאַר יעדער פאַל אין די באַהאַנדלונג גרופּע, ווייַל דאָס קען פירן צו מער גענוי סטייטמאַנץ. ביידע פון די ישוז, ווי געזונט ווי אנדערע, זענען דיסקרייבד אין דעטאַל אין פּרק 18 פון Imbens and Rubin (2015) . זען אויך טייל וו פון ( ??? ) .
זען Dehejia and Wahba (1999) פֿאַר אַ בייַשפּיל וווּ ריכטיק מעטהאָדס זענען ביכולת צו פּראָדוצירן עסטאַמאַץ ענלעך צו די פון אַ ראַנדאַמייזד קאַנטראָולד עקספּערימענט. אָבער, זען Arceneaux, Gerber, and Green (2006) און Arceneaux, Gerber, and Green (2010) פֿאַר ביישפילן וווּ ריכטיק מעטהאָדס קען ניט רעפּראָדוצירן אַ יקספּערמענאַל בענטשמאַרק.
Rosenbaum (2015) און Hernán and Robins (2016) פאָרשלאָגן אנדערע עצה פֿאַר דיסקאַווערינג נוציק קאַמפּעראַסאַנז אין גרויס דאַטן קוואלן.