ניט-רעפּרעסענטאַטיווע דאַטן זענען שלעכט פֿאַר אויס-פון-מוסטער גענעראַליזאַטיאָנס, אָבער קענען זיין גאַנץ נוצלעך פֿאַר ין-מוסטער קאַמפּעראַסאַנז.
עטלעכע סאציאל סייאַנטיס זענען צוגעוווינט צו ארבעטן מיט דאַטן וואָס קומט פון אַ פּראָבאַביליסטיק לאָקאַל מוסטער פון אַ געזונט-דיפיינד באַפעלקערונג, אַזאַ ווי אַלע אַדאַלץ אין אַ באַזונדער לאַנד. דעם מין פון דאַטן איז גערופן פארשטייער דאַטע ווייַל די מוסטער "רעפּראַזענץ" די גרעסערע באַפעלקערונג. פילע ריסערטשערז פרייז רעפּריזענאַטיוו דאַטע, און צו עטלעכע, רעפּריזענאַטיוו דאַטע איז סאַנאַנאַמאַס מיט שטרענג וויסנשאַפֿט כוועראַז ניט רעפּרעסענטאַטיווע דאַטע איז סאַנאַנאַמאַס מיט סלאָפּפּינעסס. אין די מערסט עקסטרעם, עטלעכע סקעפּטיקס ויסקומען צו גלויבן אַז גאָרנישט קענען זיין געלערנט פון ניט-רעפּרעסענטאַטיווע דאַטן. אויב אמת, דאָס וואָלט ויסקומען צו סאַווירלי שיעור וואָס קענען זיין געלערנט פון גרויס דאַטע מקורים ווייַל פילע פון זיי זענען ניט רעפּרעסענטאַטיווע. גליק, די סקעפּטיקס זענען בלויז טייל רעכט. עס זענען זיכער פאָרשונג צילן פֿאַר וואָס ניט-רעפּרעסענטאַטיווע דאַטע איז קלאר נישט געזונט סוטאַד, אָבער עס זענען אנדערע פֿאַר וואָס עס זאל פאקטיש זיין גאַנץ נוצלעך.
צו פֿאַרשטיין די דיסטינגקשאַן, לאָזן אונדז באַטראַכטן אַ וויסנשאפטלעכע קלאַסיש: יוחנן סנאָו ס לערנען פון די 1853-54 כאָלערע ויסברוך אין לאָנדאָן. אין דער צייַט, פילע דאקטוירים געגלויבט אַז כאָלעראַ איז געפֿירט דורך "שלעכט לופט," אָבער סנאָו געגלויבט אַז עס איז אַ ינפעקשאַס קרענק, טאָמער פאַרשפּרייטן דורך אָפּגאַנג וואַסער. צו פּרובירן דעם געדאַנק, שניי גענומען מייַלע פון וואָס מיר זאלן איצט רופן אַ נאַטירלעך עקספּערימענט. ער קאַמפּערד די כאָלעראַ רייץ פון כאַוסכאָולדז געדינט דורך צוויי פאַרשידענע וואַסער קאָמפּאַניעס: לאַמיטה און סאָוטהוואַרק & וואַוקסהאַלל. די פירמע האט געדינט ענלעך כאַוסכאָולדז, אָבער זיי זענען אַנדערש אין איינער וויכטיק וועג: אין 1849-אַ ביסל יאָרן איידער די עפּידעמיע אנגעהויבן-Lambeth אריבערגעפארן זייַן ינטייק פונט אַפּסטרים פון די הויפּט אָפּגאַנג אָפּזאָגן אין לאָנדאָן, וווּ Southwark & Vauxhall לינקס זייער ינטייק רערנ - ליניע Downstream פון די אָפּגאַנג אָפּזאָגן. ווען שניי קאַמפּערד די טויט ראַטעס פון כאָלעראַ אין כאַוסכאָולדז געדינט דורך די צוויי קאָמפּאַניעס, ער געפונען אַז קאַסטאַמערז פון סאָוטהוואַרק & וואַוקסהאַלל - די פירמע וואָס איז געווען צושטעלן קאַסטאַמערז אָפּגאַנג-טיינטיד וואַסער-זענען 10 מאל מער מסתּמא צו שטאַרבן פון כאָלערע. דעם רעזולטאַט גיט שטאַרקע וויסנשאפטלעכע זאָגן פֿאַר שניי ס אַרגומענט וועגן די גרונט פון כאָלערע, כאָטש עס איז נישט באזירט אויף אַ פארשטייער מוסטער פון מענטשן אין לאָנדאָן.
די דאַטן פון די צוויי קאָמפּאַניעס, אָבער, וואָלט נישט זיין ידעאַל פֿאַר אַן ענטפֿער: וואָס איז די פּרעוואַלאַנס פון כאָלערע אין לאָנדאָן בעשאַס די ויסברוך? פֿאַר דעם רגע קשיא, וואָס איז אויך וויכטיק, עס וואָלט זיין פיל בעסער צו האָבן אַ פארשטייער מוסטער פון מענטשן פון לאָנדאָן.
ווי Snow's work illustrates, עס זענען עטלעכע וויסנשאפטלעכע פראגעס פֿאַר וואָס ניט רעפּרעסענטאַטיווע דאַטן קענען זיין גאַנץ עפעקטיוו און עס זענען אנדערע פֿאַר וואָס עס איז נישט געזונט פּאַסיק. איין גראָב וועג צו דיסטיישאַנאַל די צוויי מינים פון שאלות איז אַז עטלעכע פראגעס זענען וועגן ין-מוסטער קאַמפּעראַסאַנז און עטלעכע זענען וועגן אויס-פון-מוסטער גענעראַליזאַטיאָנס. די אונטערשיידונג קענען זיין ווייַטער אילוסטרירט דורך אן אנדער קלאַסיש לערנען אין עפּידעמיאָלאָגי: די בריטיש דאקטוירים לערנען, וואָס געשפילט אַ וויכטיק ראָלע אין דעמאַנסטרייטינג אַז סמאָקינג זאַק ראַק. אין דעם לערנען, ריטשארד דאָלל און א. בראַדפאָרד הילל זענען בעערעך 25,000 זכר דאקטוירים פֿאַר עטלעכע יאר און קאַמפּערד זייער טויט ראַטעס באזירט אויף די סומע וואָס זיי סמאָוקט ווען די לערנען אנגעהויבן. ליאַלקע און הילל (1954) געפונען אַ שטאַרק עקספּאָסורע-אָפּרוף שייכות: די מער שווער מען סמאָוקט, די מער מסתּמא זיי זענען צו שטאַרבן פון לונג ראַק. פון קורס, עס וואָלט זיין אַניוזד צו באַשליסן די פּרעוואַלאַנס פון לונג ראַק צווישן אַלע בריטיש מענטשן באזירט אויף דעם גרופּע פון זכר דאקטוירים, אָבער די ין-מוסטער פאַרגלייַך נאָך גיט זאָגן אַז סמאָוקינג ז לונג ראַק.
איצט אַז איך ווע יללוסטרירט די חילוק צווישן ין-מוסטער קאַמפּעראַסאַנז און אויס-פון-מוסטער גענעראַליזאַטיאָנס, צוויי קייוואַץ זענען אין סדר. ערשטער, עס זענען געוויינטלעך פראגעס וועגן דער מאָס וואָס אַ שייכות וואָס האלט אין אַ מוסטער פון זכר בריטיש דאקטוירים וועט אויך האַלטן ין אַ מוסטער פון ווייַבלעך, בריטיש דאקטוירים אָדער זכר בריטיש פאַבריק טוערס אָדער ווייַבלעך דייַטש פאַבריק טוערס אָדער פילע אנדערע גרופּעס. די פראגעס זענען טשיקאַווע און וויכטיק, אָבער זיי זענען אַנדערש פון פראגעס וועגן דער מאָס וואָס מיר קענען גענעראַליזירן פון אַ מוסטער צו אַ באַפעלקערונג. באַמערקן, פֿאַר בייַשפּיל, אַז איר מיסטאָמע כאָשעד אַז די שייכות צווישן סמאָוקינג און ראַק אַז איז געפונען אין זכר בריטיש דאקטוירים וועט מיסטאָמע זיין ענלעך אין די אנדערע גרופּעס. דיין פיייקייַט צו טאָן דעם עקסטראַפּאָלאַטיישאַן טוט נישט קומען פון די פאַקט אַז זכר בריטיש דאקטוירים זענען אַ פּראָבאַביליסטיק לאָקאַל מוסטער פֿון קיין באַפעלקערונג; אלא, עס קומט פון אַ פארשטאנד פון די מעקאַניזאַם וואָס לינקס סמאָוקינג און ראַק. דער גענעראַליזיישאַן פֿון אַ מוסטער צו דער באַפעלקערונג פון וואָס איז ציען איז אַ לאַרגעלי אַ סטאַטיסטיש אַרויסגעבן, אָבער שאלות וועגן די טראַנספּאָרטאַביליטי פון מוסטער געפונען אין איין גרופּע צו אן אנדער גרופּע איז לאַרגעלי אַ נאַנסטאַטיסטיקאַל אַרויסגעבן (Pearl and Bareinboim 2014; Pearl 2015) .
אין דעם פונט, אַ סקעפּטיקער קען פונט אויס אַז רובֿ סאציאלע פּאַטערנז זענען מיסטאָמע ווייניקער טראַנספּאָרטאַבאַל אַריבער גרופּעס ווי די שייכות צווישן סמאָוקינג און ראַק. און איך שטימען. די מאָס וואָס מיר זאָלן אַרויסקוקן די מאָדעלס צו טראַנספּאָרטירן איז לעסאָף אַ וויסנשאפטלעכע קשיא וואָס מוזן באַשלאָסן באזירט אויף טעאָריע און זאָגן. עס זאָל ניט אויטאָמאַטיש ווערן אנגענומען אַז די מאָדעלס וועט זיין טראַנספּאָרטאַבאַל, אָבער עס זאָל ניט זיין גענומען אַז עס וועט נישט זיין טראַנספּאָרטאַבאַל. די עפּעס אַבסטראַקט פראגעס וועגן טראַנספּאָרטאַביליטי וועט זיין באַקאַנט צו איר אויב איר האָט נאכגעגאנגען די וויכוחים וועגן ווי פיל ריסערטשערז קענען לערנען וועגן מענטש נאַטור דורך געלערנט ונדערגראַדואַטע סטודענטן (Sears 1986, [@henrich_most_2010] ) . טראָץ די דעביטס, אָבער, עס וואָלט זיין אַנריזאַנאַבאַל צו זאָגן אַז פאָרשער קענען נישט לערנען עפּעס פון לערנען ונדערגראַדואַטע סטודענטן.
די רגע קייוויאַט איז אַז רובֿ ריסערטשערז מיט ניט-רעפּרעסענטאַטיווע דאַטן זענען נישט ווי אָפּגעהיט ווי שניי אָדער ליאַלקע און הילל. אַזוי, צו אילוסטרירן וואָס קען פאַלן ווען פאָרשער טריינג צו מאַכן אַן אויסגאבע פון גענעראַליזאַטיאָן פון ניט-רעפּרעסענטאַטיווע דאַטן, איך וואָלט ווי צו דערציילן איר וועגן אַ לערנען פון די דייַטש פּאַרלאַמענערי וואַלן דורך אַנדראַניק טומאַסדזשאַן און קאָללאַגס (2010) . דורך די אַנאַליסיס פון מער ווי 100,000 טוועעץ, זיי געפונען אַז די פּראָפּערטיעס פון טוועעץ מענטינג אַ פּאָליטיש פּאַרטיי מאַטשט די פּראָפּאָרציע פון וואָוץ וואָס פּאַרטיי באקומען אין פּאַרלאַמענערי וואַלן (פיגורע 2.3). אין אנדערע ווערטער, עס איז געווען ווייזן אַז טוויטטער דאַטן, וואָס איז יסענשאַלי פּאָטער, קענען פאַרבייַטן טראדיציאנעלן ציבור מיינונג סערווייז, וואָס זענען טייַער ווייַל פון זייער טראָפּ אויף רעפּריזענאַטיוו דאַטן.
געגעבן וואָס איר מיסטאָמע שוין וויסן וועגן טוויטטער, איר זאָל מיד זיין סקעפּטיקאַל פון דעם רעזולטאַט. דייטשישער אויף טוויטטער אין 2009 זענען נישט אַ פּראָבאַביליטיווע לאָקאַל מוסטער פון דייַטש וואָטערס, און סופּפּאָרטערס פון עטלעכע פּאַרטיעס קען טוועעט וועגן פּאָליטיק פיל מער אָפט ווי סופּפּאָרטערס פון אנדערע פּאַרטיעס. אזוי, עס מיינט חידוש אַז אַלע די מעגלעך בייייזאַז אַז איר קען ימאַדזשאַן וואָלט עפעס באָטל מאַכן זיך אַזוי אַז דאָס דאַטן וואָלט זיין גלייַך ריפלעקטיוו פון דייַטש וואָטערס. אין פאַקט, די רעזולטאַטן אין Tumasjan et al. (2010) איז געווען צו זיין גוט צו זיין אמת. א פאלגענדע אפטיילונג פון Andreas Jungherr, Pascal Jürgens, און Harald Schoen (2012) אנגעוויזן אַז דער אָריגינעלער אַנאַליזם האָט אויסגעקליבן די פּאָליטישע פּאַרטיי וואָס האָט פּאַסירט די מערסט דערמאָנונגען אויף טוויטטער: די פּיראַטע פארטיי, אַ קליין פּאַרטיי וואָס קעמפן רעגירונג רעגולירן פון די אינטערנעט. ווען די פּיראַטע פארטיי איז געווען אַרייַנגערעכנט אין די אַנאַליסיס, טוויטטער דערמאנט ווערט אַ שרעקלעך פּרעדיקטאָר פון וואַלן רעזולטאַטן (פיגורע 2.3). ווי דעם בייַשפּיל ילאַסטרייץ, ניצן ניט-רעפּרעסענטאַטיווע גרויס דאַטע מקורים צו טאָן אויס-פון-מוסטער גענעראַליזאַטיאָנס קענען גיין זייער פאַלש. אויך, איר זאָל באַמערקן אַז דער פאַקט אַז 100,000 טוועעץ זענען בייסיקלי ירעלאַוואַנט: גורל פון ניט-רעפּרעסענטאַטיווע דאַטן איז נאָך ניט-רעפּריזענאַטיוו, אַ טעמע אַז איך וועט צוריקקומען אין אין פּרק 3 ווען איך דיסקוטירן סערווייז.
צו פאַרענדיקן, פילע גרויס דאַטן קוואלן זענען נישט פארשטייער סאַמפּאַלז פון עטלעכע גוט-דיפיינד באַפעלקערונג. פֿאַר פראגעס וואָס דאַרפן קאַלעקטינג רעזולטאַטן פון די מוסטער צו די באַפעלקערונג פון וואָס עס איז געווען ציען, דאָס איז אַ ערנסט פּראָבלעם. אָבער פֿאַר פראגעס וועגן ין-מוסטער קאַמפּעראַסאַנז, ניט רעפּרעסענטאַטיווע דאַטן קענען זיין שטאַרק, אַזוי לאַנג ווי ריסערטשערז זענען קלאָר וועגן די קעראַקטעריסטיקס פון זייער מוסטער און שטיצן קליימז וועגן טראַנספּאָרטאַביליטי מיט טעאָרעטיש אָדער עמפּיריקאַל זאָגן. אין פאַקט, מיין האָפענונג איז אַז גרויס דאַטע מקורים וועט געבן ריסערטשערז צו מאַכן מער אין-פּראָבע קאַמפּעראַסאַנז אין פילע ניט-רעפּרעסענטאַטיווע גרופּעס, און מיין טרעפן איז אַז עסטאַמאַץ פון פילע פאַרשידענע גרופּעס וועט טאָן מער צו שטייַגן געזעלשאַפטלעך פאָרשונג ווי אַ איין אָפּשאַצונג פון אַ פּראָבאַבאַליסטיק טראַפ מוסטער.