מאַשמאָעס סאַמפּאַלז און גויים-מאַשמאָעס סאַמפּאַלז זענען ניט אַז אַנדערש אין פיר; אין ביידע קאַסעס, עס ס אַלע וועגן די ווייץ.
מוסטערונג איז פונדאַמענטאַל צו יבערבליק פאָרשונג. רעסעאַרטשערס כּמעט קיינמאָל פרעגן זייער שאלות צו אַלעמען אין זייער ציל באַפעלקערונג. אין דעם אַכטונג, סערווייז זענען נישט יינציק. רוב פאָרשונג, אין איין וועג אָדער אנדערן, ינוואַלווז מוסטערונג. מאל דעם מוסטערונג איז געשען בפֿירוש דורך די פאָרשער; אנדערע מאל עס כאַפּאַנז ימפּליסאַטלי. לעמאָשל, אַ פאָרשער אַז ראַנז אַ לאַבאָראַטאָריע עקספּערימענט אויף ונדערגראַדואַטע סטודענטן אין איר אוניווערסיטעט האט אויך גענומען אַ מוסטער. אזוי, מוסטערונג איז אַ פּראָבלעם אַז קומט אַרויף איבער דעם בוך. אין פאַקט, איינער פון די מערסט פּראָסט קאַנסערנז אַז איך הערן וועגן דיגיטאַל עלטער קוואלן פון דאַטן איז "זיי זענען נישט רעפּריזענאַטיוו." ווי מיר וועט זען אין דעם אָפּטיילונג, דעם דייַגע איז ביידע ווייניקער ערנסט און מער סאַטאַל ווי פילע סקעפּטיקס פאַרשטיין. אין פאַקט, איך וועט טייַנען אַז די גאנצע באַגריף פון "רעפּרעסענטאַטיווענעסס" איז ניט נוציק פֿאַר טראכטן וועגן מאַשמאָעס און גויים-מאַשמאָעס סאַמפּאַלז. אַנשטאָט, דער שליסל איז צו טראַכטן וועגן ווי די דאַטן איז געזאמלט און ווי קיין בייאַסיז אין אַז דאַטן זאַמלונג קענען זיין אַנדאַן ווען מאכן עסטאַמאַץ.
איצט, די דאָמינאַנט טעאָרעטיש צוגאַנג צו פאַרטרעטונג איז מאַשמאָעס מוסטערונג. ווען דאַטן זענען געזאמלט מיט אַ מאַשמאָעס מוסטערונג אופֿן אַז האט שוין בישליימעס עקסאַקיוטאַד, ריסערטשערז זענען ביכולת צו וואָג זייער דאַטע באזירט אויף די וועג אַז זיי זענען געזאמלט צו מאַכן אַנבייאַסט עסטאַמאַץ וועגן די ציל באַפעלקערונג. אָבער, שליימעסדיק מאַשמאָעס מוסטערונג בייסיקלי קיינמאָל כאַפּאַנז אין דער עמעס וועלט. עס זענען טיפּיקלי צוויי הויפּט פּראָבלעמס 1) Differences צווישן די ציל באַפעלקערונג און די ראַם באַפעלקערונג און 2) ניט-ענטפער (די ביסט פּונקט די פּראָבלעמס אַז רעקט די ליטערארישע דיגעסט אָפּשטימונג). אזוי, אלא ווי טראכטן פון מאַשמאָעס מוסטערונג ווי אַ רעאַליסטיש מאָדעל פון וואָס אַקטשאַוואַלי כאַפּאַנז אין דער וועלט, עס איז בעסער צו טראַכטן פון מאַשמאָעס מוסטערונג ווי אַ נוציק, אַבסטראַקט מאָדעל, פיל ווי די וועג פיסיסיסץ טראַכטן וועגן אַ פריקטיאָנלעסס פּילקע ראָולינג אַראָפּ אַ ינפיניטעלי לאַנג ראַמפּע.
די אנדער ברירה צו מאַשמאָעס מוסטערונג איז ניט-מאַשמאָעס מוסטערונג. דער הויפּט חילוק צווישן מאַשמאָעס און גויים-מאַשמאָעס מוסטערונג איז אַז מיט מאַשמאָעס מוסטערונג אַלעמען אין די באַפעלקערונג האט אַ באקאנט מאַשמאָעס פון ינקלוזשאַן. עס זענען, אין פאַקט, פילע ווערייאַטיז פון נאַן-מאַשמאָעס מוסטערונג, און די מעטהאָדס פון דאַטן זאַמלונג זענען שיין ינקריסינגלי פּראָסט אין די דיגיטאַל עלטער. אבער, ניט-מאַשמאָעס מוסטערונג האט אַ שרעקלעך שעם צווישן געזעלשאַפטלעך סיינטיס און סטאַטיסטיסיאַנס. אין פאַקט, ניט-מאַשמאָעס מוסטערונג איז פֿאַרבונדן מיט עטלעכע פון די מערסט דראַמאַטיק פאַילורעס פון יבערבליק ריסערטשערז, אַזאַ ווי די ליטערארישע דיגעסט פיאַסקאָ (דיסקאַסט פריער) און די פאַלש פּראָגנאָז וועגן די יו פּרעזאַדענטשאַל ילעקשאַנז פון 1948 ( "Dewey דעפעאַץ טרומאַן") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
אָבער, די צייַט איז רעכט צו יבערקלערן נאַן-מאַשמאָעס מוסטערונג פֿאַר צוויי סיבות. ערשטער, ווי מאַשמאָעס סאַמפּאַלז האָבן ווערן ינקריסינגלי שווער צו טאָן אין פיר, די שורה צווישן מאַשמאָעס סאַמפּאַלז און גויים-מאַשמאָעס סאַמפּאַלז איז בלערינג. ווען עס זענען הויך רייץ פון נאַן-ענטפער (ווי עס זענען אין פאַקטיש סערווייז איצט), די פאַקטיש מאַשמאָעס פון ינקלוזשאַנז פֿאַר ריספּאַנדאַנץ זענען נישט באקאנט, און אַזוי, מאַשמאָעס סאַמפּאַלז און גויים-מאַשמאָעס סאַמפּאַלז זענען נישט ווי אַנדערש ווי פילע ריסערטשערז גלויבן. אין פאַקט, ווי מיר וועלן זען ווייטער, ביידע אַפּראָוטשיז בייסיקלי רעלי אויף דער זעלביקער אָפּשאַצונג אופֿן: פּאָסטן-סטראַטיפיקאַטיאָן. רגע, עס האָבן שוין פילע דיוועלאַפּמאַנץ אין די זאַמלונג און אַנאַליז פון נאַן-מאַשמאָעס סאַמפּאַלז. די מעטהאָדס זענען אַנדערש גענוג פון די מעטהאָדס אַז געפֿירט פּראָבלעמס אין די פאַרגאַנגענהייַט אַז איך טראַכטן עס מאכט חוש צו טראַכטן פון זיי ווי "ניט-מאַשמאָעס מוסטערונג 2.0." מיר זאָל ניט האָבן אַ יראַשאַנאַל עקל צו ניט-מאַשמאָעס מעטהאָדס ווייַל פון ערראָרס אַז געשען א לאנגע צייט צוריק.
ווייַטער, אין סדר צו מאַכן דעם אַרגומענט מער באַטאָנען, איך וועט אָפּשאַצונג נאָרמאַל מאַשמאָעס מוסטערונג און ווייטינג (אָפּטיילונג 3.4.1). דער שליסל געדאַנק איז אַז ווי איר געזאמלט דיין דאַטן זאָל פּראַל ווי איר מאַכן עסטאַמאַץ. אין באַזונדער, אויב אַלעמען טוט נישט האָבן די זעלבע מאַשמאָעס פון ינקלוזשאַן, דעמאָלט אַלעמען זאָל נישט האָבן די זעלבע וואָג. אין אנדערע ווערטער, אויב דיין מוסטערונג איז ניט דעמאָקראַטיש, דעמאָלט דיין עסטימאַטיאָנס זאָל ניט זיין דעמאָקראַטיש. נאָך ריוויוינג ווייטינג, איך וועט באַשרייַבן צוויי אַפּראָוטשיז צו נאַן-מאַשמאָעס מוסטערונג: איינער אַז פאָקוסעס אויף ווייטינג צו האַנדלען מיט די פּראָבלעם פון האַפאַזאַרדלי געזאמלט דאַטע (אָפּטיילונג 3.4.2), און איינער אַז טרייז צו שטעלן מער קאָנטראָל איבער ווי די דאַטן איז געזאמלט (אָפּטיילונג 3.4.3). די טענות אין די הויפּט טעקסט וועט זיין דערקלערט ונטער מיט ווערטער און בילדער; לייענער וואס וואָלט ווי אַ מער מאַטאַמאַטיקאַל באַהאַנדלונג זאָל אויך זען די טעכניש אַפּפּענדיקס.