2.3.2.3 נאָן-רעפּריזענאַטיוו

צוויי קוואלן פון נאַן-רעפּרעסענטאַטיווענעסס זענען אַנדערש פּאַפּיאַליישאַנז און פאַרשידענע באַניץ פּאַטערנז.

גרויס דאַטן טענד צו זיין סיסטאַמאַטיקלי בייאַסט אין צוויי הויפּט וועגן. דעם דאַרפֿן ניט פאַרשאַפן אַ פּראָבלעם פֿאַר אַלע מין פון אַנאַליסיס, אָבער פֿאַר עטלעכע אַנאַליסיס עס קענען זיין אַ קריטיש פלאַוו.

א ערשטער מקור פון סיסטעמאַטיש פאָרורטייל איז אַז די מענטשן קאַפּטשערד זענען טיפּיקלי ניט אַ גאַנץ אַלוועלט פון אַלע מענטשן אָדער אַ ראַנדאָם מוסטער פון קיין ספּעציפיש באַפעלקערונג. לעמאָשל, אמעריקאנער אויף טוויטטער זענט נישט אַ ראַנדאָם מוסטער פון אמעריקאנער (Hargittai 2015) . א צווייט מקור פון סיסטעמאַטיש פאָרורטייל איז אַז פילע גרויס דאַטאַ סיסטעמס כאַפּן אַקשאַנז, און עטלעכע מענטשן ביישטייערן פילע מער אַקשאַנז ווי אנדערע. לעמאָשל, עטלעכע מענטשן אויף טוויטטער ביישטייערן הונדערטער פון מאל מער טוועעץ ווי אנדערע. דעריבער, די געשעענישן אויף אַ ספּעציפיש פּלאַטפאָרמע קענען זיין אלץ מער שווער רעפלעקטיווע פון ​​זיכער סובגראָופּס ווי די פּלאַטפאָרמע זיך.

נאָרמאַללי ריסערטשערז ווילן צו וויסן אַ פּלאַץ וועגן די דאַטן וואָס זיי האָבן. אבער, געגעבן די גויים-רעפּריזענאַטיוו נאַטור פון גרויס דאַטע, עס איז נוציק צו אויך Flip דיין טראכטן. איר אויך דאַרפֿן צו וויסן אַ פּלאַץ וועגן די דאַטע אַז איר טאָן ניט האָבן. דאס איז ספּעציעל אמת ווען די דאַטע אַז איר טאָן ניט האָבן זענען סיסטאַמאַטיקלי פאַרשידענע פֿון די דאַטע אַז איר טאָן האָבן. לעמאָשל, אויב איר האָבן די רופן רעקאָרדס פון אַ רירעוודיק טעלעפאָנירן פירמע אין אַ דעוועלאָפּינג לענדער, איר זאָל טראַכטן ניט נאָר וועגן די מענטשן אין דיין דאַטאַסעט, אָבער אויך וועגן די מענטשן וואס זאל זיין אויך נעבעך צו אייגן אַ רירעוודיק טעלעפאָנירן. ווייטער, אין פּרק 3, מיר וועט לערנען וועגן ווי ווייטינג קענען געבן ריסערטשערז צו מאַכן בעסער עסטאַמאַץ פון נאַן-רעפּריזענאַטיוו דאַטן.