גרויס דאַטן קוואלן טענד צו האָבן צען טשאַראַקטעריסטיקס; עטלעכע ביסט גוט פֿאַר געזעלשאַפטלעך פאָרשונג און עטלעכע זענען שלעכט.
אויב ריסערטשערז זענען געגאנגען צו לערנען פון גרויס דאַטן אַז זיי האבן ניט מאַכן אָדער קלייַבן, דעריבער זיי מוזן פֿאַרשטיין זייַן גענעראַל טשאַראַקטעריסטיקס. אלא ווי גענומען אַ פּלאַטפאָרמע דורך פּלאַטפאָרמע צוגאַנג (למשל, דאָ ס וואָס איר דאַרפֿן צו וויסן וועגן טוויטטער, דאָ ס וואָס איר דאַרפֿן צו וויסן וועגן Google זוכן דאַטן, אאז"ו ו), איך בין געגאנגען צו באַשרייַבן צען אַלגעמיין טשאַראַקטעריסטיקס פון גרויס דאַטן, קעראַקטעריסטיקס אַז שטיי ווייַל די דאַטן איז נישט Created פֿאַר דעם צוועק פון געזעלשאַפטלעך פאָרשונג. דורך סטעפּינג צוריק פון די דעטאַילס פון יעדער באַזונדער סיסטעם און קוקן בייַ די גענעראַל פּראָפּערטיעס, ריסערטשערז קענען געשווינד לערנען מער וועגן יגזיסטינג דאַטע קוואלן און האָבן אַ פעסט שטעלן פון געדאנקען צו צולייגן צו צוקונפֿט דאַטע קוואלן.
איך געפינען עס נוציק צו גרופּע די טשאַראַקטעריסטיקס אין צוויי קאַטעגאָריעס:
בראָדלי גערעדט, רעגירונג אַדמיניסטראַטיווע רעקאָרדס זענען ווייניקער ניט-רעפּריזענאַטיוו, ווייניקער אַלגאָריטהמיקאַללי שעם זיך, און ווייניקער Drifting. אויף די אנדערע האַנט, געשעפט אַדמיניסטראַטיווע רעקאָרדס טענד צו זיין גרעסערע און מער שטענדיק-אויף.