גרויס דאַטן קוואלן קענען זיין לאָודיד מיט אָפּפאַל און ספּאַם.
עטלעכע ריסערטשערז גלויבן אַז גרויס דאַטע מקורים, ספּעציעל אָנליין קוואלן, זענען פּריסטינע ווייַל זיי זענען אויטאָמאַטיש קלייַבן. אין פאַקט, מענטשן וואס האָבן געארבעט מיט גרויס דאַטן קוואלן וויסן אַז זיי זענען אָפט גראָב . אַז איז, זיי אָפט אַרייַננעמען דאַטן וואָס טאָן ניט פאַרטראַכטן פאַקטיש אַקשאַנז פון אינטערעס צו ריסערטשערז. רובֿ סאציאלע סייאַנטיס זענען שוין באַקאַנט מיט דעם פּראָצעס פון רייניקונג גרויס-וואָג געזעלשאַפטלעך יבערבליק דאַטן, אָבער רייניקונג גרויס דאַטע קוואלן מיינט צו זיין מער שווער. איך טראַכטן די לעצט מקור פון דעם שוועריקייט איז אַז פילע פון די גרויס דאַטן קוואלן האבן קיינמאָל בדעה צו זיין געניצט פֿאַר פאָרשונג, און אַזוי זיי זענען נישט געזאמלט, סטאָרד, און דאַקיומענטאַד אין אַ וועג אַז פאַסילאַטייץ דאַטן רייניקונג.
די דיינדזשערז פון גראָב דיגיטאַל שפּור דאַטע זענען ילאַסטרייטאַד דורך צוריק און קאָללאַגס ' (2010) לערנען פון די עמאָציאָנעל ענטפער צו די אנפאלן פון 11 סעפטעמבער 2001, וואָס איך בעקיצער דערמאנט פריער אין די קאַפּיטל. רעסעאַרטשערס טיפּיקלי לערנען די ענטפער צו טראַגיש געשעענישן ניצן רעטראַספּעקטיוו דאַטע געזאמלט איבער חדשים אָדער אַפֿילו יאָרן. אָבער, באַק און חברים געפונען אַ שטענדיק-אויף מקור פון דיגיטאַל טראַסעס, די טימעסטאַמפּאַד, אויטאָמאַטיש רעקאָרדעד אַרטיקלען פון 85,000 אמעריקאנער פּיידזשערז - און דאָס ינייבאַלד זיי צו לערנען עמאָציאָנעל ענטפער אויף אַ פיל פיינער טייקאַלז. זיי באשאפן אַ מינוט-ביי-מינוט עמאָציאָנעל טיימליין פון סעפטעמבער 11 דורך קאָודינג די עמאָציאָנעל צופרידן פון די פּיידזשער אַרטיקלען דורך די פּראָצענט פון ווערטער שייַכות צו (1) טרויער (למשל "רופט" און "טרויער"), (2) דייַגעס למשל, "באַזאָרגט" און "שרעקעדיק"), און (3) קאַס (למשל, "האַס" און "קריטיש"). זיי געפונען אַז טרויער און דייַגעס פלאַקטשאַווייטיד איבער דעם טאָג אָן אַ שטאַרק מוסטער, אָבער אַז עס איז געווען אַ סטרייקינג פאַרגרעסערן אין צארן איבער די טאָג. די פאָרשונג מיינט צו זיין אַ ווונדערלעך פאָרעם פון די מאַכט פון שטענדיק-אויף דאַטן קוואלן: אויב געוויינט טראדיציאנעלן דאַטן קוואלן, עס וואָלט געווען אוממעגלעך צו באַקומען אַזאַ אַ הויך-האַכלאָטע טיימליין פון די באַלדיק ענטפער צו אַ אומגעריכט געשעעניש.
נאָר איין יאָר שפּעטער, אָבער, Cynthia Pury (2011) האט קוק בייַ די דאַטן מער קערפאַלי. זי געפונען אַז אַ גרויס נומער פון די סאַפּאָוזאַדלי בייז אַרטיקלען זענען דזשענערייטאַד דורך אַ איין פּיידזשער און זיי זענען אַלע יידעניקאַל. דאָ ס וואָס יענע סאַפּאָוזאַדלי בייז אַרטיקלען געזאגט:
"רעבאָאָט נט מאַשין [נאָמען] אין קאַבינעט [נאָמען] בייַ [אָרט]: קריטיש: [טאָג און צייַט]"
די אַרטיקלען זייַנען לייכט בייז, ווייַל זיי אַרייַנגערעכנט די וואָרט "קריטיש", וואָס קען בכלל אָנווייַזן כּעס אָבער אין דעם פאַל טוט נישט. רימוווינג די אַרטיקלען דזשענערייטאַד דורך דעם איין אָטאַמייטיד פּיידזשער גאָר ילימאַנייץ דער קלאָר פאַרגרעסערן אין קאַס איבער די קורס פון דעם טאָג (פיגורע 2.4). אין אנדערע ווערטער, די הויפּט רעזולטאַט אין Back, Küfner, and Egloff (2010) איז געווען אַ אַרטאַפאַקט פון איין פּיידזשערז. ווי דעם בייַשפּיל ילאַסטרייץ, לעפיערעך פּשוט אַנאַליסיס פון לעפיערעך קאָמפּלעקס און מעסי דאַטן האט דער פּאָטענציעל צו גיין עמעס פאַלש.
בשעת גראָב דאַטע וואָס איז באשאפן אַנינטענשאַנאַלי - אַזאַ ווי אַז פון אַ טומלדיק פּיידזשער קענען זיין דיטעקטאַד דורך אַ ריזאַנאַבלי אָפּגעהיט פאָרשער, עס זענען אויך עטלעכע אָנליין סיסטעמען וואָס צוציען ינטענדאַבאַל ספּאַממערס. די ספּאַממערס אַקטיוולי דזשענערייט שווינדל דאַטן, און אָפט מאָוטאַווייטאַד דורך נוץ-אַרבעט זייער שווער צו האַלטן זייער ספּאַמינג פאַרבאָרגן. פֿאַר בייַשפּיל, פּאָליטיש טעטיקייט אויף טוויטטער מיינט צו אַרייננעמען בייַ מינדסטער עטלעכע סאַבסטאַנייטיד ספּאַם, מיט עטלעכע פּאָליטיש סיבות זענען בעשאָלעם געמאכט צו קוקן מער פאָלקס ווי זיי פאקטיש זענען (Ratkiewicz et al. 2011) . צום באַדויערן, רימוווינג דעם ינטענשאַנאַל ספּאַם קען זיין גאַנץ שווער.
פון קורס, וואָס איז געהאלטן גראָב דאַטע קענען אָפענגען, אין טייל, אויף דער פאָרשונג קשיא. פֿאַר בייַשפּיל, פילע ענדערונגען צו וויקיפעדיע זענען באשאפן דורך אָטאַמייטיד באָץ (Geiger 2014) . אויב איר זענט אינטערעסירט אין די עקאָלאָגי פון וויקיפעדיע, די באָט-באשאפן רעדאקציע איז וויכטיק. אבער אויב איר זענט אינטערעסירט אין ווידיגע באַציונגען צו וויקימעדיע, די באָט-באשאפן רעדאקציע זאָל זיין יקסקלודיד.
עס איז קיין איין סטאַטיסטיש טעכניק אָדער צוטריט וואָס קענען ענשור אַז איר האָט גענוג קלינד דיין גראָב דאַטע. אין די סוף, איך טראַכטן דער בעסטער וועג צו ויסמייַדן זייַענדיק פארפירט דורך גראָב דאַטע איז צו פֿאַרשטיין ווי פיל ווי מעגלעך וועגן ווי דיין דאַטן זענען באשאפן געווארן.