גרויס דאַטן קוואלן קענען זיין לאָודיד מיט אָפּפאַל און ספּאַם.
עטלעכע ריסערטשערז גלויבן אַז גרויס דאַטן קוואלן, ספּעציעל יענע פון אָנליין קוואלן, ביסט פּריסטינע ווייַל זיי זענען געזאמלט אויטאָמאַטיש. אין פאַקט, מענטשן וואס האָבן געארבעט מיט גרויס דאַטן קוואלן וויסן אַז זיי זענען אָפט גראָב. אַז איז, זיי אָפט אַרייַננעמען דאַטן אַז טאָן ניט פאַרטראַכטנ זיך פאַקטיש אַקשאַנז פון אינטערעס צו ריסערטשערז. פילע געזעלשאַפטלעך סייאַנטיס זענען שוין באַקאַנט מיט דעם פּראָצעס פון רייניקונג גרויס-וואָג געזעלשאַפטלעך יבערבליק דאַטן, אָבער רייניקונג גרויס דאַטן קוואלן איז מער שווער פֿאַר צוויי סיבות: 1) זיי זענען נישט Created דורך ריסערטשערז פֿאַר ריסערטשערז און 2) ריסערטשערז בכלל האָבן ווייניקער שכל פון ווי זיי זענען Created.
די דיינדזשערז פון גראָב דיגיטאַל שפּור דאַטן זענען ילאַסטרייטיד דורך צוריק און חברים ' (2010) לערנען פון די עמאָציאָנעל ענטפער צו די ארויסטריטן פון סעפטעמבער 11, 2001. רעסעאַרטשערס טיפּיקלי לערנען די ענטפער צו טראַגיש געשעענישן ניצן רעטראַספּעקטיוו דאַטן געזאמלט איבער חדשים אָדער אַפֿילו יאָרן. אבער, צוריק און חברים געפֿונען אַ שטענדיק-אויף מקור פון דיגיטאַל טראַסעס-דעם טימעסטאַמפּעד, אויטאָמאַטיש רעקאָרדעד אַרטיקלען פון 85,000 אמעריקאנער פּיידזשערז, און דאס ענייבאַלד די ריסערטשערז צו לערנען עמאָציאָנעל ענטפער אויף אַ פיל פינער טימעסקאַלע. צוריק און חברים Created אַ מינוט-דורך-מינוט עמאָציאָנעל טיימליין פון סעפטעמבער 11 דורך קאָודינג די עמאָציאָנעל צופרידן פון די פּיידזשער אַרטיקלען דורך די פּראָצענט פון ווערטער שייך צו (1) ומעט (למשל, געשריגן, טרויער), (2) דייַגעס (למשל, באַזאָרגט, שרעקעדיק), און (3) כּעס (למשל, האַס, קריטיש). זיי געפֿונען אַז ומעט און דייַגעס פלוקטואַטעד איבער דעם טאָג אָן אַ שטאַרק מוסטער, אָבער אַז עס איז געווען אַ סטרייקינג פאַרגרעסערן אין כּעס איבער דעם טאָג. דאס פאָרשונג מיינט צו זיין אַ ווונדערלעך געמעל פון די מאַכט פון שטענדיק-אויף דאַטן קוואלן: ניצן נאָרמאַל מעטהאָדס עס וואָלט זיין אוממעגלעך צו האָבן אַזאַ אַ הויך-האַכלאָטע טיימליין פון די באַלדיק ענטפער צו אַ אומגעריכט געשעעניש.
נאָר איין יאָר שפּעטער, אָבער, סינטיאַ פּורי (2011) געקוקט אין די דאַטן מער Carefully. זי דיסקאַווערד אַז אַ גרויס נומער פון די סאַפּאָוזאַדלי בייז אַרטיקלען זענען דזשענערייטאַד דורך אַ איין פּיידזשער און זיי זענען אַלע יידעניקאַל. דאָ ס וואָס די סאַפּאָוזאַדלי בייז אַרטיקלען האט געזאגט:
"רעבאָאָט נט מאַשין [נאָמען] אין קאַבינעט [נאָמען] בייַ [אָרט]: קריטיש: [טאָג און צייַט]"
די אַרטיקלען זענען מיטן נאָמען בייז ווייַל זיי ינקלודעד די וואָרט "CRITICAL", וואָס מייַ בכלל אָנווייַזן כּעס אָבער טוט נישט אין דעם פאַל. רימוווינג די אַרטיקלען דזשענערייטאַד דורך דעם איין אָטאַמייטיד פּיידזשער גאָר ילימאַנייץ דער קלאָר פאַרגרעסערן אין כּעס איבער די לויף פון די טאָג (Figure 2.2). אין אנדערע ווערטער, די הויפּט רעזולטאַט אין Back, Küfner, and Egloff (2010) איז געווען אַ Artifact פון איין פּיידזשער. ווי דעם בייַשפּיל ילאַסטרייץ, לעפיערעך פּשוט אַנאַליז פון לעפיערעך קאָמפּלעקס און מעסי דאַטן האט דער פּאָטענציעל צו גיין אַפ אַנ עמעס פאַלש.
בשעת גראָב דאַטע אַז איז Created אַנינטענשאַנאַלי-אַזאַ ווי פֿון איין טומלדיק פּיידזשער-קענען זייַן דיטעקטיד דורך אַ ריזאַנאַבלי אָפּגעהיט פאָרשער, דאָרט זענען אויך עטלעכע אָנליין סיסטעמס אַז צוציען ינטענשאַנאַל ספּאַממערס. די ספּאַממערס אַקטיוולי דזשענערייט שווינדל דאַטע, און-אָפֿט מאָוטאַווייטאַד דורך נוץ-אַרבעטן זייער שווער צו האַלטן זייער ספּאַממינג פאַרבאָרגן. לעמאָשל, פּאָליטיש טעטיקייט אויף טוויטטער מיינט צו אַרייַננעמען אין מינדסטער עטלעכע ריזאַנאַבלי sophisticated ספּאַם, ווערביי עטלעכע פּאָליטיש סיבות זענען בעקיוון געמאכט צו קוקן מער פאָלקס ווי זיי פאַקטיש זענען (Ratkiewicz et al. 2011) . רעסעאַרטשערס ארבעטן מיט דאַטע אַז מייַ אַנטהאַלטן ינטענשאַנאַל ספּאַם פּנים די אַרויסרופן פון קאַנווינסינג זייער וילעם אַז זיי האָבן דיטעקטיד און אַוועקגענומען באַטייַטיק ספּאַם.
צום סוף, וואָס איז געהאלטן גראָב דאַטע קענען אָפענגען אין סאַטאַל וועגן אויף דיין פאָרשונג שאלות. לעמאָשל, פילע רעדאַקטירונגען צו וויקיפּעדיע ביסט Created by אָטאַמייטיד באָץ (Geiger 2014) . אויב איר זענט אינטערעסירט אין די יקאַלאַדזשי פון וויקיפּעדיע, דעריבער די באָץ זענען וויכטיק. אבער, אויב איר זענט אינטערעסירט אין ווי יומאַנז ביישטייערן צו וויקיפּעדיע, די רעדאַקטירונגען געמאכט דורך די באָץ זאָל זיין יקסקלודיד.
די בעסטער וועגן צו ויסמייַדן ווייל פאָאָלעד דורך גראָב דאַטן זענען צו פֿאַרשטיין ווי דיין דאַטן זענען Created צו דורכפירן פּשוט יקספּלאָראַטאָרי אַנאַליסיס, אַזאַ ווי מאכן פּשוט צעוואַרפן פּלאַץ.