מקורות נתונים גדולים יכולים להיות עמוסים זבל וספאם.
כמה חוקרים מאמינים כי מקורות נתונים גדולים, במיוחד אלה ממקורות מקוונים, הם וטהורים כי הם נאספים באופן אוטומטי. למעשה, אנשים שעבדו עם מקורות נתונים גדולים יודעים שהם מלוכלכים ומזוהמים. כלומר, הם לעתים קרובות כוללים נתונים שאינם משקפים פעולות ריאליות לחוקרים. מדעני חברה רבים כבר מכירים את תהליך ניקוי נתוני סקר חברתי בקנה מידה גדולה, אבל ניקוי מקורות נתונים גדולים הוא קשה יותר משתי סיבות: 1) הם לא נוצרו על ידי חוקרים לחוקרים 2) חוקרים יש פחות הבנה כלל לאופן הם נוצרו.
הסכנות של נתוני עקבות דיגיטליות מלוכלכים מומחשות על ידי חזרה ועמיתים לעבודה (2010) חקר את התגובה הרגשית על ההתקפות של ה -11 בספטמבר, 2001. חוקרים בדרך כלל לחקור את התגובה לאירועים טרגיים באמצעות נתונים רטרוספקטיבי שנאספו במשך חודשים או אפילו שנים. אבל, חזרה ועמיתיו מצאו תמיד על מקור העקבות-הדיגיטלי timestamped, הודעות מוקלטות אוטומטי 85,000 האמריקנית איתורית-וזה אפשר לחוקרים ללמוד תגובה רגשית על לוח זמנים מדויקים יותר הרבה. חזרה ועמיתיו יצרו ציר הזמן רגשית דקה אחר דקה ה -11 בספטמבר על ידי קידוד התוכן הרגשי של הודעות הביפר באחוז מילים הקשורות (1) עצב (למשל, בכי, צער), (2) חרדה (למשל, מודאג, חרד), ו- (3) כעס (למשל, שנאה, קריטי). הם גילו כי עצב והחרדה נעו לאורך כל היום ללא דפוס חזק, אבל זה חל גידול מרשים בכעס לאורך כל היום. מחקר זה נראה דוגמא נפלאה של הכח של תמיד על מקורות מידע: באמצעות שיטות סטנדרטיות זה יהיה בלתי אפשרי להיות כזה ציר זמן ברזולוציה גבוהה של תגובה המיידית אירוע בלתי צפוי.
רק שנה אחת מאוחר יותר, עם זאת, סינתיה Pury (2011) בחנו את הנתונים בזהירות רבה יותר. היא גילתה כי מספר רב של ההודעות כועסות כביכול נוצר על ידי הביפר יחיד והם היו כולם זהים. הנה מה אלה הודעות כועסות כביכול אמרו:
"מכונת NT Reboot [שם] בארון [שם], בעמ '[מיקום]: קריטי: [תאריך ושעה]"
הודעות אלה תויגו כועס משום שהם כללו את המילה "קריטי", אשר עשוי להצביע כעס בדרך כלל, אבל לא במקרה הזה. הסרת הודעות שנוצרו על ידי זימונית אוטומטי יחיד זה מבטל לחלוטין את הגידול ניכר כעס במהלך היום (איור 2.2). במילות אחרות, התוצאה העיקרית Back, Küfner, and Egloff (2010) הייתה פועל יוצא של הביפר אחד. כפי שמראה דוגמה זו, ניתוח פשוט יחסית של נתונים מורכבים מבולגן יחסית יש פוטנציאל להשתבש באופן קיצוני.
בעוד נתונים מלוכלכים כי נוצר בכוונה-כגון מ רועש אחד הביפר-יכולים להיות מזוהים על ידי חוקר זהיר באופן סביר, יש גם כמה מערכות מקוונות שמושכות ספאמרים מכוונים. שולחי דואר זבל אלה להפיק נתונים מזויפים פעיל, ו-לעתים קרובות מונעים על ידי עבודת רווח מאוד קשה לשמור הסתיר דואר הזבל שלהם. לדוגמא, פעילות פוליטית בטוויטר נראתה לכלול לפחות כמה זבל סביר מתוחכם, תוך שלחלק סיבות פוליטיות מתקבלות בכוונה להיראות יותר פופולרי ממה שהם בפועל (Ratkiewicz et al. 2011) . חוקרים עובדים עם נתונים שעשויים להכיל זבל מכוון להתמודד עם הקושי לשכנע את הקהל שלהם שהם זיהו והוציאו זבל רלוונטי.
לבסוף, מה נחשב נתונים מלוכלכים יכולים לסמוך בדרכים עדינות על שאלות המחקר שלך. לדוגמא, כי שינויים רבים ויקיפדיה נוצרים על ידי רובוטים אוטומטיים (Geiger 2014) . אם אתם מעוניינים האקולוגיה של ויקיפדיה, אז הרובוטים האלה חשובים. אבל, אם אתם מעוניינים איך בני האדם לתרום לוויקיפדיה, עריכות אלה שנעשו על ידי הרובוטים האלה צריכים להיות מורחקות.
הדרכים הטובות ביותר למנוע להטעות אותנו נתונים מלוכלכים הם להבין כיצד הנתונים שלך נוצרו כדי לבצע ניתוח גישוש פשוט, כגון ביצוע מגרשי פיזור פשוט.