מקורות נתונים גדולים יכולים להיות עמוסים זבל וספאם.
כמה חוקרים מאמינים כי מקורות נתונים גדולים, במיוחד מקורות מקוונים, הם וטהור כי הם נאספים באופן אוטומטי. למעשה, אנשים שעבדו עם מקורות נתונים גדולים יודעים שהם מלוכלכים לעתים קרובות. כלומר, לעתים קרובות הם כוללים נתונים שאינם משקפים פעולות אמיתיות של עניין לחוקרים. רוב מדעני החברה כבר מכירים את תהליך ניקוי נתוני הסקר החברתי בקנה מידה גדול, אך ניקוי מקורות נתונים גדולים נראה יותר קשה. אני חושב שהמקור האולטימטיבי של הקושי הזה הוא שרבים ממקורות הנתונים הגדולים הללו מעולם לא נועדו לשמש למחקר, ולכן הם לא נאספים, מאוחסנים ומתועדים באופן המאפשר ניקוי נתונים.
הסכנות של נתוני עקבות דיגיטליים מלוכלכים מתוארים על ידי המחקר של Back and (2010) על התגובה הרגשית להתקפות של 11 בספטמבר 2001, שהזכרתי בקצרה בפרק זה. חוקרים בדרך כלל לומדים את התגובה לאירועים טרגיים באמצעות נתונים רטרוספקטיביים שנאספו במשך חודשים או אפילו שנים. אבל, Back ועמיתיו מצאו מקור של עקבות דיגיטליים - ההודעות שנרשמו באופן אוטומטי מ -85,000 זימונית אמריקאית - והדבר איפשר להם ללמוד תגובה רגשית על לוח זמנים עדין בהרבה. הם יצרו ציר זמן רגשי של דקה ב -11 בספטמבר על ידי קידוד התוכן הרגשי של מסמכי הביפר לפי אחוז המילים הקשורות ל (1) עצבות (למשל, "בכי" ו"צער "), (2) חרדה ( למשל, "מודאגים" ו"מפחדים "), וכן (3) כעס (למשל," שנאה "ו"קריטי"). הם מצאו כי עצב וחרדה נעו לאורך היום ללא דפוס חזק, אבל היתה עלייה בולטת בכעס לאורך כל היום. נראה כי מחקר זה מהווה דוגמה מצוינת לכוחם של מקורות נתונים תמידיים: אם נעשה שימוש במידע מסורתי, לא ניתן היה להגיע לקו זמן כה מהיר של תגובה מיידית לאירוע בלתי צפוי.
רק שנה לאחר מכן, עם זאת, סינתיה Pury (2011) בחן את הנתונים בזהירות רבה יותר. היא גילתה כי מספר גדול של הודעות כועס כביכול נוצרו על ידי אחד זימונית וכולם היו זהים. הנה מה אותם הודעות כועס כביכול אמר:
"מכונת NT Reboot [שם] בארון [שם], בעמ '[מיקום]: קריטי: [תאריך ושעה]"
הודעות אלה היו מתויגות כועס כי הם כללו את המילה "קריטי", אשר עשוי בדרך כלל להצביע כעס אבל במקרה זה לא. הסרת הודעות שנוצר על ידי זה זימונית אוטומטית אחת מבטלת לחלוטין את העלייה לכאורה כעס במהלך היום (איור 2.4). במילים אחרות, התוצאה העיקרית ב- Back, Küfner, and Egloff (2010) הייתה חפץ של זימונית אחת. כפי שמראה דוגמה זו, ניתוח פשוט יחסית של נתונים מורכבים יחסית ומבולבלים יש פוטנציאל לטעות חמורה.
בעוד שמידע מלוכלך שנוצר בצורה לא מכוונת - כמו זה של זימון אחד רועש - יכול להתגלות על ידי חוקר זהיר למדי, יש גם כמה מערכות מקוונות שמושכות שולחי ספאם מכוונים. שולחי דואר זבל אלה מייצרים באופן פעיל נתונים מזויפים, ולעתים קרובות הם מונעים על ידי רווח - עבודה קשה מאוד לשמור על דואר זבל מוסתר. לדוגמה, נראה כי פעילות פוליטית בטוויטר כוללת לפחות דואר זבל מתוחכם במידה סבירה, לפיה גורמים פוליטיים מסוימים מכוונים להיראות פופולריים יותר מכפי שהם באמת (Ratkiewicz et al. 2011) . למרבה הצער, הסרת דואר זבל זה יכול להיות די קשה.
כמובן מה נחשב נתונים מלוכלכים יכולים לסמוך, בין השאר, על שאלת המחקר. לדוגמה, עריכות רבות לוויקיפדיה נוצרות על ידי רובוטים אוטומטיים (Geiger 2014) . אם אתם מעוניינים באקולוגיה של ויקיפדיה, אז העריכות שנוצרו על ידי הבוט חשובים. אבל אם אתה מעוניין איך בני אדם לתרום ויקיפדיה, אז ערימות בוט שנוצר צריך להיות נשלל.
אין טכניקה סטטיסטית אחת או גישה שיכולה להבטיח שיש לך מספיק ניקה את הנתונים המלוכלכים שלך. בסופו של דבר, אני חושב שהדרך הטובה ביותר להימנע מלהיות שולל על ידי נתונים מלוכלכים היא להבין כמה שיותר על האופן שבו הנתונים שלך נוצרו.