منابع داده های بزرگ را می توان با آشغال ها و هرزنامه ها لود می شود.
برخی محققان بر این باورند که منابع داده بزرگ، به ویژه منابع آنلاین، بی نقص هستند زیرا آنها به طور خودکار جمع آوری می شوند. در واقع، افرادی که با منابع داده بزرگ کار کرده اند می دانند که اغلب کثیف هستند . به این ترتیب، آنها اغلب شامل داده هایی هستند که اقدامات واقعی را که منافع محققان را منعکس می کنند، نشان نمی دهد. اکثر دانشمندان علوم اجتماعی در حال حاضر با فرایند تمیز کردن داده های نظرسنجی در سطح گسترده آشنا هستند، اما تمیز کردن منابع داده های بزرگ به نظر می رسد دشوارتر است. من فکر می کنم منبع نهایی این مشکل این است که بسیاری از این منابع بزرگ داده هرگز در نظر گرفته نشده اند که برای تحقیق مورد استفاده قرار گیرند، بنابراین آنها جمع آوری، ذخیره و مستند سازی نمی شوند، به طوری که تمیز کردن داده ها را آسان تر می کند.
خطرات داده های ردیابی کثیف دیجیتال توسط Back و همکاران (2010) بررسی پاسخ عاطفی به حملات 11 سپتامبر 2001 نشان داده شده است، که من به طور خلاصه در مورد آن در فصل قبل توضیح دادم. محققان به طور معمول پاسخ به رویدادهای غم انگیز را با استفاده از داده های گذشته که ماهها یا حتی سال ها جمع آوری می کنند مطالعه می کنند. اما، Back و همکاران، منبع همیشه از علامت های دیجیتال - پیام های زمانبندی شده، به طور خودکار ثبت شده از 85،000 پیجر های آمریکایی را پیدا کردند - و این باعث شد آنها را به مطالعه پاسخ های عاطفی در یک زمان بسیار دقیق تر تبدیل کنند. آنها یک جدول زمانی لحظه ای احساسی از 11 سپتامبر را با کدگذاری محتوای احساسی پیغام های پیجر توسط درصد کلمات مرتبط با (1) غم (به عنوان مثال، "گریه" و "غم")، (2) اضطراب ( مثلا "نگران" و "ترس") و (3) خشم (مثلا "نفرت" و "انتقادی"). آنها دریافتند که غم و اندوه و اضطراب در طول روز بدون یک الگوی قوی تغیر می کنند، اما در طول روز افزایش شدیدی در خشم وجود دارد. این پژوهش به نظر می رسد یک تصویر فوق العاده از قدرت همیشه منابع داده است: اگر منابع داده های سنتی استفاده شده بود، غیر ممکن بود که به دست آوردن جدول زمانی از پاسخ سریع به یک رویداد غیر منتظره به دست آمده است.
با این حال، تنها یک سال بعد، سینتیا پوری (2011) با دقت بیشتری به اطلاعات نگاه کرد. او کشف کرد که تعداد زیادی از پیام های ظاهرا عصبانی توسط یک پیجیر تولید شده بودند و همه آنها یکسان بودند. در اینجا چیزی است که این پیامها ظاهرا عصبانی هستند:
"ماشین راه اندازی مجدد NT [نام] در کابینه با [name] [مکان]: مهم: [تاریخ و زمان]"
این پیام ها عصبانی شده اند چرا که آنها عبارت "CRITICAL" را شامل می شوند که عموما خشم را نشان می دهند اما در این مورد چنین نیست. حذف پیام های تولید شده توسط این پیجر خودکار تنها به طور کامل افزایش ظاهری خشم در طول روز را از بین می برد (شکل 2.4). به عبارت دیگر، نتیجه اصلی در Back, Küfner, and Egloff (2010) ، مصنوعی از یک پیجر بود. همانطور که در این مثال نشان داده شده است، تجزیه و تحلیل نسبتا ساده داده های نسبتا پیچیده و کثیف ممکن است به طور جدی اشتباه باشد.
در حالی که داده های کثیف که ناخواسته ایجاد می شوند مانند یک پیجر پر سر و صدا ممکن است توسط یک محقق منطقی دقیق شناسایی شود، برخی از سیستم های آنلاین نیز وجود دارند که اسپم های هدفمند را جذب می کنند. این اسپمها به طور فعال اطلاعات جعلی را تولید می کنند و اغلب با سود سود بسیار دشوار است تا هرزنامه های خود را پنهان نگه دارند. به عنوان مثال، فعالیت سیاسی در توییتر، به نظر می رسد شامل حداقل برخی از اسپم های پیچیده پیچیده، به این ترتیب برخی از علل سیاسی به طور عمدی به نظر می رسد محبوب تر از آنها در واقع (Ratkiewicz et al. 2011) . متأسفانه حذف این اسپم عمدی میتواند بسیار دشوار باشد.
البته آنچه داده های کثیف در نظر گرفته می شود، به طور جزئی، بر روی سوال تحقیق می تواند بستگی دارد. برای مثال، بسیاری از ویرایشهای ویکی پدیا توسط رباتهای خودکار ایجاد شده است (Geiger 2014) . اگر شما علاقه مند به بوم شناسی ویکی پدیا هستید، این ویرایش های ایجاد شده توسط ربات مهم هستند. اما اگر شما علاقه مند به نحوه کمک انسان به ویکی پدیا هستید، پس از ویرایش مجدد ربات باید حذف شود.
هیچ تکنیک یا رویکرد آماری تنها وجود ندارد که بتواند اطمینان حاصل کند که کافی داده های کثیف را پاک کرده اید. در پایان، من فکر می کنم بهترین راه برای جلوگیری از فریب خورده با داده های کثیف، این است که تا حد امکان در مورد نحوه ایجاد داده های خود را درک کنید.