منابع داده های بزرگ را می توان با آشغال ها و هرزنامه ها لود می شود.
برخی از محققان معتقدند که منابع داده های بزرگ، به ویژه کسانی که از منابع اینترنتی، بکر هستند، زیرا آنها به طور خودکار جمع آوری شده. در واقع، افرادی که با منابع داده های بزرگ کار کرده اند می دانند که آنها اغلب کثیف هستند. است که، آنها اغلب شامل داده که عملیات واقعی مورد توجه پژوهشگران را منعکس نمی کند. بسیاری از دانشمندان علوم اجتماعی در حال حاضر با فرایند تمیز کردن در مقیاس بزرگ داده های نظر سنجی اجتماعی، اما تمیز کردن منابع داده های بزرگ به دو دلیل سخت تر آشنا: 1) آنها توسط محققان برای محققان و 2) محققان ایجاد نمی شد به طور کلی درک کمتر از چگونگی آنها ایجاد شد.
خطرات ناشی از اطلاعات ردیابی دیجیتال کثیف توسط برگشت و همکاران نشان داده شده (2010) مطالعه پاسخ عاطفی به حملات 11 سپتامبر، 2001. محققان معمولا مطالعه پاسخ به حوادث غم انگیز با استفاده از داده های جمع آوری شده به صورت گذشته نگر در طول ماه یا حتی سال. اما، برگشت و همکارانش پیام های همیشه در منبع دیجیتال آثار از حد مهر زمان، به طور خودکار ثبت شده از 85000 آمریکایی در بر داشت پیجر و این را فعال کنید محققان به مطالعه پاسخ عاطفی در زمانبندی بسیار ظریف. برگشت و همکارانش از یک دقیقه به دقیقه جدول زمانی عاطفی سپتامبر 11 با کدگذاری محتوای عاطفی پیجر توسط درصد از کلمات مربوط به (1) غم و اندوه ایجاد (به عنوان مثال، گریه، غم و اندوه)، (2) اضطراب (به عنوان مثال، نگران، ترس)، و (3) خشم (به عنوان مثال، نفرت، بحرانی). آنها دریافتند که غم و اندوه و اضطراب در طول روز بدون یک الگوی قوی نوسان بوده است، اما این بود که افزایش قابل توجه در خشم در طول روز وجود دارد. این تحقیق به نظر می رسد یک تصویر فوق العاده از قدرت همیشه در منابع داده ها: با استفاده از روش های استاندارد غیر ممکن خواهد بود که چنین جدول زمانی با وضوح بالا از پاسخ فوری به یک رویداد غیر منتظره.
درست یک سال بعد، با این حال، سینتیا PURY (2011) در داده با دقت بیشتری نگاه کرد. او کشف کرد که تعداد زیادی از پیام های ظاهرا عصبانی با یک پیجر تنها تولید شد و همه آنها یکسان بود. اینجا چیزی است که کسانی که پیام های ظاهرا عصبانی گفت:
"ماشین راه اندازی مجدد NT [نام] در کابینه با [name] [مکان]: مهم: [تاریخ و زمان]"
این پیام ها عصبانی نشاندار شد زیرا آنها شامل کلمه "بحرانی"، که ممکن است به طور کلی نشان می دهد خشم اما در این مورد نیست. از بین بردن پیام های تولید شده توسط این پیجر تک خودکار به طور کامل حذف افزایش آشکار خشم خود را از این دوره از روز (شکل 2.2). به عبارت دیگر، نتیجه اصلی در Back, Küfner, and Egloff (2010) مصنوع یک پیجر بود. از آنجا که این مثال نشان می دهد، تجزیه و تحلیل نسبتا ساده از داده های نسبتا پیچیده و کثیف پتانسیل را دارد که به طور جدی اشتباه.
در حالی که داده کثیف است که ایجاد ناخواسته مانند از یک پر سر و صدا پیجر را می توان توسط یک محقق منطقی دقیق شناسایی شده است، همچنین برخی از سیستم های آنلاین است که جذب اسپم عمدی وجود دارد. این اسپم به طور فعال تولید داده جعلی، و اغلب با سود کار بسیار سخت انگیزه برای حفظ هرزه نگاره، وارد خود را پنهان. به عنوان مثال، فعالیت های سیاسی در توییتر به نظر می رسد شامل حداقل برخی از اسپم منطقی پیچیده، به موجب آن برخی از علل سیاسی عمدا ساخته شده به نگاه، محبوب تر از آنها واقعی هستند (Ratkiewicz et al. 2011) . محققان کار با داده ها که ممکن است حاوی هرزنامه عمدی چالش متقاعد مخاطبان خود را که آنها تشخیص داده اند و حذف اسپم مربوطه روبرو هستند.
در نهایت، آنچه در نظر گرفته داده کثیف می توانید در راه ظریف در مورد مسائل پژوهش شما بستگی دارد. به عنوان مثال، بسیاری از ویرایشهای ویکیپدیا توسط رباتها خودکار ایجاد (Geiger 2014) . اگر شما علاقه مند در اکولوژی ویکیپدیا، پس از آن این رباتها مهم است. اما، اگر شما علاقه مند در چگونه انسان به ویکیپدیا کمک می کنند، این تغییرات را انجام شده توسط این رباتها باید کنار گذاشته شود.
بهترین راه برای جلوگیری از فریب خورده توسط داده کثیف هستند برای درک اینکه چگونه اطلاعات خود را به انجام تجزیه و تحلیل اکتشافی ساده، مانند ساخت قطعه های پراکنده ساده ایجاد شد.