مصادر البيانات الكبيرة يمكن تحميلها مع غير المرغوب فيه وغير المرغوب فيها.
يعتقد بعض الباحثين أن مصادر البيانات الضخمة ، وخاصةً مصادر الإنترنت ، هي مصادر نقية لأنها تُجمع تلقائيًا. في الواقع ، يعرف الأشخاص الذين عملوا مع مصادر البيانات الكبيرة أنهم في أغلب الأحيان متسخين . أي أنها تتضمن في كثير من الأحيان بيانات لا تعكس أعمالًا حقيقية تهم الباحثين. معظم علماء الاجتماع على دراية بعملية تنظيف بيانات المسح الاجتماعي على نطاق واسع ، ولكن يبدو أن تنظيف مصادر البيانات الضخمة أكثر صعوبة. أعتقد أن المصدر النهائي لهذه الصعوبة هو أن العديد من مصادر البيانات الضخمة هذه لم يقصد استخدامها أبداً لأغراض البحث ، ولذلك لا يتم تجميعها وتخزينها وتوثيقها بطريقة تسهل تنظيف البيانات.
تتجلى أخطار بيانات التتبع الرقمية القذرة في دراسة الزملاء (2010) التي قام بها باك وزملاؤه عن الاستجابة العاطفية لهجمات 11 سبتمبر 2001 ، والتي ذكرتها باختصار في هذا الفصل. يدرس الباحثون عادة الاستجابة للأحداث المأساوية باستخدام بيانات استرجاعية تم جمعها على مدار شهور أو حتى سنوات. لكن "باك" وزملاؤه وجدوا مصدرًا دائمًا للتبعات الرقمية ، وهي الرسائل المسجلة تلقائيًا والتي تم تسجيلها تلقائيًا من 85،000 جهاز إرسال أميركي ، وهذا ما مكنهم من دراسة الاستجابة العاطفية على نطاق زمني أكثر دقة. ابتكروا جدولاً زمنياً عاطفياً دقيقاً في 11 أيلول / سبتمبر عن طريق تشفير المحتوى العاطفي لرسائل النداء عن طريق النسبة المئوية للكلمات المرتبطة بـ (1) الحزن (على سبيل المثال ، "البكاء" و "الحزن") ، (2) القلق ( على سبيل المثال ، "قلق" و "خائف" ، و (3) غضب (على سبيل المثال ، "كراهية" و "حرجة"). ووجدوا أن الحزن والقلق يتقلبان على مدار اليوم دون وجود نمط قوي ، ولكن هناك زيادة مذهلة في الغضب طوال اليوم. يبدو أن هذا البحث هو مثال رائع لقوة مصادر البيانات الدائمة: إذا استخدمت مصادر البيانات التقليدية ، لكان من المستحيل الحصول على جدول زمني عالي الدقة للاستجابة الفورية لحدث غير متوقع.
بعد عام واحد فقط ، نظرت سينثيا بيوري (2011) في البيانات بعناية أكبر. واكتشفت أن عددًا كبيرًا من الرسائل الغاضبة المفترضة تم توليدها بواسطة جهاز نداء واحد وكانت جميعها متطابقة. إليك ما قالته تلك الرسائل الغاضبة المفترضة:
"آلة إعادة تشغيل NT [اسم] في مجلس الوزراء [اسم] في [موقع]: الحرجة: [التاريخ والوقت]"
تم تصنيف هذه الرسائل غاضبة لأنها تضمنت كلمة "حرجة" ، والتي قد تشير غالبًا إلى الغضب ولكن في هذه الحالة لا. إزالة الرسائل التي تم إنشاؤها بواسطة جهاز النداء الآلي الفردي هذا يلغي تماما الزيادة الظاهرة في الغضب على مدار اليوم (الشكل 2.4). وبعبارة أخرى ، كانت النتيجة الرئيسية في Back, Küfner, and Egloff (2010) قطعة أثرية لجهاز واحد. وكما يوضح هذا المثال ، فإن التحليل البسيط نسبياً للبيانات المعقدة والفوضوية نسبيًا من المحتمل أن يكون مخطئًا بشكل خطير.
في حين أن البيانات القذرة التي يتم إنشاؤها عن غير قصد - مثل تلك الموجودة في جهاز واحد من أجهزة النداء الصاخبة - يمكن أن يتم اكتشافها من قِبل باحث دقيق إلى حد ما ، فهناك أيضًا بعض الأنظمة عبر الإنترنت التي تجذب مرسلي الرسائل غير المرغوب فيها. يقوم هؤلاء أصحاب الرسائل غير المرغوب فيها بتوليد بيانات مزيفة بشكل فعال ، وغالباً ما يعملوا بجد من أجل الحفاظ على سرقة البريد الإلكتروني غير المرغوب فيه. على سبيل المثال ، يبدو أن النشاط السياسي على Twitter يشمل على الأقل بعض الرسائل غير المرغوب فيها المعقدة بدرجة معقولة ، حيث يتم جعل بعض الأسباب السياسية بشكل مقصود لتبدو أكثر شعبية مما هي عليه بالفعل (Ratkiewicz et al. 2011) . للأسف ، قد يكون إزالة هذا المحتوى غير المرغوب فيه المتعمد أمرًا صعبًا للغاية.
بالطبع ما يمكن اعتباره البيانات القذرة يعتمد ، جزئيًا ، على سؤال البحث. على سبيل المثال ، يتم إنشاء العديد من التعديلات على ويكيبيديا بواسطة برامج التتبع الآلية (Geiger 2014) . إذا كنت مهتمًا بإيكولوجيا ويكيبيديا ، فستكون هذه التعديلات التي تم إنشاؤها بواسطة برنامج الروبوت مهمة. ولكن إذا كنت مهتمًا بكيفية مساهمة البشر في ويكيبيديا ، فيجب استبعاد التعديلات التي تم إنشاؤها بواسطة الروبوت.
لا توجد تقنية أو أسلوب إحصائي واحد يمكن أن يضمن تنظيف البيانات القذرة لديك بما فيه الكفاية. في النهاية ، أعتقد أن أفضل طريقة لتجنب خداع البيانات القذرة هي فهم أكبر قدر ممكن حول كيفية إنشاء بياناتك.