بڑے اعداد و شمار ذرائع ردی اور فضول سے لوڈ کیا جا سکتا.
کچھ محققین کا خیال ہے کہ بڑے ڈیٹا کے ذرائع، خاص طور پر آن لائن ذرائع، قدیم ہیں کیونکہ وہ خود کار طریقے سے جمع کیے جاتے ہیں. دراصل، جو لوگ بڑے اعداد و شمار کے ذرائع کے ساتھ کام کرتے ہیں وہ جانتے ہیں کہ وہ اکثر گندا ہیں . یہی ہے، وہ اکثر ایسے اعداد و شمار میں شامل ہوتے ہیں جو محققین کے مفادات کے حقیقی اعمال کی عکاس نہیں کرتے ہیں. زیادہ سے زیادہ سماجی سائنسدان بڑے پیمانے پر سماجی سروے کے اعداد و شمار کو صاف کرنے کے عمل سے واقف ہیں، لیکن بڑے اعداد و شمار کی صفائی کی صفائی زیادہ مشکل ثابت ہوتی ہے. مجھے لگتا ہے کہ اس مشکل کا حتمی ذریعہ یہ ہے کہ ان میں سے بہت سے بڑے اعداد و شمار تحقیقات کے لۓ کبھی نہیں استعمال ہونے کا ارادہ رکھتے تھے، اور اس طرح وہ جمع نہیں کیے گئے، محفوظ، اور دستاویزات کی طرح سے ڈیٹا بیس کی صفائی کی سہولت فراہم کرتے ہیں.
گندی ڈیجیٹل ٹریس کے اعداد و شمار کے خطرات 11 ستمبر، 2001 کے حملوں پر جذباتی ردعمل کے پیچھے اور ساتھیوں (2010) مطالعہ کی طرف اشارہ کرتے ہیں، جس میں میں نے مختصر طور پر باب میں پہلے بیان کیا. محققین عام طور پر مہینوں یا یہاں تک کہ سالوں سے جمع ہونے والے ریٹرنویو ڈیٹا کا استعمال کرتے ہوئے خطرناک واقعات کے جواب کا مطالعہ کرتے ہیں. لیکن، واپس اور ساتھیوں نے مسلسل ڈیجیٹل نشانوں کا ذریعہ پایا - ٹائمسٹیمپڈ، خود بخود ریکارڈ کردہ پیغامات 85،000 امریکی پادریوں سے ہیں- اور اس نے ان کو بہت زیادہ وقتی وقت پر جذباتی ردعمل کا مطالعہ کیا. انہوں نے ستمبر 11 کے ایک منٹ کے منٹ جذباتی ٹائم لائن کو تخلیق کرکے پیزر پیغامات کے جذباتی مواد کو کوڈ (1) اداس (مثال کے طور پر، "روہ" اور "غم")، (2) تشویش ( مثال کے طور پر، "فکر مند" اور "خوفناک")، اور (3) غصہ (مثلا، "نفرت" اور "نازک"). انہوں نے محسوس کیا کہ غم اور تشویش پورے دن بھر میں مضبوط پیٹرن کے بغیر پھیل گیا ہے، لیکن اس دن بھر میں غصہ میں نمایاں اضافہ ہوا. یہ تحقیق ہمیشہ کے اعداد و شمار کے وسائل کی طاقت کا ایک شاندار نمونہ لگ رہا ہے: اگر روایتی اعداد و شمار کا استعمال کیا گیا ہے تو، یہ غیر متوقع واقعہ کے فوری جواب کے اس طرح کے ایک اعلی قرارداد ٹائم لائن حاصل کرنے کے لئے ناممکن ہوسکتا ہے.
تاہم، ایک سال بعد، سنتھیا پروری (2011) نے مزید معلومات کو احتیاط سے دیکھا. انہوں نے دریافت کیا کہ بڑی تعداد میں ناراض پیغامات ایک ہی پیچھا کی طرف سے پیدا ہوئے تھے اور وہ تمام جیسی ہی تھے. یہاں وہی ہے جو ناراض پیغامات نے کہا:
"پھر بوٹ NT مشین [NAME] میں کابینہ [NAME] [محل وقوع] پر: اہم: [تاریخ اور وقت]"
یہ پیغام ناراض ہوئے تھے کیونکہ انہوں نے لفظی "لفظی" شامل کیا جس میں عام طور پر غصہ کا اظہار ہوتا ہے لیکن اس صورت میں نہیں. اس خود کار طریقے سے قلمر کی طرف سے پیدا ہونے والے پیغامات کو مکمل طور پر دن کے دوران (غصہ 2.4) پر غصہ میں واضح اضافہ ختم. دوسرے الفاظ میں، Back, Küfner, and Egloff (2010) اہم نتیجہ Back, Küfner, and Egloff (2010) ایک قلمر کا ایک فنکار تھا. اس مثال کے طور پر، مثال کے طور پر، نسبتا پیچیدہ اور گندا اعداد و شمار کے نسبتا سادہ تجزیہ کو سنجیدگی سے غلط جانے کی صلاحیت ہے.
گندا ڈیٹا جس میں غیر معمولی طور پر پیدا ہوتا ہے - جیسے کہ ایک شور شور سے - ایک معقول محتاط محقق کی طرف سے پتہ چلا جا سکتا ہے، کچھ آن لائن نظام بھی ہیں جو جان بوجھ کر سپیمرز کو اپنی طرف متوجہ کرتے ہیں. یہ اسپیمر فعال طور پر جعلی اعداد و شمار پیدا کرتے ہیں، اور اکثر اس کے اسپیمنگ کو چھپانے کے لۓ منافع بخش کام کی طرف سے حوصلہ افزائی کرتے ہیں. مثال کے طور پر، ٹویٹر پر سیاسی سرگرمی کم از کم کچھ معقول حد تک جدید ترین سپیم شامل کرتی ہے، جس کے نتیجے میں بعض سیاسی وجوہات کو زیادہ مقبول نظر آنے کے لۓ وہ اصل میں ہیں (Ratkiewicz et al. 2011) . بدقسمتی سے، یہ جانبدار سپیم کو ہٹانے میں بہت مشکل ہوسکتا ہے.
ظاہر ہوتا ہے کہ تحقیقی سوال پر گندا ڈیٹا کو انحصار کیا جا سکتا ہے. مثال کے طور پر، ویکیپیڈیا بوٹ (Geiger 2014) کی طرف سے ویکیپیڈیا سے بہت سے ترمیم تیار ہیں. اگر آپ وکیپیڈیا کے ماحولیات میں دلچسپی رکھتے ہیں تو، ان بوٹ کی تشکیلات اہمیت میں اہم ہیں. لیکن اگر آپ دلچسپی رکھتے ہیں کہ انسان کس طرح ویکیپیڈیا میں شراکت کرتے ہیں، تو پھر بوٹ کی تخلیق کردہ ترمیم کو خارج کردیا جانا چاہئے.
کوئی واحد اعداد و شمار کی تکنیک یا نقطہ نظر نہیں ہے جو اس بات کا یقین کر سکتے ہیں کہ آپ نے اپنے گندے ڈیٹا کو کافی صاف کیا ہے. آخر میں، مجھے لگتا ہے گندا ڈیٹا کی طرف سے بیوقوف ہونے سے بچنے کا بہترین طریقہ یہ ہے کہ آپ کے اعداد و شمار کو کس طرح پیدا کیا جاسکتا ہے.