وڏي ڊيٽا وسيلن فضول ۽ فضول سان دوت ڪري سگهجي ٿو.
ڪجهه محقق يقينن ٿا ته وڏن انگن اکرن، خاص طور تي آنلائن ذريعن، قيمتي آهن ڇو ته اهي خودڪار طريقي سان گڏ هوندا آهن. حقيقت ۾، جيڪي ماڻهو وڏن انگن اکرن سان ڪم ڪيو آهي انهن کي ڄاڻ آهي ته اهي اڪثر گندي آهن . اهو آهي، اهي اڪثر انگن ۾ شامل آهن جيڪي محقق ڪندڙن جي فائدي جي حقيقي عملن کي ڌيان نه ڏيندا آهن. گهڻو ڪري سماجي سائنسدان اڳ ۾ ئي وڏي پئماني تي سماجي سروي جي صفائي جي عمل سان واقف آهن، پر صفائي وڏي انگن اکرن کي وڌيڪ ڏکيو سمجهڻ لڳي ٿو. مون هن مسئلي جو آخري ذريعو سمجهي ٿو ته انهن مان ڪيترن ئي وڏي انگن اکرن کي ڪڏهن به تحقيق لاء استعمال نه ڪيو ويو آهي، ۽ انهي ڪري اهي گڏ نه گڏ گڏ، جمع ٿيل، ۽ دستاويز ڪيل دستاويز جي سهولت ۾ دستاويزن نه آهن.
گندي ڊجيٽل ٽريس ڊيٽا جي خطرات واپس ۽ اسڪاٽيوز (2010) پاران 11 سيپٽمبر، 2001 جي حملن جي جذباتي ردعمل جي مطالعي ۾ بيان ڪيل آهي، جنهن ۾ مون پهرين مختصر باب ۾ ذڪر ڪيو آهي. محقق خاص طور تي ماهرن جي واقعن جي جوابن جو مطالعو ڪندي، جيڪي مهينن يا ان جي سالن تائين گڏوگڏ ويڙهاڪ ڊيٽا استعمال ڪندي. پر، واپس ۽ ان سان گڏوگڏ ڊجيٽل ٽرنس جو هميشه ذريعو مليو، ٽائمسٽپرم، پاڻمرادو رڪارڊ ٿيل 85،000 آمريڪن پينج مان ورتل پيغامون- ۽ هن کي انهن کي گهڻو مالي زماني تي جذباتي ردعمل پڙهڻ جي قابل ٿي. اهي 11 سيپٽمبر جي جذباتي وقت جي هڪ منٽ منٽن جي جذباتي وقتن جي پيچيده پيغام کي لڳائي رهيا آهن. انهي قسم جي اصطلاحن (1) غمگين (1) غمگين (مثال) "روئي" ۽ "ڏک") (2) پريشاني ( مثلا، "پريشان" ۽ "خوفناڪ")، ۽ (3) ڪاوڙ (مثال طور، "نفرت" ۽ "نازڪ"). هنن اهو ثابت ڪيو ته هر ڏينهن بغير سختي ۽ پريشاني کي مضبوط طريقن سان ٺهڪي اچي ٿي، پر اهو سڄو ڏينهن ڪاوڙجي ويو آهي. اهو تحقيق اهو ڏسڻ ۾ اچي ٿو ته هميشه ذريعن جي وسيلن جي طاقت جو عجيب نمونو پيش ڪيو وڃي: جيڪڏهن روايتي ڊيٽا وسيلن کي استعمال ڪيو ويو هجي، اهو اڻڄاتل واقعو جي تڪڙي رد عمل جي اهڙي اعلي ريزول واري ٽائم لائن حاصل ڪرڻ ناممڪن آهي.
بس هڪ سال بعد، سنتيه پروري (2011) وڌيڪ احتياط سان ڊيٽا کي ڏسي. هن اهو دريافت ڪيو آهي ته وڏي پئماني تي پيغام جو ناراض پيغام هڪ واحد پگهار ٺاهي رهيا هئا ۽ اهي سڀ هڪجهڙائي وارا هئا. هتان جي ناراض نياپي انهن کي ڇا چيو آهي:
"وري شروع NT مشين [جو نالو] ڪابينا ۾ [جو نالو] [هنڌ] ۾: نازڪ: [تاريخ ۽ وقت]"
اهي پيغام ناراض ٿي رهيا هئا ڇاڪاڻ ته اهي لفظ "CRITICAL،" جنهن ۾ عام طور تي ڪاوڙ ظاهر ڪن ٿا پر هن صورت ۾ نٿو اچي. هن هڪ خودڪار قلمي طرفان ٺاهيل پيغام کي ختم ڪري مڪمل طور تي ڏينهن جي ڪاوڙ ۾ واضح اضافو ختم ڪري ٿي (2.4 ق.م). ٻين لفظن ۾، Back, Küfner, and Egloff (2010) جو بنيادي نتيجو هڪ پينج جو هڪ نمونو هو. جيئن ته هن مثال بيان ڪري ٿو، نسبتا پيچيده جو نسبتا آسان تجزيي ۽ گندا واري ڊيٽا کي سنجيده غلط هجڻ جي صلاحيت آهي.
گندي ڊيٽا جيڪا غير معمولي طور تي پيدا ڪئي وئي آهي جهڙوڪ هڪ شور جي پوزيشن کان ڳولي سگهجي ٿو، معقول محتاط محقق طرفان ڳولي سگهجي ٿو، اهڙا به ڪجهه آن لائن سسٽم آهن جيڪي ڄاڻايل اسپامرز کي ڌڪائيندا آهن. اهي اسپامرز کي فعال طور تي جعلي ڊيٽا ٺاهي سگهندا آهن ۽ گهڻو ڪري منافعو ڪم ڪري رهيا آهن انهن جي اسپيمنگ کي لڪائڻ ۾ تمام گهڻي محنت رکي. مثال طور تي، Twitter تي سياسي سرگرمي گهٽ ۾ گهٽ ڪجهه معقول نموني شامل آهن، جو ڪجهه سياسي سببن کي زياده طور تي وڌيڪ مقبول نظر (Ratkiewicz et al. 2011) آهن، ان جي نسبت اصل ۾ (Ratkiewicz et al. 2011) . بدقسمتي سان، هن ڄاڻايل اسپام کي هٽائڻ تمام گهڻو ڏکيو ٿي سگهي ٿو.
يقينن گندي ڊيٽا سمجهي ورتو آهي، تحقيق جي سوال تي، حصو وٺندو آهي. مثال طور، وڪيپيپيٽڪس تي ڪيترائي تبديليون خودڪار بوٽ (Geiger 2014) ذريعي پيدا ڪيا ويا آهن. جيڪڏهن توهان وڪيپيس جي ماحوليات ۾ دلچسپي وٺندا آهيو، پوء اهي ٻٽو پيدا ٿيل تبديلي ضروري آهن. پر جيڪڏهن توهان دلچسپي وٺندا آهيو ته انسان وڪيپيڪاپي ۾ ڪيئن مدد ڪندو آهي، انهي کان پوء ٻٽو پيدا ٿيل تبديلي کي خارج ڪيو وڃي.
ڪوئي به هڪ واحد ٽيڪنالاجي ٽيڪنڪ يا نقطه نه آهي انهي کي يقيني بڻائي سگهجي ته توهان پنهنجي گندي ڊيٽا کي صاف طور تي صاف ڪيو آهي. آخر ۾، مون کي ڀيانجي ڊيٽا کان بيوقوف ڪرڻ کان بچڻ جو بهترين طريقو اهو آهي ته توهان جي ڊيٽا ڪيئن ٺاهي وئي هئي جيترو ممڪن سمجهي سگهجي.