বিগ তথ্য সূত্র আবর্জনা এবং স্প্যাম সঙ্গে লোড করা যাবে.
কিছু গবেষক মনে করেন যে, বড় তথ্য সূত্রে জানা গেছে, বিশেষ করে অনলাইন উত্স থেকে সেই আদিম হয় কারণ তারা স্বয়ংক্রিয়ভাবে সংগ্রহ করা হয়. আসলে, যারা বড় তথ্য উৎসের সঙ্গে কাজ করেছি জানি যে, তারা ঘন ঘন নোংরা. অর্থাৎ তারা ঘন ঘন তথ্য গবেষকরা সুদ বাস্তব কর্ম প্রতিফলিত না অন্তর্ভুক্ত. অনেক সামাজিক বিজ্ঞানীরা ইতিমধ্যে বড় মাপের সামাজিক জরিপ তথ্য পরিষ্কার, কিন্তু বড় তথ্য সূত্র পরিষ্কার হয় দুটি কারণে আরো কঠিন প্রক্রিয়ার সাথে পরিচিত হয়ে থাকবেন: 1) তারা 2) গবেষক গবেষক জন্য গবেষক ও দ্বারা তৈরি করা হয় সাধারণত কিভাবে কম বোঝার আছে তারা তৈরি করা হয়েছিল.
মলিন ডিজিটাল ট্রেস ডেটা বিপদ পিছনে এবং 'সহকর্মীদের দ্বারা চিত্রিত করা হয় (2010) 11 সেপ্টেম্বর, আক্রমণ করার মানসিক প্রতিক্রিয়া 2001. গবেষকরা সাধারণত মাস বা এমনকি বছরের পর বছর ধরে সংগৃহীত ভূতাপেক্ষ ডেটা ব্যবহার দুঃখজনক ঘটনার প্রতিক্রিয়া জানাতে অধ্যয়ন অধ্যয়ন. কিন্তু, পিছনে এবং সহকর্মীদের 85,000 আমেরিকান থেকে একটি সর্বদা চলমান ডিজিটাল ট্রেস-timestamped উৎস, স্বয়ংক্রিয়ভাবে রেকর্ড করা বার্তা পাওয়া পেজার্স-এবং এই গবেষকরা অনেক তীক্ষ্ণ স্বরূপ সময় পরিমাপক, সময়সীমা উপর মানসিক প্রতিক্রিয়া অধ্যয়ন সক্রিয়. পিছনে এবং সহকর্মীদের (1) বিষণ্ণতা সম্পর্কিত শব্দ শতাংশ দ্বারা পেজার বার্তা আবেগের উপাদান কোডিং দ্বারা একটি মিনিট-দ্বারা মিনিটের সেপ্টেম্বর 11th আবেগের টাইমলাইনে সৃষ্টি (যেমন, ক্রন্দিত, বিষাদ), (2) দুশ্চিন্তা (যেমন, চিন্তিত, ভীতিজনক), এবং (3) রাগ (যেমন, ঘৃণা, সমালোচনামূলক). তাঁরা দেখলেন যে দুঃখ ও উদ্বেগ একটি শক্তিশালী প্যাটার্ন ছাড়া সারা দিন ওঠানামা, কিন্তু সারা দিন রাগ একটি আকর্ষণীয় বৃদ্ধি ছিল. প্রমিত পদ্ধতি ব্যবহার করে এটা একটি অপ্রত্যাশিত ঘটনা তাৎক্ষণিক প্রতিক্রিয়া যেমন একটি উচ্চ রিসোলিউশনের টাইমলাইনে আছে অসম্ভব হবে: এই গবেষণা সবসময় অন ডাটা উৎসের শক্তির একটি বিস্ময়কর দৃষ্টান্ত হবে বলে মনে হয়.
মাত্র এক বছর পরে, তবে, সিনথিয়া Pury (2011) তথ্য এ আরো সাবধানে লাগছিল. তিনি আবিষ্কার করেন যে কল্পনানুসারে ক্রুদ্ধ বার্তা সংখ্যক একটি একক পেজার দ্বারা উত্পন্ন হয় এবং তারা সব অভিন্ন ছিল. এখানে কি সেই কল্পনানুসারে ক্রুদ্ধ বার্তা বলেছেন:
"রিবুট এনটি মেশিনের মধ্যে মন্ত্রিসভা [নাম] [নাম] এ [অবস্থান]: গুরুতর: [তারিখ এবং সময়]"
এই বার্তাগুলি রেগে লেবেল করা হয় কারণ তারা শব্দ "গুরুতর", যা সাধারণত রাগ ইঙ্গিত কিন্তু এই ক্ষেত্রে না পারে অন্তর্ভুক্ত. এই একক স্বয়ংক্রিয় পেজার দ্বারা উত্পন্ন বার্তাগুলি মুছে ফেলার সম্পূর্ণভাবে দিন (চিত্র 2.2) কোর্সের উপর রাগে আপাত বৃদ্ধি ঘটিয়েছে. অন্য কথায়, প্রধান ফলাফলের Back, Küfner, and Egloff (2010) এক পেজার একটি হস্তনির্মিত বস্তু ছিল. এই উদাহরণ তুলে ধরে বলেন, অপেক্ষাকৃত জটিল ও নোংরা তথ্য অপেক্ষাকৃত সহজ বিশ্লেষণ গম্ভীরভাবে ভুল হয়ে যেতে পারে সম্ভাবনা রয়েছে.
একটি যুক্তিসঙ্গতভাবে সাবধান গবেষক দ্বারা মলিন তথ্য যে এক সশব্দ থেকে যেমন অনিচ্ছাকৃতভাবে-যেমন করে নির্মিত হয় পেজার-পারেন সনাক্ত করা হলেও, সেখানে বেশ কিছু অনলাইন সিস্টেম যে ইচ্ছাকৃত স্প্যামাররা আকৃষ্ট হয়. এই স্প্যামাররা সক্রিয়ভাবে জাল ডেটা উৎপন্ন, এবং প্রায়ই মুনাফা-কাজ খুব কঠিন দ্বারা প্রেরণা তাদের স্প্যামিং গোপন রাখার. উদাহরণস্বরূপ, টুইটার উপর রাজনৈতিক কার্যকলাপ অন্তত কিছু যুক্তিসঙ্গতভাবে অত্যাধুনিক স্প্যাম, যদ্দ্বারা কিছু রাজনৈতিক কারণে ইচ্ছাকৃতভাবে আরো জনপ্রিয় তুলনায় তারা প্রকৃত হয় চেহারা তৈরি করা হয় অন্তর্ভুক্ত বলে মনে হয় (Ratkiewicz et al. 2011) . ডেটা সঙ্গে কাজ গবেষকরা যে ইচ্ছাকৃত স্প্যাম থাকতে পারে তাদের শ্রোতা যে তারা শনাক্ত প্রাসঙ্গিক স্প্যাম সরিয়েছি বিশ্বাসী প্রতিদ্বন্দ্বিতার মুখোমুখি.
পরিশেষে, কি বিবেচনা করা হয় মলিন ডেটা আপনার গবেষণা প্রশ্নের উপর সূক্ষ্ম উপায়ে নির্ভর করতে পারেন. উদাহরণস্বরূপ, উইকিপিডিয়াতে আপনাকে অনেক সম্পাদনাগুলি স্বয়ংক্রিয় বট দ্বারা তৈরি করা হয় (Geiger 2014) . আপনি উইকিপিডিয়ার বাস্তব্যবিদ্যা আগ্রহী তাহলে এসব বট গুরুত্বপূর্ণ. কিন্তু, যদি আপনি কিভাবে মানুষের উইকিপিডিয়া অবদান আগ্রহী, এই এই বট দ্বারা তৈরি সম্পাদনাগুলি বাদ দেওয়া উচিত.
বোকা বানানো হচ্ছে এড়ানোর সবচেয়ে ভাল উপায় দ্বারা মলিন তথ্য বুঝতে আপনার ডেটা যেমন সহজ ছিটান প্লট তৈরীর হিসাবে, সহজ অনুসন্ধানমূলক বিশ্লেষণ সঞ্চালন করার জন্য তৈরি করা হয়েছিল.