বিগ তথ্য সূত্র আবর্জনা এবং স্প্যাম সঙ্গে লোড করা যাবে.
কিছু গবেষক মনে করেন যে, বড় তথ্য সূত্রে জানা গেছে, বিশেষ করে অনলাইন উত্স থেকে সেই আদিম হয় কারণ তারা স্বয়ংক্রিয়ভাবে সংগ্রহ করা হয়. আসলে, যারা বড় তথ্য উৎসের সঙ্গে কাজ করেছি জানি যে, তারা ঘন ঘন নোংরা. অর্থাৎ তারা ঘন ঘন তথ্য গবেষকরা সুদ বাস্তব কর্ম প্রতিফলিত না অন্তর্ভুক্ত. অনেক সামাজিক বিজ্ঞানীরা ইতিমধ্যে বড় মাপের সামাজিক জরিপ তথ্য পরিষ্কার, কিন্তু বড় তথ্য সূত্র পরিষ্কার হয় দুটি কারণে আরো কঠিন প্রক্রিয়ার সাথে পরিচিত হয়ে থাকবেন: 1) তারা 2) গবেষক গবেষক জন্য গবেষক ও দ্বারা তৈরি করা হয় সাধারণত কিভাবে কম বোঝার আছে তারা তৈরি করা হয়েছিল.
মলিন ডিজিটাল ট্রেস ডেটা বিপদ পিছনে এবং 'সহকর্মীদের দ্বারা চিত্রিত করা হয় (2010) 11 সেপ্টেম্বর, আক্রমণ করার মানসিক প্রতিক্রিয়া 2001. গবেষকরা সাধারণত মাস বা এমনকি বছরের পর বছর ধরে সংগৃহীত ভূতাপেক্ষ ডেটা ব্যবহার দুঃখজনক ঘটনার প্রতিক্রিয়া জানাতে অধ্যয়ন অধ্যয়ন. কিন্তু, পিছনে এবং সহকর্মীদের 85,000 আমেরিকান থেকে একটি সর্বদা চলমান ডিজিটাল ট্রেস-timestamped উৎস, স্বয়ংক্রিয়ভাবে রেকর্ড করা বার্তা পাওয়া পেজার্স-এবং এই গবেষকরা অনেক তীক্ষ্ণ স্বরূপ সময় পরিমাপক, সময়সীমা উপর মানসিক প্রতিক্রিয়া অধ্যয়ন সক্রিয়. পিছনে এবং সহকর্মীদের (1) বিষণ্ণতা সম্পর্কিত শব্দ শতাংশ দ্বারা পেজার বার্তা আবেগের উপাদান কোডিং দ্বারা একটি মিনিট-দ্বারা মিনিটের সেপ্টেম্বর 11th আবেগের টাইমলাইনে সৃষ্টি (যেমন, ক্রন্দিত, বিষাদ), (2) দুশ্চিন্তা (যেমন, চিন্তিত, ভীতিজনক), এবং (3) রাগ (যেমন, ঘৃণা, সমালোচনামূলক). তাঁরা দেখলেন যে দুঃখ ও উদ্বেগ একটি শক্তিশালী প্যাটার্ন ছাড়া সারা দিন ওঠানামা, কিন্তু সারা দিন রাগ একটি আকর্ষণীয় বৃদ্ধি ছিল. প্রমিত পদ্ধতি ব্যবহার করে এটা একটি অপ্রত্যাশিত ঘটনা তাৎক্ষণিক প্রতিক্রিয়া যেমন একটি উচ্চ রিসোলিউশনের টাইমলাইনে আছে অসম্ভব হবে: এই গবেষণা সবসময় অন ডাটা উৎসের শক্তির একটি বিস্ময়কর দৃষ্টান্ত হবে বলে মনে হয়.
মাত্র এক বছর পরে, তবে, সিনথিয়া Pury (2011) তথ্য এ আরো সাবধানে লাগছিল. তিনি আবিষ্কার করেন যে কল্পনানুসারে ক্রুদ্ধ বার্তা সংখ্যক একটি একক পেজার দ্বারা উত্পন্ন হয় এবং তারা সব অভিন্ন ছিল. এখানে কি সেই কল্পনানুসারে ক্রুদ্ধ বার্তা বলেছেন:
"রিবুট এনটি মেশিনের মধ্যে মন্ত্রিসভা [নাম] [নাম] এ [অবস্থান]: গুরুতর: [তারিখ এবং সময়]"
এই বার্তাগুলি রেগে লেবেল করা হয় কারণ তারা শব্দ "গুরুতর", যা সাধারণত রাগ ইঙ্গিত কিন্তু এই ক্ষেত্রে না পারে অন্তর্ভুক্ত. এই একক স্বয়ংক্রিয় পেজার দ্বারা উত্পন্ন বার্তাগুলি মুছে ফেলার সম্পূর্ণভাবে দিন (চিত্র 2.2) কোর্সের উপর রাগে আপাত বৃদ্ধি ঘটিয়েছে. অন্য কথায়, প্রধান ফলাফলের Back, Küfner, and Egloff (2010) এক পেজার একটি হস্তনির্মিত বস্তু ছিল. এই উদাহরণ তুলে ধরে বলেন, অপেক্ষাকৃত জটিল ও নোংরা তথ্য অপেক্ষাকৃত সহজ বিশ্লেষণ গম্ভীরভাবে ভুল হয়ে যেতে পারে সম্ভাবনা রয়েছে.
চিত্র 2.2: 11 সেপ্টেম্বর, 2001 অবশ্যই 85,000 আমেরিকান পেজার্স উপর ভিত্তি ধরে রাগে আনুমানিক প্রবণতা (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . মূলত, Back, Küfner, and Egloff (2010) সারা দিন রাগ বৃদ্ধি একটি প্যাটার্ন রিপোর্ট. "রিবুট এনটি মেশিন [নাম] মন্ত্রিসভা [নাম] [অবস্থান] এ: গুরুতর: [তারিখ এবং সময়]" যাইহোক, এই আপাত ক্রুদ্ধ বার্তা অধিকাংশ একটি একক পেজার যে বারবার নিম্নলিখিত বার্তা পাঠানো আউট দ্বারা উত্পন্ন হয়. এই বার্তা দিয়ে সরানো, ক্রোধে আপাত বৃদ্ধি disappears (Pury 2011; Back, Küfner, and Egloff 2011) . এই চিত্রে ডুমুর 1B একটি প্রজনন হয় Pury (2011) .
একটি যুক্তিসঙ্গতভাবে সাবধান গবেষক দ্বারা মলিন তথ্য যে এক সশব্দ থেকে যেমন অনিচ্ছাকৃতভাবে-যেমন করে নির্মিত হয় পেজার-পারেন সনাক্ত করা হলেও, সেখানে বেশ কিছু অনলাইন সিস্টেম যে ইচ্ছাকৃত স্প্যামাররা আকৃষ্ট হয়. এই স্প্যামাররা সক্রিয়ভাবে জাল ডেটা উৎপন্ন, এবং প্রায়ই মুনাফা-কাজ খুব কঠিন দ্বারা প্রেরণা তাদের স্প্যামিং গোপন রাখার. উদাহরণস্বরূপ, টুইটার উপর রাজনৈতিক কার্যকলাপ অন্তত কিছু যুক্তিসঙ্গতভাবে অত্যাধুনিক স্প্যাম, যদ্দ্বারা কিছু রাজনৈতিক কারণে ইচ্ছাকৃতভাবে আরো জনপ্রিয় তুলনায় তারা প্রকৃত হয় চেহারা তৈরি করা হয় অন্তর্ভুক্ত বলে মনে হয় (Ratkiewicz et al. 2011) . ডেটা সঙ্গে কাজ গবেষকরা যে ইচ্ছাকৃত স্প্যাম থাকতে পারে তাদের শ্রোতা যে তারা শনাক্ত প্রাসঙ্গিক স্প্যাম সরিয়েছি বিশ্বাসী প্রতিদ্বন্দ্বিতার মুখোমুখি.
পরিশেষে, কি বিবেচনা করা হয় মলিন ডেটা আপনার গবেষণা প্রশ্নের উপর সূক্ষ্ম উপায়ে নির্ভর করতে পারেন. উদাহরণস্বরূপ, উইকিপিডিয়াতে আপনাকে অনেক সম্পাদনাগুলি স্বয়ংক্রিয় বট দ্বারা তৈরি করা হয় (Geiger 2014) . আপনি উইকিপিডিয়ার বাস্তব্যবিদ্যা আগ্রহী তাহলে এসব বট গুরুত্বপূর্ণ. কিন্তু, যদি আপনি কিভাবে মানুষের উইকিপিডিয়া অবদান আগ্রহী, এই এই বট দ্বারা তৈরি সম্পাদনাগুলি বাদ দেওয়া উচিত.
বোকা বানানো হচ্ছে এড়ানোর সবচেয়ে ভাল উপায় দ্বারা মলিন তথ্য বুঝতে আপনার ডেটা যেমন সহজ ছিটান প্লট তৈরীর হিসাবে, সহজ অনুসন্ধানমূলক বিশ্লেষণ সঞ্চালন করার জন্য তৈরি করা হয়েছিল.