2.3.2.6 মলিন

বিগ তথ্য সূত্র আবর্জনা এবং স্প্যাম সঙ্গে লোড করা যাবে.

কিছু গবেষক মনে করেন যে, বড় তথ্য সূত্রে জানা গেছে, বিশেষ করে অনলাইন উত্স থেকে সেই আদিম হয় কারণ তারা স্বয়ংক্রিয়ভাবে সংগ্রহ করা হয়. আসলে, যারা ​​বড় তথ্য উৎসের সঙ্গে কাজ করেছি জানি যে, তারা ঘন ঘন নোংরা. অর্থাৎ তারা ঘন ঘন তথ্য গবেষকরা সুদ বাস্তব কর্ম প্রতিফলিত না অন্তর্ভুক্ত. অনেক সামাজিক বিজ্ঞানীরা ইতিমধ্যে বড় মাপের সামাজিক জরিপ তথ্য পরিষ্কার, কিন্তু বড় তথ্য সূত্র পরিষ্কার হয় দুটি কারণে আরো কঠিন প্রক্রিয়ার সাথে পরিচিত হয়ে থাকবেন: 1) তারা 2) গবেষক গবেষক জন্য গবেষক ও দ্বারা তৈরি করা হয় সাধারণত কিভাবে কম বোঝার আছে তারা তৈরি করা হয়েছিল.

মলিন ডিজিটাল ট্রেস ডেটা বিপদ পিছনে এবং 'সহকর্মীদের দ্বারা চিত্রিত করা হয় (2010) 11 সেপ্টেম্বর, আক্রমণ করার মানসিক প্রতিক্রিয়া 2001. গবেষকরা সাধারণত মাস বা এমনকি বছরের পর বছর ধরে সংগৃহীত ভূতাপেক্ষ ডেটা ব্যবহার দুঃখজনক ঘটনার প্রতিক্রিয়া জানাতে অধ্যয়ন অধ্যয়ন. কিন্তু, পিছনে এবং সহকর্মীদের 85,000 আমেরিকান থেকে একটি সর্বদা চলমান ডিজিটাল ট্রেস-timestamped উৎস, স্বয়ংক্রিয়ভাবে রেকর্ড করা বার্তা পাওয়া পেজার্স-এবং এই গবেষকরা অনেক তীক্ষ্ণ স্বরূপ সময় পরিমাপক, সময়সীমা উপর মানসিক প্রতিক্রিয়া অধ্যয়ন সক্রিয়. পিছনে এবং সহকর্মীদের (1) বিষণ্ণতা সম্পর্কিত শব্দ শতাংশ দ্বারা পেজার বার্তা আবেগের উপাদান কোডিং দ্বারা একটি মিনিট-দ্বারা মিনিটের সেপ্টেম্বর 11th আবেগের টাইমলাইনে সৃষ্টি (যেমন, ক্রন্দিত, বিষাদ), (2) দুশ্চিন্তা (যেমন, চিন্তিত, ভীতিজনক), এবং (3) রাগ (যেমন, ঘৃণা, সমালোচনামূলক). তাঁরা দেখলেন যে দুঃখ ও উদ্বেগ একটি শক্তিশালী প্যাটার্ন ছাড়া সারা দিন ওঠানামা, কিন্তু সারা দিন রাগ একটি আকর্ষণীয় বৃদ্ধি ছিল. প্রমিত পদ্ধতি ব্যবহার করে এটা একটি অপ্রত্যাশিত ঘটনা তাৎক্ষণিক প্রতিক্রিয়া যেমন একটি উচ্চ রিসোলিউশনের টাইমলাইনে আছে অসম্ভব হবে: এই গবেষণা সবসময় অন ডাটা উৎসের শক্তির একটি বিস্ময়কর দৃষ্টান্ত হবে বলে মনে হয়.

মাত্র এক বছর পরে, তবে, সিনথিয়া Pury (2011) তথ্য এ আরো সাবধানে লাগছিল. তিনি আবিষ্কার করেন যে কল্পনানুসারে ক্রুদ্ধ বার্তা সংখ্যক একটি একক পেজার দ্বারা উত্পন্ন হয় এবং তারা সব অভিন্ন ছিল. এখানে কি সেই কল্পনানুসারে ক্রুদ্ধ বার্তা বলেছেন:

"রিবুট এনটি মেশিনের মধ্যে মন্ত্রিসভা [নাম] [নাম] এ [অবস্থান]: গুরুতর: [তারিখ এবং সময়]"

এই বার্তাগুলি রেগে লেবেল করা হয় কারণ তারা শব্দ "গুরুতর", যা সাধারণত রাগ ইঙ্গিত কিন্তু এই ক্ষেত্রে না পারে অন্তর্ভুক্ত. এই একক স্বয়ংক্রিয় পেজার দ্বারা উত্পন্ন বার্তাগুলি মুছে ফেলার সম্পূর্ণভাবে দিন (চিত্র 2.2) কোর্সের উপর রাগে আপাত বৃদ্ধি ঘটিয়েছে. অন্য কথায়, প্রধান ফলাফলের Back, Küfner, and Egloff (2010) এক পেজার একটি হস্তনির্মিত বস্তু ছিল. এই উদাহরণ তুলে ধরে বলেন, অপেক্ষাকৃত জটিল ও নোংরা তথ্য অপেক্ষাকৃত সহজ বিশ্লেষণ গম্ভীরভাবে ভুল হয়ে যেতে পারে সম্ভাবনা রয়েছে.

চিত্র 2.2: 11 সেপ্টেম্বর, 2001 অবশ্যই 85,000 আমেরিকান পেজার্স উপর ভিত্তি ধরে রাগে আনুমানিক প্রবণতা (পিছনে, Küfner, এবং Egloff 2010; Pury 2011; ফিরুন, Küfner, এবং Egloff 2011). মূলত, পিছনে, Küfner, এবং Egloff (2010) সারা দিন রাগ বৃদ্ধি একটি প্যাটার্ন রিপোর্ট. গুরুতর: [তারিখ এবং সময়] [অবস্থান] এ মন্ত্রিসভায় রিবুট এনটি মেশিন [নাম] [নাম]: যাইহোক, এই আপাত ক্রুদ্ধ বার্তা অধিকাংশ একটি একক পেজার যে বারবার নিম্নলিখিত বার্তা পাঠানো আউট দ্বারা উত্পন্ন হয়. এই বার্তা দিয়ে সরানো, ক্রোধে আপাত বৃদ্ধি disappears (Pury 2011; ফিরুন, Küfner, এবং Egloff 2011). এই চিত্রে Pury (2011) সালে ডুমুর 1B একটি প্রজনন হয়.

চিত্র 2.2: 11 সেপ্টেম্বর, 2001 অবশ্যই 85,000 আমেরিকান পেজার্স উপর ভিত্তি ধরে রাগে আনুমানিক প্রবণতা (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . মূলত, Back, Küfner, and Egloff (2010) সারা দিন রাগ বৃদ্ধি একটি প্যাটার্ন রিপোর্ট. "রিবুট এনটি মেশিন [নাম] মন্ত্রিসভা [নাম] [অবস্থান] এ: গুরুতর: [তারিখ এবং সময়]" যাইহোক, এই আপাত ক্রুদ্ধ বার্তা অধিকাংশ একটি একক পেজার যে বারবার নিম্নলিখিত বার্তা পাঠানো আউট দ্বারা উত্পন্ন হয়. এই বার্তা দিয়ে সরানো, ক্রোধে আপাত বৃদ্ধি disappears (Pury 2011; Back, Küfner, and Egloff 2011) . এই চিত্রে ডুমুর 1B একটি প্রজনন হয় Pury (2011) .

একটি যুক্তিসঙ্গতভাবে সাবধান গবেষক দ্বারা মলিন তথ্য যে এক সশব্দ থেকে যেমন অনিচ্ছাকৃতভাবে-যেমন করে নির্মিত হয় পেজার-পারেন সনাক্ত করা হলেও, সেখানে বেশ কিছু অনলাইন সিস্টেম যে ইচ্ছাকৃত স্প্যামাররা আকৃষ্ট হয়. এই স্প্যামাররা সক্রিয়ভাবে জাল ডেটা উৎপন্ন, এবং প্রায়ই মুনাফা-কাজ খুব কঠিন দ্বারা প্রেরণা তাদের স্প্যামিং গোপন রাখার. উদাহরণস্বরূপ, টুইটার উপর রাজনৈতিক কার্যকলাপ অন্তত কিছু যুক্তিসঙ্গতভাবে অত্যাধুনিক স্প্যাম, যদ্দ্বারা কিছু রাজনৈতিক কারণে ইচ্ছাকৃতভাবে আরো জনপ্রিয় তুলনায় তারা প্রকৃত হয় চেহারা তৈরি করা হয় অন্তর্ভুক্ত বলে মনে হয় (Ratkiewicz et al. 2011) . ডেটা সঙ্গে কাজ গবেষকরা যে ইচ্ছাকৃত স্প্যাম থাকতে পারে তাদের শ্রোতা যে তারা শনাক্ত প্রাসঙ্গিক স্প্যাম সরিয়েছি বিশ্বাসী প্রতিদ্বন্দ্বিতার মুখোমুখি.

পরিশেষে, কি বিবেচনা করা হয় মলিন ডেটা আপনার গবেষণা প্রশ্নের উপর সূক্ষ্ম উপায়ে নির্ভর করতে পারেন. উদাহরণস্বরূপ, উইকিপিডিয়াতে আপনাকে অনেক সম্পাদনাগুলি স্বয়ংক্রিয় বট দ্বারা তৈরি করা হয় (Geiger 2014) . আপনি উইকিপিডিয়ার বাস্তব্যবিদ্যা আগ্রহী তাহলে এসব বট গুরুত্বপূর্ণ. কিন্তু, যদি আপনি কিভাবে মানুষের উইকিপিডিয়া অবদান আগ্রহী, এই এই বট দ্বারা তৈরি সম্পাদনাগুলি বাদ দেওয়া উচিত.

বোকা বানানো হচ্ছে এড়ানোর সবচেয়ে ভাল উপায় দ্বারা মলিন তথ্য বুঝতে আপনার ডেটা যেমন সহজ ছিটান প্লট তৈরীর হিসাবে, সহজ অনুসন্ধানমূলক বিশ্লেষণ সঞ্চালন করার জন্য তৈরি করা হয়েছিল.