বিগ তথ্য সূত্র আবর্জনা এবং স্প্যাম সঙ্গে লোড করা যাবে.
কিছু গবেষকরা বিশ্বাস করেন যে বড় তথ্য উত্স, বিশেষ করে অনলাইন উত্সগুলি প্রাচীনতম কারণ তারা স্বয়ংক্রিয়ভাবে সংগৃহীত হয়। বস্তুত, যারা বড় তথ্য উৎসের সাথে কাজ করে তারা জানে যে তারা প্রায়শই নোংরা । অর্থাৎ, তারা ঘন ঘন তথ্য অন্তর্ভুক্ত করে যা গবেষকদের প্রতি আগ্রহের প্রকৃত কার্যকলাপ প্রতিফলিত করে না। বেশিরভাগ সামাজিক বিজ্ঞানী বড় আকারের সোশ্যাল জরিপ ডেটা পরিষ্কার করার প্রক্রিয়ার সাথে ইতিমধ্যেই পরিচিত আছেন, তবে বড় ডাটা উৎসগুলি পরিষ্কার করা আরও কঠিন বলে মনে হচ্ছে। আমি মনে করি এই অসুবিধাটির চূড়ান্ত উৎসটি হল যে এইসব বড় বড় তথ্য উৎসগুলি গবেষণা করার জন্য ব্যবহার করা হয়নি, এবং তাই তারা সংগৃহীত, সংরক্ষণ করা এবং নথিভুক্ত করা হয় না এমন একটি উপায়ে যা ডেটা পরিস্কার করার সুবিধা দেয়।
নোংরা ডিজিটাল ট্রেস ডেটার বিপদগুলি ব্যাক এবং সহকর্মীদের দ্বারা চিত্রিত করা হয় ' (2010) 11 সেপ্টেম্বর, 2001 সালের হামলার জন্য মানসিক প্রতিক্রিয়া সম্পর্কে অধ্যয়ন করা, যা আমি সংক্ষিপ্তভাবে অধ্যায়ের আগে উল্লেখ করেছি। গবেষকরা সাধারণত মাসিক বা এমনকি বছর ধরে প্রাপ্ত পূর্নিত তথ্য ব্যবহার করে দুঃখজনক ঘটনাগুলির প্রতিক্রিয়াটি অধ্যয়ন করে। কিন্তু, পিছনে এবং সহকর্মীরা একটি সর্বদা ডিজিটাল ট্রেস-এর উত্স খুঁজে পেয়েছে- টাইমস্ট্যাম্পড, 85,000 আমেরিকান প্যাজারের স্বয়ংক্রিয়ভাবে রেকর্ড করা বার্তাগুলি-এবং এইগুলি তাদের অনেক বেশি সময়সীমার সময় মানসিক প্রতিক্রিয়া পড়তে সক্ষম করে। তারা (1) বিষণ্ণতা (যেমন, "কান্নাকাটি" এবং "বিষণ্ণ"), (2) উদ্বেগ (1) উদ্বিগ্নতা সম্পর্কিত শব্দের শতকরা শতাংশ দ্বারা প্যাজার বার্তাগুলির মানসিক কন্টেন্ট কোডিং দ্বারা 11 সেপ্টেম্বর একটি মিনিট মিনিটের মানসিক সময়রেখা তৈরি করেছে ( উদাহরণস্বরূপ, "চিন্তিত" এবং "ভয়ঙ্কর"), এবং (3) রাগ (যেমন, "ঘৃণা" এবং "সমালোচনামূলক")। তারা দেখে যে বিষণ্ণতা এবং উদ্বিগ্নতা একটি দৃঢ় প্যাটার্ন ছাড়া সারা দিন ক্রমবর্ধমান, কিন্তু যে দিন দিন রাগ মধ্যে একটি আকর্ষণীয় বৃদ্ধি ছিল। এই গবেষণা সবসময় সর্বদা উপর তথ্য উৎস শক্তি একটি চমৎকার দৃষ্টান্ত বলে মনে হয়: ঐতিহ্যগত তথ্য সূত্র ব্যবহার করা হয়, তাহলে, একটি অপ্রত্যাশিত ইভেন্টের অবিলম্বে প্রতিক্রিয়া যেমন একটি উচ্চ রিসোলিউশনের সময়রেখা প্রাপ্ত করা অসম্ভব হয়েছে।
শুধু এক বছর পর, তবে সিন্থিয়া পুরি (2011) তথ্যগুলি আরও সাবধানে দেখেছিলেন। তিনি আবিষ্কার করেন যে, একাধিক প্যাজার দ্বারা প্রচলিত ক্রন্দিত বার্তাগুলি উৎপন্ন হয়েছিল এবং তারা সবাই একই রকম ছিল। এখানে যারা কল্পনাপ্রসূত ক্রুদ্ধ বার্তা বলেন:
"রিবুট এনটি মেশিনের মধ্যে মন্ত্রিসভা [নাম] [নাম] এ [অবস্থান]: গুরুতর: [তারিখ এবং সময়]"
এই বার্তাগুলিকে রাগ করা হয়েছিল কারণ তারা "CRITICAL" শব্দটি অন্তর্ভুক্ত করেছিল, যা সাধারণত রাগের কথা বলে কিন্তু এই ক্ষেত্রে না। এই একক স্বয়ংক্রিয় প্যাজার দ্বারা উত্পন্ন বার্তাগুলি মুছে ফেলার ফলে সম্পূর্ণভাবে রাগের ক্রমবর্ধমান বর্ধিতকরণ (দিনের ২4)। অন্য কথায়, Back, Küfner, and Egloff (2010) এর প্রধান ফলাফল ছিল এক Back, Küfner, and Egloff (2010) একটি চিত্র। এই উদাহরণটি দেখায়, অপেক্ষাকৃত জটিল এবং নোংরা ডেটাগুলির অপেক্ষাকৃত সহজ বিশ্লেষণে গুরুতর ভুলের সম্ভাবনা রয়েছে।
যদিও নোংরা ডেটা যে অনিচ্ছাকৃতভাবে তৈরি হয়-যেমন একটি শব্দ প্যাজার থেকে - একটি যুক্তিসঙ্গত সতর্ককারী গবেষক দ্বারা সনাক্ত করা যায়, এমন কিছু অনলাইন সিস্টেম রয়েছে যা ইচ্ছাকৃত স্প্যামারগুলিকে আকর্ষণ করে। এই স্প্যামাররা সক্রিয়ভাবে জাল তথ্য তৈরি করে এবং প্রায়ই মুনাফার কাজ দ্বারা অনুপ্রাণিত হয় তাদের স্প্যামিং গোপন রাখা খুব কঠিন। উদাহরণস্বরূপ, Twitter- এ রাজনৈতিক কার্যকলাপ অন্তত কিছু যুক্তিসঙ্গত পরিপাটিত স্প্যাম অন্তর্ভুক্ত বলে মনে হয়, যার মধ্যে কিছু রাজনৈতিক কারণ ইচ্ছাকৃতভাবে আরো জনপ্রিয় হওয়ার চেয়ে তাদের তুলনায় আরো বেশি জনপ্রিয় (Ratkiewicz et al. 2011) । দুর্ভাগ্যবশত, এই ইচ্ছাকৃত স্প্যাম অপসারণ খুব কঠিন হতে পারে।
অবশ্যই কি বিবেচনা করা হয় নোংরা তথ্য নির্ভর করতে পারে, অংশে, গবেষণা প্রশ্ন। উদাহরণস্বরূপ, উইকিপিডিয়াতে অনেকগুলি সম্পাদনা স্বয়ংক্রিয় বট দ্বারা তৈরি (Geiger 2014) । আপনি উইকিপিডিয়া এর বাস্তুসংস্থান আগ্রহী হলে, তারপর এই বট তৈরি সম্পাদিত গুরুত্বপূর্ণ। কিন্তু যদি আপনি উইকিপিডিয়াতে মানুষকে কীভাবে অবদান রাখতে আগ্রহী হন তবে বট তৈরির সম্পাদনাগুলি বাদ দেওয়া উচিত।
কোনও একক পরিসংখ্যান কৌশল বা পদ্ধতি নেই যা নিশ্চিত করে যে আপনি আপনার নোংরা ডেটাগুলিকে যথেষ্টভাবে পরিষ্কার করেছেন। শেষ পর্যন্ত, আমি মনে করি নোংরা ডেটা দ্বারা বোকা বোকা বানাতে সবচেয়ে ভাল উপায় হল আপনার ডেটা কিভাবে তৈরি করা হয়েছিল সে সম্পর্কে যতটা সম্ভব বুঝতে পারেন।