বড় ডেটাসেট শেষ করার জন্য একটি উপায় আছে; তারা নিজেদের মধ্যে শেষ না হয়.
বড় তথ্য উত্সগুলির সর্বাধিক আলোচিত বৈশিষ্ট্য হল যে তারা বড়। উদাহরণস্বরূপ, বহু কাগজপত্র আলোচনা করে শুরু করে এবং মাঝে মাঝে বিচলিত হয় - তাদের কতগুলি তথ্য বিশ্লেষণ করে। উদাহরণস্বরূপ, গুগল বুকস কর্পাসের শব্দ-ব্যবহার প্রবণতা অধ্যয়নরত বিজ্ঞানের অধীন একটি কাগজ প্রকাশিত হয়েছে (Michel et al. 2011) :
"[আমাদের] করপাসে ইংরেজি (361 বিলিয়ন), ফরাসি (45 বিলিয়ন), স্প্যানিশ (45 বিলিয়ন), জার্মান (37 বিলিয়ন), চীনা (13 বিলিয়ন), রাশিয়ান (35 বিলিয়ন) এবং হিব্রু (2 বিলিয়ন). প্রাচীনতম কাজ 1500 সালে প্রকাশিত হয়েছিল। কয়েক দশক ধরে কয়েক হাজার বইয়ের মধ্যে কয়েকটি বই প্রকাশিত হয়। 1800 সালের মধ্যে, করপাস প্রতি বছর 98 মিলিয়ন শব্দে বৃদ্ধি পায়; 1900 দ্বারা, 1.8 বিলিয়ন; এবং 2000 দ্বারা, 11 বিলিয়ন। একটি মানুষের দ্বারা পাঠ করা যায় না। যদি আপনি কেবলমাত্র 2000-র ভাষা থেকে শুধুমাত্র ইংরেজী-ভাষার এন্ট্রি পড়তে চেষ্টা করেন, তাহলে 200 শব্দ / মিনিটের যুক্তিসঙ্গত গতিতে খাদ্য বা ঘুমের জন্য কোনও বাধা ছাড়াই 80 বছর লাগবে। অক্ষরগুলির ক্রম মানব জিনোমের তুলনায় 1000 গুণ বেশি হয়: যদি আপনি এটি একটি সরল রেখায় লিখে থাকেন তবে এটি চন্দ্রের কাছে পৌঁছাবে এবং 10 গুণ বেশি করে পিছিয়ে যাবে। "
এই তথ্য স্কেল নিঃসন্দেহে চিত্তাকর্ষক, এবং আমরা সবাই সৌভাগ্যবান যে Google বই দল জনসাধারণের কাছে এই তথ্য প্রকাশ করেছে (আসলে, এই অধ্যায়ে শেষের কয়েকটি কার্যক্রম এই তথ্যটি ব্যবহার করে)। কিন্তু, যখনই আপনি এইরকম কিছু দেখতে পান তখন আপনাকে জিজ্ঞাসা করা উচিত: যে সব তথ্য কি সত্যিই কিছু করছেন? যদি তথ্য চন্দ্রের কাছে পৌঁছতে পারে এবং একবার একবার ফিরে যেতে পারে তবে কি তারা একই গবেষণা করতে পারে? মাউন্ট এভারেস্টের শীর্ষে অথবা আইফেল টাওয়ারের শীর্ষে কি তথ্য পৌঁছতে পারে?
এই ক্ষেত্রে, তাদের গবেষণা, আসলে, একটি দীর্ঘ সময় ধরে শব্দ একটি বিশাল corpus প্রয়োজন যে কিছু আবিষ্কার আছে। উদাহরণস্বরূপ, তারা অন্বেষণ এক জিনিস হল ব্যাকরণ বিবর্তন, বিশেষ করে অনিয়মিত ক্রিয়া সংশ্লেষের হারে পরিবর্তন। যেহেতু কিছু অনিয়মিত ক্রিয়া বেশ বিরল, সময়ের সাথে পরিবর্তনগুলি সনাক্ত করার জন্য বড় পরিমাণে তথ্য প্রয়োজন। তবে বেশিরভাগ ক্ষেত্রে, গবেষকরা মনে করেন যে বড় ডাটা উত্সের আকারটি শেষ পর্যন্ত- "দেখবেন কতটা তথ্য আমি ঘটাতে পারি" - কিছু গুরুত্বপূর্ণ গুরুত্বপূর্ণ বৈজ্ঞানিক উপায়ে একটি উপায়।
আমার অভিজ্ঞতায়, বিরল ঘটনাগুলির গবেষণাটি তিনটি নির্দিষ্ট বৈজ্ঞানিক শেষগুলির মধ্যে একটি, যা বড় ডেটাসসগুলি সক্ষম করে। দ্বিতীয়টি বৈপরীত্যের গবেষণা, যেমন মার্কিন যুক্তরাষ্ট্রের সামাজিক গতিশীলতা নিয়ে রাজ চেতি এবং সহকর্মীদের (2014) একটি গবেষণা দ্বারা চিত্রিত করা যেতে পারে। অতীতে, অনেক গবেষকরা বাবা-মা এবং শিশুদের জীবনের ফলাফলগুলি তুলনা করে সামাজিক গতিবিধি অধ্যয়ন করেছেন। এই সাহিত্য থেকে একটি সুসংগত খোঁজা হল সুবিধাপ্রাপ্ত বাবা-মাদের (Hout and DiPrete 2006) সন্তান থাকা সত্ত্বেও, এই সম্পর্কের শক্তি বিভিন্ন সময় এবং বিভিন্ন দেশে (Hout and DiPrete 2006) পরিবর্তিত হয়। সম্প্রতি, যদিও, চট্টি ও সহকর্মীরা 40 মিলিয়ন মানুষকে যুক্তরাষ্ট্রে (চিত্র ২.1) অঞ্চল জুড়ে আন্তঃবর্জনীয় গতিশীলতাতে বৈচিত্র্যের অনুমান করার জন্য ট্যাক্স রেকর্ড ব্যবহার করতে সক্ষম ছিল। উদাহরণস্বরূপ, ক্যালিফোর্নিয়ার সান জোসে এটি প্রায় 13%, কিন্তু চার্লোটে উত্তর ক্যারোলিনাতে মাত্র চার ভাগের এক ভাগের নীচে এক চতুর্থাংশের একটি পরিবার থেকে শুরু করে জাতীয় আয় বন্টনের শীর্ষে কোয়ান্টামে পৌঁছায় এমন সম্ভাবনাটি দেখা যায়। আপনি একটি মুহূর্ত জন্য চিত্র 2.1 তাকান, আপনি অন্যদের তুলনায় কিছু জায়গায় কেন intergenerational গতিশীলতা বেশী আশ্চর্য হতে পারে। চট্টি এবং সহকর্মীরা ঠিক একই প্রশ্ন করে, এবং তারা দেখে যে উচ্চ গতিসরণ এলাকায় কম আবাসিক বিচ্ছিন্নতা, কম আয় বৈষম্য, ভাল প্রাথমিক বিদ্যালয়, বৃহত্তর সামাজিক পুঁজি এবং বৃহত্তর পরিবার স্থায়িত্ব রয়েছে। অবশ্যই, এই সম্পর্কগুলি কেবল দেখায় না যে এই বিষয়গুলি উচ্চতর গতিশীলতা সৃষ্টি করে, তবে তারা আরও কাজ করতে পারে এমন সম্ভাব্য পদ্ধতিগুলি সুপারিশ করে, যা পরবর্তীতে কাজ করার সময় চেটি ও সহকর্মীদের কাজ করে। লক্ষ্য করুন কিভাবে এই তথ্যটির আকার সত্যিই গুরুত্বপূর্ণ ছিল। যদি চট্টি ও সহকর্মীরা 40 মিলিয়নের পরিবর্তে 40 হাজার মানুষের ট্যাক্স রেকর্ড ব্যবহার করত তবে তারা আঞ্চলিক বৈষম্যতা অনুধাবন করতে পারতেন না এবং তারা এই বৈচিত্র্য তৈরি করার পদ্ধতিগুলি চিহ্নিত করার চেষ্টা করতে পরবর্তী গবেষণা করতে সক্ষম হত না।
অবশেষে, বিরল ঘটনা অধ্যয়ন এবং বৈচিত্র্য অধ্যয়ন ছাড়াও, বৃহৎ ডেটাসেটগুলি গবেষকদের ছোট পার্থক্য সনাক্ত করতে সক্ষম করে। প্রকৃতপক্ষে, শিল্পের বড় বড় তথ্যগুলি এই ছোট্ট পার্থক্যগুলির ওপর বেশিরভাগ ফোকাস হয়: বিজ্ঞাপনটিতে 1% থেকে 1.1% ক্লিক-এর হারের মধ্যে নির্ভরযোগ্যভাবে নিবিড়ভাবে সনাক্তকরণের ফলে অতিরিক্ত আয়তে লক্ষ লক্ষ ডলারের মধ্যে অনুবাদ করা যায়। কিছু বৈজ্ঞানিক সেটিংস এ, তবে, এই ছোট্ট পার্থক্য বিশেষভাবে গুরুত্বপূর্ণ হতে পারে না, এমনকি যদি তারা পরিসংখ্যানগতভাবে উল্লেখযোগ্য (Prentice and Miller 1992) । কিন্তু, কিছু পলিসি সেটিংসে, তারা সমষ্টিগত অবস্থায় যখন গুরুত্বপূর্ণ হয়ে উঠতে পারে। উদাহরণস্বরূপ, যদি দুটি জনস্বাস্থ্যের হস্তক্ষেপ থাকে এবং অন্যটি অন্যের তুলনায় সামান্য কার্যকর হয়, তাহলে আরো কার্যকর হস্তক্ষেপের ফলে হাজার হাজার অতিরিক্ত জীবন বাঁচাতে পারে।
সঠিকভাবে ব্যবহার করা হয় যখন bigness সাধারণত একটি ভাল সম্পত্তি, আমি এটা কখনও কখনও একটি ধারণাগত ভুল হতে পারে যে লক্ষ্য করেছি কিছু কারণের জন্য, bigness গবেষকরা কিভাবে তাদের তথ্য উত্পন্ন হয়েছিল উপেক্ষা করতে বলে মনে হয়। যদিও বিজ্ঞেস র্যান্ডম ত্রুটির বিষয়ে চিন্তা করার প্রয়োজন হ্রাস করে, এটি আসলে নিয়মানুগ ত্রুটিগুলির বিষয়ে চিন্তা করার প্রয়োজনকে বৃদ্ধি করে, যেসব ত্রুটিগুলি আমি নীচের বর্ণনা করব যেগুলি কীভাবে তথ্য তৈরি করা হয় তা বিবর্তনের থেকে উদ্ভূত। উদাহরণস্বরূপ, একটি প্রকল্পে আমি এই অধ্যায়ে পরে বর্ণনা করব, গবেষকরা সন্ত্রাসী হামলার প্রতিক্রিয়া (Back, Küfner, and Egloff 2010) এর প্রতিক্রিয়া সম্পর্কে একটি উচ্চ-রেজোলিউশনের আবেগগত সময়রেখা তৈরি করার জন্য 11 সেপ্টেম্বর, 2001 তারিখে উত্পন্ন বার্তাগুলি ব্যবহার করেছেন। কারণ গবেষকরা বিপুলসংখ্যক বার্তা পাঠিয়েছিলেন, তাদের মনেও ছিল না যে তারা যে নিদর্শনগুলি দেখেছিল- দিনের বেলায় ক্রোধ ক্রমশ বাড়ছে- র্যান্ডম ফ্লোরিশনের দ্বারা ব্যাখ্যা করা যেতে পারে। তাই অনেক তথ্য এবং প্যাটার্ন এত স্পষ্ট ছিল যে সমস্ত পরিসংখ্যান পরিসংখ্যানগত পরীক্ষা এই একটি বাস্তব প্যাটার্ন ছিল প্রস্তাব দেওয়া। কিন্তু, এই পরিসংখ্যানগত পরীক্ষাগুলি কীভাবে তথ্য তৈরি করা হয়েছিল তা অজ্ঞ ছিল। প্রকৃতপক্ষে, এটি প্রমাণিত হয় যে অনেকগুলি নিদর্শন একক বটটির জন্য বিশেষ কারণ যা সারা দিন আরো বেশি অর্থহীন বার্তা সৃষ্টি করে। এই এক বট অপসারণ সম্পূর্ণভাবে কাগজ (Pury 2011; Back, Küfner, and Egloff 2011) মধ্যে কী ফলাফল কিছু ধ্বংস। মোটামুটিভাবে, গবেষকরা যারা নিয়মানুবর্তিত ত্রুটির কথা ভাবেন না তারা তাদের বড় ডেটাসেট ব্যবহার করে একটি অনিয়মিত পরিমাণের সুনির্দিষ্ট অনুমানের ঝুঁকির মুখোমুখি হয়, যেমন একটি স্বয়ংক্রিয় বোট দ্বারা উত্পন্ন অর্থহীন বার্তাগুলির মানসিক সামগ্রী।
উপসংহারে, বড় ডেটাসেটগুলি নিজেদের মধ্যে শেষ হয় না, তবে বিরল ঘটনাগুলির অধ্যয়ন, বৈচিত্র্যের মূল্যায়ন এবং ক্ষুদ্র পার্থক্য সনাক্তকরণ সহ কিছু ধরণের গবেষণা সক্ষম করতে পারে। বিগ ডেটাসেটগুলিও কিছু গবেষককে তাদের তথ্য কিভাবে তৈরি করা হয়েছে তা উপেক্ষা করতে দেখায়, যা তাদেরকে অযৌক্তিক পরিমাণের সুনির্দিষ্ট পরিমান পেতে পারে।