নন-উপস্থাপিত ডেটা আউট-অফ-নমুনা সাধারণীকরণের জন্য খারাপ, তবে নমুনা তুলনাগুলির জন্য এটি বেশ উপযোগী হতে পারে
কিছু সামাজিক বিজ্ঞানীরা একটি সুনির্দিষ্ট সংখ্যাত জনসংখ্যার একটি সম্ভাব্য র্যান্ডম নমুনা থেকে আসে এমন ডেটার সাথে কাজ করতে অভ্যস্ত, যেমন কোন নির্দিষ্ট দেশে সমস্ত প্রাপ্তবয়স্ক ব্যক্তি। এই ধরনের তথ্য প্রতিনিধিত্বমূলক ডেটা বলে, কারণ নমুনা বড় জনসংখ্যার "প্রতিনিধিত্ব করে"। অনেক গবেষক পুরস্কার প্রতিনিধির তথ্য, এবং কিছু থেকে, প্রতিনিধি তথ্য কঠোর বিজ্ঞান সমার্থক হয়, যখন অ-প্রতিনিধিত্বমূলক তথ্য sloppiness সমার্থক হয়। সবচেয়ে চরমপন্থী সময়ে, কিছু সন্দেহভাজনরা মনে করেন যে অ-প্রকাশমূলক তথ্য থেকে কিছুই শিখতে পারে না। সত্য হলে, এটি বড় ডেটা উত্স থেকে কী শেখা যেতে পারে তা গুরুতরভাবে সীমাবদ্ধ বলে মনে হয় কারণ তাদের অনেকেই প্রতিনিধিত্বমূলক নয়। সৌভাগ্যবশত, এই সন্দেহভাজনগুলি কেবল আংশিকভাবে সঠিক। কিছু নির্দিষ্ট গবেষণা লক্ষ্য আছে যার জন্য অ-প্রতিনিধিত্বমূলক ডেটা পরিষ্কারভাবে উপযুক্ত নয়, তবে অন্যদের জন্য এটি আসলেই বেশ উপযোগী হতে পারে।
এই পার্থক্য বোঝার জন্য, আসুন একটি বৈজ্ঞানিক ক্লাসিক বিবেচনা করি: লন্ডনের 1853-54 সালে কলেরা প্রাদুর্ভাবের জন স্নো এর গবেষণা। এ সময় অনেক ডাক্তার বিশ্বাস করতেন যে কলেরা "খারাপ বাতাস" দ্বারা সৃষ্ট হয়, কিন্তু স্নোকে বিশ্বাস করা হত এটি একটি সংক্রামক রোগ, সম্ভবত নিঃসরিত পানীয় জল দ্বারা ছড়িয়ে পড়ে। এই ধারণা পরীক্ষা করার জন্য, স্নো আমরা এখন একটি প্রাকৃতিক পরীক্ষা আহ্বান করতে পারে কি সুবিধা গ্রহণ। তিনি দুই ভিন্ন জল কোম্পানির দ্বারা পরিচালিত কলেরা হারের তুলনা করেছেন: ল্যাম্বেথ এবং সাউথওয়ার্ক এবং ভক্সহল। এই কোম্পানি একই পরিবারের সেবা করেছিল, কিন্তু তারা এক গুরুত্বপূর্ণ উপায়ের মধ্যে পার্থক্য করেছিল: 1849 সালে - মহামারী শুরু হওয়ার কয়েক বছর আগে- ল্যামবেথ লন্ডনে প্রধান নির্গমন স্রাব থেকে তার প্রবেশ বিন্দু ঊর্ধ্বমুখী প্রবাহিত করেছিলেন, যখন সাউথওয়ার্ক ও ভক্সহল তাদের ইনজেকশন পাইপের প্রান্ত থেকে প্রবাহিত করেছিলেন নিকাশী স্রাব যখন স্নোতে কলেরা থেকে কলেরাতে দুই কোম্পানির সেবা প্রদানের হারের তুলনা করে, তখন তিনি দেখেছিলেন যে সাউথওয়ার্ক ও ভক্সহল-এর গ্রাহকগণ গ্রাহককে নিঃসৃত পানি সরবরাহকারী গ্রাহক হিসেবে কলেরা থেকে 10 গুণ বেশি মারা যেতে পারে। এই ফলাফল কলেরা কারণ সম্পর্কে স্নো এর যুক্তি জন্য শক্তিশালী বৈজ্ঞানিক প্রমাণ প্রদান করে, যদিও এটা লন্ডনে মানুষের একটি প্রতিনিধি নমুনা উপর ভিত্তি করে না।
তবে এই দুটি কোম্পানির তথ্য ভিন্ন প্রশ্নের উত্তর দেওয়ার জন্য আদর্শ নয়: প্রাদুর্ভাবের সময় লন্ডনে কলেরাটির বিস্তার কী ছিল? যে দ্বিতীয় প্রশ্নের জন্য, যা গুরুত্বপূর্ণ, লন্ডন থেকে মানুষ প্রতিনিধিত্ব নমুনা আছে এটা ভাল হবে।
হিসাবে স্নো এর কাজ illustrates, কিছু বৈজ্ঞানিক প্রশ্ন যার জন্য অ-প্রতিনিধিত্বমূলক তথ্য বেশ কার্যকর হতে পারে এবং অন্যদের জন্য এটি উপযুক্তভাবে উপযুক্ত নয় এই দুই ধরণের প্রশ্নগুলির মধ্যে পার্থক্য করার এক অকথ্য উপায় হচ্ছে, কিছু প্রশ্নের মধ্যে-নমুনা তুলনাগুলি সম্পর্কে এবং কিছু কিছু নমুনা সাধারণীকরণের প্রায় কাছাকাছি। এই পার্থক্যটি আরো মহামারীবিদ্যা অন্য একটি ক্লাসিক অধ্যয়ন দ্বারা সচিত্র করা যায়: ব্রিটিশ ডাক্তার স্টাডি, যা দেখায় যে ধূমপান ক্যান্সার হতে পারে। এই গবেষণায়, রিচার্ড ডল এবং এ। ব্র্যাডফোর্ড হিল ২5,000 পুরুষ ডাক্তারকে কয়েক বছর ধরে অনুসরণ করেছিলেন এবং তাদের মৃত্যুর হারগুলির তুলনায় গবেষণার শুরুতে ধূমপায়ী পরিমাণের উপর নির্ভর করে। পুতুল এবং হিল (1954) একটি শক্তিশালী এক্সপোজার প্রতিক্রিয়া সম্পর্ক পাওয়া গেছে: আরো বেশী মানুষ ধূমপান করে, ফুসফুসের ক্যান্সার থেকে বেশি মারা যায়। অবশ্যই, পুরুষ ডাক্তারদের এই গ্রুপের উপর ভিত্তি করে সমস্ত ব্রিটিশ জনগণের মধ্যে ফুসফুসের ক্যান্সারের প্রাদুর্ভাব নিরূপণ করা হবে, তবে নমুনা তুলনাটি এখনও প্রমাণ দেয় যে ধূমপান ফুসফুসের ক্যান্সারের কারণ।
এখন যে আমি নমুনা তুলনা এবং নমুনা সাধারণীকরণের মধ্যে পার্থক্য সচিত্র করেছি, দুটি caveats যাতে হয়। প্রথমত, স্বাভাবিকভাবেই প্রশ্ন করা হয় যে, পুরুষ ব্রিটিশ ডাক্তারের নমুনার মধ্যে থাকা একটি সম্পর্কই নারী, ব্রিটিশ ডাক্তার বা পুরুষ ব্রিটিশ কারখানা শ্রমিক বা মহিলা কারখানার শ্রমিক বা অন্য অনেক গ্রুপের একটি নমুনার মধ্যে রাখা হবে। এই প্রশ্নগুলি আকর্ষণীয় এবং গুরুত্বপূর্ণ, কিন্তু তারা প্রশ্নগুলির থেকে ভিন্ন যে আমরা একটি নমুনা থেকে জনসংখ্যার মধ্যে সাধারণীকরণ করতে পারি। উদাহরণস্বরূপ, উদাহরণস্বরূপ, আপনি সম্ভবত সন্দেহ করেন যে ধূমপান এবং ক্যান্সারের মধ্যে যে সম্পর্ক ব্রিটিশ ব্রিটিশ ডাক্তারদের মধ্যে পাওয়া গেছে সেগুলি সম্ভবত এই অন্যান্য গ্রুপগুলির অনুরূপ হবে। এই এক্সপ্রপ্পলেশন করার আপনার ক্ষমতা আসলে কোনও জনসংখ্যার তুলনায় পুরুষ ব্রিটিশ ডাক্তার একটি সম্ভাব্য র্যান্ডম নমুনা নয়; বরং এটি ধূমপানের এবং ক্যান্সারের সাথে সংযুক্ত ব্যবস্থার একটি বোঝার থেকে আসে। সুতরাং, জনসংখ্যা যা থেকে টানা হয় একটি নমুনা থেকে সাধারণীকরণ মূলত একটি পরিসংখ্যানগত বিষয়, কিন্তু অন্য গ্রুপে একটি গোষ্ঠীর পাওয়া প্যাটার্ন transportability সম্পর্কে প্রশ্ন মূলত একটি nonstatistical ইস্যু (Pearl and Bareinboim 2014; Pearl 2015) ।
এই সময়ে, একটি সংশয়বাদী ইঙ্গিত পারে যে ধূমপান এবং ক্যান্সারের মধ্যে সম্পর্কের তুলনায় বেশিরভাগ সামাজিক প্যাটার্নগুলি গোষ্ঠীর মধ্যে সম্ভবত কম পরিবহনযোগ্য। এবং আমি একমত। পরিমাপের বহিঃপ্রস্তুতি হওয়া উচিত এমন যে পরিমাণে আমরা আশা করতে পারি সেটি হলো বৈজ্ঞানিক তত্ত্ব যা তত্ত্ব ও প্রমাণের উপর ভিত্তি করে সিদ্ধান্ত নেবে। এটি স্বয়ংক্রিয়ভাবে অনুমান করা উচিত নয় যে নিদর্শনগুলি পরিবহনযোগ্য হবে, কিন্তু এটি অনুমান করা উচিত যে তারা পরিবহনীয় হবে না। আপনি যদি স্নাতকোত্তর ছাত্রদের পড়াশোনার মাধ্যমে মানুষের আচরণ সম্পর্কে অনেক কিছু শিখতে পারেন সে সম্পর্কে বিতর্কের অনুসরণ করলে আপনার কাছে (Sears 1986, [@henrich_most_2010] ) বিষয়ে কিছুটা বিস্ময়কর প্রশ্নগুলি পরিচিত হবে (Sears 1986, [@henrich_most_2010] ) । এই বিতর্ক সত্ত্বেও, তবে, এটা বলা অযৌক্তিক হবে যে গবেষকরা স্নাতকোত্তর ছাত্রীদের পড়া থেকে কিছু শিখতে পারবেন না।
দ্বিতীয় সতর্কতাটি হল যে অ-প্রপোজেনটিভ ডেটার সাথে বেশীরভাগ গবেষক স্নো বা পুতুল এবং পাহাড়ের মতো সতর্ক নয়। অতএব, ব্যাখ্যা করার জন্য কি ভুল হতে পারে যখন গবেষকরা অ-প্রতিনিধিত্বমূলক তথ্য থেকে নমুনা সাধারণীকরণের চেষ্টা করে, আমি আপনাকে আন্ডারিক তুমাসজান এবং সহকর্মীদের (2010) দ্বারা ২009 সালের জার্মান সংসদীয় নির্বাচনের একটি অধ্যয়ন সম্পর্কে বলতে চাই। 100,000 টিরও বেশি টুইট বিশ্লেষণের মাধ্যমে, তারা দেখেছে যে সংসদ নির্বাচনে পার্টিটি পেয়েছে এমন ভোটের অনুপাতের সাথে একটি রাজনৈতিক দল উল্লেখ করে টুইটের অনুপাত (চিত্র 2.3)। অন্য কথায়, এটি প্রকাশিত হয়েছে যে টুইটারের তথ্য, যা মূলত ফ্রি ছিল, ঐতিহ্যগত জনমত জরিপকে প্রতিস্থাপন করতে পারে, যা প্রতিনিধিত্বমূলক ডেটার উপর তাদের জোরের কারণে ব্যয়বহুল।
আপনি টুইটারে সম্ভবত ইতিমধ্যে কি জানেন, আপনি অবিলম্বে এই ফলাফল সন্দিহান করা উচিত। ২009 সালে টুইটারে জার্মানরা জার্মান ভোটারগুলির একটি সম্ভাব্য র্যাঙ্কিং নমুনা নয়, এবং কিছু দল সমর্থক অন্য পক্ষের সমর্থকদের তুলনায় আরো অনেক বেশি সময় রাজনীতিতে টুইট করতে পারে। এভাবে, এটা বিস্ময়কর বলে মনে হয় যে আপনি যে কল্পনা করতে পারেন তার সবগুলিই একরকম বাতিল করা হবে যাতে এই তথ্যগুলি জার্মান ভোটারদের সরাসরি প্রতীকী হবে। বস্তুত, Tumasjan et al. (2010) এর ফলাফল Tumasjan et al. (2010) সত্য হতে খুব ভাল হতে প্রত্যাখ্যান। এন্ড্রিয়াস জুনহেরার, প্যাসকেল জুরিগেন এবং হারল্ড শোনে (2012) একটি ফলো-আপ পেপার লিখেছেন যে প্রকৃত বিশ্লেষণটি টুইটারে উল্লিখিত সর্বাধিক উল্লিখিত রাজনৈতিক দলকে বাদ দেয়নি: পাইরেট পার্টি, একটি ছোট পার্টি যা সরকারের নিয়ন্ত্রণের বিরুদ্ধে লড়াই করে ইন্টারনেটের বিশ্লেষণে যখন পাইরেট পার্টি অন্তর্ভুক্ত করা হয়েছিল, তখন টুইটার উল্লেখ করে নির্বাচনী ফলাফলের একটি ভয়ঙ্কর পূর্বসূরি (চিত্র 2.3)। এই উদাহরণটি ব্যাখ্যা করে, নন-নমুনা সাধারণীকরণের জন্য অনাদায়ী বড় তথ্য উৎস ব্যবহার করে খুব ভুল হতে পারে এছাড়াও, আপনি লক্ষ্য করা উচিত যে 100,000 টি টুইট ছিল যে সত্য মূলত অপ্রাসঙ্গিক ছিল: অনিয়মিত তথ্য অনেক এখনও প্রতিনিধিত্বমূলক নয়, একটি থিম যা আমি অধ্যায় 3 এ ফিরে যাব যখন আমি সার্ভে আলোচনা করব।
উপসংহারে, অনেক বড় তথ্য উৎস কিছু সুনির্দিষ্ট সংজ্ঞায়িত জনগোষ্ঠীর প্রতিনিধি নমুনা নয়। যে প্রশ্নগুলির জন্য নমুনা থেকে জনসংখ্যার থেকে সাধারণভাবে ফলাফলটি সাধারণীকরণের প্রয়োজন হয় তা থেকে, এটি একটি গুরুতর সমস্যা। কিন্তু নমুনা তুলনা সংক্রান্ত প্রশ্নগুলির জন্য, অ-প্রতিনিধিত্বমূলক তথ্য শক্তিশালী হতে পারে, যতক্ষণ গবেষকরা তাদের নমুনাগুলির বৈশিষ্ট্যগুলি সম্পর্কে স্পষ্ট এবং তাত্ত্বিক বা অভিজ্ঞতাগত প্রমাণের সাথে পরিবহনযোগ্যতার বিষয়ে সমর্থন দাবি করে। প্রকৃতপক্ষে, আমার আশা হল যে, বড় তথ্য সূত্রগুলি গবেষকদের অনেক অননুমোদিত দলগুলিতে নমুনা তুলনামূলক আরো কিছু করতে সক্ষম হবে, এবং আমার অনুমান হল বিভিন্ন গোষ্ঠী থেকে অনুমান একটি সম্ভাব্য সম্ভাব্য র্যান্ডম থেকে একক অনুমানের তুলনায় সামাজিক গবেষণা অগ্রসর হতে আরও বেশি কিছু করবে নমুনা।