, অ গবেষণা সঙ্গে পরীক্ষা প্রতিস্থাপন চিকিত্সা পরিমার্জিত, এবং অংশগ্রহণকারীদের সংখ্যা হ্রাস করে আপনার পরীক্ষা বেশি মানবিক করুন.
ডিজিটাল পরীক্ষা ডিজাইনিং বিষয়ে প্রস্তাব দিতে চাইলে দ্বিতীয় ধাপে উপদেশগুলি নীতিশাস্ত্রের সাথে সম্পর্কিত। উইকিপিডিয়ায় বার্নস্টারের রিস্টিভো ও ভ্যান ডি রিজট পরীক্ষায় দেখানো হয়েছে, মূল্য হ্রাস করা মানেই নীতিগত গবেষণা গবেষণা নকশাগুলির একটি ক্রমবর্ধমান গুরুত্বপূর্ণ অংশ হয়ে যাবে। মানব অধ্যাবসায় গবেষণা করার পাশাপাশি আমি 6 অধ্যায়ে বর্ণিত গবেষণার পাশাপাশি ডিজিটাল পরীক্ষার নকশা প্রণয়নকারী গবেষকরাও একটি ভিন্ন উৎস থেকে নৈতিক ধারণা নিয়ে আসতে পারে: পশুদের সাথে সম্পর্কযুক্ত গবেষণায় পরিচালিত নৈতিক নীতিগুলি। বিশেষত, তাদের ল্যান্ডমার্ক বই নীতিমালা হিউম্যান পরীক্ষামূলক টেকনিকের মধ্যে , Russell and Burch (1959) তিনটি নীতিমালা প্রস্তাব করেছিলেন যা পশু গবেষণা পরিচালনা করবে: প্রতিস্থাপন, পরিমার্জন করা এবং কমাবে আমি প্রস্তাব করতে চাই যে এই তিনটি R এর ব্যবহার করা যেতে পারে- একটি সামান্য পরিবর্তিত রূপে-মানুষের গবেষণার নকশা গাইড। নির্দিষ্টভাবে,
এই তিনটি R এর কংক্রিট তৈরি করতে এবং দেখান যে তারা কীভাবে সম্ভাব্য ভাল এবং আরো মানবিক পরীক্ষামূলক ডিজাইন করতে পারে, আমি একটি অনলাইন ক্ষেত্র পরীক্ষা বর্ণনা করব যা নৈতিক বিতর্ক তৈরি করবে। তারপর, আমি বর্ণনা করবো কিভাবে তিনটি R এর পরীক্ষাটি ডিজাইনের কংক্রিট এবং ব্যবহারিক পরিবর্তনগুলি নির্দেশ করে।
সর্বাধিক নৈতিকভাবে বিতর্কিত ডিজিটাল পরিমাপের পরীক্ষাগুলির মধ্যে একটি আদম ক্রেমার, জ্যামি গিলরয় এবং জেফ্রি হানকক (2014) দ্বারা পরিচালিত হয় এবং এটি "মানসিক সংক্রমণ" নামে পরিচিতি লাভ করে। এই পরীক্ষাটি ফেসবুকে অনুষ্ঠিত হয় এবং বৈজ্ঞানিক এবং বাস্তব প্রশ্ন এ সময় ব্যবহারকারীরা ফেসবুকের সাথে যোগাযোগ করে যে প্রভাবশালী পদ্ধতিটি নিউজ ফিড, ব্যবহারকারীর ফেসবুক বন্ধুদের কাছ থেকে ফেসবুক স্ট্যাটাস আপডেটের একটি এলগরিদমভাবে সংকলিত সেট। ফেসবুকের কিছু সমালোচক প্রস্তাব করেছিলেন যে নিউজ ফিডের বেশিরভাগই ইতিবাচক পোস্ট-বন্ধুরা তাদের সর্বশেষ দলকে দেখিয়েছে-এটি ব্যবহারকারীদের দু: খজনক অনুভূতি সৃষ্টি করতে পারে কারণ তাদের জীবন তুলনামূলক কম দেখায়। অন্য দিকে, হয়তো প্রভাবটি আসলে বিপরীত: হয়তো আপনার বন্ধুকে ভাল সময় দেখে আপনি খুশি হবেন এই প্রতিযোগিতামূলক হাইপোথিসিসের মোকাবেলা করার জন্য এবং আমাদের বন্ধুদের আবেগ দ্বারা একজন ব্যক্তির আবেগ কিভাবে প্রভাবিত হয় তা আমাদের বোঝার অগ্রগতির জন্য- ক্র্যামার এবং সহকর্মীরা একটি পরীক্ষা চালায় তারা প্রায় 700,000 ব্যবহারকারীকে এক সপ্তাহের জন্য চারটি গ্রুপে রাখে: একটি "নেতিবাচকতা হ্রাস" গোষ্ঠী, যার জন্য নেগেটিভ শব্দগুলির সাথে পোস্ট করা (যেমন, "দু: খিত") এলোমেলোভাবে নিউজ ফিডে উপস্থিত থেকে অবরুদ্ধ; একটি "ইতিবাচকতা-হ্রাস" গ্রুপ যার জন্য ধনাত্মক শব্দ (যেমন, "সুখী") সঙ্গে পোস্ট এলোমেলোভাবে অবরুদ্ধ করা হয়েছিল; এবং দুটি নিয়ন্ত্রণ গ্রুপ। "নেগেটিভিটি-হ্রাস" গোষ্ঠীর নিয়ন্ত্রণ গ্রুপে পোস্টগুলি এলোমেলোভাবে "নেতিবাচকতা-হ্রাসকৃত" গোষ্ঠীর মতোই হারে রদবদল করা হতো কিন্তু মানসিক সামগ্রীর সাথে সম্পর্কিত নয়। "ইতিবাচকতা-হ্রাস" গোষ্ঠীর নিয়ন্ত্রণ গ্রুপ সমান্তরালভাবে নির্মিত হয়েছিল। এই গবেষণার নকশা ব্যাখ্যা করে যে সঠিক নিয়ন্ত্রণ গোষ্ঠী সবসময়ই কোন পরিবর্তন না করে এক। পরিবর্তে, কখনও কখনও, নিয়ন্ত্রণ গ্রুপ একটি গবেষণা প্রশ্ন প্রয়োজন যে সুনির্দিষ্ট তুলনা তৈরি করার জন্য একটি চিকিত্সা পায়। সমস্ত ক্ষেত্রে ফেসবুকের অন্যান্য অংশের মাধ্যমে নিউজ ফিড থেকে অবরুদ্ধ পোস্টটি ব্যবহারকারীদের কাছে এখনও পাওয়া যায়।
ক্র্যামার এবং সহকর্মীরা দেখেছেন যে অংশগ্রহণকারীর হ্রাস অবস্থাতে অংশগ্রহণকারীদের জন্য, তাদের অবস্থা আপডেটে ইতিবাচক শব্দগুলির শতাংশ কমে এবং নেতিবাচক শব্দগুলির শতাংশ বৃদ্ধি পেয়েছে। অন্য দিকে, নেতিবাচকতা হ্রাস অবস্থা অংশগ্রহণকারীদের জন্য, ইতিবাচক শব্দ শতাংশ বৃদ্ধি এবং নেতিবাচক শব্দ যে হ্রাস (চিত্র 4.24)। তবে, এই প্রভাবগুলি বেশ ছোট ছিল: 1. 1,000 শব্দে ইতিবাচক ও নেতিবাচক শব্দগুলির মধ্যে পার্থক্য হল 1 হাজার শব্দে 1।
এই পরীক্ষা দ্বারা উত্থাপিত নৈতিক বিষয়গুলির বিষয়ে আলোচনা করার আগে, আমি তিনটি বৈজ্ঞানিক বিষয়গুলি বর্ণনা করতে চাই যা পূর্বের অধ্যায়ের কিছু ধারণা ব্যবহার করে। প্রথমত, এটি তাত্ত্বিক দাবীগুলির সঙ্গে সম্পর্কিত পরীক্ষাটির প্রকৃত বিবরণ কিভাবে প্রকাশ করে তা স্পষ্ট নয়; অন্য কথায়, নির্মাণ বৈধতা সম্পর্কে প্রশ্ন আছে। এটা স্পষ্ট নয় যে ইতিবাচক ও নেতিবাচক শব্দ সংখ্যা আসলে অংশীদারদের মানসিক অবস্থার একটি ভাল সূচক কারণ (1) এটি স্পষ্ট নয় যে, লোকেরা যে পোস্টগুলি করেছেন তা তাদের আবেগগুলির একটি ভাল নির্দেশক এবং (2) এটি না স্পষ্ট যে গবেষকরা ব্যবহৃত বিশেষ অনুভূতি বিশ্লেষণ কৌশল নির্ভরযোগ্যভাবে আবেগ অনুধাবন করতে সক্ষম (Beasley and Mason 2015; Panger 2016) । অন্য কথায়, একটি পক্ষপাতমূলক সংকেত একটি খারাপ পরিমাপ হতে পারে। দ্বিতীয়ত, গবেষণার নকশা এবং বিশ্লেষণটি আমাদেরকে এমন কোন কিছু সম্পর্কে অবগত করে না যার সবচেয়ে বেশি প্রভাব ফেলেছিল (অর্থাৎ, চিকিত্সা প্রভাবের বৈপরীত্যের কোনও বিশ্লেষণ নেই) এবং প্রক্রিয়াটি কী হতে পারে। এই ক্ষেত্রে, গবেষকরা অংশগ্রহণকারীদের সম্পর্কে প্রচুর তথ্য ছিল, কিন্তু বিশ্লেষণে তাদের মূলত উইজেট হিসাবে গণ্য করা হতো। তৃতীয়ত, এই পরীক্ষায় প্রভাবের আকার খুব ছোট ছিল; চিকিত্সা এবং নিয়ন্ত্রণের অবস্থার মধ্যে পার্থক্য 1 হাজার শব্দে প্রায় 1। তাদের পত্রিকায়, ক্র্যামার এবং সহকর্মীরা এই কেসটি করেছেন যে এই আকারের একটি প্রভাব গুরুত্বপূর্ণ কারণ শত কোটি মানুষ প্রতিদিন তাদের নিউজ ফিড অ্যাক্সেস করে। অন্য কথায়, তারা যুক্তি দেয় যে এমনকি প্রতিটি ব্যক্তির জন্য প্রভাব ছোট হলেও, তারা সমান সংখ্যক বড়। এমনকি যদি আপনি এই আর্গুমেন্টটি গ্রহণ করেন তবে এটি এখনও স্পষ্ট নয় যে এই আকারের প্রভাবটি আবেগ বিস্তার (Prentice and Miller 1992) সম্পর্কে আরো সাধারণ বৈজ্ঞানিক প্রশ্ন সম্পর্কিত গুরুত্বপূর্ণ।
এই বৈজ্ঞানিক প্রশ্নের পাশাপাশি, এই কাগজটি প্রকাশিত হওয়ার কয়েক দিন পর জাতীয় বিজ্ঞান একাডেমির প্রসিডিংস-এ প্রকাশিত হয়, গবেষকরা এবং প্রেস উভয় থেকে একটি বিরাট ক্ষোভ ছিল (আমি অধ্যায় 6 এ আরো বিস্তারিতভাবে এই বিতর্কের আর্গুমেন্টগুলি বর্ণনা করবো )। এই বিতর্কের মধ্যে উত্থাপিত বিষয়গুলি গবেষণার জন্য নৈতিকতা এবং নৈতিক পর্যালোচনা প্রক্রিয়ার বিষয়ে জরুরী একটি উদ্বেগের "উদ্বেগ প্রকাশের সম্পাদকীয় প্রকাশ" প্রকাশ করে (Verma 2014) ।
অনুভূতিমূলক সংক্রামন সম্পর্কে যে ব্যাকগ্রাউন্ড দেওয়া হয়েছে তা আমি এখন দেখাবো যে, তিনটি R এর বাস্তব গবেষণার জন্য কংক্রিট, ব্যবহারিক উন্নতিগুলি (যাই হোক না কেন আপনি ব্যক্তিগতভাবে এই বিশেষ পরীক্ষার নীতি সম্পর্কে ভাবতে পারেন) পরামর্শ দিতে পারেন। প্রথম আর প্রতিস্থাপিত হয় : যদি সম্ভব হয় তবে গবেষকরা কম আক্রমণাত্মক এবং ঝুঁকিপূর্ণ কৌশলগুলির সাথে পরীক্ষাগুলি প্রতিস্থাপন করতে চাইতে হবে। উদাহরণস্বরূপ, একটি এলোমেলোভাবে নিয়ন্ত্রিত পরীক্ষা চালানোর পরিবর্তে, গবেষকরা একটি প্রাকৃতিক পরীক্ষা শোষণ করতে পারে দ্বিতীয় অধ্যায়ে বর্ণিত হিসাবে, প্রাকৃতিক পরিশ্রমগুলি এমন পরিস্থিতিতে যেখানে কিছু কিছু ঘটতে পারে যা চিকিত্সাগুলির র্যান্ডম নিয়োগের আনুমানিক হয় (উদাহরণস্বরূপ, যারা সেনাবাহিনীতে খসড়া তৈরি করবে সিদ্ধান্ত নেওয়ার জন্য একটি লটারি)। একটি প্রাকৃতিক পরীক্ষার নৈতিক সুবিধা হল গবেষককে চিকিৎসা প্রদান করতে হবে না: পরিবেশ আপনার জন্য তা করে। উদাহরণস্বরূপ, প্রায় সমকক্ষভাবে অনুভূতির সংক্রমণ পরীক্ষা, Lorenzo Coviello et al. (2014) একটি উদ্দীপনামূলক সংক্রমণ প্রাকৃতিক পরীক্ষা বলা যেতে পারে শোষণ ছিল। Coviello এবং সহকর্মীরা আবিষ্কৃত যে দিনগুলি যেখানে বৃষ্টি হয় সেখানে আরও নেতিবাচক শব্দ এবং কম ইতিবাচক শব্দ পোস্ট। অতএব, আবহাওয়ার মধ্যে র্যান্ডম বৈচিত্র ব্যবহার করে, তারা সব সময়ে হস্তক্ষেপ করার প্রয়োজন ছাড়া নিউজ ফিডের পরিবর্তনের প্রভাব অধ্যয়ন করতে সক্ষম। এটা তাদের জন্য তাদের পরীক্ষা চলছে যেমন ছিল আবহাওয়া। তাদের পদ্ধতি বিশদ একটি বিট জটিল, কিন্তু আমাদের উদ্দেশ্য জন্য সবচেয়ে গুরুত্বপূর্ণ পয়েন্ট এখানে একটি প্রাকৃতিক পরীক্ষা ব্যবহার করে, Coviello এবং সহকর্মী তাদের নিজস্ব পরীক্ষা চালানোর প্রয়োজন ছাড়া আবেগ বিস্তার সম্পর্কে জানতে পারবেন।
তিন হাজারের মধ্যে দ্বিতীয়টি পরিশোধিত হয় : গবেষকরা তাদের চিকিত্সাগুলি সংশোধন করতে যতটা সম্ভব নিখুঁত করে তুলতে চেয়েছিলেন। উদাহরণস্বরূপ, যে সামগ্রীগুলি ইতিবাচক বা নেতিবাচক ছিল তা অবরুদ্ধ করার পরিবর্তে, গবেষকরা ইতিবাচক বা নেতিবাচক সামগ্রীগুলি তুলে ধরতে পারতেন। এই বুস্টিং ডিজাইনার অংশগ্রহণকারীদের সংবাদ ফিডের মানসিক সামগ্রী পরিবর্তন করেছেন, কিন্তু সমালোচকরা প্রকাশ করে এমন একটি উদ্বেগের বিষয়টিকে সম্বোধন করতেন: এই পরীক্ষাগুলি অংশগ্রহণকারীদের তাদের নিউজ ফিডের গুরুত্বপূর্ণ তথ্য মিস করতে পারে। ক্র্যামার এবং সহকর্মীদের দ্বারা ব্যবহৃত ডিজাইনের সাথে, এমন একটি বার্তা যা গুরুত্বপূর্ণ নয় যেমনটি নয় এমনটি অবরুদ্ধ করা হতে পারে। তবে, একটি বুস্টিং ডিজাইনের সাথে, যে বার্তাগুলি বিচ্ছিন্ন করা হবে সেগুলি কম গুরুত্বপূর্ণ হবে।
অবশেষে, তৃতীয় আর কম হয় : গবেষকরা তাদের বৈজ্ঞানিক উদ্দেশ্য অর্জনের জন্য সর্বনিম্ন প্রয়োজন তাদের অংশগ্রহণকারীদের অংশগ্রহণকারীদের সংখ্যা কমাতে চাইতে হবে। এনালগ পরীক্ষায়, অংশগ্রহণকারীদের উচ্চ পরিবর্তনশীল খরচের কারণে এটি স্বাভাবিকভাবেই ঘটেছে। কিন্তু ডিজিটাল পরীক্ষায়, বিশেষ করে শূন্য ভেরিয়েবলের দামের সাথে, গবেষকরা তাদের পরীক্ষা আকারে একটি খরচ সীমাবদ্ধতার সম্মুখীন হয় না, এবং এর ফলে অপ্রয়োজনীয়ভাবে বড় পরীক্ষাগুলি হতে পারে।
উদাহরণস্বরূপ, ক্রেমার এবং সহকর্মীরা তাদের অংশগ্রহণকারীদের সম্পর্কে প্রাক-চিকিত্সা তথ্য ব্যবহার করতে পারত-যেমন প্রাক-চিকিত্সা পোস্টিং আচরণ- তাদের বিশ্লেষণকে আরো দক্ষ করতে আরো বিশেষভাবে, চিকিত্সা এবং নিয়ন্ত্রণ অবস্থার মধ্যে ইতিবাচক শব্দ অনুপাত তুলনা করার পরিবর্তে, ক্র্যাডার এবং সহকর্মীরা শর্ত মধ্যে ইতিবাচক শব্দ অনুপাত পরিবর্তন তুলনায় হতে পারে; একটি পদ্ধতি যা কখনও কখনও একটি মিশ্র নকশা (চিত্র 4.5) বলা হয় এবং কখনও কখনও একটি পার্থক্য-পার্থক্য অনুমানকারী বলা হয়। যে, প্রত্যেক অংশগ্রহণকারীর জন্য, গবেষকরা একটি পরিবর্তন স্কোর (পোস্ট চিকিত্সা আচরণ \(-\) প্রাক চিকিত্সা আচরণ তৈরি করতে পারে) এবং তারপর চিকিত্সা এবং নিয়ন্ত্রণ অবস্থার অংশগ্রহণকারীদের স্কোর স্কোর তুলনা। এই পার্থক্য-মধ্যে পার্থক্য পদ্ধতির আরো পরিপূরক পরিসংখ্যানগত, যার মানে যে গবেষকরা একই পরিসংখ্যানগত আস্থা অর্জন করতে পারেন অনেক ছোট নমুনা ব্যবহার করে।
কাঁচা তথ্য ছাড়াও, এটি জানা কতটা কার্যকরী হবে, এই ক্ষেত্রে একটি পার্থক্য-পার্থক্য অনুমানকারী কতটুকু পারদর্শী হবে? কিন্তু আমরা একটি রুক্ষ ধারণা জন্য অন্যান্য সম্পর্কিত পরীক্ষা করতে পারেন। Deng et al. (2013) রিপোর্ট করেছেন যে পার্থক্য-পার্থক্য অনুমানকারীর একটি ফর্ম ব্যবহার করে, তারা তিনটি ভিন্ন অনলাইন পরীক্ষায় প্রায় 50% দ্বারা তাদের অনুমানের পার্থক্য কমাতে সক্ষম হয়েছে; অনুরূপ ফলাফল Xie and Aurisset (2016) দ্বারা রিপোর্ট করা হয়েছে। এই 50% পার্থক্য হ্রাস মানে যদি তারা একটি সামান্য ভিন্ন বিশ্লেষণ পদ্ধতি ব্যবহার করে অনুভূতিমূলক সংক্রমণ গবেষকরা অর্ধেক তাদের নমুনা কাটা করতে সক্ষম হতে পারে। অন্য কথায়, বিশ্লেষণের মধ্যে একটি ক্ষুদ্র পরিবর্তন সঙ্গে, 350,000 মানুষ গবেষণায় অংশগ্রহন বঞ্চিত হতে পারে।
এই মুহুর্তে, আপনি ভাবছেন যে কেন গবেষকেরা যত্ন নেবেন যদি 350,000 জন মানুষ অস্বস্তিকর সংক্রমনের মধ্যে অপ্রয়োজনীয় হয়। অনুভূতিমূলক সংক্রামনের দুটি বিশেষ বৈশিষ্ট্য যা অত্যধিক আকারের উপযুক্ততা নিয়ে উদ্বেগ তৈরি করে এবং এই বৈশিষ্ট্যগুলি অনেক ডিজিটাল ক্ষেত্রের পরীক্ষার দ্বারা ভাগ করা হয়: (1) এই পরীক্ষাটি অন্তত কিছু অংশীদারদের ক্ষতি করে এবং (2) অংশীদারিত্বের ক্ষতির কারণ সম্পর্কে অনিশ্চয়তা আছে স্বেচ্ছাসেবী ছিল না। এটি সম্ভাব্য হিসাবে ছোট হিসাবে এই বৈশিষ্ট্য আছে যে পরীক্ষা রাখা চেষ্টা যুক্তিসঙ্গত বলে মনে হয়।
স্পষ্ট হতে, আপনার পরীক্ষা আকারের কমাতে আকাঙ্ক্ষা বোঝা যায় না যে আপনার বড়, শূন্য ভেরিয়েবলের মূল্য পরীক্ষা করা উচিত নয়। এটি আপনার অর্থ আপনার বৈজ্ঞানিক উদ্দেশ্য অর্জন করার চেয়ে আপনার চেয়ে বড় কোনো হতে হবে না মানে একটি পরীক্ষা সঠিকভাবে আকারের হয় তা নিশ্চিত করার একটি গুরুত্বপূর্ণ উপায় একটি শক্তি বিশ্লেষণ পরিচালনা করা হয় (Cohen 1988) । এনালগ যুগে, গবেষকরা সাধারণত তাদের গবেষণা খুব ছোট ছিল না তা নিশ্চিত করতে ক্ষমতা বিশ্লেষণ করেনি (IE, অধীন-চালিত)। এখন, তবে, গবেষকরা তাদের গবেষণা খুব বড় (অর্থাৎ, অধিক চালিত) না নিশ্চিত করতে ক্ষমতা বিশ্লেষণ করতে হবে।
উপসংহারে, তিনটি R- প্রতিস্থাপন, পরিমার্জন করা এবং নীতিমালা কমাতে সহায়তা করে যা গবেষকরা তাদের পরীক্ষামূলক নকশায় নীতিগতভাবে গড়ে তুলতে সহায়তা করতে পারে। অবশ্যই, মানসিক সংঘাতের এই সম্ভাব্য প্রতিটি পরিবর্তন ট্রেড-অফগুলি প্রবর্তন করে। উদাহরণস্বরূপ, প্রাকৃতিক পরীক্ষার প্রমাণগুলি র্যান্ডমাইজড পরীক্ষায় যেহেতু সবসময় পরিষ্কার নয়, এবং সামগ্রীর উত্সাহব্যবস্থা সামগ্রী ব্লক করার চেয়ে প্রয়োগ করা কঠিন হতে পারে। সুতরাং, এই পরিবর্তনগুলি সুপারিশ করার উদ্দেশ্য অন্য গবেষকদের সিদ্ধান্তগুলি দ্বিতীয় অনুমান করা উচিত নয়। এর পরিবর্তে, এটি ব্যাখ্যা করতে হবে যে তিনটি R এর একটি বাস্তব অবস্থানে প্রয়োগ করা যেতে পারে। প্রকৃতপক্ষে, গবেষণা-নকশাগুলিতে সব সময়ই ট্রেড-অফগুলি আসে, এবং ডিজিটাল যুগে, এই বাণিজ্য-বন্ধগুলি নৈতিক বিবেচনার সাথে জড়িত হবে। পরে, 6 অধ্যায়ে, আমি কিছু নীতি এবং নৈতিক কাঠামো প্রদান করব যা গবেষকরা বুঝতে পারবেন এবং এই বাণিজ্য-বন্ধগুলি নিয়ে আলোচনা করতে পারেন।