সামাজিক গবেষণা কার্যকারিতা সম্পর্কে প্রশ্ন প্রায়ই জটিল এবং জটিল হয়। কারণ গাণিতিক গ্রাফ উপর ভিত্তি করে কার্যকারিতা একটি বুনিয়াদি দৃষ্টিভঙ্গি জন্য, Pearl (2009) , এবং সম্ভাব্য ফলাফল উপর ভিত্তি করে একটি ভিত্তিক পদ্ধতির জন্য, Imbens and Rubin (2015) । এই দুটি পন্থাগুলির মধ্যে একটি তুলনা জন্য, Morgan and Winship (2014) । একটি confounder সংজ্ঞা একটি প্রথাগত পদ্ধতির জন্য, দেখুন VanderWeele and Shpitser (2013) ।
এই অধ্যায়ে, আমি পরীক্ষামূলক ও অ-পরীক্ষামূলক ডেটা থেকে কার্যকারিতার অনুমানের জন্য আমাদের ক্ষমতার মধ্যে একটি উজ্জ্বল লাইনের মতো যা তৈরি করেছি। যাইহোক, আমি মনে করি, প্রকৃতপক্ষে, পার্থক্য আরও বেশি ঝাপসা হয়। উদাহরণস্বরূপ, সবাই স্বীকার করে যে ধূমপান ক্যান্সারের কারণ হয়ে দাঁড়িয়েছে, যদিও মানুষকে ধূমপান করতে বাধ্য করে এমন কোন র্যান্ডমাইজড নিয়ন্ত্রিত পরীক্ষাটি কখনও করা হয়নি। অ প্রয়োজনিক তথ্য থেকে কার্যকরী অনুমানের উপর চমৎকার বই-দৈর্ঘ্যের চিকিত্সাগুলির জন্য Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) এবং Dunning (2012) ।
Freedman, Pisani, and Purves (2007) অধ্যায় 1 ও ২ Freedman, Pisani, and Purves (2007) পরীক্ষা, নিয়ন্ত্রিত পরীক্ষা এবং র্যান্ডমেটেড নিয়ন্ত্রিত পরীক্ষার মধ্যে পার্থক্যগুলির স্পষ্ট পরিচিতি প্রদান করে।
Manzi (2012) এলোমেলোভাবে নিয়ন্ত্রিত পরীক্ষার দার্শনিক ও পরিসংখ্যানগত ভিত্তিগুলির একটি চটুল এবং পাঠযোগ্য ভূমিকা প্রদান করে। এটি ব্যবসার পরীক্ষার ক্ষমতা আকর্ষণীয় আকর্ষণীয় বিশ্বের বাস্তব উদাহরণ প্রদান করে। Issenberg (2012) রাজনৈতিক প্রচারাভিযানে পরীক্ষার ব্যবহারের একটি চূড়ান্ত ভূমিকা প্রদান করে।
Box, Hunter, and Hunter (2005) , @ ক্যাসেলা_স্ট্যাটিকালচারী 2008, এবং Athey and Imbens (2016b) পরীক্ষামূলক ডিজাইন এবং বিশ্লেষণের পরিসংখ্যানগত Athey and Imbens (2016b) ভাল পরিচায়ক প্রদান করে। অর্থনীতি (Bardsley et al. 2009) , সমাজবিজ্ঞান (Willer and Walker 2007; Jackson and Cox 2013) , মনোবিজ্ঞান (Aronson et al. 1989) , রাজনৈতিক বিজ্ঞান (Morton and Williams 2010) অনেকগুলি ক্ষেত্রে পরীক্ষার ব্যবহারের চমৎকার চিকিত্সা রয়েছে (Aronson et al. 1989) (Morton and Williams 2010) , এবং সামাজিক নীতি (Glennerster and Takavarasha 2013) ।
অংশগ্রহণকারী নিয়োগের গুরুত্ব (উদাহরণস্বরূপ, নমুনা) প্রায়ই পরীক্ষামূলক গবেষণার মধ্যে প্রশংসা করা হয়। তবে, যদি জনসংখ্যার উপাত্তের বৈষম্যমূলক আচরণ হয়, তবে নমুনা সমালোচনামূলক। Longford (1999) এই বিন্দু স্পষ্ট করে তোলে যখন তিনি গবেষকদের অজ্ঞান স্যাম্পলিং সহ জনসংখ্যার জরিপ হিসাবে গবেষণায় চিন্তা করার জন্য পরামর্শ দেন।
আমি ল্যাব এবং ক্ষেত্রের পরীক্ষার মধ্যে একটি ধারাবাহিকতা আছে প্রস্তাবিত হয়েছে, এবং অন্যান্য গবেষকরা বিশেষ করে ক্ষেত্রের পরীক্ষার বিভিন্ন ফর্ম (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) পৃথক যে আরো বিস্তারিত typologies প্রস্তাবিত।
কয়েকটি কাগজপত্র বিমূর্ত (Falk and Heckman 2009; Cialdini 2009) এবং রাজনৈতিক বিজ্ঞান (Coppock and Green 2015) , অর্থনীতি (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) নির্দিষ্ট পরীক্ষার ফলাফলের পরিপ্রেক্ষিতে (Coppock and Green 2015) (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , এবং মনোবিজ্ঞান (Mitchell 2012) । Jerit, Barabas, and Clifford (2013) ল্যাব এবং ফিল্ডের পরীক্ষার ফলাফলের তুলনা করার জন্য একটি চমৎকার গবেষণা ডিজাইন প্রস্তাব করে। Parigi, Santana, and Cook (2017) কিভাবে অনলাইন ক্ষেত্রের পরীক্ষা ল্যাব এবং ক্ষেত্রের পরীক্ষামূলক বৈশিষ্ট্য কিছু একত্রিত করতে পারেন বর্ণনা।
অংশগ্রহণকারীরা তাদের আচরণ পরিবর্তন সম্পর্কে সচেতন, কারণ তারা জানে যে তারা ঘনিষ্ঠভাবে পর্যবেক্ষণ করছে, কখনও কখনও তাদের চাহিদা প্রভাব বলা হয়, এবং তারা মনোবিজ্ঞান (Orne 1962) এবং অর্থনীতি (Zizzo 2010) পড়াশুনা করেছেন। যদিও বেশিরভাগ ল্যাবের গবেষণার সাথে যুক্ত, এই একই সমস্যা ক্ষেত্রের পরীক্ষার জন্যও সমস্যা সৃষ্টি করতে পারে। প্রকৃতপক্ষে, চাহিদা প্রভাবকে কখনও কখনও হাথর্ন প্রভাব বলা হয়, একটি শব্দ যা 19২4 সালে ওয়েস্টার্ন ইলেকট্রিক কোম্পানীর হাওথর্েন নির্মাণে (Adair 1984; Levitt and List 2011) বিখ্যাত আলোকিততাপূর্ণ পরীক্ষাগুলি গ্রহণ করে। উভয় চাহিদা প্রভাব এবং Hawthorne প্রভাব ঘনিষ্ঠভাবে অধ্যায় 2 আলোচনা প্রতিক্রিয়াশীল পরিমাপ ধারণা সাথে ঘনিষ্ঠভাবে সম্পর্কযুক্ত ( Webb et al. (1966) )।
অর্থনীতিতে (Levitt and List 2009) , রাজনৈতিক বিজ্ঞান (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , মনোবিজ্ঞান (Shadish 2002) এবং পাবলিক পলিসি (Shadish and Cook 2009) । সোশ্যাল সায়েন্সের একটি ক্ষেত্র যেখানে ক্ষেত্রের পরীক্ষা দ্রুত অগ্রসর হয় আন্তর্জাতিক উন্নয়ন। অর্থনীতির মধ্যে যে কাজের একটি ইতিবাচক পর্যালোচনা Banerjee and Duflo (2009) এবং একটি জটিল মূল্যায়নের জন্য Deaton (2010) । রাজনৈতিক বিজ্ঞান এই কাজের একটি পর্যালোচনা জন্য দেখুন Humphreys and Weinstein (2009) । অবশেষে, ক্ষেত্র বিজ্ঞানের পরীক্ষায় উদ্ভূত (Humphreys 2015; Desposato 2016b) রাজনৈতিক বিজ্ঞানের প্রেক্ষাপটে (Humphreys 2015; Desposato 2016b) এবং উন্নয়ন অর্থনীতি (Baele 2013) ।
এই বিভাগে, আমি প্রস্তাবিত যে প্রাক চিকিত্সা তথ্য আনুমানিক চিকিত্সা প্রভাব নির্ভুলতা উন্নত করতে ব্যবহার করা যেতে পারে, কিন্তু এই পদ্ধতি সম্পর্কে কিছু বিতর্ক আছে; Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , এবং Bloniarz et al. (2016) আরও তথ্যের জন্য
অবশেষে, ল্যাব-ক্ষেত্র মাত্রা বরাবর সুদর্শনভাবে ফিট না করে এমন সামাজিক বিজ্ঞানী দ্বারা সঞ্চালিত দুটি অন্যান্য পরীক্ষা আছে: জরিপ পরীক্ষা এবং সামাজিক পরীক্ষাগুলি। সার্ভে পরীক্ষায় বিদ্যমান সার্ভেগুলির অবকাঠামো ব্যবহার করে পরীক্ষা করা হয় এবং একই প্রশ্নগুলির বিকল্প সংস্করণে প্রতিক্রিয়া তুলনা করা হয় (অধ্যায় 3-তে কিছু জরিপের পরীক্ষাগুলি উপস্থাপন করা হয়); জরিপের পরীক্ষার জন্য আরো দেখুন Mutz (2011) । সামাজিক পরীক্ষাগুলি এমন পরীক্ষায় ব্যবহৃত হয় যেখানে চিকিত্সা হল এমন কিছু সামাজিক নীতি যা শুধুমাত্র একটি সরকার দ্বারা বাস্তবায়িত হতে পারে সামাজিক পরীক্ষাগুলি প্রোগ্রাম মূল্যায়নের সাথে ঘনিষ্ঠভাবে সম্পর্কিত। পলিসি পরীক্ষার জন্য আরও দেখুন, Heckman and Smith (1995) , Orr (1998) , এবং @ গ্লেননারস্টার_আরিং ২0133।
আমি তিনটি ধারণার উপর ফোকাস চয়ন করেছেন: বৈধতা, চিকিত্সা প্রভাব বৈচিত্র্য, এবং প্রক্রিয়া। এই ধারণার বিভিন্ন ক্ষেত্রে বিভিন্ন নাম আছে। উদাহরণস্বরূপ, মনোবিজ্ঞানী মধ্যস্থতাকারী এবং নিয়ন্ত্রক (Baron and Kenny 1986) উপর মনোযোগ নিবদ্ধ করে সহজ পরীক্ষার বাইরে সরানো ঝোঁক। মধ্যস্থতাকারীদের ধারণাটি আমি যা বলি তা দ্বারা বন্দী করা হয় এবং নিয়ন্ত্রকদের ধারণাটি আমি বাহ্যিক বৈধতা (যেমন, পরীক্ষার ফলাফলগুলি ভিন্ন অবস্থায় যদি ভিন্ন হয়ে থাকে) এবং চিকিৎসার প্রভাবগুলির বৈপরীত্যতা দ্বারা কল করা হয় ( উদাহরণস্বরূপ, অন্যদের তুলনায় কিছু মানুষের জন্য প্রভাব বড়)।
Schultz et al. (2007) দ্বারা পরীক্ষা Schultz et al. (2007) দেখায় কিভাবে কার্যকর তত্ত্বসমূহ ডিজাইন করতে সামাজিক তত্ত্ব ব্যবহার করা যেতে পারে। কার্যকর হস্তক্ষেপের পরিকল্পনায় তত্ত্বের ভূমিকা সম্পর্কে আরো সাধারণ বিতর্কের জন্য, দেখুন Walton (2014) ।
Campbell (1957) দ্বারা অভ্যন্তরীণ এবং বাহ্যিক বৈধতা ধারণাগুলি প্রথম চালু করা হয়েছিল। আরও বিশদ ইতিহাসের জন্য Shadish, Cook, and Campbell (2001) দেখুন এবং পরিসংখ্যানগত উপসংহার বৈধতা, অভ্যন্তরীণ বৈধতা, বৈধতা তৈরি এবং বহিরাগত বৈধতা সম্পর্কে সতর্কতা অবলম্বন করুন।
পরীক্ষায় পরিসংখ্যানগত উপসংহার বৈধতা সম্পর্কিত বিষয়গুলির একটি সংক্ষিপ্তসার জন্য Gerber and Green (2012) (একটি সামাজিক বিজ্ঞান দৃষ্টিকোণ থেকে) এবং Imbens and Rubin (2015) (একটি পরিসংখ্যানগত দৃষ্টিকোণ থেকে) দেখুন। পরিসংখ্যানগত উপসংহার বৈধতার কিছু বিষয় যা বিশেষ করে অনলাইন ক্ষেত্রের পরীক্ষায় উদ্ভূত হয় যেমন নির্ভরশীল ডেটার সাথে (Bakshy and Eckles 2013) সহ আস্থা বজায় রাখার জন্য গণনীয়ভাবে দক্ষ পদ্ধতিগুলি অন্তর্ভুক্ত রয়েছে।
অভ্যন্তরীণ বৈধতা জটিল ক্ষেত্রের পরীক্ষায় নিশ্চিত করা কঠিন হতে পারে। উদাহরণস্বরূপ দেখুন, Gerber and Green (2000) , Imai (2005) , এবং Gerber and Green (2005) ভোটের বিষয়ে একটি জটিল ক্ষেত্রের পরীক্ষার বাস্তবায়ন সম্পর্কে বিতর্কের জন্য। Kohavi et al. (2012) এবং Kohavi et al. (2013) অনলাইন ক্ষেত্রের পরীক্ষায় অন্তর্বর্তী বৈধতা চ্যালেঞ্জগুলির মধ্যে একটি ভূমিকা প্রদান করে।
অভ্যন্তরীণ বৈধতা একটি প্রধান হুমকি ব্যর্থ র্যান্ডমাইজেশন সম্ভাবনা। র্যান্ডমাইজেশন নিয়ে সমস্যা সনাক্ত করার একটি সম্ভাব্য উপায় হল পর্যবেক্ষণযোগ্য বৈশিষ্ট্যের উপর চিকিত্সা ও নিয়ন্ত্রণ গ্রুপগুলি তুলনা করা। এই ধরনের তুলনা একটি ব্যালেন্স চেক বলা হয়। ভারসাম্য পরীক্ষা Mutz and Pemantle (2015) একটি পরিসংখ্যানগত পদ্ধতির জন্য Hansen and Bowers (2008) দেখুন ব্যালেন্স চেকগুলির উদ্বেগগুলির জন্য। উদাহরণস্বরূপ, একটি ব্যালেন্স চেক ব্যবহার করে, Allcott (2011) কিছু প্রমাণ পাওয়া গেছে যে রক্ষণাবেক্ষণ সঠিকভাবে তিনটি অপর পরীক্ষায় প্রয়োগ করা হয়নি (টেবিল ২; সাইট 2, 6, এবং 8 দেখুন)। অন্য পন্থাগুলির জন্য, Imbens and Rubin (2015) অধ্যায় 21 দেখুন Imbens and Rubin (2015) ।
অভ্যন্তরীণ বৈধতা সম্পর্কিত অন্যান্য প্রধান উদ্বেগ হলো: (1) এক-পক্ষীয় অসম্পূর্ণতা, যেখানে চিকিত্সা গ্রুপের প্রত্যেকেরই প্রকৃতপক্ষে চিকিত্সা গ্রহণ করা হয় না, (2) দুই পক্ষের অনুপলব্ধি, যেখানে চিকিত্সা গ্রুপের সবাই না চিকিত্সা গ্রহণ করে এবং কেউ কেউ নিয়ন্ত্রণ গোষ্ঠী চিকিত্সা গ্রহণ করে, (3) বর্জন, যেখানে কিছু অংশীদারদের জন্য ফলাফল পরিমাপ করা হয় না এবং (4) হস্তক্ষেপ, যেখানে চিকিৎসার অবস্থা নিয়ন্ত্রণে থাকা ব্যক্তিদের থেকে চিকিৎসার লোকেদের উপর নিয়ন্ত্রণ চলে। এই সমস্যাগুলি প্রতিটি জন্য আরো জন্য Gerber and Green (2012) অধ্যায় 5, 6, 7, এবং 8 দেখুন।
কনস্ট্রাক্ট বৈধতা সম্পর্কে আরো জানার জন্য দেখুন Westen and Rosenthal (2003) , এবং বড় তথ্য সূত্র মধ্যে কনস্ট্রাক্ট বৈধতা সম্বন্ধে আরো জন্য Lazer (2015) এবং এই বইয়ের 2 অধ্যায়।
বহিরাগত বৈধতা এক দৃষ্টিকোণ যা একটি হস্তক্ষেপ পরীক্ষা করা হয়। Allcott (2015) সাইট নির্বাচন পক্ষপাতের একটি সতর্কতামূলক তাত্ত্বিক এবং অভিজ্ঞতাগত চিকিত্সা প্রদান করে। এই সমস্যা Deaton (2010) দ্বারা আলোচনা করা হয় Deaton (2010) । বহিরাগত বৈধতা আরেকটি দিক একই হস্তক্ষেপের বিকল্প অপারেশন অনুরূপ প্রভাব আছে কিনা তা হয়। এই ক্ষেত্রে, Schultz et al. (2007) মধ্যে একটি তুলনা Schultz et al. (2007) এবং Allcott (2011) দেখায় যে সার্জারি পরীক্ষায় শুল্জ এবং সহকর্মীদের (5% বনাম 1.7%) আসল পরীক্ষার তুলনায় কম আনুমানিক চিকিত্সা প্রভাব ছিল। Allcott (2011) অনুমান করেছিলেন যে ফলো-আপ পরীক্ষার ক্ষেত্রে ছোটোখাটো প্রভাব ছিল কারণ এই পদ্ধতির মধ্যে পার্থক্য ছিল: একটি Allcott (2011) অংশ হিসাবে একটি মুদ্রিত ইমোটিকনের সাথে তুলনা করে একটি বিশ্ববিদ্যালয়ের দ্বারা পরিচালিত একটি গবেষণায় অংশ নেওয়া একটি হস্তচালিত ইমোটিকন। একটি পাওয়ার কোম্পানি থেকে রিপোর্ট
ক্ষেত্র গবেষণায় চিকিত্সা প্রভাব বৈচিত্র্য একটি চমৎকার সংক্ষিপ্তসার জন্য, দেখুন Gerber and Green (2012) অধ্যায় 12 Gerber and Green (2012) । চিকিৎসা পরীক্ষায় চিকিত্সা প্রভাবের বৈপরীত্যের প্রবর্তনের জন্য, Kent and Hayward (2007) , Longford (1999) , Kravitz, Duan, and Braslow (2004) । চিকিত্সা প্রভাবের বৈপরীত্যতার কথা সাধারণত প্রাক-চিকিত্সা বৈশিষ্ট্যগুলির উপর ভিত্তি করে পার্থক্যগুলির উপর নজর রাখে। যদি আপনি পোস্ট-চিকিত্সা ফলাফলের উপর ভিত্তি করে বৈষম্যমূলক আগ্রহী হন, তবে আরও জটিল পন্থা প্রয়োজন, যেমন প্রধান স্তরবিন্যাস (Frangakis and Rubin 2002) ; Page et al. (2015) দেখুন Page et al. (2015) একটি পর্যালোচনা জন্য।
অনেক গবেষক লিনিয়ার রিগ্রেশন দ্বারা চিকিত্সা প্রভাব বৈচিত্র্য অনুমান, কিন্তু নতুন পদ্ধতি মেশিন লার্নিং উপর নির্ভর করে; উদাহরণস্বরূপ দেখুন, Green and Kern (2012) , Imai and Ratkovic (2013) Taddy et al. (2016) Imai and Ratkovic (2013) , Taddy et al. (2016) , এবং Athey and Imbens (2016a) ।
একাধিক তুলনামূলক সমস্যা এবং "মাছ ধরার" কারণ প্রভাবগুলির বৈপরীত্যতার ফলাফল সম্পর্কে কিছু সন্দেহ আছে। বিভিন্ন পরিসংখ্যান উপাদানের যেগুলি একাধিক তুলনা (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) । "মাছ ধরার" সম্পর্কে উদ্বেগ এক প্রবণতা প্রাক-নিবন্ধন, যা মনোবিজ্ঞান (Nosek and Lakens 2014) , রাজনৈতিক বিজ্ঞান (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , এবং অর্থনীতি (Olken 2015) ।
Costa and Kahn (2013) দ্বারা গবেষণায় পরীক্ষায় প্রায় অর্ধেক পরিবার জনসংখ্যাতাত্ত্বিক তথ্যের সাথে যুক্ত হতে পারে। এই বিবরণে আগ্রহী পাঠকেরা মূল কাগজটি উল্লেখ করতে হবে।
প্রক্রিয়াগুলি অবিশ্বাস্যভাবে গুরুত্বপূর্ণ, কিন্তু তারা অধ্যয়ন খুব কঠিন হতে চালু। মেকানিজমগুলির বিষয়ে গবেষণা মনোবিজ্ঞানের মধ্যস্থতাকারীদের সাথে ঘনিষ্ঠভাবে জড়িত (কিন্তু দুটি ধারণাগুলির মধ্যে একটি সুনির্দিষ্ট তুলনা করার জন্যও VanderWeele (2009) )। Baron and Kenny (1986) পদ্ধতিতে উদ্ভাবিত পদ্ধতির মত পদ্ধতিগুলি খুঁজে বের করার জন্য স্ট্যাটিস্টিকাল পন্থা খুবই সাধারণ। দুর্ভাগ্যবশত, এটি প্রমাণিত হয় যে এই পদ্ধতিগুলির কিছু দৃঢ় ধারণা (Bullock, Green, and Ha 2010) উপর নির্ভর করে এবং যখন একাধিক প্রক্রিয়া থাকে, যেমনটি অনেকগুলি পরিস্থিতিতে আশা করতে পারে (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) । Imai et al. (2011) এবং Imai and Yamamoto (2013) কিছু উন্নত পরিসংখ্যান পদ্ধতির প্রস্তাব দেয়। উপরন্তু, VanderWeele (2015) সংবেদনশীল ফলাফল বিশ্লেষণের একটি ব্যাপক পদ্ধতি সহ একটি গুরুত্বপূর্ণ ফলাফল সঙ্গে একটি বইয়ের দৈর্ঘ্য চিকিত্সা প্রস্তাব।
একটি স্বতন্ত্র পদ্ধতিতে পরীক্ষায় মনোনিবেশ করা হয় যা সরাসরি প্রক্রিয়াটি পরিচালনা করতে সহায়তা করে (যেমন, নাবিকদের ভিটামিন সি দেওয়া)। দুর্ভাগ্যবশত, অনেক সামাজিক বিজ্ঞান সেটিংসতে, প্রায়ই একাধিক পদ্ধতি রয়েছে এবং অন্য কোনও পরিবর্তন না করে এমন একটি চিকিত্সা ডিজাইন করা কঠিন যে যান্ত্রিকভাবে পরিবর্তিত পদ্ধতিগুলি সম্পর্কে কিছু পন্থাগুলি Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) এবং Pirlott and MacKinnon (2016) Ludwig, Kling, and Mullainathan (2011) , এবং Pirlott and MacKinnon (2016) ।
গবেষকরা সম্পূর্ণরূপে গৌণিক পরীক্ষা চালানোর জন্য একাধিক অনুমান পরীক্ষার বিষয়ে উদ্বিগ্ন হতে হবে; আরও তথ্যের জন্য Fink, McConnell, and Vollmer (2014) এবং List, Shaikh, and Xu (2016) দেখুন
অবশেষে, Hedström and Ylikoski (2010) দ্বারা বর্ণিত বিজ্ঞান দর্শনের একটি দীর্ঘ ইতিহাস রয়েছে।
বৈষম্যের পরিমাপের জন্য চিঠিপত্রের পাঠ্যক্রম ও নিরীক্ষা অধ্যয়নের ব্যবহার সম্পর্কে আরও দেখুন, Pager (2007) ।
আপনি তৈরি যে পরীক্ষা থেকে অংশগ্রহণকারীদের নিয়োগের সবচেয়ে সাধারণ উপায় হল আমাজন মেকানিকাল টার্ক (এমটিউইক)। যেহেতু এমটিউইক প্রচলিত ল্যাব পরীক্ষার দিকগুলিকে অনুধাবন করে- সেগুলি সম্পূর্ণ করার জন্য মানুষকে অর্থ প্রদান করার জন্য অর্থ প্রদান করে-অনেক গবেষকরা ইতিমধ্যে তুর্কি (এমটিউইউরের শ্রমিকদের) ব্যবহার করে পরীক্ষামূলক অংশগ্রহণকারী হিসেবে ব্যবহার শুরু করেছেন, যা দ্রুততর এবং সস্তা ডেটা সংগ্রহের মাধ্যমে অর্জন করা সম্ভব ঐতিহ্যগত অন-ক্যাম্পাস পরীক্ষাগার পরীক্ষায় (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) ।
সাধারণত, MTurk থেকে নিযুক্ত অংশগ্রহণকারীদের ব্যবহার সবচেয়ে বড় সুবিধা হল লজিক্যাল। যেখানে ল্যাব পরীক্ষায় চালানোর জন্য কয়েক সপ্তাহ লেগে যেতে পারে এবং ফিল্ডের পরীক্ষাগুলি সেটআপের জন্য মাস লাগতে পারে, এমটিউক থেকে নিয়োগপ্রাপ্ত অংশগ্রহণকারীদের সাথে পরীক্ষাগুলি দিনগুলিতে চালানো যেতে পারে। উদাহরণস্বরূপ, Berinsky, Huber, and Lenz (2012) একটি 8 মিনিটের পরীক্ষা অংশগ্রহণ করতে একটি দিনে 400 বিষয় নিয়োগ করতে সক্ষম ছিল। উপরন্তু, এই অংশগ্রহণকারীদের কার্যত যে কোন উদ্দেশ্যে (সারাংশ এবং গণসংযোগ সহ, অধ্যায় 3 এবং 5 আলোচনা) সহ নিয়োগ করা যেতে পারে। নিয়োগের এই সহজলভ্যতার মানে হল যে গবেষকরা দ্রুত উত্তরাধিকারসূত্রে সংশ্লিষ্ট গবেষণার ক্রম চালাতে পারে।
আপনার নিজের পরীক্ষার জন্য MTKK থেকে অংশগ্রহণকারীদের নিয়োগের আগে, আপনার জানা দরকার এমন চারটি গুরুত্বপূর্ণ বিষয় রয়েছে। প্রথমত, অনেক গবেষকরা তুর্কিদের সাথে জড়িত গবেষণার একটি অপ্রাসঙ্গিক সন্দেহভাজন আছে যেহেতু এই সন্দেহবাদ নির্দিষ্ট নয়, প্রমাণের বিরুদ্ধে প্রতিবাদ করা কঠিন। যাইহোক, তুর্কিদের ব্যবহার করে কয়েক বছর ধরে গবেষণা করার পর, আমরা এখন এই সংশয়বাদ বিশেষভাবে সমর্থনযোগ্য নয় বলে উপসংহার করতে পারি। অন্যান্য জনসংখ্যার সঙ্গে Turkers এর জনসংখ্যাতাত্ত্বিক তুলনা অনেক গবেষণা হয়েছে এবং অন্যান্য জনসংখ্যার যারা Turkers সঙ্গে পরীক্ষার ফলাফল তুলনা অনেক গবেষণা। এই সব কাজ দেওয়া, আমি মনে করি যে আপনার জন্য এটি শ্রেষ্ঠ উপায় মনে হয় Turkers একটি যুক্তিসঙ্গত সুবিধার নমুনা হয়, ছাত্র মত কিন্তু সামান্য বেশি বৈচিত্রময় (Berinsky, Huber, and Lenz 2012) । সুতরাং, যেমন কিছু ছাত্রদের জন্য একটি যুক্তিসঙ্গত জনসংখ্যা, কিন্তু সবই নয়, গবেষণা, তুর্কিরা কিছু জন্য একটি যুক্তিসঙ্গত জনসংখ্যা, কিন্তু সব না, গবেষণা আপনি যদি তুর্কারদের সাথে কাজ করতে যাচ্ছেন, তাহলে এই তুলনামূলক গবেষণাগুলির অনেকগুলি পড়তে এবং তাদের নানানতাগুলি বুঝতে বোঝা যায়।
দ্বিতীয়ত, গবেষকরা এমটিউইকে পরীক্ষার অভ্যন্তরীণ বৈধতা বৃদ্ধি করার জন্য সর্বোত্তম পদ্ধতি গড়ে তুলেছেন এবং আপনাকে এই সর্বোত্তম পদ্ধতিগুলি সম্পর্কে শিখতে হবে (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) । উদাহরণস্বরূপ, Turkers ব্যবহার গবেষকরা screeners ব্যবহার অমনোযোগী অংশগ্রহণকারীদের মুছে ফেলার জন্য করার পরামর্শ দেওয়া হয় (Berinsky, Margolis, and Sances 2014, 2016) (কিন্তু তাও দেখতে DJ Hauser and Schwarz (2015b) এবং DJ Hauser and Schwarz (2015a) )। যদি আপনি অযৌক্তিক অংশগ্রহণকারীদের সরিয়ে না নেন তবে চিকিত্সার কোনও প্রভাব যে শব্দটি প্রবর্তন করে সেটি দ্বারা ধুয়ে ফেলা যায় এবং অভ্যাসগতভাবে অংশগ্রহণকারীর সংখ্যাটি যথেষ্ট হতে পারে। হুবার এবং সহকর্মীদের (2012) পরীক্ষার মধ্যে, প্রায় 30% অংশগ্রহণকারী প্রাথমিক মনোযোগ স্ক্রিনগুলি ব্যর্থ করেছিল। Turkers ব্যবহার করা হয় যখন অন্যান্য সমস্যা যে সাধারণত উত্থাপিত হয় নন অংশগ্রহণকারী (Chandler et al. 2015) (Zhou and Fishbach 2016) ।
তৃতীয়ত, ডিজিটাল পরীক্ষার অন্য কোনও প্রকারের আপেক্ষিকতা, এমটিউইক পরীক্ষায় স্কেল করা যায় না; Stewart et al. (2015) অনুমান যে কোন নির্দিষ্ট সময়ে শুধুমাত্র 7,000 এমটিউইক মানুষ আছে।
অবশেষে, আপনার জানা উচিত যে এমটিউইক একটি নিজস্ব সম্প্রদায় যার নিজস্ব নিয়ম এবং নিয়ম (Mason and Suri 2012) । একই ভাবে যে আপনি এমন একটি দেশের সংস্কৃতি সম্পর্কে জানতে চেষ্টা করবেন যেখানে আপনি আপনার পরীক্ষাগুলি চালাতে যাচ্ছেন, আপনাকে অবশ্যই তুর্কিদের (Salehi et al. 2015) সায়েলি এটল (Salehi et al. 2015) সংস্কৃতি এবং নিয়ম সম্পর্কে আরও জানতে চেষ্টা করতে হবে। এবং যদি আপনি কিছু অনুচিত বা অনৈতিক (Gray et al. 2016) কিছু করেন তাহলে Turkers আপনার পরীক্ষা সম্পর্কে কথা বলতে হবে জানা উচিত।
এমটিউক আপনার পরীক্ষাগুলিতে অংশগ্রহণকারীদের নিয়োগের একটি অবিশ্বাস্যভাবে সুবিধাজনক উপায়, যেমনটি Huber, Hill, and Lenz (2012) মতো ল্যাব-ল্যাব বা Mason and Watts (2009) এর মত আরও ক্ষেত্রের মতো ল্যাব-এর মতো। , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , এবং Mao et al. (2016)
যদি আপনি নিজের নিজের পণ্য তৈরি করার চেষ্টা করার চিন্তা করেন তবে আমি সুপারিশ করব যে আপনি Harper and Konstan (2015) কোনস্টেনের মুভি ল্যান্স গ্রুপের দেওয়া পরামর্শটি পড়ুন Harper and Konstan (2015) । তাদের অভিজ্ঞতা থেকে একটি মূল অন্তর্দৃষ্টি প্রতিটি সফল প্রকল্প জন্য অনেক আছে, অনেক ব্যর্থতা। উদাহরণস্বরূপ, মুভি লেনস গোষ্ঠী অন্যান্য পণ্যগুলি চালু করেছে, যেমন গফার এন্সারস, যা সম্পূর্ণ ব্যর্থতা ছিল (Harper and Konstan 2015) । একটি পণ্য তৈরি করার চেষ্টা করার সময় একটি গবেষক ব্যর্থ অন্য একটি উদাহরণ Arden নামে একটি অনলাইন গেম নির্মাণের জন্য এডওয়ার্ড Castronova এর প্রচেষ্টা। তহবিল থেকে $ 250,000 সত্ত্বেও, প্রকল্পটি একটি ফ্লপ ছিল (Baker 2008) । মুভি লেনস এবং অর্ডেনের মত প্রকল্প দুর্ভাগ্যবশত মুভি লেন্সের মতো প্রকল্পগুলির তুলনায় অনেক বেশি সাধারণ।
আমি পেস্টারের কোডরেন্টের ধারণাটি কারিগরি কোম্পানীতে ঘন ঘন আলোচনায় শুনেছি, এবং এটি গুগল (Spector, Norvig, and Petrov 2012) এ গবেষণা প্রচেষ্টা সংগঠিত করতে সহায়তা করে।
বন্ড ও সহকর্মীদের 'গবেষণায় (2012) তাদের যারা তাদের প্রাপ্ত বন্ধুদের বন্ধুদের উপর এই চিকিত্সাগুলির প্রভাব সনাক্ত করার চেষ্টা করে। কারণ পরীক্ষার নকশা, এই spillovers পরিষ্কারভাবে সনাক্ত করতে কঠিন; আগ্রহী পাঠকদের Bond et al. (2012) দেখতে দেখতে হবে Bond et al. (2012) একটি আরো পুঙ্খানুপুঙ্খ আলোচনা জন্য। জোনস এবং সহকর্মীদের (2017) ২01২ সালের নির্বাচনেও একই রকম পরীক্ষা অনুষ্ঠিত হয়েছিল। এই পরীক্ষা ভোটিং উত্সাহিত প্রচেষ্টা (Green and Gerber 2015) উপর রাজনৈতিক বিজ্ঞানের পরীক্ষার একটি দীর্ঘ ঐতিহ্য অংশ। এই পেতে-আউট-দ্য-ভোটের প্রচলনগুলি সাধারণ কারণ, কারণ তারা পাসষ্টারের কোরাড্রেন্টে রয়েছে। যে, অনেক মানুষ যারা ভোটদান বৃদ্ধি এবং প্রেরণা থেকে অনুপ্রাণিত হয় আচরণ পরিবর্তন এবং সামাজিক প্রভাব সম্পর্কে আরো সাধারণ তত্ত্ব পরীক্ষা একটি আকর্ষণীয় আচরণ হতে পারে।
পার্টির সংগঠন যেমন রাজনৈতিক দল, এনজিও এবং ব্যবসার সাথে ক্ষেত্রের পরীক্ষা চালানোর বিষয়ে পরামর্শের জন্য, Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) , এবং Gueron (2002) । গবেষণা ডিজাইন প্রভাবিত করতে পারে কিভাবে সংগঠনের সাথে অংশীদারিত্বের বিষয়ে চিন্তা করার জন্য দেখুন, King et al. (2007) এবং Green, Calfano, and Aronow (2014) । অংশীদারি এছাড়াও নৈতিক প্রশ্ন হতে পারে, যেমন Humphreys (2015) এবং Nickerson and Hyde (2016) দ্বারা আলোচনা করা হয়েছে।
আপনি যদি আপনার পরীক্ষা চালানোর আগে একটি বিশ্লেষণ পরিকল্পনা তৈরি করা যাচ্ছে, আমি আপনাকে রিপোর্টিং নির্দেশিকা পড়ার দ্বারা শুরু যে সুপারিশ। কনসোর্ট (ট্রায়ালের একত্রীকৃত স্ট্যান্ডার্ড রিপোর্টিং) নির্দেশিকাগুলি ঔষধে (Schulz et al. 2010) এবং সামাজিক গবেষণা (Mayo-Wilson et al. 2013) -এর জন্য সংশোধন করা হয়েছিল। একটি প্রাসঙ্গিক নির্দেশিকা নির্দেশিত হয়েছে পরীক্ষামূলক রাষ্ট্রবিজ্ঞান জার্নাল (Gerber et al. 2014) Mutz and Pemantle (2015) এবং Gerber et al. (2015) ) দেখুন। অবশেষে, মনোবিজ্ঞান (APA Working Group 2008) রিপোর্টিং নির্দেশিকাগুলি তৈরি করা হয়েছে এবং Simmons, Nelson, and Simonsohn (2011) ।
যদি আপনি একটি বিশ্লেষণের পরিকল্পনা তৈরি করেন, তাহলে আপনার পূর্বের নিবন্ধটি বিবেচনা করা উচিত কারণ প্রাক নিবন্ধন আস্থা বৃদ্ধি করবে যে অন্যদের আপনার ফলাফলগুলিতে আছে। অধিকন্তু, যদি আপনি একজন অংশীদারের সাথে কাজ করেন, তাহলে এটি ফলাফল দেখে আপনার বিশ্লেষণটি পরিবর্তন করার ক্ষমতা সীমিত করবে। প্রাক-নিবন্ধন মনোবিজ্ঞান (Nosek and Lakens 2014) , রাজনৈতিক বিজ্ঞান (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) এবং অর্থনীতি (Olken 2015) মধ্যে ক্রমবর্ধমান সাধারণ হয়ে উঠছে।
Konstan and Chen (2007) এবং Chen and Konstan (2015) অনলাইন ফিল্ডের জন্য বিশেষভাবে ডিজাইন পরামর্শ প্রদান করা হয়।
আমি আর্মডা কৌশল বলা হয় যা কখনও কখনও প্রোগ্রামিক গবেষণা বলা হয়; Wilson, Aronson, and Carlsmith (2010) ।
মিউজিকলেব পরীক্ষাগুলির জন্য আরও দেখুন Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) এবং Salganik (2007) । বিজয়ী-গ্রহণ-সমস্ত বাজারের জন্য আরো দেখুন, Frank and Cook (1996) । সাধারণত অপ্রয়োজনীয় দুর্ভাগ্য এবং দক্ষতার উপর আরও দেখুন, Mauboussin (2012) , Watts (2012) , এবং Frank (2016) ।
অংশগ্রহণকারী অর্থ প্রদানের অন্যতম উপায় হচ্ছে গবেষকরা সতর্কতার সাথে ব্যবহার করা উচিত: ভুক্তভোগী অনেক অনলাইন ক্ষেত্রের পরীক্ষায় অংশগ্রহণকারীরা মূলত পরীক্ষায় খসড়া করা হয় এবং ক্ষতিপূরণও পায় না। উইকিপিডিয়া এবং বন্ড এবং সহকর্মী (2012) পরীক্ষায় মানুষকে ভোট দেয়ার জন্য উৎসাহিত করার জন্য এই পদ্ধতির অন্তর্ভুক্ত রেস্টিভো ও ভ্যান ডি রিজট (2012) পরীক্ষায় অন্তর্ভুক্ত। এই পরীক্ষায় প্রকৃতপক্ষে শূন্য ভেরিয়েবলের মূল্য নেই- বরং, তাদের গবেষকদের কাছে শূন্য ভেরিয়েবলের খরচ আছে । এই পরীক্ষায়, এমনকি যদি প্রতিটি অংশগ্রহণকারীর খরচ অত্যন্ত ছোট হয়, তবে সমষ্টিগত মোট ব্যয়টি বেশ বড় হতে পারে। প্রচলিত অনলাইন পরীক্ষাগুলি চালানোর গবেষকরা প্রায়ই ছোট অনুমানের চিকিত্সার প্রভাবের গুরুত্বকে যথাযথভাবে মূল্যায়ন করে বলছেন যে অনেক লোকের জন্য প্রয়োগ করা হলে এই ক্ষুদ্র প্রভাবগুলি গুরুত্বপূর্ণ হতে পারে। সঠিক একই চিন্তাভাবনা অংশগ্রহণকারীরা উপর জরিমানা যে খরচ প্রতি প্রযোজ্য। যদি আপনার পরীক্ষা এক মিলিয়ন মানুষ এক মিনিট নষ্ট করতে ব্যবহার করে, কোন বিশেষ ব্যক্তির জন্য পরীক্ষা খুব ক্ষতিকর নয়, কিন্তু সামগ্রিকভাবে এটি প্রায় দুই বছর সময় নষ্ট হয়েছে।
অংশগ্রহণকারীদের কাছে শূন্য ভেরিয়েবলের খরচ প্রদানের আরেকটি পদ্ধতি হচ্ছে লটারি ব্যবহার করা, এমন একটি পদ্ধতি যা জরিপের গবেষণায়ও ব্যবহৃত হয় (Halpern et al. 2011) । আনন্দদায়ক ব্যবহারকারীর অভিজ্ঞতা ডিজাইনিংয়ের বিষয়ে আরও দেখুন, Toomim et al. (2011) দেখুন Toomim et al. (2011) । বট ব্যবহার করার জন্য শূন্য ভেরিয়েবলের মূল্যের পরীক্ষাগুলি দেখুন ( ??? ) ।
মূলত Russell and Burch (1959) দ্বারা প্রস্তাবিত তিনটি আরএস নিম্নরূপ:
"প্রতিস্থাপন অচৈতন্য উপাদানের সচেতন জীবন্ত উন্নত প্রাণীদের জন্য প্রতিস্থাপন মানে. কমানো একটি নির্দিষ্ট পরিমাণ এবং স্পষ্টতা তথ্য প্রাপ্ত করতে ব্যবহৃত পশুদের সংখ্যা হ্রাস মানে. পরিশোধন প্রকোপ বা ঐ পশুদের এখনও ব্যবহার করা হবে যা প্রয়োগ অমানবিক পদ্ধতি তীব্রতা কোন কমতি মানে. "
আমি প্রস্তাবিত তিনটি R এর অধ্যায়ের 6 অনুযায়ী বর্ণিত নৈতিক নীতিসমূহকে অগ্রাহ্য করি না। বরং, তারা আরও একটি বিশদ বিবৃত সংস্করণ-উপার্জনের এক বিশেষত্ব- বিশেষভাবে মানব পরীক্ষার সেটিংস।
প্রথম R ("প্রতিস্থাপন") অনুসারে, মানসিক সংশ্লেষ পরীক্ষা (Kramer, Guillory, and Hancock 2014) এবং মানসিক সংশ্লেষণের প্রাকৃতিক পরীক্ষা (Lorenzo Coviello et al. 2014) সাথে তুলনা করলে ট্রেড-অফগুলি সম্পর্কে কিছু সাধারণ পাঠ দেওয়া হয় পরীক্ষায় প্রাকৃতিক পরীক্ষায় (এবং অন্যান্য পন্থাগুলি যেমন অ-পরীক্ষামূলক উপাত্তের আনুমানিক পরীক্ষার সাথে মিলছে, তেমনি দেখুন অধ্যায় ২ দেখুন) নৈতিক বেনিফিট ছাড়াও, পরীক্ষামূলক থেকে অ-পরীক্ষামূলক গবেষণায় পরিবর্তন করা গবেষকরা গবেষণায় গবেষণায় গবেষণার সুযোগ করে দিতে পারেন যে তারা logistically স্থাপনে অক্ষম। এই নৈতিক এবং লজিস্টিক বেনিফিট একটি খরচ আসা, তবে। প্রাকৃতিক গবেষণার সাথে গবেষকরা অংশগ্রহনকারীদের নিয়োগ, রেন্ডারাইজেশন এবং চিকিত্সার প্রকৃতির মতো বিষয়গুলোতে কম নিয়ন্ত্রণ করেন। উদাহরণস্বরূপ, একটি চিকিত্সা হিসাবে বৃষ্টিপাতের এক সীমাবদ্ধতা হল যে এটি উভয়ই ইতিবাচকতা বৃদ্ধি করে এবং নেতিবাচকতা হ্রাস করে। পরীক্ষামূলক গবেষণায়, ক্র্যামার এবং সহকর্মীরা স্বতঃস্ফূর্ততা এবং নেতিবাচকতা সমন্বয় করতে সক্ষম ছিলেন। Lorenzo Coviello et al. (2014) দ্বারা ব্যবহৃত বিশেষ পদ্ধতি Lorenzo Coviello et al. (2014) আরও L. Coviello, Fowler, and Franceschetti (2014) দ্বারা elaborated ছিল। Lorenzo Coviello et al. (2014) ভেরিয়েবলগুলির একটি ভূমিকা জন্য, যা Lorenzo Coviello et al. (2014) দ্বারা ব্যবহৃত পদ্ধতি Lorenzo Coviello et al. (2014) , Angrist and Pischke (2009) (কম আনুষ্ঠানিক) বা Angrist, Imbens, and Rubin (1996) (আরও আনুষ্ঠানিক) দেখুন। উপকরণের ভেরিয়েবলগুলির একটি সন্দেহজনক মূল্যায়নের জন্য, Deaton (2010) , এবং দুর্বল যন্ত্রগুলির সাহায্যে ভ্রাম্যমান ভেরিয়েবলের ভূমিকা (বৃষ্টি একটি দুর্বল যন্ত্র), Murray (2006) । আরো সাধারণভাবে, Shadish, Cook, and Campbell (2001) Dunning (2012) দ্বারা প্রাকৃতিক পরীক্ষার একটি ভাল প্রবর্তন দেওয়া হয়, যখন Rosenbaum (2002) , ( ??? ) , এবং Shadish, Cook, and Campbell (2001) পরীক্ষার ব্যতীত কার্যকারিতার প্রভাব অনুমান করার ব্যাপারে ভাল ধারণা প্রদান করেন।
সেকেন্ড R ("সংশোধন") অনুসারে, পোস্টগুলিকে বর্ধিত করার জন্য পোস্টগুলিকে ব্লক করা থেকে অনুভূতিমূলক সংক্রমণের নকশা পরিবর্তন করার সময় এটি বৈজ্ঞানিক এবং লজিস্টিক ট্রেড-অফগুলি আছে। উদাহরণস্বরূপ, এটি হতে পারে যে নিউজ ফিডের প্রযুক্তিগত বাস্তবায়নটি এমন একটি পরীক্ষামূলক কাজ করা সহজতর হয় যা পোস্টগুলি ব্লক করার পরিবর্তে একটিকে পরিবর্তিত করা হয় না (উল্লেখ্য যে পোস্টগুলিকে ব্লক করার সাথে জড়িত একটি পরীক্ষামূলক প্রয়োগ করা যেতে পারে আগত সিস্টেমের পরিবর্তনের প্রয়োজন ছাড়া সংবাদ ফিড সিস্টেমের উপরে একটি স্তর হিসেবে)। বৈজ্ঞানিকভাবে, তবে, পরীক্ষার তত্ত্বটি অন্যরকম একটি নকশাকে স্পষ্টভাবে সুপারিশ করেনি। দুর্ভাগ্যক্রমে, আমি নিউজ ফিড ব্লক করা এবং কন্টেন্ট উত্সাহিত আপেক্ষিক গুণাবলি সম্পর্কে যথেষ্ট পূর্বে গবেষণা সম্পর্কে সচেতন নয়। এছাড়াও, আমি তাদের কম ক্ষতিকর করার জন্য রিফাইনার চিকিত্সা সম্পর্কে অনেক গবেষণা দেখা যায় নি; এক ব্যতিক্রম হলো B. Jones and Feamster (2015) , যা ইন্টারনেট সেন্সরশিপের পরিমাপের ক্ষেত্রে বিবেচনা করে (একটি বিষয় যা আমি এনার্জ স্টাডি (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) সাথে সম্পর্কের অধ্যায়ের 6 টি বিষয়ে আলোচনা করি।
তৃতীয় R ("হ্রাস") অনুসারে, Cohen (1988) (বই) এবং Cohen (1992) (আর্টিকেল) দ্বারা প্রথাগত ক্ষমতা বিশ্লেষণের জন্য ভাল প্রবর্তন দেওয়া হয়, যখন Gelman and Carlin (2014) একটি সামান্য ভিন্ন দৃষ্টিকোণ প্রস্তাব করে। প্রি-চিকিত্সা পদ্ধতিগুলি পরীক্ষার নকশা এবং বিশ্লেষণ পর্যায়ে অন্তর্ভুক্ত করা যেতে পারে; Gerber and Green (2012) এর অধ্যায় 4 Gerber and Green (2012) উভয় পদ্ধতির জন্য একটি ভাল ভূমিকা প্রদান করে এবং Casella (2008) আরও গভীরতর চিকিত্সা প্রদান করে। রৈখিকাইজেশনে এই প্রাক-চিকিত্সা তথ্য ব্যবহার করে এমন কৌশলগুলি সাধারণত অবরুদ্ধ পরীক্ষামূলক ডিজাইন বা স্তরতান্ত্রিক পরীক্ষামূলক ডিজাইন (শব্দভাণ্ডারগুলি সম্প্রদায়ের মধ্যে ক্রমাগতভাবে ব্যবহার করা হয় না) বলা হয়; এই কৌশলগুলি অধ্যায় 3-এ আলোচনা করা স্তরবিন্যাসিত স্যাম্পলিং কৌশলগুলির সঙ্গে ঘনিষ্ঠভাবে সম্পর্কিত। দেখুন Higgins, Sävje, and Sekhon (2016) বিশ্লেষণ পর্যায়ে প্রি-চিকিত্সা করপোরেট অন্তর্ভুক্ত করা যেতে পারে। McKenzie (2012) ফিল্ড-ইন-পার্স পারফরমেন্স পরিদর্শন করে যা ক্ষেত্রের পরীক্ষায় বিশদ বিশ্লেষণে বিশ্লেষণ করে। চিকিত্সা প্রভাব অনুমানের মধ্যে স্পষ্টতা বৃদ্ধি বিভিন্ন পন্থা মধ্যে বাণিজ্য-বন্ধের জন্য আরও Carneiro, Lee, and Wilhelm (2016) দেখুন। অবশেষে, নকশা বা বিশ্লেষণের পর্যায় (বা উভয়) এ প্রাক চিকিত্সা covariates অন্তর্ভুক্ত করার চেষ্টা কিনা তা নির্ধারণ, বিবেচনা করার জন্য কয়েক কারণ আছে। এমন একটি সেটিংতে যেখানে গবেষকরা দেখান যে তারা "মাছ ধরার" (Humphreys, Sierra, and Windt 2013) , ডিজাইনার পর্যায়ে প্রি-চিকিত্সা (Humphreys, Sierra, and Windt 2013) ব্যবহার করে সহায়ক হতে পারে (Higgins, Sävje, and Sekhon 2016) । এমন পরিস্থিতিতে যেখানে অংশগ্রহণকারীরা ক্রমানুসারে আসেন, বিশেষত অনলাইন ফিল্ডের পরীক্ষাগুলি, নকশা পর্যায়ে প্রাক চিকিত্সা সংক্রান্ত তথ্য ব্যবহার করা কঠিন হতে পারে; দেখুন, উদাহরণস্বরূপ, Xie and Aurisset (2016) ।
এটি একটি পার্থক্য মধ্যে-পার্থক্য দৃষ্টিভঙ্গি একটি পার্থক্য-ইন-মানে এক তুলনায় এত বেশি কার্যকর হতে পারে কেন সম্পর্কে একটি স্বতঃস্ফূর্ততা যোগ করার মূল্য। অনেক অনলাইন ফলাফলের খুব উচ্চ বৈচিত্র রয়েছে (উদাহরণস্বরূপ দেখুন, RA Lewis and Rao (2015) এবং Lamb et al. (2015) ) এবং সময়ের সাথে তুলনামূলকভাবে স্থিতিশীল। এই ক্ষেত্রে, পরিবর্তন স্কোর পরিসংখ্যানগত পরীক্ষা ক্ষমতা বৃদ্ধি, যথেষ্ট ছোট বিন্দু থাকবে। এই পদ্ধতিটি প্রায়ই প্রায়ই ব্যবহার করা হয় না যে একটি কারণ ডিজিটাল বয়স আগে, এটি প্রাক চিকিত্সা ফলাফল আছে সাধারণ ছিল না। এই সম্পর্কে চিন্তা করার একটি আরো কংক্রিট উপায় একটি নির্দিষ্ট ব্যায়াম রুটিন ওজন কমানোর কারণ কারণ পরিমাপ একটি পরীক্ষা কল্পনা করা হয়। যদি আপনি একটি পার্থক্য-ইন-উপায়ে পদ্ধতি গ্রহণ করেন, তাহলে আপনার অনুমানের জনসংখ্যার মধ্যে ভারসাম্যতার পরিবর্তন থেকে উদ্ভূত বৈকল্পিকতা থাকবে। যদি আপনি একটি পার্থক্য-পার্থক্য পদ্ধতিতে কাজ করেন, তবে, যে স্বাভাবিকভাবেই ভারসাম্যপূর্ণতার মধ্যে পরিবর্তন ঘটেছে তা সরানো হয় এবং আপনি চিকিত্সা দ্বারা সৃষ্ট পার্থক্য আরও সহজেই সনাক্ত করতে পারেন।
অবশেষে, আমি চতুর্থ R যোগ করা বিবেচনা: "repurpose"। যে, যদি গবেষকরা তাদের মৌলিক গবেষণা প্রশ্নটি তুলনামূলকভাবে আরো পরীক্ষামূলক ডেটার সাথে নিজেদের খুঁজে পায়, তাহলে তারা নতুন প্রশ্নগুলি জিজ্ঞাসা করতে ডেটা পুনর্বিন্যস্ত করতে হবে। উদাহরণস্বরূপ, কল্পনা করুন যে ক্র্যামার এবং সহকর্মীরা একটি পার্থক্য-পার্থক্য অভিক্ষেপ ব্যবহার করেছেন এবং নিজেদের গবেষণা প্রশ্নে তাদের প্রয়োজনের চেয়ে বেশি তথ্য পেয়েছেন। বরং তথ্য সম্পূর্ণরূপে ব্যাবহার করা ছাড়া, তারা প্রাক-চিকিত্সা মানসিক অভিব্যক্তি একটি ফাংশন হিসাবে প্রভাব আকার আকারে হতে পারে। শুধু Schultz et al. (2007) হিসাবে Schultz et al. (2007) পাওয়া গেছে যে চিকিত্সার প্রভাব হালকা এবং ভারী ব্যবহারকারীদের জন্য আলাদা ছিল, সম্ভবত নিউজ ফিডের প্রভাবগুলি তাদের জন্য ভিন্ন ছিল যারা ইতিমধ্যে সুখী (বা দু: খিত) বার্তা পোস্ট করতে প্রয়াস করেছিল। Repurposing "মাছ ধরার" (Humphreys, Sierra, and Windt 2013) এবং "পি হ্যাকিং" (Simmons, Nelson, and Simonsohn 2011) , কিন্তু এই সৎ রিপোর্টিং (Simmons, Nelson, and Simonsohn 2011) , প্রাক নিবন্ধন (Humphreys, Sierra, and Windt 2013) , এবং মেশিন লার্নিং পদ্ধতি যা ওভার-ফিটিং এড়াতে চেষ্টা করে।