4.6.2 جایگزینی، اصلاح، و کاهش

این ترجمه توسط یک کامپیوتر ساخته شده است. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 جایگزینی، اصلاح، و کاهش

را آزمایش خود را انسانی تر با جایگزین آزمایش با مطالعات غیر تجربی، پالایش درمان، و کاهش تعداد شرکت کنندگان است.

قطعه دوم از مشاوره است که من می خواهم در مورد طراحی آزمایشات دیجیتال ارائه مربوط اخلاق. عنوان آزمایش Restivo و ون د Rijt در barnstars در ویکیپدیا نشان می دهد، کاهش هزینه های معنی است که اخلاق را تبدیل به بخشی به طور فزاینده مهم طرح پژوهشی. اصول اخلاقی توسعه برای هدایت آزمایش های مربوط به حیوانات: علاوه بر چارچوب اخلاقی هدایت تحقیقات افراد بشر است که من در فصل 6 توصیف، محققان طراحی آزمایشات دیجیتال نیز می تواند بر روی ایده های اخلاقی از منبع های مختلف را جلب کند. به طور خاص، در کتاب اصول نقطه عطفی خود را از تکنیک تجربی انسانی، Russell and Burch (1959) جایگزینی، اصلاح، و کاهش: سه اصل است که باید تحقیقات حیوانی راهنمای ارائه شده است. من می خواهم به پیشنهاد که این سه R نیز می تواند مورد استفاده قرار گیرد در یک اندکی تغییر فرم به راهنمای طراحی آزمایش انسان است. به طور خاص،

جایگزین: به جای آزمایش با روش کمتر تهاجمی در صورت امکان
اصلاح: اصلاح درمان آن را به عنوان بی ضرر که ممکن است
کاهش: کاهش تعداد شرکت کنندگان در آزمایش خود را تا آنجا که ممکن

به منظور ایجاد بتن این سه R و نشان دهد که چگونه آنها به طور بالقوه می تواند به طراحی تجربی بهتر و انسانی تر منجر شود، من یک آزمایش مزرعه آنلاین است که بحث های اخلاقی تولید توصیف می کنند. پس از آن من توصیف چگونه سه R نشان می دهد تغییرات بتن و عملی به طراحی آزمایش.

یکی از آزمایش های حوزه های دیجیتال ترین اخلاقی بحث "سرایت عاطفی"، که توسط آدم کرامر، جیمی Gillroy، و جفری هنکاک انجام شد (2014) . این آزمایش بر روی فیس بوک را گرفت و با ترکیبی از سوالات علمی و عملی با انگیزه بود. در آن زمان، راه غالب که کاربران با فیس بوک تعامل اخبار، مجموعه ای الگوریتمی سرپرستی از به روز رسانی وضعیت فیس بوک از دوستان فیس بوک یک کاربر بود. برخی از منتقدان از فیس بوک پیشنهاد کرده بود که به دلیل یک خبر است عمدتا مثبت پست دوستان نمایش جدیدترین آنها حزب آن می تواند باعث شود کاربران به احساس ناراحتکننده است چرا که زندگی خود را به نظر می رسد در مقایسه کمتر هیجان انگیز است. از سوی دیگر، شاید اثر دقیقا برعکس است؛ شاید دیدن دوست شما داشتن یک زمان خوب را به شما احساس شادی؟ به منظور رسیدگی به این رقابت فرضیه و برای پیشبرد درک ما از چگونگی احساسات یک فرد را توسط دوستان او نهفته احساسات کرامر و همکاران فرار یک آزمایش. یک گروه "منفی کاهش می یابد"، برای آنها ارسال با کلمات منفی (به عنوان مثال، غمگین) به طور تصادفی از ظاهر یک خبر مسدود شد.: محققان در مورد 700،000 کاربران را به چهار گروه به مدت یک هفته قرار داده یک "مثبت کاهش می یابد" گروه برای آنها ارسال با کلمات مثبت (به عنوان مثال، شاد) به طور تصادفی مسدود شد. و دو گروه کنترل. در گروه کنترل برای "منفی کاهش می یابد" گروه، پست به صورت تصادفی با همان نرخ به عنوان "منفی کاهش می یابد" گروه اما بدون توجه به محتوای عاطفی مسدود شد. گروه کنترل برای "مثبت کاهش می یابد" گروه در مد موازی ساخته شد. طراحی این آزمایش نشان می دهد که گروه کنترل مناسب است که همیشه یکی بدون هیچ تغییری نمی کند. نه، گاهی اوقات گروه کنترل درمان به منظور ایجاد مقایسه دقیق است که یک سوال پژوهشی نیاز دریافت می کند. در تمام موارد، پست که از یک خبر مسدود شد هنوز هم در دسترس کاربران از طریق بخش های دیگر وب سایت فیس بوک بوده است.

کرامر و همکارانش دریافتند که برای شرکت کنندگان در مثبت بیماری کاهش می یابد، درصد کلمات مثبت در به روز رسانی وضعیت خود را کاهش و درصد کلمات منفی افزایش یافته است. از سوی دیگر، برای شرکت کنندگان در شرایط منفی را کاهش داد، درصد کلمات مثبت افزایش یافته و درصد از کلمات منفی کاهش (شکل 4.23). با این حال، این اثرات بسیار کوچک بودند: تفاوت در کلمات مثبت و منفی بین درمان و کنترل در حدود 1 در 1000 کلمات بود.

شکل 4.23: مدارک و شواهد از سرایت عاطفی (کرامر، Guillory، و هنکاک 2014). درصد از کلمات مثبت و کلمات منفی شرایط آزمایشی. میله ها نشان دهنده برآورد خطاهای استاندارد.

شکل 4.23: مدارک و شواهد از سرایت عاطفی (Kramer, Guillory, and Hancock 2014) . درصد از کلمات مثبت و کلمات منفی شرایط آزمایشی. میله ها نشان دهنده برآورد خطاهای استاندارد.

من بحث در مورد جنبه های علمی از این آزمایش در بخش مطالعه بیشتر در پایان فصل قرار داده ام، اما متاسفانه، این آزمایش برای ایجاد این مباحث اخلاقی شناخته شده است. تنها چند روز پس این مقاله در مجموعه مقالات آکادمی ملی علوم منتشر شد، اعتراض زیادی از محققان و مطبوعات وجود دارد. خشم سراسر مقاله با تمرکز بر دو نقطه اصلی: 1) شرکت کنندگان هیچ رضایت فراتر از فیس بوک نظر از سرویس های استاندارد برای درمان است که برخی فکر می کردند ممکن آسیبی به شرکت کنندگان می شود و 2) مطالعه قرار نگرفته بود شخص ثالث اخلاقی را فراهم نمی کند بررسی (Grimmelmann 2015) . مسائل اخلاقی مطرح شده در این بحث باعث مجله به سرعت انتشار نادر "بیان تحریریه نگرانی" در مورد اخلاق و روند بررسی اخلاقی برای تحقیق (Verma 2014) . در سال های بعد، این آزمایش ادامه داده است به یک منبع بحث شدید و اختلاف نظر، و این اختلاف ممکن است اثر ناخواسته از رانندگی به سایه بسیاری از آزمایشات دیگر که توسط شرکت انجام می دادند (Meyer 2014) .

با توجه به اینکه زمینه ای در مورد سرایت عاطفی، من در حال حاضر می خواهم به نشان می دهد که 3 R می تواند بتن، بهبود عملی برای مطالعات واقعی (هر آنچه که شما شخصا ممکن است در مورد اخلاق از این آزمایش خاص فکر می کنم) نشان می دهد. اولین R است جایگزین: محققان باید به دنبال جایگزین آزمایش با روش کمتر تهاجمی و خطرناک است، در صورت امکان. به عنوان مثال، به جای اجرای یک آزمایش، محققان می تواند یک تجربه طبیعی استفاده قرار گیرد. همانطور که در فصل 2 شرح داده شده، آزمایش های طبیعی شرایطی که در آن چیزی در جهان است که تقریب انتساب تصادفی از درمان اتفاق می افتد (به عنوان مثال، یک قرعه کشی برای تصمیم گیری خواهد شد که به ارتش پیش نویس). استفاده از یک آزمایش طبیعی است که محقق را ندارد به ارائه درمان؛ محیط زیست که برای شما. به عبارت دیگر، با یک آزمایش طبیعی، محققان نه نیاز به دستکاری تجربی اخبار مردم است.

در واقع، تقریبا همزمان با این آزمایش سرایت عاطفی، Coviello et al. (2014) شد بهره برداری از آنچه می تواند یک سرایت آزمایش طبیعی هیجانی نامیده می شود. رویکرد خود را، که با استفاده از تکنیکی به نام متغیرهای ابزاری، است کمی پیچیده اگر شما آن را دیده ام پیش از این هرگز. بنابراین، به منظور توضیح دهد که چرا آن نیاز بود، اجازه ساخت تا به آن. اولین ایده که برخی از پژوهشگران ممکن است مجبور به مطالعه سرایت عاطفی مقایسه می شود پست های خود را بر روی روز که در آن اخبار خود را به پست های خود را در روز بسیار مثبت بود که در آن اخبار خود را بسیار منفی بود. این رویکرد خوب خواهد بود اگر هدف فقط برای پیش بینی محتوای عاطفی پست های خود را، اما این رویکرد مشکل ساز است اگر هدف این است که به مطالعه اثر تصادفی اخبار خود را در پست های خود را. برای دیدن مشکل با این طرح، در نظر شکرگزاری. در ایالات متحده، پست مثبت سنبله و پست منفی بر شکرگزاری نازل شدن. بنابراین، در شکرگزاری، محققان می توانم ببینم که اخبار خود را بسیار مثبت بود و که شما چیزهای مثبت نوشته شده است. اما، پست مثبت خود را می تواند توسط شکرگزاری نه با محتوای اخبار خود را باعث شده است. در عوض، به منظور برآورد علی محققان اثر نیاز به چیزی که محتوای اخبار خود را تغییر طور مستقیم و بدون تغییر احساسات خود را. خوشبختانه، چیزی شبیه به آن اتفاق می افتد در همه زمان ها وجود دارد: آب و هوا.

Coviello و همکارانش دریافتند که یک روز بارانی در شهرستان کسی خواهد، به طور متوسط، کاهش نسبت پست که حدود 1 درصد مثبت و افزایش نسبت پست که حدود 1 درصد منفی است. سپس، Coviello و همکارانش این حقیقت به مطالعه سرایت عاطفی بدون نیاز به دستکاری تجربی اخبار هر کسی استفاده قرار گیرد. در اصل آنچه که آنها انجام اندازه گیری که چگونه پست های خود را توسط آب و هوا در شهرستانها که در آن دوستان خود را زندگی می کنند تحت تاثیر قرار گرفته است. ببینید که چرا این را حس می کند، تصور کنید که شما در شهر نیویورک زندگی می کنند و شما باید یکی از دوستان که در سیاتل زندگی می کند. حالا تصور کنید که یک روز آن شروع می شود باران در سیاتل. این باران در سیاتل نمی خواهد به طور مستقیم خلق و خوی شما تاثیر می گذارد، اما باعث می شود که اخبار خود را به کمتر مثبت و منفی بیشتر به دلیل پست دوست شما. بنابراین، باران در سیاتل به طور تصادفی به دخالت در اخبار خود را. عطف این شهود را به یک روش آماری قابل اعتماد پیچیده است (و رویکرد دقیق استفاده شده توسط Coviello و همکارانش کمی غیر استاندارد است) بنابراین من یک بحث مفصل تر در بخش مطالعه بیشتر قرار داده است. مهم ترین چیز در مورد Coviello به یاد داشته باشید و رویکرد همکار این است که آنها را قادر به مطالعه سرایت عاطفی بدون نیاز به اجرای یک آزمایش است که به طور بالقوه می تواند شرکت کنندگان آسیب برساند، و آن را ممکن است این مورد که در بسیاری از تنظیمات دیگر شما می توانید آزمایش با دیگر جایگزین تکنیک.

دوم در 3 روپیه محدود است: محققان باید به دنبال اصلاح درمان آنها به منظور ایجاد کوچکترین آسیبی ممکن است. به عنوان مثال، به جای مسدود کردن محتوایی که مثبت یا منفی بود، محققان می تواند محتوایی که مثبت یا منفی بود را افزایش داد. این طراحی تقویت می محتوای عاطفی از شرکت کنندگان اخبار تغییر کرده است، اما آن را خطاب به یکی از نگرانی که منتقدان بیان می شود: که آزمایش می تواند باعث شده است شرکت کنندگان به دست اطلاعات مهم در خوراک خبری خود. با طراحی استفاده شده توسط کرامر و همکارانش، یک پیام مهم است که به احتمال زیاد به عنوان یکی این است که نه مسدود شود. با این حال، با یک طراحی تقویت، پیام که آواره می شود خواهد بود کسانی که اهمیت کمتری دارند.

در نهایت، سوم R است کاهش می دهد: محققان باید به دنبال کاهش تعداد شرکت کنندگان در آزمایش خود، در صورت امکان. در گذشته، این کاهش به طور طبیعی اتفاق افتاد چرا که هزینه متغیر آزمایش آنالوگ بالا بود، که تشویق تحقیقات برای بهینه سازی طراحی و تجزیه و تحلیل است. با این حال، زمانی که صفر داده هزینه متغیر وجود دارد، محققان یک محدودیت هزینه به اندازه آزمایش خود مواجه نیست، و این پتانسیل را دارد که منجر به آزمایش بی ارزش بزرگ است.

به عنوان مثال، کرامر و همکاران می تواند اطلاعات قبل از درمان در مورد شرکت کنندگان مانند قبل از درمان های ارسال و ویرایش خود استفاده کرده اند رفتار به تجزیه و تحلیل خود را کارآمد تر. بیشتر به طور خاص، به جای مقایسه نسبت کلمات مثبت در شرایط درمان و کنترل، کرامر و همکارانش می تواند تغییر در نسبت کلمات مثبت بین شرایط در مقایسه با. یک رویکرد اغلب تفاوت در تفاوت ها و است که از نزدیک به طراحی مخلوط که من در این فصل توضیح داده (شکل 4.5) مربوط به نام. است که، برای هر شرکت، محققان توانستند نمره تغییر (رفتار پس از درمان - رفتار قبل از درمان) ایجاد کرده اند و پس از آن نمرات شرکت کنندگان در شرایط درمان و کنترل مقایسه شده است. این رویکرد تفاوت در تفاوت کارآمد تر است از لحاظ آماری، به این معنی که محققان می توانند اعتماد به نفس آماری با استفاده از همان نمونه بسیار کوچکتر دست یابد. به عبارت دیگر، با درمان شرکت کنندگان مانند "ابزارک"، محققان می توانند اغلب برآوردهای دقیق تر دریافت کنید.

بدون داشتن داده های خام آن را دشوار است بدانید که دقیقا چه بسیار کارآمد تر از روش تفاضل در تفاوت دارند در این مورد بوده است. اما، Deng et al. (2013) گزارش داد که در سه آزمایش آنلاین سایت موتور جستجو بینگ آنها قادر به کاهش واریانس تخمین خود را در حدود 50٪ بود، و نتایج مشابهی برای برخی از آزمایش های آنلاین در Netflix بکشد گزارش شده است (Xie and Aurisset 2016) . این 50٪ کاهش واریانس بدان معنی است که محققان سرایت عاطفی ممکن است قادر به قطع نمونه خود را به نصف در صورتی که یک روش تجزیه و تحلیل کمی متفاوت کار برده شده بود. به عبارت دیگر، با یک تغییر کوچک در تجزیه و تحلیل، 350،000 نفر ممکن است شرکت در این آزمایش در امان ماند.

در این مرحله شما ممکن است تعجب که چرا محققان باید توجه کنید 350،000 نفر در سرایت عاطفی بی ارزش بود. دو ویژگی خاص از سرایت عاطفی که نگرانی با اندازه بیش از حد مناسب وجود دارد، و این ویژگی ها توسط بسیاری از آزمایشات مزرعه دیجیتال مشترک: 1) عدم اطمینان در مورد اینکه آیا این آزمایش آسیب رساندن به حداقل برخی از شرکت کنندگان می شود و 2) مشارکت وجود ندارد داوطلبانه است. در آزمایش با این دو ویژگی به نظر می رسد توصیه برای حفظ آزمایش به عنوان کوچک که ممکن است.

در نتیجه، سه R's-جایگزینی، محدود، و کاهش-ارائه اصول است که می تواند به محققان کمک کند ساخت اخلاق را به طرح های تجربی خود را. البته، هر یک از این تغییرات ممکن است به سرایت عاطفی معرفی تجارت آف. به عنوان مثال، شواهد از آزمایش های طبیعی است که همیشه به عنوان پاک شواهد از آزمایش تصادفی و افزایش ممکن است لجستیکی سخت تر برای پیاده سازی از بلوک شده است. بنابراین، هدف از این تغییرات نشان می دهد به دوم حدس بزنید تصمیمات محققان دیگر نیست. در عوض، آن را به نشان دهیم چگونه سه R می تواند در یک وضعیت واقعی استفاده شد.