های کلیدی:
[ ، ] Berinsky و همکارانش (2012) ارزیابی مکانیک ترک در بخشی از تکرار سه آزمایش کلاسیک. تکرار آزمایش فریم بیماری آسیایی کلاسیک توسط Tversky and Kahneman (1981) . آیا نتایج خود را بازی تورسکی و کانمان؟ آیا نتایج خود را بازی Berinsky و همکارانش؟ چه اگر هر چیزی، این به ما در مورد استفاده از مکانیک ترک برای آزمایش بررسی یاد می دهد؟
[ ، ] در مقاله تا حدودی زبان در گونه با عنوان "ما به شکستن،" روانشناس اجتماعی رابرت Cialdini، یکی از نویسندگان Schultz et al. (2007) ، نوشت که او بازنشسته شده بود زود از کار خود را به عنوان استاد، در بخشی به دلیل چالش های او مواجه انجام آزمایش های زمین در نظم و انضباط (روانشناسی) که به طور عمده انجام آزمایش آزمایشگاه (Cialdini 2009) . خواندن مقاله Cialdini، و او ارسال یک ایمیل به خواسته او را به تجدید نظر خود را شکستن تا با توجه به فرصت از آزمایش های دیجیتال است. استفاده از نمونه های خاصی از تحقیقاتی که پرداختن به نگرانی های خود.
[ ] به منظور تعیین اینکه آیا موفقیت های اولیه کوچک قفل در و یا محو، ون د Rijt و و همکاران (2014) مداخله به چهار سیستم های مختلف اهدای موفقیت در شرکت کنندگان به طور تصادفی انتخاب، و پس از آن در دراز مدت اثرات این موفقیت دلخواه اندازه گیری شد. می تواند شما را از سیستم های دیگر فکر می کنم که در آن شما می توانید آزمایش های مشابه را اجرا کنید؟ ارزیابی این سیستم ها از نظر مسائل مربوط به ارزش علمی، مخدوش الگوریتمی، و اخلاق (فصل 2).
[ ، ] نتایج یک آزمایش می توانید بر روی شرکت کنندگان بستگی دارد. درست یک آزمایش و سپس آن را اجرا بر روی آمازون مکانیک ترک (MTurk) با استفاده از دو استراتژی های استخدام متفاوت است. سعی کنید به انتخاب آزمایش و استخدام استراتژی به طوری که نتایج را به عنوان های مختلف که ممکن است. به عنوان مثال، استراتژی های استخدام خود را می تواند به استخدام شرکت کنندگان در صبح و شب و یا برای جبران شرکت کنندگان با پرداخت بالا و پایین. این نوع از تفاوت در استراتژی استخدام می تواند به استخر های مختلف از شرکت کنندگان و نتایج تجربی مختلف منجر شود. چگونه متفاوت نتایج خود را به نوبه خود بیرون؟ چه که نشان می دهد در مورد در حال اجرا آزمایش بر روی MTurk؟
[ ، ، ، ] تصور کنید که شما در حال برنامه ریزی مطالعه سرایت عاطفی (Kramer, Guillory, and Hancock 2014) . استفاده از نتایج حاصل از یک مطالعه مشاهده قبل از آن توسط Kramer (2012) برای تصمیم گیری تعداد شرکت کنندگان در هر یک از شرایط. این دو مطالعه با هم مطابقت ندارند کاملا بنابراین مطمئن شوید که به صراحت تمام مفروضات است که شما را لیست می شود:
[ ، ، ، ] پاسخ به این سوال بالا، اما به جای استفاده از مطالعه قبلی را که توسط Kramer (2012) با استفاده از نتایج حاصل از یک آزمایش طبیعی قبل از آن توسط Coviello et al. (2014) .
[ ] هر دو Rijt et al. (2014) و Margetts et al. (2011) هر دو آزمایش که مطالعه روند از مردم امضای طومار را انجام دهد. مقایسه و کنتراست طراحی و یافته های این پژوهش.
[ ] Dwyer, Maki, and Rothman (2015) دو آزمایش درست بر رابطه بین هنجارهای اجتماعی و رفتار proenvironmental انجام شده است. در اینجا خلاصه ای از مقاله خود است:
"چگونه ممکن است علم روانشناسی استفاده می شود برای تشویق رفتار proenvironmental؟ در دو مطالعه، مداخله با هدف ترویج رفتار حفاظت از انرژی در حمام عمومی تأثیر هنجارهای توصیفی و مسئولیت شخصی مورد بررسی قرار. در مطالعه 1، وضعیت نور (به عنوان مثال، روشن یا خاموش) قبل از اینکه کسی وارد حمام عمومی خالی، سیگنال را از هنجار توصیفی برای آن تنظیم دستکاری شد. شرکت کنندگان به طور قابل توجهی بیشتر احتمال دارد به نوبه خود چراغ خاموش اگر آنها را زمانی که آنها وارد شد. در مطالعه 2، شرط اضافه شد که در آن هنجار خاموش کردن نور توسط کنفدراسیون نشان داده شد، اما شرکت کنندگان خودشان نمی مسئول تبدیل آن در. مسئولیت شخصی تعدیل تاثیر هنجارهای اجتماعی بر رفتار؛ زمانی که شرکت کنندگان مسئول روشن کردن نور نبود، تاثیر هنجار کاهش یافته بود. این نتایج نشان می دهد چگونه هنجارها و مسئولیت شخصی توصیفی ممکن است اثر بخشی مداخلات proenvironmental را تنظیم کند. "
خوانده شده مقاله خود و طراحی یک تکرار از مطالعه 1.
[ ، ] ساختمان های سوال قبلی، در حال حاضر انجام طراحی کنید.
[ ] بحث قابل توجهی در مورد آزمایش با استفاده از شرکت کنندگان استخدام از آمازون مکانیک ترک شده است. به موازات، وجود دارد همچنین بحث قابل توجهی در مورد آزمایش با استفاده از شرکت کنندگان استخدام از جمعیت دانشجویی در مقطع کارشناسی بوده است. ارسال یک یادداشت دو صفحه مقایسه نمودن Turkers و دانشجویان به عنوان محققان شرکت کنندگان است. مقایسه شما باید بحث از مسائل علمی و تدارکات را تحت پوشش عبارتند از.
[ کتاب] جیم MANZI را کنترل نشده (2012) مقدمه فوق العاده به قدرت تجربه در کسب و کار است. او در این کتاب رله این داستان:
"من یک بار در یک جلسه با یک نابغه کسب و کار واقعی، یک میلیاردر خود ساخته که عمیق، درک بصری از قدرت آزمایش بود. شرکت خود را صرف منابع قابل توجه تلاش برای ایجاد بزرگ به فروشگاه نمایش پنجره که مصرف کنندگان و افزایش فروش جذب، به عنوان عقل متعارف گفت آنها باید. کارشناسان با دقت طراحی پس از طراحی تست شده، و در فرد جلسات بررسی آزمون بیش از یک دوره از سال نگه داشته نشان دادن هیچ اثر علی قابل توجهی از هر یک از طرح ها جدید در فروش. بازاریابی و تجارت ارشد مدیران با مدیر عامل شرکت برای بررسی این نتایج تست های تاریخی در هم رفته است. پس از ارائه همه از داده های تجربی، آنها نتیجه گرفتند که عقل متعارف بود اشتباه که پنجره نمایش انجام فروش درایو نیست. عمل توصیه می شود خود را به منظور کاهش هزینه و تلاش در این منطقه بود. این به طور چشمگیری توانایی آزمایش برای سرنگونی عقل متعارف نشان داده است. پاسخ مدیر عامل ساده بود: «نتیجه گیری من این است که طراحان خود را بسیار خوب است. راه حل او برای افزایش تلاش در طراحی فروشگاه نمایش، و برای به دست آوردن افراد جدید به آن انجام دهد. " (Manzi 2012, 158–9)
کدام نوع از اعتبار نگرانی از مدیر عامل شرکت است؟
[ ] ساختمان های سوال قبلی، تصور کنید که شما در جلسه که در آن نتایج حاصل از آزمایش های مورد بحث قرار گرفت. چهار سوال که شما می توانید بپرسید، یکی برای هر نوع اعتبار (آماری، ساخت، داخلی، و خارجی) چه هستند؟
[ ] Bernedo, Ferraro, and Price (2014) به بررسی اثر هفت سال از مداخله صرفه جویی در آب شرح داده شده در Ferraro, Miranda, and Price (2011) (شکل 4.10). در این مقاله، Bernedo و همکارانش همچنین به دنبال درک مکانیسم اثر با مقایسه رفتار خانواده هایی که دارند و نمی رفت پس از درمان تحویل داده شد. این است که، تقریبا، آنها سعی برای دیدن اینکه آیا درمان نهفته خانه و یا صاحب خانه.
[ ] در پیگیری به Schultz et al. (2007) ، شولتز و همکارانش انجام یک سری از سه آزمایش در اثر هنجارهای توصیفی و تاکیدی بر روی رفتار های مختلف زیست محیطی (استفاده مجدد از حوله) در دو زمینه (یک هتل و یک مجتمع مسکونی با تقسیم زمانی) (Schultz, Khazian, and Zaleski 2008) .
[ ] در پاسخ به Schultz et al. (2007) ، Canfield, Bruin, and Wong-Parodi (2016) فرار یک سری از آزمایش آزمایشگاه مانند به مطالعه طراحی قبض های برق. در اینجا چگونه آنها آن را در انتزاعی توصیف:
"در یک آزمایش مبتنی بر نظرسنجی، هر شرکت کننده برای یک خانواده با استفاده از برق نسبتا بالا دیدم که قبض برق فرضی، پوشش اطلاعات در مورد (الف) با استفاده تاریخی، (ب) مقایسه به همسایگان، و (ج) استفاده تاریخی با شکست دستگاه. شرکت کنندگان شاهد تمام انواع اطلاعات در یکی از سه فرمت های از جمله (الف) جداول، (ب) نمودار نوار، و (ج) نمودار آیکون. ما بر سه یافته را گزارش کنید. اول، مصرف کنندگان درک هر نوع از اطلاعات برق استفاده ترین زمانی که آن را در یک جدول ارائه شد، شاید به این دلیل جداول تسهیل خواندن نقطه ساده است. دوم، ترجیحات و نیات به صرفه جویی در برق قوی برای کسب اطلاعات استفاده تاریخی بودند، مستقل از فرمت. سوم، افراد با سواد انرژی پایین تر تمام اطلاعات در کمتر درک شده است. "
بر خلاف دیگر مطالعات پیگیری، نتیجه اصلی مورد علاقه در Canfield, Bruin, and Wong-Parodi (2016) رفتار رفتار واقعی گزارش شده است نیست. نقاط قوت و ضعف این نوع از مطالعه در یک برنامه تحقیقاتی گسترده تر ترویج صرفه جویی در انرژی ها چه هستند؟
[ ، ] Smith and Pell (2003) یک متاآنالیز از مطالعات طنز نشان دادن اثربخشی چتر نجات است. آنها نتیجه:
"همانطور که با بسیاری از مداخلات در نظر گرفته شده برای جلوگیری از بیماری، اثر چتر نجات شده است به ارزیابی دقیق با استفاده از کارآزمایی تصادفی شده شاهددار قرار گیرند. طرفداران پزشکی مبتنی بر شواهد تصویب مداخلات با استفاده از داده ها تنها مشاهده ارزیابی انتقاد کرده اند. ما فکر می کنیم که هر کس ممکن است به نفع اگر قهرمانان رادیکال ترین پزشکی مبتنی بر شواهد سازمان یافته و در دو سو کور شرکت، تصادفی، با کنترل دارونما متقاطع از چتر نجات. "
ارسال یک op-ed مناسب برای یک روزنامه خوانندگان به طور کلی، مانند نیویورک تایمز، با این استدلال در برابر fetishization از شواهد تجربی. ارائه، نمونه های بتن خاص. نکته: همچنین نگاه، Bothwell et al. (2016) و Deaton (2010)
[ ، ، ] تفاوت در تفاوت برآوردگر از یک اثر درمان می تواند دقیق تر از برآوردگرهای تفاوت در میانگین. ارسال یک یادداشت به یک مهندس مسئول تست A / B در یک شرکت رسانه های اجتماعی راه اندازی توضیح ارزش رویکرد تفاوت در تفاوت برای اجرای یک آزمایش آنلاین. این یادداشت باید بیانیه ای از این مشکل، برخی شهود در مورد شرایطی که تحت آن برآوردگر تفاوت در تفاوت خواهد برآوردگر تفاوت در میانگین بهتر، و یک مطالعه شبیه سازی ساده باشد.
[ ، ] گری مطالعات Loveman استاد مدرسه کسب و کار هاروارد قبل از تبدیل شدن مدیر عامل مورد Harrah، یکی از بزرگترین شرکت های کازینو در جهان بود. زمانی که او به مورد Harrah نقل مکان کرد، مطالعات Loveman این شرکت با یک برنامه وفاداری، در حال پرواز مانند مکرر است که مقدار زیادی از اطلاعات در مورد رفتار مشتری جمع آوری تبدیل شده است. در بالای این سیستم اندازه گیری همیشه در، این شرکت شروع به در حال اجرا آزمایش. به عنوان مثال، آنها ممکن است یک آزمایش برای ارزیابی اثر یک کوپن برای یک هتل شب رایگان برای مشتریان با یک الگوی قمار خاص اجرا. در اینجا چگونه مطالعات Loveman اهمیت آزمایش به شیوه های کسب و کار روزمره مورد Harrah توصیف میشود:
«مثل شما زنان آزار و اذیت نیست، شما سرقت نیست، و شما رو به یک گروه کنترل است. این یکی از چیزهایی که شما می توانید کار خود را برای در Harrah's نه یک گروه کنترل در حال اجرا از دست بدهند. " (Manzi 2012, 146)
یک ایمیل به یک کارمند جدید توضیح داد که چرا مطالعات Loveman فکر می کند آن است که مهم است که یک گروه کنترل ارسال. شما باید سعی کنید که شامل یک مثال هم واقعی یا ساخته شده تا به تشریح نظر خود را.
[ ، ] یک آزمایش جدید با هدف برآورد اثر دریافت متن یادآوری پیام بر جذب واکسیناسیون. 150 کلینیک، هر کدام با 600 بیماران واجد شرایط، مایل به شرکت هستند. است هزینه های ثابت از 100 دلار برای هر کلینیک شما می خواهید برای کار با وجود دارد، و هزینه های آن 1 دلار برای هر پیام متنی که شما می خواهید برای ارسال. علاوه بر این، هر کلینیک که شما در حال کار با را از نتیجه اندازه گیری به صورت رایگان (آیا کسی واکسیناسیون دریافت). فرض کنید که شما یک بودجه 1000 دلار است.
[ ، ] مشکل عمده با دوره های آنلاین فرسایشی است. بسیاری از دانش آموزان که دوره شروع تا پایان انداختن انجام می شود. تصور کنید که شما در حال کار در یک پلت فرم آموزش آنلاین، و یک طراح در پلت فرم یک نوار پیشرفت های بصری است که او فکر می کند از ترک این دوره جلوگیری از دانشجویان کمک خواهد کرد ایجاد کرده است. شما می خواهید به آزمون اثر نوار پیشرفت در دانش آموزان در یک دوره بزرگ محاسباتی علوم اجتماعی است. پس از پرداختن به هر گونه مسائل اخلاقی که ممکن است در این آزمایش بوجود می آیند، شما و همکاران خود را نگران است که البته ممکن است دانش آموزان به اندازه کافی قابل اعتماد تشخیص اثر نوار پیشرفت ندارد را دریافت کنید. در محاسبات زیر شما می توانید که نیمی از دانش آموزان فرض می کند که نوار پیشرفت و نیم دریافت نمی کنند. علاوه بر این، شما می توانید فرض کنید که تداخل وجود دارد. به عبارت دیگر، شما می توانید فرض کنیم که شرکت کنندگان تنها توسط آیا آنها درمان یا کنترل دریافت تحت تاثیر قرار. آنها نه با اینکه آیا مردم دیگر درمان یا کنترل (برای تعریف رسمی تر، و دریافت تاثیر Gerber and Green (2012) ، فصل 8). لطفا آهنگ از هر مفروضات بیشتری است که شما را نگه می دارد.
[ ، ] در مقاله دوست داشتنی، Lewis and Rao (2015) به وضوح نشان محدودیت آماری بنیادی از آزمایش حتی عظیم. کاغذ که در اصل به عنوان تحریک آمیز "در نزدیک عدم امکان اندازه گیری بازده تبلیغات" حال نشان می دهد که چقدر دشوار است برای اندازه گیری بازگشت سرمایه گذاری از تبلیغات آنلاین، حتی با آزمایش های دیجیتال که شامل میلیون ها از مشتریان. به طور کلی، مقاله به وضوح نشان می دهد که آن سخت است برای برآورد اثر درمان کوچک در میان اطلاعات از پیامدهای پر سر و صدا. یا اعلام diffently، مقاله نشان می دهد که اثرات درمانی برآورد فاصله اطمینان زیادی دارند که تاثیر به استاندارد انحراف (\ (\ FRAC {\ دلتا \ نوار {Y}} {\ سیگما} \)) نسبت کوچک است. درس عمومی مهم از این مقاله این است که نتایج حاصل از آزمایشات با نسبت کوچک تاثیر به استاندارد انحراف (به عنوان مثال، ROI از کمپین های تبلیغاتی) خواهد رضایت بخش باشد. چالش شما خواهد بود برای نوشتن یادداشت به کسی که در بخش بازاریابی شرکت شما evaluting یک آزمایش برنامه ریزی شده برای اندازه گیری ROI یک کمپین تبلیغاتی. یادداشت خود را باید با نمودار از نتایج حاصل از شبیه سازی های کامپیوتری پشتیبانی می شود.
در اینجا برخی از اطلاعات پس زمینه است که شما ممکن است نیاز است. همه این مقادیر عددی معمولی از آزمایش های واقعی گزارش شده در می Lewis and Rao (2015) :
ROI، یک کلید متریک برای استفاده در آگهی اینترنتی، تعریف می شود سود خالص از مبارزات انتخاباتی (سود ناخالص از هزینه مبارزات انتخاباتی منهای کمپین) تقسیم بر هزینه عملیات. به عنوان مثال یک کمپین است که هیچ تاثیری در فروش به یک ROI از -100٪ و یک کمپین که در آن سود تولید به هزینه های برابر به یک ROI 0 نداشتند داشته باشد.
میانگین فروش هر مشتری 7 $ با انحراف استاندارد از 75 $ می باشد.
کمپین انتظار می رود افزایش فروش 0.35 $ به ازای هر مشتری که مربوط به افزایش سود 0.175 $ به ازای هر مشتری می باشد. به عبارت دیگر، حاشیه ناخالص 50٪ است.
اندازه برنامه ریزی شده از آزمایش 200،000 نفر، نیمی در گروه درمان و نیم در گروه شاهد است.
هزینه های کمپین 0.14 $ در هر یک از شرکت کنندگان است.
ارسال یک یادداشت evaluting این آزمایش است. توصیه شما راه اندازی این آزمایش به عنوان برنامه ریزی شده؟ اگر چنین است، چرا؟ اگر نه، چه تغییرات را پیشنهاد می دهید؟
یک یادداشت خوب در این مورد خاص رسیدگی خواهد شد. یک یادداشت بهتر خواهد از این مورد در یکی از راه تعمیم (به عنوان مثال، نشان می دهد که چگونه تغییرات تصمیم به عنوان تابعی از نسبت تاثیر به استاندارد انحراف)؛ و یک یادداشت بزرگ خواهد شد در نتیجه به طور کامل تعمیم در حال حاضر.
[ ، ] آیا همان سوال قبلی، اما به جای شبیه سازی شما باید نتایج تحلیلی استفاده کنید.
[ ، ، ] آیا همان سوال قبلی است، اما استفاده از هر دو شبیه سازی و نتایج تحلیلی است.
[ ، ، ] تصور کنید که شما یادداشت در بالا شرح-با استفاده از شبیه سازی، نتایج تحلیلی، یا هر دو، و کسی که از بخش بازاریابی توصیه با استفاده از برآوردگر تفاوت در تفاوت به جای یک تفاوت در برآورد نوشته اند (بخش 4.6.2 را ببینید) . ارسال یک یادداشت کوتاه جدید توضیح میدهد که چگونه یک ارتباط بین فروش 0.4 قبل از مداخله و پس از فروش این آزمایش نتیجه گیری خود را تغییر دهید.
[ ، ] به منظور بررسی اثربخشی یک سرویس جدید مبتنی بر وب حرفه ای، دفتر خدمات حرفه ای دانشگاه یک محاکمه کنترل تصادفی در میان 10،000 دانش آموزان در ورود سال آخر خود را از مدرسه انجام شده است. اشتراک رایگان با اطلاعات ورود به سیستم در منحصر به فرد از طریق دعوت نامه منحصر به فرد به 5000 از دانش آموزان به صورت تصادفی انتخاب فرستاده شد، در حالی که 5000 دانش آموزان دیگر در گروه کنترل هستند و به اشتراک ندارد. دوازده ماه بعد، یک نظرسنجی پیگیری (با عدم پاسخ) نشان می دهد که در هر دو گروه مورد و شاهد، 70٪ از دانش آموزان اشتغال تمام وقت در رشته انتخابی خود (جدول 4.5) امن کنیم. بنابراین، به نظر می رسد که خدمات مبتنی بر وب هیچ اثری نداشت.
با این حال، یک دانشمند داده هوشمندانه در دانشگاه در داده نگاه کمی بیشتر از نزدیک و متوجه شد که تنها 20 درصد از دانش آموزان در گروه درمان تا کنون به حساب پس از دریافت ایمیل وارد شده است. علاوه بر این، و تا حدودی شگفت آور، در میان کسانی که به وب سایت وارد شده اند تنها 60٪ اشتغال تمام وقت در رشته انتخابی خود، که پایین تر از نرخ برای مردم که نمی ورود به سیستم در و پایین تر از نرخ برای مردم در بود جلب کرده شرایط کنترل (جدول 4.6).
نکته: این درخواست فراتر از مطالبی که در این فصل می رود، اما مسائل مشترک در آزمایش آدرس. این نوع از طرح آزمایشی است که گاهی اوقات به نام طراحی تشویق به دلیل شرکت کنندگان به شرکت در درمان تشویق کرد. این مشکل یک مثال از آنچه که به نام یک طرفه عدم رعایت است ( Gerber and Green (2012) ، فصل 5)
[ ] پس از بررسی بیشتر، معلوم است که این آزمایش شرح داده شده در سوال قبلی و حتی بیشتر پیچیده بود. به نظر می رسد که 10 درصد از مردم در گروه شاهد برای دسترسی به سرویس پرداخت، و آنها را با نرخ اشتغال 65٪ (جدول 4.7) به پایان رسید.
نکته: این درخواست فراتر از مطالبی که در این فصل می رود، اما مسائل مشترک در آزمایش آدرس. این مشکل یک مثال از آنچه که به نام دو طرفه عدم رعایت است ( Gerber and Green (2012) ، فصل 6)
گروه | اندازه | نرخ اشتغال |
---|---|---|
اجازه دسترسی به وب سایت | 5000 | 70٪ |
دسترسی به وب سایت عطا کردنی نیست | 5000 | 70٪ |
گروه | اندازه | نرخ اشتغال |
---|---|---|
اعطا دسترسی به وب سایت و وارد به سیستم | 1000 | 60٪ |
اجازه دسترسی به وب سایت و هرگز وارد | 4000 | 85٪ |
دسترسی به وب سایت عطا کردنی نیست | 5000 | 70٪ |
گروه | اندازه | نرخ اشتغال |
---|---|---|
اعطا دسترسی به وب سایت و وارد به سیستم | 1000 | 60٪ |
اجازه دسترسی به وب سایت و هرگز وارد | 4000 | 72.5٪ |
دسترسی به وب سایت اعطاء نشود و پرداخت شده برای آن | 500 | 65٪ |
دسترسی به وب سایت داده نیست و برای آن پرداخت نمی | 4500 | 70.56٪ |