فعالیت

  • درجه سختی: آسان آسان ، متوسط متوسط ، سخت سخت ، خیلی سخت خیلی سخت
  • نیاز به ریاضی ( نیاز به ریاضی دارد )
  • نیاز به برنامه نویسی ( نیاز به برنامه نویسی دارد )
  • جمع آوری اطلاعات ( جمع آوری داده ها )
  • علایق من ( مورد علاقه من )
  1. [ متوسط ، جمع آوری داده ها ] برینسکی و همکارانش (2012) MTurk را بخشی از تکرار سه آزمایش کلاسیک ارزیابی کردند. تکرار آزمایش Tversky and Kahneman (1981) بیماری کلاسیک آسیایی توسط Tversky and Kahneman (1981) . آیا نتایج شما با Tversky و Kahneman مطابقت دارد؟ آیا نتایج شما با برینسکی و همکاران مطابقت دارد؟ چه چیزی اگر چه این به ما در مورد استفاده از MTurk برای آزمایش های نظرسنجی آموزش می دهد؟

  2. [ متوسط ، مورد علاقه من رابرت چیلدینی، یکی از نویسندگان Schultz et al. (2007) در یک مقاله تا حدودی با عنوان "ما باید شکستن"، روانشناسی اجتماعی Schultz et al. (2007) نوشت که او اوایل کار خود را به عنوان استاد بازنشسته، بخشی به دلیل چالش های او با انجام آزمایش های زمینه در یک رشته (روانشناسی) است که عمدتا آزمایش آزمایشگاه (Cialdini 2009) . مقاله Cialdini را بخوانید و ایمیل او را به او بفرستید و از او بخواهید تا با در نظر گرفتن تجربیات دیجیتال، شکاف خود را بازبینی کند. از نمونه های خاصی از پژوهش استفاده کنید که نگرانی های او را مورد توجه قرار می دهد.

  3. [ متوسط ون د ریت و همکارانش (2014) به منظور تعیین اینکه آیا موفقیت های اولیه کوچک در اثر انسداد و یا محو شدن است، به چهار سیستم مختلف برای موفقیت در شرکت کنندگان تصادفی انتخاب شده مداخله کرد و سپس تاثیرات بلندمدت این موفقیت دلخواه را اندازه گیری کرد. آیا می توانید از سیستم های دیگر که در آن شما می توانید آزمایش های مشابه را انجام دهید فکر می کنید؟ این سیستم ها را از لحاظ مسائل ارزش علمی، الگوریتم مخلوط (نگاه کنید به فصل 2) و اخلاق را ارزیابی کنید.

  4. [ متوسط ، جمع آوری داده ها ] نتایج یک آزمایش می تواند به شرکت کنندگان بستگی دارد. یک آزمایش ایجاد کنید و سپس آن را با استفاده از دو استراتژی استخدام مختلف در MTurk اجرا کنید. سعی کنید آزمایش و استراتژی های استخدام را انتخاب کنید تا نتایج به همان اندازه متفاوت باشند . به عنوان مثال، استراتژی های استخدام شما می تواند شرکت کنندگان را در صبح و عصر استخدام کند یا برای پرداخت هزینه های بالا و پایین به شرکت کنندگان جبران کند. این نوع تفاوت ها در استراتژی استخدام می تواند منجر به استحکامات شرکت کنندگان و نتایج آزمایش های مختلف شود. نتایج شما چگونه متفاوت است؟ چه چیزی نشان می دهد که آزمایشات در MTurk انجام می شود؟

  5. [ خیلی سخت ، نیاز به ریاضی دارد ، نیاز به برنامه نویسی دارد ] تصور کنید که شما در حال برنامه ریزی آزمایش ایدز (Kramer, Guillory, and Hancock 2014) . از نتایج مطالعات مشاهدات قبلی توسط Kramer (2012) برای تعیین تعداد شرکت کنندگان در هر شرایط استفاده کنید. این دو مطالعه کاملا مطابقت نداشته باشند، بنابراین مطمئن باشید که به صراحت تمام پیش فرض هایی را که ایجاد می کنید را فهرست کنید:

    1. یک شبیه سازی را اجرا کنید که تصمیم می گیرد که تعداد شرکت کنندگان مورد نیاز برای شناسایی اثر بزرگ به عنوان اثر در Kramer (2012) با \(\alpha = 0.05\) و \(1 - \beta = 0.8\) .
    2. همان تحلیلی را انجام دهید.
    3. با توجه به نتایج حاصل از Kramer (2012) ، مشکالت احساسی (Kramer, Guillory, and Hancock 2014) بیش از حد مورد استفاده قرار گرفت (یعنی آیا شرکت کنندگان بیش از نیاز داشتند)؟
    4. از فرضهایی که شما ساخته اید، که بیشترین تاثیر را بر محاسبات شما دارند؟
  6. [ خیلی سخت ، نیاز به ریاضی دارد ، نیاز به برنامه نویسی دارد ] پاسخ سؤال قبلی را دوباره بپرسید، اما این بار به جای استفاده از مطالعات مشاهده شده قبلی توسط Kramer (2012) ، نتایج حاصل از یک آزمایش طبیعی قبلی Lorenzo Coviello et al. (2014) .

  7. [ آسان ] هر دو Margetts et al. (2011) و ون د ریت و همکاران. (2014) آزمایشهای انجام شده در مورد روند رسیدگی به پرونده افراد را امضا کردند. طرح ها و یافته های این مطالعات را مقایسه و مقایسه کنید.

  8. [ آسان ] Dwyer, Maki, and Rothman (2015) دو آزمایش میدانی را درباره رابطه هنجارهای اجتماعی و رفتارهای محیطی انجام دادند. در اینجا خلاصه ای از مقاله آنها است:

    "چگونه می توان علم روانشناختی را برای تشویق رفتار محیطی محیطی مورد استفاده قرار داد؟ در دو مطالعه، مداخلات با هدف ارتقای رفتار حفاظت از انرژی در حمام عمومی، تأثیرات هنجارهای توصیفی و مسئولیت شخصی را مورد بررسی قرار دادند. در مطالعه 1، وضعیت نور (به عنوان مثال، روشن یا خاموش) قبل از اینکه کسی وارد یک حمام عمومی غیر اشباع شود، دستکاری شد، و به این ترتیب عنصر توصیفی برای این تنظیم را نشان داد. شرکت کنندگان در مقایسه با زمانی که وارد شدند، به شدت بیشتر به نور خاموش می شوند. در مطالعه 2، یک شرایط اضافی شامل می شد که در آن عددی روشن کردن نور یک طرفدار نشان داده شد، اما شرکت کنندگان خودشان مسئول تغییر آن نبودند. مسئولیت شخصی تاثیر تأثیر هنجارهای اجتماعی بر رفتار را کنترل می کند؛ وقتی شرکت کنندگان مسئولیت روشن شدن نور را نداشتند، تأثیر هنجار کاهش یافت. این نتایج نشان می دهد که چگونه هنجارهای توصیفی و مسئولیت شخصی می توانند اثربخشی مداخلات محیطی را کنترل کنند. "

    مقاله خود را بخوانید و تکرار مطالعه 1 را طراحی کنید.

  9. [ متوسط ، جمع آوری داده ها ] بر اساس سؤال قبلی، در حال حاضر طراحی خود را انجام می دهید.

    1. نتایج مقایسه چگونه است؟
    2. چه چیزی ممکن است این تفاوت ها را توضیح دهد؟
  10. [ متوسط ] بحث در مورد آزمایشات با استفاده از شرکت کنندگان استخدام شده از MTurk بوده است. به موازات، بحث در مورد آزمایش ها با استفاده از شرکت کنندگان استخدام شده از دانشجویان دانشجویان نیز صورت گرفته است. نوشتن یک یادداشت دو صفحه ای در مقایسه و مخالف ترک ها و دانشجویان مقطع کارشناسی به عنوان شرکت کنندگان در تحقیق. مقایسه شما باید شامل بحث در مورد مسائل علمی و لجستیکی باشد.

  11. [ آسان ] کتاب غیرقابل کنترل (2012) Jim Manzi، Jim Manzi (2012) یک مقدمه فوق العاده در مورد قدرت آزمایش در کسب و کار است. در کتاب او داستان زیر را پخش کرد:

    "من یک بار در یک ملاقات با یک نابغه واقعی کسب و کار، یک میلیاردر خود ساخته بود که درک عمیق و بصری از قدرت آزمایش ها بود. شرکت او منابع قابل توجهی را صرف تلاش برای ایجاد صفحه نمایش بزرگ فروشگاه پنجره که جذب مصرف کنندگان و افزایش فروش، به عنوان عقل متعارف گفت که آنها باید. کارشناسان پس از طراحی طراحی دقیق را آزمایش می کنند و در جلسات بررسی فردی در طول یک سال، اثرات غیر قابل توجهی از هر طراحی صفحه نمایش جدید را در فروش نشان دادند. مدیران ارشد بازاریابی و بازاریابی با مدیر عامل شرکت دیدار کردند تا این نتایج آزمایش تاریخی را در این مورد بررسی کنند. پس از ارائه تمام داده های تجربی، آنها نتیجه گرفتند که عقل متعارف اشتباه است - نمایش پنجره ها فروش را رانندگی نمی کند. اقدام توصیه شده آنها کاهش هزینه ها و تلاش در این زمینه بود. این به طرز چشمگیری توانایی آزمایش را برای سرخوردن عقل متعارف نشان داد. پاسخ مدیر اجرایی ساده بود: "نتیجه گیری من این است که طراحان شما خیلی خوب نیستند." راه حل او این بود که تلاش در طراحی صفحه نمایش فروشگاه را افزایش دهد و افراد جدید را به انجام آن (Manzi 2012, 158–9) . » (Manzi 2012, 158–9)

    کدام نوع اعتبار نگرانی مدیرعامل است؟

  12. [ آسان ] بر اساس سؤال قبلی، تصور کنید که در جلسه ای که نتایج آزمایشات مورد بحث قرار گرفته بود، در جلسه حضور داشتید. چهار سؤال که می توانید بپرسید - یک برای هر نوع اعتبار (آماری، ساخت، داخلی و خارجی) چیست؟

  13. [ آسان ] Bernedo, Ferraro, and Price (2014) بررسی اثر هفت ساله مداخلۀ صرفه جویی در مصرف آب در Ferraro, Miranda, and Price (2011) (نگاه کنید به شکل 4.11). در این مقاله، Bernedo و همکارانش نیز در جستجوی ساز و کار اثر پشت آن با مقایسه رفتار خانوارهایی هستند که پس از درمان تحویل داده شده اند و بعد از آن حرکت نکرده اند. به طوری که تقریبا آنها تلاش کردند تا ببینند آیا درمان به خانه یا صاحب خانه منجر شد یا خیر.

    1. مقاله را بخوانید، طراحی خود را شرح دهید و یافته های آنها را خلاصه کنید.
    2. آیا یافته های آنها تاثیر می گذارد چگونه شما باید هزینه - اثربخشی مداخلات مشابه را ارزیابی کنید؟ اگر چنین است، چرا؟ اگر نه، چرا؟
  14. [ آسان ] در پیگیری Schultz et al. (2007) (Schultz, Khazian, and Zaleski 2008) در دو زمینه (یک هتل و یک مجتمع مسکونی) یک سری از سه آزمایش را در مورد اثر هنجارهای توصیفی و مقدماتی در مورد رفتارهای مختلف محیطی (استفاده مجدد حوله (Schultz, Khazian, and Zaleski 2008) .

    1. خلاصه طرح و یافته های این سه آزمایش.
    2. چطور، اگر همه، تفسیر خود را از Schultz et al. (2007)
  15. [ آسان ] در پاسخ به Schultz et al. (2007) ، Canfield, Bruin, and Wong-Parodi (2016) یک سری آزمایشی مانند آزمایشی آزمایشگاهی برای مطالعه طراحی صورتحساب برق انجام دادند. در اینجا چگونگی آن را به صورت خلاصه شرح می دهیم:

    "در یک آزمایش مبتنی بر نظرسنجی، هر یک از شرکت کنندگان یک لایحه برق فرضی را برای یک خانواده با استفاده از مصرف برق نسبتا بالا، شامل اطلاعات مربوط به (a) استفاده تاریخی، (ب) مقایسه با همسایگان، و (ج) استفاده تاریخی از تقسیم دستگاه را دید. شرکت کنندگان تمام انواع اطلاعات را در یکی از سه فرمت شامل: (a) جداول، (b) نمودارهای نوار، و (c) نمودار آیکون مشاهده کردند. ما سه یافته اصلی را گزارش می کنیم. اولا مصرف کنندگان هر نوع اطلاعات مصرف برق را بیشتر از زمانی که در جدول ارائه شده بود، درک می کردند، شاید به این علت که جداول، خواندن نقطه ساده را آسان می کردند. دوم، ترجیحات و قصد های صرفه جویی در مصرف برق، برای اطلاعات استفاده تاریخی، مستقل از فرمت بود. سوم، افرادی که سواد مصرف انرژی کمتری دارند، اطلاعات کمتری را درک می کنند. "

    بر خلاف سایر مطالعات پیگیری، نتایج اصلی مورد علاقه Canfield, Bruin, and Wong-Parodi (2016) رفتار گزارش شده است، نه رفتار واقعی. نقاط قوت و ضعف این نوع مطالعه در یک برنامه تحقیق گسترده تر، صرفه جویی در انرژی را ترویج می کنند؟

  16. [ متوسط ، مورد علاقه من ] Smith and Pell (2003) یک متا آنالیز طیفی از مطالعات نشان داد که اثربخشی چتر نجات است. آنها نتیجه گرفتند:

    "همانطور که با بسیاری از مداخلات در نظر گرفته شده برای جلوگیری از بیماری های سالم، اثربخشی چتر نجات با استفاده از آزمایش های کنترل شده تصادفی مورد ارزیابی دقیق قرار نگرفته است. طرفداران پزشکی مبتنی بر شواهد، پذیرش مداخلات مورد ارزیابی را با استفاده از داده های مشاهده شده مورد انتقاد قرار داده اند. ما فکر می کنیم که همه افراد ممکن است سود ببرند اگر قهرمانان رادیکال پزشکی مبتنی بر شواهد سازمان یافته و در یک آزمایش دو سو کور، تصادفی، کنترل شده با پلاسبو و آزمایش متقاطع چتر نجات شرکت کنند. "

    نوشتن یک نسخه مناسب برای یک روزنامه به طور کلی خواننده، مانند نیویورک تایمز ، استدلال می کند که علیه طلسم کردن شواهد تجربی است. مثال های خاصی را ارائه کنید. نکته: همچنین نگاه کنید به Deaton (2010) و Bothwell et al. (2016) .

  17. [ متوسط ، نیاز به برنامه نویسی دارد ، مورد علاقه من ] برآوردگر تفاوت در اختلافات یک اثر درمان می تواند دقیق تر از برآوردگرهای تفاوت در میانگین باشد. یک یادداشت برای یک مهندس مسئول تست A / B در یک شرکت رسانه ای راه اندازی شده بنویسید و توضیح ارزش روش تفاوت در تفاوت برای اجرای یک آزمایش آنلاین. این یادداشت شامل بیانیه ای از مشکل، برخی از شهود در مورد شرایط است که در آن برآوردگر تفاوت در تفاوت بیش از برآوردگر تفاوت در میانگین و یک مطالعه شبیه سازی ساده.

  18. [ آسان ، مورد علاقه من Gary Loveman استاد مدرسه کسب و کار هاروارد قبل از تبدیل شدن به مدیر عامل شرکت Harrah، یکی از بزرگترین شرکت های کازینو در جهان است. هنگامی که او به Harrah نقل مکان کرد، لویمن این شرکت را با یک برنامه وفاداری مکرر و شاداب، که حجم زیادی اطلاعات را در مورد رفتار مشتریان جمع آوری کرد، تبدیل کرد. در بالای این سیستم اندازه گیری همیشه، شرکت شروع به آزمایش کرد. به عنوان مثال، آنها ممکن است یک آزمایش برای ارزیابی اثر یک کوپن برای یک شبانه روز هتل برای مشتریان با یک الگوی قمار خاص انجام دهند. در اینجا این است که چگونه Loveman شرح اهمیت آزمایشات به کارهای روزمره تجارت هاررا:

    "این مثل شما زنان را آزار نمیدهید، شما سرقت نمیکنید، و شما باید یک گروه کنترل داشته باشید. این یکی از مواردی است که می توانید کار خود را در Harrah انجام دهید و گروه کنترل را اجرا نکنید. » (Manzi 2012, 146)

    نامه ای به یک کارمند جدید بنویسید که توضیح دهد چرا Loveman فکر می کند که داشتن یک گروه کنترل بسیار مهم است. شما باید سعی کنید یک مثال - واقعی یا ساخته شده برای نشان دادن نقطه خود را.

  19. [ سخت ، نیاز به ریاضی دارد ] یک آزمایش جدید با هدف تخمین اثر دریافت یادآورهای پیام متنی در مورد جذب واکسیناسیون انجام شده است. یکصد و پنجاه کلینیک، هر کدام 600 بیمار واجد شرایط، مایل به شرکت در آن هستند. هزینهی ثابت 100 دلاری برای هر کلینیکی که میخواهید با آن کار کنید، هزینه آن 1 دلار برای هر پیام متنی است که میخواهید بفرستید. علاوه بر این، هرگونه کلینیکی که در حال کار با آن هستید، نتیجه (که آیا شخصی واکسیناسیون دریافت کرد) را به صورت رایگان اندازه گیری می کند. فرض کنید که شما دارای یک بودجه 1،000 $ هستید.

    1. تحت چه شرایطی بهتر است که منابع خود را به تعدادی از کلینیک ها متمرکز کنید و در چه شرایطی بهتر است آنها را به طور گسترده ای گسترش دهیم؟
    2. چه عواملي باعث مي شود تا اندازه اي كوچكتر كه بتوانيد به طور قابل اعتماد با بودجه خود تشخيص داده شود، كاهش يابد؟
    3. نوشتن یک یادداشت توضیح این معاملات به یک سرمایه گذار بالقوه.
  20. [ سخت ، نیاز به ریاضی دارد ] یک مشکل عمده با دوره های آنلاین، سقوط است: بسیاری از دانش آموزانی که دوره های شروع را شروع می کنند، از بین می روند. تصور کنید که شما در یک پلت فرم یادگیری آنلاین کار می کنید و یک طراح در این پلتفرم نوار پیشرفت بصری ایجاد کرده است که فکر می کند دانش آموزان از جلوگیری از خروج دانشجویان از درس جلوگیری می کنند. شما می خواهید تاثیر نوار پیشرفت را برای دانش آموزان در دوره علوم اجتماعی محاسباتی بزرگ تست کنید. پس از رسیدگی به هر گونه مسائل اخلاقی که ممکن است در این آزمایش رخ دهد، شما و همکارانتان نگران این نباشید که این دوره ممکن است دانش آموزان کافی برای اثربخشی اثرات نوار پیشرفت را نداشته باشد. در محاسبات زیر می توانید حدس بزنید که نیمی از دانش آموزان نوار پیشرفت را دریافت خواهند کرد و نیمی از آن را دریافت نخواهند کرد. علاوه بر این، شما می توانید فرض کنید که هیچ دخالت وجود دارد. به عبارت دیگر شما می توانید فرض کنید که شرکت کنندگان تنها تحت تأثیر قرار گرفتن در معرض درمان یا کنترل قرار می گیرند؛ آنها تحت تاثیر قرار دادن سایر افراد درمانی یا کنترل قرار نمی گیرند (برای تعریف رسمی تر، به فصل 8 Gerber and Green (2012) ). پیروی از هر پیش فرض های دیگری که می توانید پیگیری کنید.

    1. فرض کنید نوار پیشرفت انتظار می رود که نسبت دانشجویان را افزایش دهد که کلاس را به ترتیب 1 درصد افزایش می دهند؛ اندازه نمونه مورد نیاز برای اعتبار تشخیص اثر چیست؟
    2. فرض کنید نوار پیشرفت انتظار می رود که نسبت دانشجویان را افزایش دهد که 10 درصد امتیاز را به پایان برسانند؛ اندازه نمونه مورد نیاز برای اعتبار تشخیص اثر چیست؟
    3. اکنون تصور کنید که این آزمایش را انجام داده اید و دانش آموزانی که تمام مواد درس را تکمیل کرده اند، امتحان نهایی را دریافت کرده اند. هنگامی که نمرات امتحان نهایی را از دانشجویانی که نمره پیشرفت را با نمرات آنها دریافت کرده اید مقایسه می کنید، بسیار متعجب خواهید شد که دانش آموزانی که نوار پیشرفت را دریافت نکرده اند، بالاتر از آن را به دست آورده اند. آیا این به این معناست که نوار پیشرفت موجب شده تا دانش آموزان کمتر یاد بگیرند؟ از این داده ها نتیجه چه می توان آموخت؟ (نکته: فصل هفتم Gerber and Green (2012) )
  21. [ خیلی سخت ، نیاز به برنامه نویسی دارد ، مورد علاقه من ] تصور کنید که شما به عنوان یک دانشمند داده در یک شرکت فناوری کار می کنید. کسی که از بخش بازاریابی برای کمک به شما در ارزیابی یک آزمایش که برنامه ریزی کرده است برای اندازه گیری بازده سرمایه گذاری (ROI) برای یک کمپین تبلیغاتی آنلاین، از شما درخواست کمک می کند. ROI به عنوان سود خالص کمپین تقسیم بر هزینه کمپین تعریف شده است. به عنوان مثال، یک کمپین که تاثیری در فروش نداشت، ROI برابر با -100٪ خواهد بود؛ یک مبارزات انتخاباتی که درآمد تولید شده برابر با هزینه بود، ROI برابر با 0 بود؛ و مبارزاتی که درآمد حاصل از آن دو برابر بود، هزینه ROI 200٪ بود.

    قبل از شروع آزمایش، بخش بازاریابی اطلاعات زیر را بر اساس تحقیقات پیشین خود ارائه می دهد (در حقیقت، این مقادیر معمول از تبلیغات واقعی آنلاین در لوئیس و رائو (2015) ):

    • میانگین فروش در هر مشتری به ترتیب توزیع نرمال log با میانگین 7 دلار و انحراف معیار 75 دلار است.
    • انتظار می رود این کمپین فروش را به میزان 0.35 دلار برای هر مشتری افزایش دهد، که به افزایش سود در 0.175 دلار برای هر مشتری کمک می کند.
    • اندازه برنامه ریزی شده این آزمایش 200000 نفر است: نیمه در گروه درمان و نیم در گروه کنترل.
    • هزینه کمپین 0.14 دلار برای هر شرکت کننده است.
    • ROI پیش بینی شده برای این کمپین 25٪ است. [ \((0.175 - 0.14)/0.14\) ]. به عبارت دیگر، بخش بازاریابی معتقد است که برای هر 100 دلار صرف بازاریابی، این شرکت 25 دلار اضافی در سود کسب خواهد کرد.

    یادداشتی را برای ارزیابی این آزمایش پیشنهادی بنویسید. یادداشت شما باید از شواهدی از یک شبیه سازی که شما ایجاد می کنید استفاده کنید و باید دو مسئله مهم را مطرح کنید: (1) آیا شما توصیه می کنید که این آزمایش را به عنوان برنامه ریزی انجام دهید؟ اگر چنین است، چرا؟ اگر نه، چرا؟ اطمینان حاصل کنید که در مورد معیارهایی که شما برای استفاده از این تصمیم استفاده می کنید روشن است. (2) کدام اندازه نمونه برای این آزمایش توصیه می شود؟ لطفا مجددا مطمئن شوید که در مورد معیارهایی که شما برای استفاده از این تصمیم استفاده می کنید روشن است.

    یادداشت خوب این مورد خاص را در بر می گیرد یک یادداشت بهتر از این مورد به طور یکنواخت (به عنوان مثال، نشان دهد که چگونه تصمیم به عنوان تابع اندازه اثر کمپین تغییر می کند)؛ و یک یادداشت بزرگ یک نتیجه به طور کلی عمومی را نشان می دهد. یادداشت شما باید از نمودارها برای کمک به نشان دادن نتایج خود استفاده کند.

    در اینجا دو نکته وجود دارد. اول، بخش بازاریابی ممکن است برخی اطلاعات غیر ضروری را ارائه کرده باشد و ممکن است برخی اطلاعات لازم را به شما ارائه نکرده باشند. دوم، اگر از R استفاده می کنید، آگاه باشید که عملکرد rlnorm () راه را که بسیاری از مردم انتظار می رود کار نمی کند.

    این فعالیت به شما در تجزیه و تحلیل قدرت، ایجاد شبیه سازی و ارتباط نتایج خود با کلمات و نمودارها عمل خواهد کرد. این باید به شما در تجزیه و تحلیل قدرت برای هر نوع آزمایش کمک کند، نه فقط آزمایشاتی که برای برآورد ROI طراحی شده اند. این فعالیت فرض می کند که شما تجربه ای با آزمایش های آماری و تجزیه و تحلیل قدرت دارید. اگر شما با تجزیه و تحلیل قدرت آشنا نیستید، توصیه می کنم خواندن "Power Primer" توسط Cohen (1992) بخوانید.

    این فعالیت توسط یک مقاله دوست داشتنی توسط RA Lewis and Rao (2015) الهام شد، که به وضوح یک محدودیت آماری اساسی را برای آزمایش های عظیم نشان می دهد. مقاله آنها - که در اصل عنوان تحریک آمیز "در نزدیکی غیرممکن اندازه گیری بازنگری در تبلیغات" را نشان می دهد - نشان می دهد که چقدر دشوار است که بازده سرمایه گذاری تبلیغات آنلاین را اندازه گیری کند، حتی با آزمایش های دیجیتالی که میلیون ها مشتری را شامل می شود. به طور کلی، RA Lewis and Rao (2015) یک واقعیت آماری اساسی را نشان می دهد که برای آزمایش های دیجیتال بسیار مهم است: سخت است که اثرات درمان کوچک را در میان داده های نتایج پر سر و صدا بررسی کنیم.

  22. [ خیلی سخت ، نیاز به ریاضی دارد ] همانند سوال قبلی، اما، به جای شبیه سازی، شما باید از نتایج تحلیلی استفاده کنید.

  23. [ خیلی سخت ، نیاز به ریاضی دارد ، نیاز به برنامه نویسی دارد ] همانند سوال قبلی، اما از شبیه سازی و نتایج تحلیلی استفاده کنید.

  24. [ خیلی سخت ، نیاز به ریاضی دارد ، نیاز به برنامه نویسی دارد ] تصور کنید که شما یادداشتی را که در بالا توضیح داده اید نوشته اید و کسی از بخش بازاریابی یک بخش جدید از اطلاعات را ارائه می دهد: انتظار می رود یک رابطه 0.4 بین فروش قبل و بعد از آزمایش باشد. چگونه این توصیه ها را در یادداشت خود تغییر دهید؟ (نکته: در بخش 4.6.2 بیشتر به برآوردگر تفاوت بین معیارها و برآورد کننده اختلاف در تفاوت ها نگاه کنید.)

  25. [ سخت ، نیاز به ریاضی دارد ] به منظور ارزیابی اثربخشی برنامه جدید استخدام در وب مبتنی بر وب، یک کارآزمایی کنترل تصادفی بین 10،000 دانش آموز در سال آخر تحصیل خود انجام داد. اشتراک رایگان با اطلاعات ورودی منحصر به فرد از طریق یک دعوت ایمیل منحصر به فرد به 5000 نفر از دانش آموزان به صورت تصادفی انتخاب شده و 5،000 دانش آموز دیگر در گروه کنترل قرار گرفتند و اشتراکی نداشتند. دوازده ماه بعد، یک نظرسنجی پیگیری (بدون پاسخ غیرمستقیم) نشان داد که در هر دو گروه درمان و کنترل، 70٪ از دانشجویان در زمینه انتخابی خود، مشغول به کار بودند. (جدول 4.6). بنابراین، به نظر می رسید که سرویس مبتنی بر وب تاثیری نداشت.

    با این حال، یک دانشمند اطلاعاتی هوشمند در دانشگاه به اطلاعات کمی نزدیک تر نگاه کرد و دریافت که تنها 20 درصد از دانش آموزان گروه درمان، پس از دریافت ایمیل به حساب کاربری خود وارد حساب کاربری شده اند. علاوه بر این، و تا حدودی شگفت آور، در میان کسانی که وارد وب سایت شده بودند، فقط 60٪ کارهای تمام وقت را در حوزه انتخابی خود تأمین کرده بودند که کمتر از نرخ برای افرادی بود که وارد نشده بودند و کمتر از نرخ برای مردم در شرایط کنترل (جدول 4.7).

    1. توضیحاتی برای آنچه اتفاق افتاده است را ارائه دهید.
    2. دو روش مختلف برای محاسبه اثر درمان در این آزمایش چیست؟
    3. با توجه به این نتیجه، آیا باید این خدمات را به تمام دانش آموزان ارائه دهیم؟ فقط برای روشن شدن، این یک سوال با یک پاسخ ساده نیست.
    4. آنها باید بعدا چه کار کنند؟

    نکته: این سؤال فراتر از مطالب مندرج در این فصل است، اما مسائل مورد نظر در آزمایشات را رفع می کند. این نوع طراحی تجربی گاهی اوقات به عنوان یک طرح تشویقی به کار می رود زیرا شرکت کنندگان تشویق به شرکت در درمان هستند. این مشکل، نمونه ای از آنچه که ناموفق یک طرفه نامیده می شود (فصل 5 Gerber and Green (2012) ).

  26. [ سخت ] پس از بررسی بیشتر، معلوم شد که آزمایش در سوال قبلی، پیچیده تر بود. معلوم شد 10٪ از افراد در گروه کنترل برای دسترسی به خدمات پرداخت می کردند و با نرخ اشتغال 65٪ به پایان رسید (جدول 4.8).

    1. نوشتن یک ایمیل به طور خلاصه آنچه که فکر می کنید اتفاق می افتد و یک دوره عملی را توصیه می کند.

    نکته: این سؤال فراتر از مطالب مندرج در این فصل است، اما مسائل مورد نظر در آزمایشات را رفع می کند. این مشکل نمونه ای از آنچه نامشخص دو طرفه نامیده می شود (نگاه کنید به فصل 6 Gerber and Green (2012) ).

جدول 4.6: نمایش ساده داده ها از تجربه خدمات شغلی
گروه اندازه نرخ اشتغال
دسترسی به وب سایت داده شده 5،000 70٪
دسترسی به وب سایت داده نشده است 5،000 70٪
جدول 4.7: مشاهده کامل داده ها از آزمایشات خدمات شغلی
گروه اندازه نرخ اشتغال
دسترسی به وب سایت و ورود به سیستم 1،000 60٪
دسترسی به وبسایت و هرگز وارد نشده است 4،000 72.5٪
دسترسی به وب سایت داده نشده است 5،000 70٪
جدول 4.8: نمایش کامل داده ها از تجربه خدمات شغلی
گروه اندازه نرخ اشتغال
دسترسی به وب سایت و ورود به سیستم 1،000 60٪
دسترسی به وبسایت و هرگز وارد نشده است 4،000 72.5٪
دسترسی به وب سایت را به دست نمی آورید و برای آن پرداخت می کنید 500 65٪
دسترسی به وب سایت داده نمیشود و برای آن پرداخت نشده است 4،500 70.56٪