[ ، ] تقييم Berinsky وزملائه (2012) MTurk في جزء من خلال تكرار ثلاث تجارب كلاسيكية. تكرار تجربة تأطير المرض الآسيوية الكلاسيكية من قبل Tversky and Kahneman (1981) . هل تتفق نتائجك مع Tversky و Kahneman؟ هل تطابق نتائجك مع Berinsky وزملائك؟ ماذا - إن وجد - هل يعلمنا هذا استخدام MTurk في تجارب المسح؟
[ ، ] في ورقة إلى حد ما في الخد بعنوان "علينا أن نفترق" ، عالم النفس الاجتماعي روبرت سيالديني ، أحد مؤلفي Schultz et al. (2007) ، كتب أنه كان يتقاعد في وقت مبكر من وظيفته كأستاذ ، ويرجع ذلك جزئيا إلى التحديات التي واجهها في إجراء تجارب ميدانية في مجال علم النفس (علم النفس) التي تجري في الأساس تجارب معملية (Cialdini 2009) . اقرأ ورقة سيالديني ، واكتب له رسالة إلكترونية تحثه على إعادة النظر في تفككه في ضوء إمكانيات التجارب الرقمية. استخدم أمثلة محددة من الأبحاث التي تتناول مخاوفه.
[ ] من أجل تحديد ما إذا كانت النجاحات الأولية الصغيرة قد تلاشت أو تلاشت ، تدخّل فان دي ريجيت وزملاؤه (2014) في أربعة أنظمة مختلفة أعطت النجاح للمشاركين الذين تم اختيارهم عشوائياً ، ثم قاسوا التأثير الطويل الأمد لهذا النجاح التعسفي. هل يمكنك التفكير في الأنظمة الأخرى التي يمكنك من خلالها إجراء تجارب مماثلة؟ تقييم هذه الأنظمة من حيث القضايا ذات القيمة العلمية ، والخوارزميات الخوارزمية (انظر الفصل 2) ، والأخلاقيات.
[ ، ] يمكن أن تعتمد نتائج التجربة على المشاركين. قم بإنشاء تجربة ثم قم بتشغيلها على MTurk باستخدام إستراتيجيتين مختلفتين للتوظيف. حاول اختيار التجربة واستراتيجيات التوظيف بحيث تكون النتائج مختلفة قدر الإمكان. على سبيل المثال ، قد تكون استراتيجيات التوظيف الخاصة بك لتعيين المشاركين في الصباح والمساء أو لتعويض المشاركين بأجور عالية ومنخفضة. يمكن أن تؤدي هذه الأنواع من الاختلافات في استراتيجية التوظيف إلى مجموعات مختلفة من المشاركين ونتائج تجريبية مختلفة. ما مدى اختلاف نتائجك؟ ماذا يكشف هذا عن تشغيل التجارب على MTurk؟
[ ، ، تخيل أنك كنت تخطط لتجربة العدوى العاطفية (Kramer, Guillory, and Hancock 2014) . استخدم النتائج من دراسة الرصد السابقة التي أجراها Kramer (2012) لتحديد عدد المشاركين في كل حالة. لا تتطابق هاتان الدراستان تمامًا ، لذا احرص على إدراج جميع الافتراضات التي تضعها بشكل صريح:
[ ، ، ] أجب على السؤال السابق مرة أخرى ، ولكن هذه المرة بدلاً من استخدام دراسة الرصد السابقة التي أجراها Kramer (2012) ، استخدم النتائج من تجربة طبيعية سابقة أعدها Lorenzo Coviello et al. (2014) .
[ ] كلا Margetts et al. (2011) و van de Rijt et al. (2014) أجريت تجارب تدرس عملية الأشخاص الذين وقعوا عريضة. مقارنة وتناقض التصاميم والنتائج لهذه الدراسات.
[ أجرت Dwyer, Maki, and Rothman (2015) تجربتين ميدانيتين حول العلاقة بين الأعراف الاجتماعية والسلوك المؤيد للبيئية. إليكم ملخص ورقتهم:
"كيف يمكن استخدام العلوم النفسية لتشجيع السلوك الاحترافي؟ في دراستين ، تناولت التدخلات الرامية إلى تعزيز سلوك الحفاظ على الطاقة في الحمامات العامة تأثيرات المعايير الوصفية والمسؤولية الشخصية. في الدراسة 1 ، تم التلاعب بحالة الضوء (أي ، تشغيل أو إيقاف التشغيل) قبل دخول شخص ما إلى حمام عام غير مأهول ، مما يشير إلى القاعدة الوصفية لهذا الإعداد. كان المشاركون على الأرجح أكثر عرضة لإطفاء الأنوار إذا كانوا خارجها عندما دخلوا. في الدراسة 2 ، تم تضمين شرط إضافي تم فيه إظهار معيار إيقاف الضوء من قبل كونفدرالي ، لكن المشاركين لم يكونوا أنفسهم مسؤولين عن تشغيله. أدارت المسؤولية الشخصية تأثير القواعد الاجتماعية على السلوك ؛ عندما لم يكن المشاركون مسؤولين عن تشغيل الضوء ، تضاءل تأثير القاعدة. تشير هذه النتائج إلى كيفية تنظيم معايير وصفية ومسؤولية شخصية لفاعلية التدخلات البيئية. "
قراءة ورقة وتصميم تصميم تكرار الدراسة 1.
[ ، ] بناء على السؤال السابق ، نفذ الآن التصميم الخاص بك.
[ ] كان هناك جدل كبير حول التجارب التي استخدمت المشاركين المعينين من MTurk. وفي موازاة ذلك ، كان هناك أيضًا نقاش كبير حول التجارب التي استخدمت المشاركين الذين تم توظيفهم من الطلاب الجامعيين. اكتب مذكرة مؤلفة من صفحتين تقارن وتتبادل بين التركيين والطلاب الجامعيين كمشاركين في الأبحاث. يجب أن تتضمن المقارنة الخاصة بك مناقشة لكل من القضايا العلمية واللوجستية.
[ ] كتاب جيم مانزي غير المنضبط (2012) هو مقدمة رائعة لقوة التجريب في مجال الأعمال. في الكتاب نقل القصة التالية:
"كنت في يوم من الأيام في اجتماع مع عبقري تجاري حقيقي ، وهو ملياردير ذاتي الصنع كان لديه فهم عميق وبديهي لقوة التجارب. لقد أنفقت شركته موارد كبيرة في محاولة إنشاء شاشات عرض كبيرة في المتاجر من شأنها جذب المستهلكين وزيادة المبيعات ، كما تقول الحكمة التقليدية. قام الخبراء باختبار التصميم بعناية بعد التصميم ، وفي جلسات المراجعة الفردية للاختبار على مدار فترة من الزمن ظلوا لا يظهرون أي أثر سببي مهم لكل تصميم عرض جديد على المبيعات. التقى كبار المديرين التنفيذيين للتسويق والتجارة بالرئيس التنفيذي لمراجعة نتائج الاختبارات التاريخية هذه. بعد تقديم جميع البيانات التجريبية ، استنتجوا أن الحكمة التقليدية كانت خاطئة ، وأن شاشات النوافذ لا تدفع المبيعات. وكان الإجراء الموصى به هو تقليل التكاليف والجهد في هذا المجال. هذا أظهر بشكل كبير قدرة التجريب على قلب الحكمة التقليدية. كان رد المدير التنفيذي بسيطًا: "استنتاجي هو أن مصمميكم ليسوا جيدًا جدًا". كان حله هو زيادة الجهد في تصميم عرض المتجر ، والحصول على أشخاص جدد للقيام بذلك. " (Manzi 2012, 158–9)
ما نوع الصلاحية التي تهم الرئيس التنفيذي؟
[ ] بناءً على السؤال السابق ، تخيل أنك كنت في الاجتماع حيث تمت مناقشة نتائج التجارب. ما هي الأسئلة الأربعة التي يمكنك طرحها - سؤال لكل نوع من أنواع الصلاحية (إحصائي ، بناء ، داخلي ، خارجي)؟
[ Bernedo, Ferraro, and Price (2014) تأثير سبع سنوات من التدخل الموفر للمياه الموصوف في Ferraro, Miranda, and Price (2011) (انظر الشكل 4.11). في هذه الورقة ، سعى بيرنيدو وزملاؤه أيضا إلى فهم الآلية الكامنة وراء هذا الأثر من خلال مقارنة سلوك الأسر المعيشية التي لم تتحرك ولم تنتقل بعد تلقي العلاج. وهذا هو ، تقريبا ، حاولوا معرفة ما إذا كان العلاج أثر على المنزل أو المنزل.
[ ] في متابعة Schultz et al. (2007) ، قام شولتز وزملاؤه بسلسلة من ثلاث تجارب حول تأثير المعايير الوصفية والوعظية على سلوك بيئي مختلف (إعادة استخدام المناشف) في سياقين (فندق (Schultz, Khazian, and Zaleski 2008) المشاركة بالوقت) (Schultz, Khazian, and Zaleski 2008) .
[ ] ردا على Schultz et al. (2007) ، Canfield, Bruin, and Wong-Parodi (2016) يدير سلسلة من التجارب المشابهة للمختبر لدراسة تصميم الفواتير الكهربائية. إليكم كيف يصفونها في الملخص:
"في تجربة مبنية على الاستقصاء ، رأى كل مشارك فاتورة كهرباء افتراضية لعائلة لديها استخدام مرتفع للكهرباء ، تغطي معلومات عن (أ) الاستخدام التاريخي ، (ب) المقارنات مع الجيران ، و (ج) الاستخدام التاريخي مع انهيار الجهاز. رأى المشاركون جميع أنواع المعلومات في واحدة من ثلاثة أشكال بما في ذلك (أ) الجداول ، (ب) الرسوم البيانية الشريط ، والرسوم البيانية رمز جيم (ج). نحن تقرير عن ثلاث نتائج رئيسية. أولاً ، فهم المستهلكون كل نوع من أنواع استخدامات الكهرباء أكثر عند تقديمه في جدول ، ربما لأن الجداول تسهل قراءة بسيطة للنقاط. ثانيا ، كانت التفضيلات والنوايا لتوفير الكهرباء هي الأقوى لمعلومات الاستخدام التاريخية ، بغض النظر عن الشكل. ثالثًا ، فهم الأفراد الذين لديهم معرفة بالقليل من الطاقة جميع المعلومات أقل ".
على عكس دراسات المتابعة الأخرى ، يتم الإبلاغ عن النتيجة الرئيسية للاهتمام في Canfield, Bruin, and Wong-Parodi (2016) السلوك ، وليس السلوك الفعلي. ما نقاط القوة والضعف في هذا النوع من الدراسة في برنامج بحثي أوسع يروج لفورات الطاقة؟
[ ، قدم Smith and Pell (2003) تحليلاً تلخيصًا سخيًا للدراسات التي تُظهِر فعالية المظلات. خلصوا:
"كما هو الحال مع العديد من التدخلات الرامية إلى الوقاية من اعتلال الصحة ، فإن فعالية المظلات لم تخضع لتقييم دقيق باستخدام التجارب المعشاة ذات الشواهد. انتقد المدافعون عن الطب القائم على الأدلة اعتماد التدخلات التي تم تقييمها باستخدام بيانات الرصد فقط. نعتقد أن الجميع قد يستفيدون إذا نظمت أكثر الشخصيات الراديكالية في الطب القائم على الأدلة وشاركت في تجربة عشوائية مزدوجة التعمية ، خاضعة للتحكم في الغفل ، وهميّة متقاطعة.
اكتب مقالة افتتاحية مناسبة لصحيفة عامة للقراء ، مثل صحيفة نيويورك تايمز ، مجادلة ضد إيذاء الدليل التجريبي. تقديم أمثلة محددة وملموسة. تلميح: انظر أيضاً Deaton (2010) و Bothwell et al. (2016) .
[ ، ، يمكن أن يكون مقرر الفروق في الاختلاف من تأثير العلاج أكثر دقة من مقدرات الاختلاف في المتوسط. اكتب مذكرة لمهندس مسؤول عن اختبار A / B في شركة ناشئة لوسائل الإعلام الاجتماعية تشرح قيمة نهج الاختلاف في الاختلافات لتشغيل تجربة عبر الإنترنت. يجب أن تشتمل المذكرة على بيان للمشكلة ، بعض الحدس حول الشروط التي بموجبها يتفوق مقدر الفرق في الاختلاف على مقدر الاختلاف في المتوسط ، ودراسة محاكاة بسيطة.
[ ، كان غاري لوفمان أستاذا في كلية هارفارد للأعمال قبل أن يصبح المدير التنفيذي لشركة هارا ، واحدة من أكبر شركات الكازينو في العالم. عندما انتقل إلى فيلم Harrah's ، حوّل Loveman الشركة ببرنامج ولاء متكرر الولاء ، والذي جمع كميات هائلة من البيانات حول سلوك العملاء. علاوة على نظام القياس دائمًا ، بدأت الشركة في تشغيل التجارب. على سبيل المثال ، قد يجرون تجربة لتقييم تأثير قسيمة لليلة مجانية للعملاء الذين لديهم نمط مقامرة محدد. في ما يلي وصف لوفمان لأهمية التجريب لممارسات الأعمال اليومية في هاره:
"الأمر كما لو أنك لا تضايق المرأة ، فأنت لا تسرق ، ويجب أن يكون لديك مجموعة مراقبة. هذا هو أحد الأشياء التي قد تفقد وظيفتك في Harrah's - لا تدير مجموعة تحكم. (Manzi 2012, 146)
اكتب بريدًا إلكترونيًا إلى موظف جديد يشرح لماذا يعتقد Loveman أنه من المهم جدًا أن يكون لديك مجموعة مراقبة. يجب أن تحاول تضمين مثال - حقيقي أو مكون - لتوضيح وجهة نظرك.
[ ، ] تهدف تجربة جديدة لتقدير أثر تلقي رسائل تذكير الرسائل النصية على امتصاص التطعيم. مائة وخمسين عيادة ، لكل منها 600 مريض مؤهل ، على استعداد للمشاركة. هناك تكلفة ثابتة قدرها 100 دولار لكل عيادة تريد العمل بها ، وتكلفة 1 دولار لكل رسالة نصية تريد إرسالها. علاوة على ذلك ، فإن أي عيادات تعمل معها ستقيس النتيجة (سواءً تلقّى أحدهم التطعيم) مجاناً. افترض أن لديك ميزانية قدرها 1000 دولار.
[ ، ] هناك مشكلة رئيسية في الدورات على الإنترنت هي الاستنزاف: العديد من الطلاب الذين يبدأون في إنهاء الدورات الدراسية. تخيل أنك تعمل على منصة تعلم عبر الإنترنت ، وأن مصممًا في النظام الأساسي قد أنشأ شريطًا مرئيًا للتقدم الذي تعتقد أنه سيساعد في منع الطلاب من الخروج من الدورة التدريبية. تريد اختبار تأثير شريط التقدم على الطلاب في دورة علمية حسابية كبيرة. بعد معالجة أية مشكلات أخلاقية قد تنشأ في التجربة ، تشعر أنت وزملاؤك بالقلق من أن الدورة قد لا تحتوي على عدد كافٍ من الطلاب لكشف آثار شريط التقدم بشكل موثوق به. في الحسابات التالية ، يمكنك افتراض أن نصف الطلاب سيحصلون على شريط التقدم والنصف الآخر لا. علاوة على ذلك ، يمكنك أن تفترض أنه لا يوجد أي تدخل. وبعبارة أخرى ، يمكنك أن تفترض أن المشاركين لا يتأثرون إلا بما إذا كانوا يتلقون العلاج أو السيطرة ؛ لا تتأثر بما إذا كان الأشخاص الآخرون يتلقون العلاج أو السيطرة (للحصول على تعريف أكثر رسمية ، انظر الفصل 8 من Gerber and Green (2012) ). تتبع أي افتراضات إضافية تقوم بها.
[ ، ، تخيل أنك تعمل كعالم بيانات في شركة تكنولوجيا. يطلب شخص من قسم التسويق مساعدتك في تقييم تجربة يخططون لها لقياس عائد الاستثمار (ROI) لحملة إعلانية جديدة عبر الإنترنت. يُعرّف عائد الاستثمار على أنه الربح الصافي من الحملة مقسومًا على تكلفة الحملة. على سبيل المثال ، الحملة التي ليس لها أي تأثير على المبيعات سيكون لها عائد استثمار بنسبة -100٪ ؛ الحملة التي يكون فيها الأرباح المتولدة مساوية للتكاليف سيكون لها عائد استثمار قدره 0 ؛ وحملة الأرباح التي تم توليدها كانت ضعف التكلفة التي سيكون لها عائد استثمار بنسبة 200٪.
قبل إطلاق التجربة ، يزودك قسم التسويق بالمعلومات التالية استنادًا إلى أبحاثه السابقة (في الواقع ، هذه القيم نموذجية للحملات الإعلانية الحقيقية عبر الإنترنت التي تم الإبلاغ عنها في Lewis and Rao (2015) ):
اكتب مذكرة تقيم هذه التجربة المقترحة. يجب أن تستخدم مذكرتك دليلًا من محاكاة تقوم بإنشائها ، ويجب أن تتناول مشكلتين رئيسيتين: (1) هل تنصح بإطلاق هذه التجربة كما هو مخطط لها؟ إذا كان الأمر كذلك لماذا؟ إذا لم يكن كذلك ، فلماذا لا؟ تأكد من توضيح المعايير التي تستخدمها لاتخاذ هذا القرار. (2) ما حجم العينة الذي ستوصي به لهذه التجربة؟ مرة أخرى ، يرجى التأكد من توضيح المعايير التي تستخدمها لاتخاذ هذا القرار.
ستتناول مذكرة جيدة هذه الحالة المحددة ؛ سيتم تعميم مذكرة أفضل من هذه الحالة بطريقة واحدة (على سبيل المثال ، إظهار كيفية تغيير القرار كدالة لحجم تأثير الحملة) ؛ وستقدم مذكرة رائعة نتيجة عامة بشكل كامل. يجب أن تستخدم مذكرتك الرسوم البيانية للمساعدة في توضيح نتائجك.
هنا تلميحان. أولاً ، قد يكون قسم التسويق قد زودك ببعض المعلومات غير الضرورية ، وقد يكون قد فشل في تزويدك ببعض المعلومات الضرورية. ثانيًا ، إذا كنت تستخدم R ، فكن على دراية بأن الدالة rlnorm () لا تعمل بالطريقة التي يتوقعها العديد من الأشخاص.
سيعطيك هذا النشاط التدريب على تحليل الطاقة ، وإنشاء عمليات المحاكاة ، وإيصال نتائجك بالكلمات والرسوم البيانية. يجب أن تساعدك على إجراء تحليل الطاقة لأي نوع من التجارب ، وليس فقط التجارب المصممة لتقدير عائد الاستثمار. يفترض هذا النشاط أن لديك بعض الخبرة في الاختبار الإحصائي وتحليل الطاقة. إذا لم تكن على دراية بتحليل الطاقة ، فإنني أوصي بأن تقرأ "A Primer Primer" من قبل Cohen (1992) .
تم استلهام هذا النشاط من خلال ورقة جميلة كتبها RA Lewis and Rao (2015) ، والتي توضح بشكل واضح وجود قيود إحصائية أساسية حتى للتجارب الضخمة. تعرض الصحيفة - التي كانت في الأصل العنوان الاستفزازي "حول إمكانية استحالة قياس العائد إلى الإعلان" - مدى صعوبة قياس عائد الاستثمار للإعلانات عبر الإنترنت ، حتى مع التجارب الرقمية التي شملت ملايين العملاء. بشكل عام ، يوضح RA Lewis and Rao (2015) حقيقة إحصائية أساسية ذات أهمية خاصة بالنسبة لتجارب العصر الرقمي: من الصعب تقدير آثار معالجة صغيرة في خضم بيانات النتائج الصاخبة.
[ ، ] افعل نفس السؤال السابق ، ولكن بدلاً من المحاكاة ، يجب عليك استخدام النتائج التحليلية.
[ ، ، ] افعل نفس السؤال السابق ، ولكن استخدم كل من المحاكاة والنتائج التحليلية.
[ ، ، تخيل أنك كتبت المذكرة الموضحة أعلاه ، وأن شخصًا من قسم التسويق يقدم معلومات واحدة جديدة: إنه يتوقع 0.4 علاقة متبادلة بين المبيعات قبل التجربة وبعدها. كيف يقوم هذا بتغيير التوصيات في المذكرة الخاصة بك؟ (تلميح: انظر القسم 4.6.2 لمعرفة المزيد عن مقدر اختلاف الوسائل ومقدار الاختلاف في الاختلافات.)
[ ، من أجل تقييم فعالية برنامج جديد للمساعدة في التوظيف على شبكة الإنترنت ، أجرت جامعة تجربة عشوائية للتحكم بين 10 آلاف طالب يدخلون السنة النهائية من دراستهم. تم إرسال اشتراك مجاني مع معلومات تسجيل دخول فريدة من خلال دعوة بريد إلكتروني حصرية إلى 5000 من الطلاب الذين تم اختيارهم عشوائياً ، في حين أن 5،000 طالب آخرين كانوا في المجموعة الضابطة ولم يكن لديهم اشتراك. بعد اثني عشر شهرًا ، أظهر مسح متابعة (بدون عدم استجابة) أنه في كل من مجموعة العلاج والسيطرة ، حصل 70٪ من الطلاب على وظيفة بدوام كامل في مجالهم المختار (الجدول 4.6). وبالتالي ، يبدو أن الخدمة المستندة إلى الويب لم يكن لها أي تأثير.
ومع ذلك ، نظر عالِم البيانات الذكي في الجامعة إلى البيانات عن كثب أكثر ووجد أن 20٪ فقط من الطلاب في مجموعة العلاج قد قاموا بتسجيل الدخول إلى الحساب بعد تلقي البريد الإلكتروني. علاوة على ذلك ، ومما يثير الدهشة إلى حد ما ، أن 60٪ منهم فقط من بين الذين سجلوا الدخول إلى الموقع الإلكتروني ، قد حصلوا على عمل بدوام كامل في مجالهم المختار ، وهو أقل من معدل الأشخاص الذين لم يسجلوا الدخول وأقل من معدل الأشخاص. في حالة التحكم (الجدول 4.7).
تلميح: يتجاوز هذا السؤال المواد التي يغطيها هذا الفصل ، ولكنه يتناول المشكلات الشائعة في التجارب. يسمى هذا النوع من التصميم التجريبي أحيانًا بتصميم التشجيع ، حيث يتم تشجيع المشاركين على المشاركة في العلاج. هذه المشكلة هي مثال على ما يسمى عدم الالتزام من جانب واحد (انظر الفصل 5 من Gerber and Green (2012) ).
[ ] بعد الفحص الإضافي ، اتضح أن التجربة الموصوفة في السؤال السابق كانت أكثر تعقيدًا. وتبين أن 10٪ من الأشخاص في المجموعة الضابطة دفعوا مقابل الحصول على الخدمة ، وانتهى الأمر بمعدل توظيف قدره 65٪ (الجدول 4.8).
تلميح: يتجاوز هذا السؤال المواد التي يغطيها هذا الفصل ، ولكنه يتناول المشكلات الشائعة في التجارب. هذه المشكلة هي مثال على ما يسمى عدم الالتزام على الوجهين (انظر الفصل 6 من Gerber and Green (2012) ).
مجموعة | بحجم | معدل التوظيف |
---|---|---|
منح الوصول إلى موقع الويب | 5000 | 70٪ |
لا يمنح الوصول إلى الموقع | 5000 | 70٪ |
مجموعة | بحجم | معدل التوظيف |
---|---|---|
منح الوصول إلى موقع الويب وتسجيل الدخول | 1000 | 60٪ |
منح الوصول إلى موقع الويب وعدم تسجيل الدخول | 4000 | 72.5٪ |
لا يمنح الوصول إلى الموقع | 5000 | 70٪ |
مجموعة | بحجم | معدل التوظيف |
---|---|---|
منح الوصول إلى موقع الويب وتسجيل الدخول | 1000 | 60٪ |
منح الوصول إلى موقع الويب وعدم تسجيل الدخول | 4000 | 72.5٪ |
لا يمنح الوصول إلى موقع الويب ودفع ثمنها | 500 | 65٪ |
لم يتم منحه حق الوصول إلى موقع الويب ولم يدفع مقابل ذلك | 4500 | 70.56٪ |