مفتاح:
[ ، ] Berinsky وزملاؤه (2012) تقييم الترك الميكانيكية في جزء من تكرار التجارب الثلاث الكلاسيكية. تكرار الآسيوية تجربة مرض تأطير الكلاسيكية التي Tversky and Kahneman (1981) . هل مباراة نتائجك تفيرسكي وكانيمان و؟ هل مباراة نتائجك Berinsky والزملاء في العمل؟ ماذا لو أي شيء، هل هذا يعلمنا حول استخدام الترك الميكانيكية للتجارب المسح؟
[ ، ] وفي ورقة نوعا ما اللسان في خده تحت عنوان "لدينا لتفريق"، وعلم النفس الاجتماعي روبرت Cialdini، أحد واضعي Schultz et al. (2007) ، وكتب انه سيعتزل في وقت مبكر من عمله كأستاذ، وذلك جزئيا بسبب التحديات التي يواجهها القيام بتجارب ميدانية في تخصص (علم النفس) التي تقوم أساسا التجارب المعملية (Cialdini 2009) . قراءة ورقة Cialdini، والكتابة له رسالة بالبريد الالكتروني لحثه على إعادة النظر له تفكك في ضوء الاحتمالات من التجارب الرقمية. استخدام أمثلة محددة من البحوث التي تعالج مخاوفه.
[ ] من أجل تحديد ما إذا كانت النجاحات الأولية صغيرة قفل في أو تتلاشى، فان دي Rijt ووزملاؤه (2014) تدخل إلى أربعة أنظمة مختلفة منح النجاح على المشاركين تم اختيارهم عشوائيا، ومن ثم قياس الآثار طويلة الأجل لهذا النجاح التعسفي. يمكنك التفكير في الأنظمة الأخرى التي يمكن إجراء تجارب مماثلة؟ تقييم هذه الأنظمة من حيث القضايا ذات قيمة علمية، الخلط حسابي (انظر الفصل 2)، والأخلاق.
[ ، ] نتائج تجربة يمكن أن تعتمد على المشاركين. إنشاء تجربة ومن ثم تشغيله على الأمازون الترك الميكانيكية (MTurk) باستخدام اثنين من استراتيجيات التوظيف المختلفة. محاولة لاختيار استراتيجيات التجربة والتوظيف بحيث ستكون النتائج مختلفة قدر الإمكان. على سبيل المثال، يمكن أن استراتيجيات التوظيف الخاص بك سيكون لتجنيد المشاركين في الصباح والمساء أو لتعويض المشاركين مع رواتب مرتفعة ومنخفضة. هذه الأنواع من الاختلافات في استراتيجية التوظيف يمكن أن يؤدي إلى تجمعات مختلفة من المشاركين والنتائج التجريبية المختلفة. كيف تختلف لم نتائجك تتحول؟ ماذا يعني أن تكشف عن إجراء التجارب على MTurk؟
[ ، ، ، ] تخيل أنك كانوا يخططون للدراسة العدوى العاطفية (Kramer, Guillory, and Hancock 2014) . استخدام النتائج من دراسة وصفية في وقت سابق من قبل Kramer (2012) لتحديد عدد المشاركين في كل حالة. هاتين الدراستين لا تتطابق تماما لذلك تأكد من قائمة صراحة جميع الافتراضات التي تقوم بها:
[ ، ، ، ] الإجابة على السؤال أعلاه، ولكن بدلا من استخدام دراسة وصفية في وقت سابق من قبل Kramer (2012) استخدام النتائج من تجربة طبيعية في وقت سابق من قبل Coviello et al. (2014) .
[ ] كلا Rijt et al. (2014) و Margetts et al. (2011) كل من إجراء تجارب أن دراسة عملية من الناس التوقيع على عريضة. مقارنة وتصميم ونتائج هذه الدراسات.
[ ] Dwyer, Maki, and Rothman (2015) التي أجريت تجربتين ميدانية حول العلاقة بين القواعد الاجتماعية والسلوك proenvironmental. وفيما يلي ملخص للورقتهم:
"كيف يمكن استخدام العلم النفسي لتشجيع السلوك proenvironmental؟ في دراستين، والتدخلات التي تهدف إلى تعزيز السلوك الحفاظ على الطاقة في الحمامات العامة فحصت تأثيرات المعايير الوصفية والمسؤولية الشخصية. في الدراسات 1، تم التلاعب في ضوء الوضع (أي، أو إيقاف تشغيله) قبل ان يدخل شخص ما الحمام العام غير مأهولة، مما يدل على أن القاعدة وصفية لهذا الإعداد. وكان المشاركون أكثر احتمالا كبيرا لتحويل الأنوار إذا كانوا خارج عندما دخلوا. في الدراسات 2، أدرج شرطا إضافيا في الأمر الذي أثبتته القاعدة من إطفاء النور قبل معاهدا، ولكن المشاركين لم أنفسهم مسؤولة عن تشغيله. المسؤولية الشخصية معتدلا تأثير الأعراف الاجتماعية على السلوك. عندما كان المشاركون يست مسؤولة عن تشغيل ضوء، تضاءل نفوذ القاعدة. وتشير هذه النتائج كيف المعايير والمسؤولية الشخصية وصفي يمكن أن تنظم فعالية التدخلات proenvironmental ".
قراءة ورقة وتصميم تكرار الدراسة 1.
[ ، ] وبناء على السؤال السابق، حمل الآن من التصميم الخاص بك.
[ ] لقد كان هناك نقاش كبير حول التجارب باستخدام المشاركين المعينين من الأمازون الترك الميكانيكية. في موازاة ذلك، كان هناك أيضا مناقشة كبيرة حول التجارب باستخدام المشاركين المعينين من السكان الطالب الجامعي. إرسال مذكرة من صفحتين مقارنة والمتناقضة Turkers والطلاب الجامعيين كمشاركين الباحثين. وينبغي أن تتضمن المقارنة الخاصة بك مناقشة كل القضايا العلمية واللوجستية.
[ غير المنضبط كتاب] جيم مانزي في (2012) هو مقدمة رائعة في قوة التجريب في مجال الأعمال التجارية. في الكتاب الذي نقلت هذه القصة:
وقال "كنت مرة واحدة في لقاء مع عبقري الأعمال الحقيقية، وهو ملياردير عصامي الذي كان له عميق، تتفهم بديهية من قوة التجارب. أنفقت شركته موارد كبيرة في محاولة لخلق عظيم يعرض نافذة مخزن التي من شأنها جذب المستهلكين ومبيعات الزيادات، كما قالت الحكمة التقليدية ينبغي. خبراء اختبارها بعناية التصميم بعد التصميم، وفي جلسات المراجعة اختبار الفردية على مدى سنوات خلت ولم تظهر أي تأثير مسبب كبير من كل تصميم العرض الجديد على المبيعات. التقى كبار المسؤولين التنفيذيين التسويق والترويج مع الرئيس التنفيذي لمراجعة هذه نتائج الاختبار التاريخية جملة وتفصيلا. بعد تقديم كافة البيانات التجريبية، وخلصوا إلى أن الحكمة التقليدية كانت تعرض الخطأ التي نافذة لا تدفع المبيعات. كان العمل الموصى بها للحد من التكاليف والجهد في هذا المجال. هذا أثبت بشكل كبير من قدرة التجريب لقلب الحكمة التقليدية. وكان رد الرئيس التنفيذي بسيطة: "استنتاجي هو أن مصممي الخاص بك ليست جيدة جدا". وكان الحل له لزيادة الجهد في تصميم متجر العرض، والحصول على أشخاص جدد للقيام بذلك. " (Manzi 2012, 158–9)
أي نوع من صحة هو مصدر القلق الرئيس التنفيذي؟
[ ] وبناء على السؤال السابق، تخيل أنك كنت في الاجتماع حيث تمت مناقشة نتائج التجارب. ما هي الأسئلة الأربعة التي يمكن أن تسأل، واحد لكل نوع من صلاحية (الإحصائية وبناء والداخلي، والخارجي)؟
[ ] Bernedo, Ferraro, and Price (2014) بدراسة تأثير سبع سنوات من التدخل لتوفير المياه وصفها في Ferraro, Miranda, and Price (2011) (انظر الشكل 4.10). في هذه الورقة، بيرنيدو وزملاؤه أيضا تسعى إلى فهم آلية وراء تأثير بمقارنة سلوك الأسر التي لديها ولم تتحرك بعد أن تم تسليم المعاملة. وهذا هو، تقريبا، أنها محاولة لمعرفة ما إذا كان العلاج أثرت في المنزل أو في المنزل.
[ ] في متابعة Schultz et al. (2007) ، شولتز وزملاؤها بإجراء سلسلة من ثلاث تجارب على تأثير المعايير الوصفية وقضائية على السلوك البيئي مختلفة (منشفة إعادة الاستخدام) في سياقين (فندق وعمارات المشاركة بالوقت) (Schultz, Khazian, and Zaleski 2008) .
[ ] وردا على Schultz et al. (2007) ، Canfield, Bruin, and Wong-Parodi (2016) يدير سلسلة من التجارب مثل مختبر لدراسة تصميم فواتير الكهرباء. وإليك كيف أصف ذلك في الملخص:
"وفي التجربة القائمة على المسح، وشهد كل مشارك فاتورة الكهرباء افتراضية لأسرة مع استخدام الكهرباء مرتفعة نسبيا، ويشمل معلومات عن (أ) الاستخدام التاريخي، (ب) المقارنات إلى الدول المجاورة، و (ج) الاستخدام التاريخي مع انهيار الجهاز. ورأى المشاركون جميع أنواع المعلومات في واحدة من ثلاثة أشكال منها: (أ) طاولات، (ب) الرسوم البيانية، و (ج) الرسوم البيانية رمز. نحن تقريرا عن ثلاثة النتائج الرئيسية. أولا، المستهلكين فهم كل نوع من المعلومات استخدام الكهرباء أكثر عندما تم تقديمه في جدول، ربما لأن الجداول تسهل القراءة نقطة بسيطة. ثانيا، كانت تفضيلات والنوايا لتوفير الكهرباء الأقوى لاستخدام المعلومات التاريخية، بغض النظر عن الشكل. ثالثا، الأفراد مع انخفاض محو الأمية الطاقة فهم جميع المعلومات أقل ".
خلافا لغيرها من الدراسات المتابعة، والنتيجة الرئيسية التي تهم في Canfield, Bruin, and Wong-Parodi (2016) وذكرت السلوك ليس سلوك الفعلي. ما هي نقاط القوة والضعف في هذا النوع من الدراسة في برنامج أبحاث أوسع تعزيز وفورات في الطاقة؟
[ ، ] Smith and Pell (2003) هو التحليل التلوي الساخرة من الدراسات تثبت فعالية المظلات. وخلص الباحثون:
"كما هو الحال مع العديد من التدخلات تهدف إلى منع اعتلال الصحة، ولم يتعرض فعالية مظلات لتقييم دقيق باستخدام تجارب عشوائية محكومة. وانتقد دعاة بالطب المبني على البراهين اعتماد تدخلات تقييمها باستخدام البيانات فقط على الملاحظة. ونحن نعتقد أن الجميع قد تستفيد إذا كان الأنصار الأكثر راديكالية من بالطب المبني على البراهين نظمت وشاركت في مزدوجة الأعمى، والعشوائية، وهمي تسيطر عليها، والمحاكمة كروس من المظلة ".
كتابة افتتاحية مناسبة لقراءة الصحف العامة، مثل صحيفة نيويورك تايمز، معتبرة ضد fetishization من الأدلة التجريبية. أمثلة محددة وملموسة. تلميح: انظر أيضا، Bothwell et al. (2016) و Deaton (2010)
[ ، ، ] الفرق في الخلافات المقدرات من تأثير العلاج يمكن أن يكون أكثر دقة من المقدرات الفرق في وسيلة. إرسال مذكرة إلى المهندس المسؤول عن إختبار أ / ب في شركة وسائل الإعلام الاجتماعية لبدء موضحا قيمة نهج الفرق في الخلافات لتشغيل تجربة على الانترنت. وينبغي أن تتضمن المذكرة بيان للمشكلة، بعض الحدس حول الظروف التي مقدر الفرق في الاختلاف سوف يتفوق على مقدر الفرق في وسيلة، ودراسة محاكاة بسيطة.
[ ، و] غاري Loveman الأستاذ في كلية هارفارد للأعمال قبل أن يصبح الرئيس التنفيذي لشركة العقل، واحدة من أكبر الشركات كازينو في العالم. عندما انتقل الى العقل، تحولت Loveman الشركة مع برنامج ولاء مثل معتادى التي جمعت كميات هائلة من البيانات حول سلوك العملاء. على رأس هذا النظام قياس دائما على، بدأت الشركة تشغيل التجارب. على سبيل المثال، لأنها قد تشغيل تجربة لتقييم تأثير قسيمة ليلة فندق مجانية لعملاء مع نمط لعب القمار محددة. وهنا كيف وصف Loveman على أهمية التجريب على الممارسات التجارية اليومية هارا:
"انها مثل كنت لا يتحرشون بالنساء، لا تسرق، وكنت قد حصلت على أن يكون مجموعة مراقبة. هذا هو واحد من الأشياء التي يمكنك أن تفقد وظيفتك لفي Harrah's-عدم تشغيل المجموعة الضابطة. " (Manzi 2012, 146)
إرسال بريد إلكتروني إلى موظف جديد شرح لماذا يعتقد Loveman من المهم جدا أن تكون هناك مجموعة السيطرة. عليك أن تحاول لتشمل سبيل المثال، إما حقيقي أو تتكون لتوضيح وجهة نظرك.
[ ، ] تجربة جديدة تهدف إلى تقدير أثر تلقي التذكير رسالة نصية على امتصاص التطعيم. 150 عيادة، ولكل منها 600 المرضى المؤهلين، على استعداد للمشاركة. هناك تكلفة ثابتة من 100 دولار لكل عيادة تريد العمل معه، وأنه يكلف 1 دولار لكل اليكم نص الرسالة التي تريد إرسالها. وعلاوة على ذلك، فإن أي العيادات التي كنت تعمل مع قياس النتيجة (ما إذا كان شخص تلقى التطعيم) مجانا. نفترض أن لديك ميزانية 1000 دولار.
[ ، ] وثمة مشكلة رئيسية مع الدورات على الانترنت هو الاستنزاف. العديد من الطلاب أن تبدأ الدورات في نهاية المطاف إسقاط المغادرة. تخيل أنك تعمل في منصة التعلم عبر الإنترنت، ومصمم على منصة خلقت شريط التقدم البصرية التي تفكر سيساعد على منع الطلبة من التسرب من الدورة. تريد اختبار تأثير شريط التقدم على الطلاب في دورة العلوم الاجتماعية كبير الحسابية. بعد معالجة أي قضايا الأخلاقية التي قد تنشأ في التجربة، أنت وزملائك الحصول بالقلق من أن الدورة قد لا يكون كافيا للطلاب لاكتشاف موثوق آثار شريط التقدم. في الحسابات أدناه يمكنك أن تفترض أن نصف الطلاب سيحصلون على شريط التقدم ونصف لا. وعلاوة على ذلك، يمكن أن نفترض أن هناك أي تدخل. وبعبارة أخرى، يمكن أن نفترض أن المشاركين تتأثر فقط بما إذا تلقوا العلاج أو السيطرة؛ لا تنفذ من قبل ما إذا كان الناس الآخرين تلقي العلاج أو التحكم (لتعريف أكثر رسمية، انظر Gerber and Green (2012) ، الفصل 8). يرجى تتبع أي افتراضات الإضافية التي تقوم بها.
[ ، ] وفي ورقة جميلة، Lewis and Rao (2015) توضيح بشكل واضح وجود قيود الإحصائي الأساسي من التجارب حتى ضخمة. ورقة والتي كان في الأصل عنوان استفزازي "على شبه استحالة قياس العودة إلى الإعلان" -shows مدى صعوبة قياس العائد على الاستثمار من الإعلانات عبر الإنترنت، حتى مع التجارب الرقمية تنطوي على الملايين من العملاء. أكثر عموما، ورقة يبين بوضوح أنه من الصعب تقدير تأثير العلاج صغير وسط البيانات نتيجة صاخبة. أو ذكر diffently، وتبين الصحيفة أن آثار العلاج المقدرة سيكون فترات ثقة كبيرة عندما المعايير الانحراف تأثير إلى (\ (\ فارك {\ دلتا \ شريط {ص}} {\ سيغما} \)) نسبة صغيرة. الدرس العام المهم من هذه الورقة هو أن النتائج من التجارب مع الصغيرة نسبة التأثير إلى المعايير الانحراف (على سبيل المثال، العائد على الاستثمار من خلال الحملات الإعلانية) ستكون غير مرضية. والتحدي الخاص بك سيكون لكتابة مذكرة لشخص في قسم التسويق لشركتك evaluting تجربة التخطيط لقياس العائد على الاستثمار من حملة إعلانية. وينبغي دعم المذكرة الخاصة بك مع الرسوم البيانية من نتائج المحاكاة الحاسوبية.
وفيما يلي بعض المعلومات الأساسية التي قد تحتاج إليها. كل هذه القيم العددية هي نموذجية من التجارب الحقيقية التي أعلن عنها في Lewis and Rao (2015) :
العائد على الاستثمار، مقياس رئيسي للحملات الإعلانية على الإنترنت، يتم تعريف ليكون صافي الربح من حملة (الربح الإجمالي من تكلفة حملة ناقص من حملة) مقسوما على تكلفة الحملة. على سبيل المثال الحملة التي لم يكن لها تأثير على المبيعات سيكون لها عائد استثمار -100٪ وحملة حيث كانت الأرباح الناتجة تساوي التكاليف سيكون له العائد على الاستثمار 0.
مبيعات متوسط للعميل الواحد هو 7 $ مع انحراف معياري من 75 $.
ومن المتوقع أن تزيد المبيعات بنسبة 0.35 $ لكل عميل والتي تتطابق مع زيادة في الربح من 0.175 $ لكل عميل الحملة. وبعبارة أخرى، فإن هامش الربح هو 50٪.
حجم المخطط لها من التجربة هو 200،000 شخصا، نصفهم في مجموعة العلاج ونصف في السيطرة على المجموعة.
تكلفة الحملة هي 0.14 $ لكل مشارك.
إرسال مذكرة evaluting هذه التجربة. تنصحين إطلاق هذه التجربة كما هو مخطط لها؟ إذا كان الأمر كذلك، لماذا؟ إذا لم يكن كذلك، ما هي التغييرات التي تنصحين؟
وهناك مذكرة جيدة معالجة هذه الحالة المحددة. ومذكرة أفضل تعميم من هذه الحالة في اتجاه واحد (على سبيل المثال، تظهر كيف يتغير القرار بوصفها وظيفة من نسبة التأثير إلى المعايير الانحراف)؛ ومذكرة كبيرة ستقدم نتيجة معممة بشكل كامل.
[ ، ] هل نفس السؤال السابق، ولكن بدلا من محاكاة يجب عليك استخدام النتائج التحليلية.
[ ، ، ] هل نفس السؤال السابق، ولكن استخدام كل من المحاكاة والنتائج التحليلية.
[ ، ، ] تخيل أنك قد كتبت المذكرة المذكورة أعلاه باستخدام إما محاكاة، والنتائج التحليلية، أو على حد سواء، وشخص من قسم التسويق توصي باستخدام مقدر الفرق في الخلافات بدلا من الاختلاف في الوسائل مقدر (انظر القسم 4.6.2) . إرسال مذكرة أقصر جديدة شرح كيفية ارتباط 0.4 بين المبيعات قبل التجربة والمبيعات بعد التجربة يمكن ان يغير استنتاجك.
[ ، ] من أجل تقييم فعالية خدمة جديدة مهنة على شبكة الإنترنت، قام مكتب الخدمات الجامعية المهنية محاكمة مراقبة عشوائية بين 10،000 طالب دخول السنة النهائية من المدرسة. وأرسلت اشتراك مجاني بمعلومات سجل في فريدة من نوعها من خلال دعوة بالبريد الإلكتروني الحصري ل5000 من الطلاب الذين تم اختيارهم عشوائيا، في حين أن 5000 طلاب آخرين هم في السيطرة على المجموعة وليس لديهم اشتراك. بعد اثني عشر شهرا، مسح المتابعة (مع عدم وجود عدم الاستجابة) أن في كل من العلاج والسيطرة المجموعات، و 70٪ من الطلاب قد حصلنا على وظيفة بدوام كامل في الحقل الذي اختاروه (الجدول 4.5). وهكذا، يبدو أن الخدمة على شبكة الإنترنت لم يكن لها تأثير.
ومع ذلك، وهو عالم بيانات ذكية في الجامعة نظرت إلى البيانات أكثر قليلا عن كثب وجدت أن 20٪ فقط من الطلاب في مجموعة العلاج تسجيل من أي وقت مضى في الحساب بعد تلقي البريد الإلكتروني. وعلاوة على ذلك، وإلى حد ما يثير الدهشة، بين أولئك الذين قاموا بتسجيل الدخول في الموقع فقط 60٪ قد أمنت فرص العمل بدوام كامل في الحقل الذي اختاروه، والذي كان أقل من معدل للشعب الذي لم تقم بتسجيل الدخول وأقل من معدل للناس في في حالة التحكم (الجدول 4.6).
تلميح: هذا السؤال يتجاوز المواد التي تم تناولها في هذا الفصل، ولكن يتناول القضايا المشتركة في التجارب. هذا النوع من التصميم التجريبي والتي تسمى أحيانا تصميم التشجيع لأنه يتم تشجيع المشاركين على الانخراط في العلاج. هذه المشكلة هي مثال على ما يسمى من جانب واحد عدم الامتثال (انظر Gerber and Green (2012) ، الفصل 5)
[ ] وبعد مزيد من الدراسة، اتضح أن التجربة موضح في السؤال السابق كانت أكثر تعقيدا. وتبين أن 10٪ من الناس في السيطرة على المجموعة دفعت من أجل الوصول إلى الخدمة، وأنها انتهت مع معدل العمالة من 65٪ (الجدول 4.7).
تلميح: هذا السؤال يتجاوز المواد التي تم تناولها في هذا الفصل، ولكن يتناول القضايا المشتركة في التجارب. هذه المشكلة هي مثال على ما يسمى اثنين من جانب وعدم الامتثال (انظر Gerber and Green (2012) ، الفصل 6)
تجمع | حجم | معدل العمالة |
---|---|---|
منح الوصول إلى موقع الويب | 5000 | 70٪ |
لم يمنح الوصول إلى موقع الويب | 5000 | 70٪ |
تجمع | حجم | معدل العمالة |
---|---|---|
منح الوصول إلى موقع الويب والدخول في | 1000 | 60٪ |
منح الوصول إلى الموقع وأبدا دخولك | 4000 | 85٪ |
لم يمنح الوصول إلى موقع الويب | 5000 | 70٪ |
تجمع | حجم | معدل العمالة |
---|---|---|
منح الوصول إلى موقع الويب والدخول في | 1000 | 60٪ |
منح الوصول إلى الموقع وأبدا دخولك | 4000 | 72.5٪ |
لم يمنح الوصول إلى الموقع ودفعت لذلك | 500 | 65٪ |
لم يمنح الوصول إلى الموقع ولم تدفع له | 4500 | 70.56٪ |