مزيد من التعليق

تم تصميم هذا القسم لاستخدامها كمرجع، بدلا من أن يكون نصها كما السرد.

  • مقدمة (القسم 4.1)

أسئلة حول العلاقة السببية في البحوث الاجتماعية غالبا ما تكون معقدة وصعبة. لنهج التأسيسية لالسببية تقوم على الرسوم البيانية السببية، انظر Pearl (2009) ، واتباع نهج التأسيسية على أساس النتائج المحتملة، انظر Imbens and Rubin (2015) (والملحق التقني في هذا الفصل). للمقارنة بين هذين النهجين، انظر Morgan and Winship (2014) . لنهج رسمي لتحديد المحير، انظر VanderWeele and Shpitser (2013) .

في هذا الفصل، وأنا خلقت ما بدا وكأنه خط مشرق بين قدرتنا على تقديم تقديرات السببية من البيانات التجريبية وغير التجربة. في الواقع، أعتقد أن هذا التمييز مشوشة. على سبيل المثال، كل من يقبل أن التدخين يسبب السرطان على الرغم من أننا لم تفعل تجربة عشوائية محكومة أن يجبر الناس على التدخين. لعلاج طول كتاب ممتازة على جعل تقديرات السببية من البيانات غير التجريبية نرى Rosenbaum (2002) ، Rosenbaum (2009) ، Shadish, Cook, and Campbell (2001) ، و Dunning (2012) .

الفصول 1 و 2 من Freedman, Pisani, and Purves (2007) توفر مقدمة واضحة إلى الخلافات بين التجارب، والتجارب التي تسيطر عليها، والعشوائية التجارب التي تسيطر عليها.

Manzi (2012) يوفر مقدمة رائعة ويمكن قراءتها في الأسس الفلسفية والإحصائية للتجارب عشوائية محكومة. كما يقدم أمثلة واقعية مثيرة للاهتمام من قوة التجريب في مجال الأعمال التجارية.

  • ما هي التجارب؟ (القسم 4.2)

Casella (2008) ، Box, Hunter, and Hunter (2005) ، Athey and Imbens (2016b) توفير مقدمات جيدة لالجوانب الإحصائية من التصميم التجريبي والتحليل. وعلاوة على ذلك، هناك علاجات ممتازة للاستخدام من التجارب في كثير من المجالات المختلفة: الاقتصاد (Bardsley et al. 2009) وعلم الاجتماع (Willer and Walker 2007; Jackson and Cox 2013) ، علم النفس (Aronson et al. 1989) ، والعلوم السياسية (Morton and Williams 2010) ، والسياسة الاجتماعية (Glennerster and Takavarasha 2013) .

أهمية توظيف مشارك (على سبيل المثال، أخذ العينات) في كثير من الأحيان تحت تقديره في البحوث التجريبية. ومع ذلك، إذا كان تأثير العلاج غير متجانس من السكان، ثم أخذ العينات أمر بالغ الأهمية. Longford (1999) يجعل هذه النقطة بوضوح عندما يدعو للباحثين تفكر في التجارب كما مسح سكاني مع أخذ العينات العشوائية.

  • بعدين من التجارب: مختبر الميدانية والتناظرية الرقمية (القسم 4.3)

الانقسام التي قدمت بين المختبر والتجارب الميدانية هو تبسيط بعض الشيء. في الواقع، وقد اقترح باحثون آخرون الأنماط أكثر تفصيلا، ولا سيما تلك التي تفصل بين أشكال مختلفة من التجارب الميدانية (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . وعلاوة على ذلك، هناك نوعان من أنواع أخرى من التجارب التي يقوم بها علماء الاجتماع التي لا تناسب تماما في المختبر والميدان الانقسام: تجارب الدراسة والتجارب الاجتماعية تجارب المسح والتجارب باستخدام البنية التحتية للعمليات المسح الحالية ومقارنة الردود على الإصدارات بديلة لل (يتم عرض بعض التجارب الدراسة في الفصل 3) نفس الأسئلة. لمعرفة المزيد عن تجارب المسح نرى Mutz (2011) . التجارب الاجتماعية هي التجارب حيث كان العلاج بعض السياسات الاجتماعية التي يمكن تنفيذها إلا من قبل الحكومة. ترتبط التجارب الاجتماعية ارتباطا وثيقا تقييم البرنامج. لمعرفة المزيد عن تجارب السياسة، انظر Orr (1998) ، Glennerster and Takavarasha (2013) ، و Heckman and Smith (1995) .

وقارن عدد من أوراق المختبر والتجارب الميدانية بصورة مجردة (Falk and Heckman 2009; Cialdini 2009) ومن حيث نتائج تجارب محددة في العلوم السياسية (Coppock and Green 2015) ، والاقتصاد (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) وعلم النفس (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) يوفر تصميم البحوث لطيفة لمقارنة النتائج من المختبر والتجارب الميدانية.

مخاوف بشأن المشاركين تغيير سلوكهم لأنهم يعرفون ما يجري لوحظ بشكل وثيق تسمى أحيانا آثار الطلب، والتي تم دراستها في علم النفس (Orne 1962) والاقتصاد (Zizzo 2009) . على الرغم من أن يرتبط في الغالب مع التجارب المعملية، ويمكن لهذه القضايا نفسها يسبب مشاكل للتجارب الحقل كذلك. في الواقع، كما دعا آثار الطلب في بعض الأحيان آثار هاوثورن، وهو مصطلح مستمد من التجربة الميدانية، وعلى وجه التحديد التجارب إضاءة الشهيرة التي بدأت في عام 1924 في اعمال هوثورن للشركة ويسترن إلكتريك (Adair 1984; Levitt and List 2011) . كلا آثار الطلب وآثار الزعرور ترتبط ارتباطا وثيقا بفكرة قياس رد الفعل مناقشتها في الفصل 2 (انظر أيضا Webb et al. (1966) ).

وقد وصفت تاريخ التجارب الميدانية في الاقتصاد (Levitt and List 2009) ، والعلوم السياسية (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) ، علم النفس (Shadish 2002) ، والسياسة العامة (Shadish and Cook 2009) . منطقة واحدة من العلوم الاجتماعية حيث التجارب الميدانية وسرعان ما أصبحت بارزة هي التنمية الدولية. لمراجعة إيجابية لهذا العمل ضمن الاقتصاد نرى Banerjee and Duflo (2009) ، ولتقييم نقدي نرى Deaton (2010) . لمراجعة هذا العمل في العلوم السياسية ترى Humphreys and Weinstein (2009) . وأخيرا، تم استكشاف التحديات الأخلاقية تشارك مع التجارب الميدانية في العلوم السياسية (Humphreys 2015; Desposato 2016b) واقتصاديات التنمية (Baele 2013) .

في هذا الفصل، وأنا اقترح أن المعلومات ما قبل المعالجة يمكن استخدامها لتحسين دقة آثار العلاج المقدرة، ولكن هناك بعض الجدل حول هذا النهج: Freedman (2008) ، Lin (2013) ، و Berk et al. (2013) . رؤية Bloniarz et al. (2016) لمزيد من المعلومات.

  • تجاوز تجارب بسيطة (القسم 4.4)

لقد اخترت التركيز على ثلاثة مفاهيم: الصلاحية، عدم تجانس آثار العلاج، والآليات. هذه المفاهيم لها أسماء مختلفة في مجالات مختلفة. على سبيل المثال، يميل علماء النفس لتجاوز تجارب بسيطة من خلال التركيز على الوسطاء والمشرفين (Baron and Kenny 1986) . يتم التقاط فكرة الوسطاء من قبل ما أسميه الآليات، ويتم التقاط فكرة المشرفين عن طريق ما أسميه صحة الخارجية (على سبيل المثال، فإن نتائج التجربة تكون مختلفة إذا تم تشغيله في حالات مختلفة) وتجانس آثار العلاج ( على سبيل المثال، هي الآثار أكبر بالنسبة لبعض الناس من الآخرين).

تجربة Schultz et al. (2007) يدل على مدى النظريات الاجتماعية يمكن استخدامها لتصميم التدخلات الفعالة. لحجة أكثر عمومية حول دور النظرية في تصميم التدخلات الفعالة، انظر Walton (2014) .

  • صحة (القسم 4.4.1)

وأدخلت مفاهيم صحة الداخلية والخارجية لأول مرة في Campbell (1957) . انظر Shadish, Cook, and Campbell (2001) لتاريخ أكثر تفصيلا وإعداد دقيق للصحة الاستنتاج الإحصائية، صحة الداخلية، وبناء صحة، وصحة الخارجية.

لمحة عامة عن القضايا المتعلقة بصحة الاستنتاج الإحصائية في التجارب نرى Gerber and Green (2012) (للمنظور العلوم الاجتماعية) و Imbens and Rubin (2015) (للمنظور إحصائي). وتشمل بعض القضايا من صحة الاستنتاج الإحصائية التي تنشأ خصيصا في التجارب الميدانية على الانترنت قضايا مثل أساليب فعالة حسابيا لخلق فترات الثقة مع البيانات تعتمد (Bakshy and Eckles 2013) .

صحة الداخلية يمكن أن يكون من الصعب ضمان في التجارب الميدانية المعقدة. انظر، على سبيل المثال، Gerber and Green (2000) ، Imai (2005) ، و Gerber and Green (2005) للنقاش حول تنفيذ التجربة الميدانية المعقدة عن التصويت. Kohavi et al. (2012) و Kohavi et al. (2013) بمثابة مقدمة إلى التحديات صلاحية الفاصل في التجارب الميدانية على الانترنت.

واحد قلق كبير مع صحة الداخلية هو مشاكل مع التوزيع العشوائي. طريقة واحدة ليحتمل اكتشاف المشاكل مع التوزيع العشوائي للمقارنة بين مجموعات العلاج والسيطرة على السمات الملحوظة. ويسمى هذا النوع من المقارنة والاختيار التوازن. انظر Hansen and Bowers (2008) لنهج إحصائي لتحقيق التوازن الشيكات، ونرى Mutz and Pemantle (2015) عن مخاوف بشأن الشيكات التوازن. على سبيل المثال، باستخدام ميزان تحقق Allcott (2011) وجدت أن هناك بعض الأدلة على أن التوزيع العشوائي لم ينفذ بشكل صحيح في ثلاثة من التجارب في بعض التجارب OPower (انظر الجدول 2، المواقع 2 و 6 و 8). لمناهج أخرى، انظر Imbens and Rubin (2015) ، الفصل 21.

الشواغل الرئيسية الأخرى المتعلقة بصحة الداخلية هي: 1) من جانب واحد عدم الامتثال، حيث لم يكن الجميع في مجموعة العلاج وردت فعلا في العلاج، 2) اثنين جانب عدم الامتثال، حيث لم يكن الجميع في مجموعة العلاج يتلقى العلاج وبعض يتلقى الناس في السيطرة على المجموعة العلاج، 3) الاستنزاف، حيث لا يتم قياس النتائج لبعض المشاركين، و4) التدخل، حيث تسرب المعالجة على من الناس في حالة العلاج للأشخاص في حالة السيطرة. انظر Gerber and Green (2012) الفصول 5 و 6 و 7 و 8 لمعرفة المزيد عن كل من هذه القضايا.

لمعرفة المزيد عن صحة بناء، انظر Westen and Rosenthal (2003) ، ولمعرفة المزيد عن صحة بناء في مصادر البيانات الكبيرة، Lazer (2015) والفصل 2 من هذا الكتاب.

واحد من جوانب صحة الخارجية هو الإعداد حيث يتم اختبار هذا التدخل. Allcott (2015) توفر العلاج النظرية والتجريبية حذرا من التحيز اختيار الموقع. وقد نوقشت هذه المسألة أيضا في Deaton (2010) . بالإضافة إلى كونها تتكرر في العديد من المواقع، والتدخل الرئيسية تقرير الطاقة كما تم دراستها بشكل مستقل من قبل مجموعات بحثية متعددة (على سبيل المثال، Ayres, Raseman, and Shih (2013) ).

  • تباين آثار العلاج (القسم 4.4.2)

لمحة عامة ممتازة من عدم التجانس من آثار العلاج في التجارب الميدانية، انظر الفصل 12 من Gerber and Green (2012) . لمقدمات تجانس آثار العلاج في التجارب الطبية، انظر Kent and Hayward (2007) ، Longford (1999) ، و Kravitz, Duan, and Braslow (2004) . تباين آثار العلاج يركز عموما على الخلافات على أساس الخصائص ما قبل المعالجة. إذا كنت مهتما في عدم التجانس القائم على النتائج بعد العلاج، ثم هناك حاجة approachs أكثر تعقيدا مثل الطبقية الرئيسي (Frangakis and Rubin 2002) . رؤية Page et al. (2015) للمراجعة.

ويقدر كثير من الباحثين عدم تجانس آثار العلاج باستخدام الانحدار الخطي، ولكن أحدث الأساليب تعتمد على التعلم الآلي، على سبيل المثال Green and Kern (2012) ، Imai and Ratkovic (2013) ، Taddy et al. (2016) ، و Athey and Imbens (2016a) .

هناك بعض الشكوك حول نتائج عدم تجانس الآثار بسبب مشاكل المقارنة متعددة و"الصيد". وهناك مجموعة متنوعة من الأساليب الإحصائية التي يمكن أن تساعد في معالجة الشواغل حول المقارنة متعددة (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . نهج واحد لمخاوف بشأن "الصيد" هو ما قبل التسجيل، والتي أصبحت شائعة بشكل متزايد في علم النفس (Nosek and Lakens 2014) ، والعلوم السياسية (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ، والاقتصاد (Olken 2015) .

في دراسة Costa and Kahn (2013) لم يكن هناك سوى حوالي نصف الأسر في التجربة قادرة على أن تكون مرتبطة المعلومات الديموغرافية. يجب على القراء المهتمين في التفاصيل والمشاكل المحتملة مع هذا التحليل يشير إلى الورقة الأصلية.

  • آليات (القسم 4.4.3)

آليات مهمة للغاية، لكنها تتحول إلى أن تكون صعبة للغاية للدراسة. البحث عن آليات ترتبط ارتباطا وثيقا لدراسة وسطاء في علم النفس (ولكن انظر أيضا VanderWeele (2009) لمقارنة دقيقة بين الفكرتين). النهج الإحصائية إلى إيجاد آليات، مثل النهج المتقدمة في Baron and Kenny (1986) ، شائعة جدا. للأسف، اتضح أن تلك الإجراءات تعتمد على بعض الافتراضات قوية (Bullock, Green, and Ha 2010) وتعاني عندما تكون هناك آليات متعددة، كما قد يتوقع المرء في كثير من الحالات (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) و Imai and Yamamoto (2013) تقديم بعض الأساليب الإحصائية محسنة. وعلاوة على ذلك، VanderWeele (2015) يقدم العلاج كتاب طول مع عدد من النتائج الهامة، بما في ذلك اتباع نهج شامل لتحليل الحساسية.

ويركز منهج منفصل عن التجارب التي تحاول التلاعب آلية مباشرة (على سبيل المثال، إعطاء البحارة فيتامين C). لسوء الحظ، في العديد من الأماكن العلوم الاجتماعية غالبا ما تكون هناك آليات متعددة وأنه من الصعب لتصميم العلاجات التي تغيير واحد دون تغيير الآخرين. بعض الأساليب لوصفها بالتجربة آليات تغيير في Imai, Tingley, and Yamamoto (2013) ، Ludwig, Kling, and Mullainathan (2011) ، و Pirlott and MacKinnon (2016) .

وأخيرا، لديها آليات أيضا تاريخ طويل في فلسفة العلوم كما وصفها Hedström and Ylikoski (2010) .

  • باستخدام بيئات القائمة (القسم 4.5.1.1)

لمعرفة المزيد عن استخدام دراسات المراسلات ودراسات التدقيق لقياس التمييز نرى Pager (2007) .

  • بناء تجربتك الخاصة (القسم 4.5.1.2)

الطريقة الأكثر شيوعا لتجنيد المشاركين على التجارب التي تقوم ببناء هي الأمازون الميكانيكية الترك (MTurk). لأن MTurk يحاكي جوانب من تجارب دفع مختبر التقليدية الناس لاستكمال المهام التي أنها لن تفعل للباحثين خالية من العديد من بدأوا بالفعل باستخدام Turkers (العمال على MTurk) كمشاركين في تجارب تجرى على البشر مما أدى إلى جمع البيانات أرخص أسرع ومن التقليدية التجارب المعملية في الحرم الجامعي (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

أكبر قوة من التجارب مع المشاركين المعينين من MTurk هي اللوجستية: أنها تسمح للباحثين لتجنيد المشاركين بسرعة وحسب الحاجة. في حين أن التجارب المعملية يمكن أن يستغرق اسابيع ويمكن التجارب الميدانية يستغرق شهورا لانشاء والتجارب مع المشاركين المعينين من MTurk يمكن تشغيل في غضون أيام. على سبيل المثال، Berinsky, Huber, and Lenz (2012) كانت قادرة على تجنيد 400 مواضيع في يوم واحد للمشاركة في تجربة 8 دقائق. وعلاوة على ذلك، هؤلاء المشاركين يمكن تجنيد لأي غرض تقريبا (بما في ذلك الدراسات والتعاون الجماعي، كما نوقش في الفصلين 3 و 5). هذا سهولة تجنيد يعني أن الباحثين يمكن تشغيل سلاسل من التجارب ذات الصلة في تعاقب سريع.

قبل تجنيد المشاركين من MTurk للتجارب الخاصة بك، وهناك أربعة أمور مهمة في معرفة. أولا، العديد من الباحثين لديهم شكوك غير محدد من التجارب التي تنطوي Turkers. لأن هذا الشك ليس محددا، فإنه من الصعب مواجهة مع الأدلة. ومع ذلك، وبعد عدة سنوات من الدراسات باستخدام Turkers، يمكننا الآن أن نستنتج أن هذا الشك ليس من الضروري بشكل خاص. كانت هناك العديد من الدراسات التي تقارن التركيبة السكانية للTurkers إلى الشعوب الأخرى والعديد من الدراسات التي تقارن نتائج التجارب مع Turkers الى نتائج من الشعوب الأخرى. وبالنظر إلى كل هذا العمل، وأعتقد أن أفضل طريقة لتفكر في ذلك هو أن Turkers هي عينة الراحة المعقولة، مثل الكثير من الطلاب ولكن قليلا أكثر تنوعا (Berinsky, Huber, and Lenz 2012) . وهكذا، مثلما الطلاب هم سكان معقولا لبعض وليس كل البحوث التجريبية، Turkers هي السكان معقولا لبعض وليس كل بحث. إذا كنت تسير على العمل مع Turkers، ثم فمن المنطقي لقراءة العديد من هذه الدراسات المقارنة وفهم الفروق الدقيقة الخاصة بهم.

الثانية، فقد طور الباحثون أفضل الممارسات لزيادة صلاحية الداخلية من التجارب الترك، ويجب عليك معرفة واتبع أفضل الممارسات (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . على سبيل المثال، يتم تشجيع الباحثين باستخدام Turkers استخدام غرابيل لإزالة المشاركين تفريط (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (ولكن انظر أيضا DJ Hauser and Schwarz (2015b) و DJ Hauser and Schwarz (2015a) ). إذا لم تقم بإزالة المشاركين تفريط، ثم أي تأثير العلاج يمكن غسلها من قبل الضوضاء قدم من المشاركين تفريط، وفي ممارسة عدد المشاركين تفريط يمكن أن تكون كبيرة. في تجربة هوبر وزملاؤه (2012) ولم يتمكن حوالي 30٪ من المشاركين غرابيل الاهتمام الأساسية. مشكلة أخرى مشتركة مع Turkers هي المشاركين غير ساذج (Chandler et al. 2015) .

ثالثا، بالنسبة لبعض أشكال أخرى من التجارب الرقمية، تجارب MTurk لا يمكن تحجيم، Stewart et al. (2015) ويقدر أنه في أي وقت من الأوقات لا يوجد سوى حوالي 7،000 شخص على MTurk.

وأخيرا، يجب أن نعرف أن MTurk هو مجتمع مع القواعد والمعايير الخاصة بها (Mason and Suri 2012) . في نفس الطريقة التي سيحاول معرفة المزيد عن ثقافة بلد حيث كانوا في طريقهم لتشغيل تجاربك، يجب أن تحاول معرفة المزيد عن الثقافة وقواعد Turkers (Salehi et al. 2015) . ويجب أن نعرف أن Turkers سوف نتحدث عن تجربتك إذا كنت تفعل شيئا غير مناسب أو غير أخلاقي (Gray et al. 2016) .

MTurk هو وسيلة مريحة بشكل لا يصدق لتجنيد المشاركين على التجارب الخاصة بك، سواء كانوا مختبر مثل، مثل Huber, Hill, and Lenz (2012) ، أو أكثر حقل مثل، مثل Mason and Watts (2009) ، Goldstein, McAfee, and Suri (2013) ، Goldstein et al. (2014) ، Horton and Zeckhauser (2016) ، و Mao et al. (2016) .

  • بناء المنتج الخاص بك (القسم 4.5.1.3)

إذا كنت تفكر في محاولة لخلق المنتجات الخاصة بك، أوصي بأن تقرأ النصائح التي تقدمها مجموعة MovieLens في Harper and Konstan (2015) . والفكرة الرئيسية من خبرتها في هذا المجال أن لكل مشروع ناجح هناك العديد والعديد من الإخفاقات. على سبيل المثال، بدأت الجماعة MovieLens المنتجات الأخرى مثل GopherAnswers التي كانت الإخفاقات كاملة (Harper and Konstan 2015) . مثال آخر على الباحث عدم أثناء محاولة بناء منتج هو محاولة إدوارد Castronova لبناء لعبة على الانترنت دعا أردن. وعلى الرغم من 250،000 $ في التمويل، كان المشروع تتخبط (Baker 2008) . مشاريع مثل GopherAnswers واردن هي للأسف أكثر شيوعا من المشاريع مثل MovieLens. وأخيرا، عندما قلت أنني لم أعرف من أي باحثين آخرين أن كان قد بنى المنتجات بنجاح لإجراء التجارب المتكررة هنا هي معايير بلدي: استخدام 1) مشاركا المنتج بسبب ما يوفره لهم (على سبيل المثال، لا يتم دفعها وأنها ليست متطوعون يساعدون العلم) و 2) وقد استخدم هذا المنتج لتجربة متميزة أكثر من واحد (أي ليس في نفس التجربة عدة مرات مع حمامات مشارك مختلفة). إذا كنت تعرف أمثلة أخرى، واسمحوا لي أن أعرف.

  • شريك مع الأقوياء (القسم 4.5.2)

لقد سمعت فكرة كوادرانت باستور ناقش كثيرا في شركات التكنولوجيا، وأنه يساعد على تنظيم جهود البحث في غوغل (Spector, Norvig, and Petrov 2012) .

السندات ودراسة الزملاء (2012) يحاول أيضا للكشف عن تأثير هذه العلاجات على أصدقاء من أولئك الذين حصلوا عليها. ونظرا للتصميم التجربة، هذه الآثار غير المباشرة هي صعبة للكشف نظيفة. يجب أن القراء المهتمين يرى Bond et al. (2012) للاطلاع على مناقشة أكثر شمولا. هذه التجربة هي جزء من تقليد طويل من التجارب في العلوم السياسية على الجهود المبذولة لتشجيع التصويت (Green and Gerber 2015) . هذه التجارب حثهم على أن صوت شائعة في جزء لأنهم في ربع الدائرة باستور. وهذا هو، وهناك الكثير من الناس الذين لديهم الحافز لزيادة التصويت والتصويت يمكن أن يكون السلوك المثير للاهتمام أن اختبار النظريات أكثر عامة حول تغيير السلوك والتأثير الاجتماعي.

وقد وفرت باحثين آخرين المشورة حول تشغيل التجارب الميدانية مع المنظمات الشريكة مثل الأحزاب السياسية والمنظمات غير الحكومية، والشركات (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . وعرضت الآخرين المشورة حول كيفية شراكات مع المنظمات يمكن أن تؤثر التصاميم البحوث (Green, Calfano, and Aronow 2014; King et al. 2007) . شراكة يمكن أن يؤدي أيضا إلى المسائل الأخلاقية (Humphreys 2015; Nickerson and Hyde 2016) .

  • نصيحة تصميم (القسم 4.6)

إذا كنت تسير وضع خطة تحليل قبل تشغيل تجربتك، وأنا أقترح عليك أن تبدأ من خلال قراءة المبادئ التوجيهية. وقد وضعت حرم (الموحدة معيار التقارير للتجارب) المبادئ التوجيهية في الطب (Schulz et al. 2010) وتعديلها للبحوث الاجتماعية (Mayo-Wilson et al. 2013) . وقد تم وضع مجموعة مترابطة من المبادئ التوجيهية من قبل محرري مجلة التجريبية العلوم السياسية (Gerber et al. 2014) (انظر أيضا Mutz and Pemantle (2015) و Gerber et al. (2015) ). وأخيرا، تم وضع المبادئ التوجيهية للإبلاغ في علم النفس (Group 2008) ، وانظر أيضا Simmons, Nelson, and Simonsohn (2011) .

إذا قمت بإنشاء خطة تحليل يجب عليك أن تنظر قبل تسجيل-لأن التسجيل المسبق سيزيد من الثقة أن البعض الآخر في النتائج. وعلاوة على ذلك، إذا كنت تعمل مع شريك، وسوف تحد من قدرة شريك حياتك لتغيير التحليل بعد الاطلاع على النتائج. التسجيل المسبق أصبحت شائعة على نحو متزايد في علم النفس (Nosek and Lakens 2014) ، والعلوم السياسية (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ، والاقتصاد (Olken 2015) .

أثناء إنشاء خطة ما قبل التحليل الخاص بك يجب عليك أن تدرك أن بعض الباحثين أيضا استخدام الانحدار والنهج ذات الصلة لتحسين دقة تأثير العلاج المقدرة، وهناك بعض الجدل حول هذا النهج: Freedman (2008) ، Lin (2013) ، و Berk et al. (2013) . رؤية Bloniarz et al. (2016) لمزيد من المعلومات.

يتم تقديم المشورة تصميم خصيصا لتجارب ميدانية على الانترنت أيضا في Konstan and Chen (2007) و Chen and Konstan (2015) .

  • إنشاء الصفر بيانات التكلفة المتغيرة (القسم 4.6.1)

لمعرفة المزيد عن التجارب MusicLab، انظر Salganik, Dodds, and Watts (2006) ، Salganik and Watts (2008) ، Salganik and Watts (2009b) ، Salganik and Watts (2009a) ، و Salganik (2007) . لمعرفة المزيد عن الفائز يأخذ كل شيء الأسواق، نرى Frank and Cook (1996) . لمعرفة المزيد عن الحظ فك تشابكات والمهارة بشكل عام، نرى Mauboussin (2012) ، Watts (2012) ، و Frank (2016) .

وهناك طريقة أخرى للقضاء على دفعات مشارك التي يجب أن يستخدمها الباحثون بحذر: التجنيد. في العديد من التجارب الميدانية على الانترنت تصاغ المشاركين في الأساس إلى تجارب وأبدا تعويض. ومن الأمثلة على هذا النهج Restivo وفان دي Rijt في (2012) التجربة على المكافآت في ويكيبيديا والسندات وزميل (2012) التجربة على تشجيع الناس على التصويت. هذه التجارب لم يكن لديك حقا الصفر التكلفة المتغيرة، لديهم صفر التكلفة المتغيرة للباحثين. على الرغم من أن تكلفة العديد من هذه التجارب هي صغيرة للغاية لكل مشارك، وفرضت تكاليف صغيرة العدد الهائل من المشاركين يمكن أن تضيف ما يصل بسرعة. الباحثون إجراء تجارب واسعة النطاق على الانترنت غالبا ما تبرر أهمية آثار العلاج المقدرة صغيرة بالقول إن هذه الآثار الصغيرة يمكن أن تصبح ذات أهمية عند تطبيقها على كثير من الناس. وينطبق نفس التفكير المحدد إلى التكاليف التي تفرض على الباحثين المشاركين. إذا تجاربك تسبب مليون شخص لإضاعة دقيقة واحدة، والتجربة ليست ضارة جدا على أي شخص معين، ولكن في مجموع المباراتين أهدرت ما يقرب من عامين من الزمن.

ثمة نهج آخر لخلق الصفر دفع متغير التكلفة للمشاركين هو استخدام اليانصيب، وهو نهج قد استخدمت أيضا في البحث المسحي (Halpern et al. 2011) . وأخيرا، لمعرفة المزيد عن تصميم ممتعة المستخدم الخبرات ترى Toomim et al. (2011) .

  • استبدال، حدد، وتقليل (القسم 4.6.2)

فيما يلي التعريفات الأصلية للR ثلاثة من Russell and Burch (1959) :

"استبدال يعني إحلال واعية الحيوانات الحية أعلى من المواد insentient. تخفيض يعني انخفاض في أعداد الحيوانات المستخدمة للحصول على معلومات من مبلغ معين والدقة. الصقل يعني أي انخفاض في معدل الإصابة أو شدتها من الإجراءات غير الإنسانية المطبقة على تلك الحيوانات التي لا تزال لديها لاستخدامها ".

آر الثلاثة، وهو أن أقترح لا تجاوز المبادئ الأخلاقية وصفها في الفصل 6. وبدلا من ذلك، فهي أكثر تفصيلا نسخة واحدة من تلك المبادئ الخير على وجه التحديد لتحديد التجارب البشرية.

عند النظر العدوى العاطفي، وهناك ثلاث قضايا غير أخلاقية أن نأخذ في الاعتبار عند تفسير هذه التجربة. أولا، ليس من الواضح كيف التفاصيل الفعلية للتجربة تتصل المطالبات النظرية. وبعبارة أخرى، هناك تساؤلات حول صحة بناء. وليس من الواضح أن التهم الإيجابية والسلبية كلمة هي في الواقع مؤشر جيد على الحالة العاطفية للمشاركين ل1) ليس من الواضح أن الكلمات التي ينشرها الناس هي مؤشر جيد على عواطفهم و 2) ليس من الواضح أن تقنية تحليل المشاعر الخاصة التي استخدم الباحثون قادرة على استنتاج موثوق العواطف (Beasley and Mason 2015; Panger 2016) . وبعبارة أخرى، قد يكون هناك مقياس سوء إشارة منحازة. الثانية، وتصميم وتحليل التجربة يخبرنا شيئا عن الذي كان الأكثر تأثرا (أي لا يوجد تحليل التباين من آثار العلاج) وما قد يكون آلية. في هذه الحالة، كان الباحثون الكثير من المعلومات حول المشاركين، لكنهم يعاملون أساسا كما الحاجيات في التحليل. ثالثا، كان حجم التأثير في هذه التجربة صغير جدا، الفرق بين الظروف علاجها ومكافحتها هو حوالي 1 في 1000 كلمة. في ورقتهم، كرامر وزملاؤه جعل القضية أن تأثير هذا الحجم مهم لمئات الملايين من الناس الوصول الأخبار على تغذية كل يوم. وبعبارة أخرى، ويقولون أنه حتى الآثار التي هي صغيرة لكل شخص فهي كبيرة في مجموع المباراتين. حتى لو كنت لقبول هذه الحجة، فإنه لا يزال من غير الواضح ما إذا كان تأثير هذا الحجم مهم فيما يتعلق بمسألة العلمي أعم حول عدوى العاطفي. لمعرفة المزيد عن الحالات التي تكون فيها آثار صغيرة مهمة نرى Prentice and Miller (1992) .

من حيث R الأول (استبدال)، ويقارن بين العدوى التجربة العاطفية (Kramer, Guillory, and Hancock 2014) والتجربة الطبيعية عدوى العاطفي (Coviello et al. 2014) يقدم بعض الدروس العامة حول المبادلات تشارك مع الانتقال من تجارب لالتجارب الطبيعية (والمناهج الأخرى مثل مطابقة تلك المحاولة لتقريب التجارب في البيانات غير التجريبية، انظر الفصل 2). بالإضافة إلى الفوائد الأخلاقية، والتحول من التجريبية للدراسات غير تجريبية تمكن أيضا الباحثين لدراسة العلاجات التي كانوا غير قادرين على نشر وجستيا. هذه الفوائد الأخلاقية واللوجستية تأتي في التكلفة، ولكن. مع التجارب الطبيعية لدى الباحثين سيطرة أقل على أشياء مثل تجنيد المشاركين، العشوائية، وطبيعة العلاج. على سبيل المثال، واحد الحد من الأمطار كعلاج هو أنه على حد سواء يزيد الإيجابية ويقلل السلبية. في دراسة تجريبية، ومع ذلك، كانت قادرة على ضبط الإيجابية والسلبية بشكل مستقل كرامر وزملاؤه.

على نهج معين يستخدمه Coviello et al. (2014) وبمزيد من التفصيل في Coviello, Fowler, and Franceschetti (2014) . للحصول على مقدمة لمتغيرات جوهرية نرى Angrist and Pischke (2009) (أقل رسمية) أو Angrist, Imbens, and Rubin (1996) (أكثر رسمية). لتقييم متشككين من متغيرات جوهرية نرى Deaton (2010) ، ومقدمة لمتغيرات جوهرية مع الصكوك ضعيفة (المطر هو أداة ضعيفة)، انظر Murray (2006) .

أكثر عموما، مقدمة جيدة لتجارب الطبيعية Dunning (2012) ، و Rosenbaum (2002) ، Rosenbaum (2009) ، و Shadish, Cook, and Campbell (2001) تقديم أفكار جيدة حول تقدير الآثار السببية دون التجارب.

من حيث R الثاني (صقل)، هناك مفاضلات العلمية واللوجستية عند النظر في تغيير تصميم العدوى العاطفي من حظر مشاركات لزيادة المشاركات. على سبيل المثال، قد يكون هذا هو الحال التنفيذ التقني للأخبار الأعلاف يجعل من الأسهل إلى حد كبير في قيام تجربة مع حجب المشاركات بدلا من تجربة مع زيادة المشاركات (لاحظ أن تجربة مع حجب المشاركات التي يمكن تنفيذها كطبقة على أعلى نظام أخبار الأعلاف دون الحاجة لإجراء تعديلات في النظام الأساسي). علميا، إلا أن النظرية تجربة تناول لم يشر بوضوح تصميم واحد على الآخر.

للأسف، وأنا لست على علم مسبق بحث كبير حول المزايا النسبية لمنع وتعزيز المحتوى في أخبار الأعلاف. أيضا، أنا لم أر الكثير من الأبحاث حول صقل العلاجات لجعلها أقل ضررا. الاستثناء الوحيد هو Jones and Feamster (2015) ، والتي تعتبر حالة القياس من الرقابة على الإنترنت (موضوع أناقش في الفصل 6 في العلاقة لدراسة وسيم (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

من حيث R الثالث (الحد)، مقدمة جيدة لتحليل القوة التقليدية Cohen (1988) . التغاير ما قبل المعالجة يمكن تضمينها في مرحلة التصميم ومرحلة تحليل التجارب. الفصل 4 من Gerber and Green (2012) يوفر مقدمة جيدة لكلا النهجين، و Casella (2008) ينص على معاملة أكثر تعمقا. ويطلق على التقنيات التي تستخدم هذه المعلومات قبل المعالجة في التوزيع العشوائي عادة إما منعت تصاميم تجريبية أو التصاميم التجريبية طبقية (لم يتم استخدام المصطلحات باستمرار عبر المجتمعات)؛ وهذه التقنيات ذات الصلة بشدة أساليب المعاينة الطبقية التي نوقشت في الفصل 3. انظر Higgins, Sävje, and Sekhon (2016) لمعرفة المزيد عن استخدام هذه التصاميم في التجارب واسعة النطاق. ويمكن أيضا التغاير ما قبل المعالجة إدراجها في مرحلة التحليل. McKenzie (2012) يستكشف النهج الفرق في الخلافات إلى تحليل التجارب الميدانية بمزيد من التفصيل. انظر Carneiro, Lee, and Wilhelm (2016) لمعرفة المزيد عن المفاضلة بين الطرق المختلفة لزيادة الدقة في تقديرات آثار العلاج. وأخيرا، لدى البت في محاولة لتشمل المتغيرات المشاركة المعالجة المسبقة في تصميم أو تحليل المرحلة (أو كليهما)، وهناك عدد قليل من العوامل في الاعتبار. في وضع حيث يريد الباحثون أن تظهر أنها ليست "الصيد" (Humphreys, Sierra, and Windt 2013) ، وذلك باستخدام المتغيرات المشاركة قبل المعالجة في مرحلة التصميم يمكن أن تكون مفيدة (Higgins, Sävje, and Sekhon 2016) . في الحالات التي يصل المشاركون بالتتابع، والتجارب الميدانية وخاصة الإنترنت، وذلك باستخدام معلومات ما قبل المعالجة في مرحلة التصميم قد يكون من الصعب لوجستيا، انظر على سبيل المثال Xie and Aurisset (2016) .

ومن الجدير مضيفا نوعا من الحدس لماذا الاختلاف في والاختلافات يمكن أن يكون أكثر من ذلك بكثير فعالية من الفرق في وسائل. العديد من النتائج على الانترنت وتباين عالية جدا (انظر على سبيل المثال، Lewis and Rao (2015) و Lamb et al. (2015) ) ومستقرة نسبيا مع مرور الوقت. في هذه الحالة، فإن النتيجة التغيير يكون التباين أصغر بكثير، مما يزيد من قوة الاختبار الإحصائي. سبب واحد هذه اقترب لا يستخدم في كثير من الأحيان هو أنه قبل عصر التكنولوجيا الرقمية لم يكن من الشائع أن يكون النتائج ما قبل المعالجة. وهناك طريقة أكثر واقعية للتفكير في الامر هي أن تتخيل تجربة لقياس ما إذا كانت ممارسة روتينية معينة يسبب فقدان الوزن. إذا كنت تفعل نهج الفرق في وسيلة، وتقدير لديك التباين الذي يأتي من التباين في الأوزان في عدد السكان. إذا كنت تفعل نهج الفرق في الاختلاف، مع ذلك، أن الاختلاف التي تحدث بشكل طبيعي في الأوزان يحصل على إزالتها ويمكنك بسهولة اكتشاف الفرق الناجم عن العلاج.

أحد السبل الهامة للحد من عدد المشاركين في تجربتك لإجراء تحليل الطاقة، والتي كرامر وزملاؤه قد فعلت على أساس الأحجام تأثير لوحظ من التجربة الطبيعية Coviello et al. (2014) أو البحوث غير التجريبية في وقت سابق من قبل كريمر (2012) (في الواقع هذه هي الأنشطة في نهاية هذا الفصل). لاحظ أن هذا الاستخدام للتحليل الكهربائي هو مختلف قليلا من المعتاد. في سن التناظرية، لم الباحثين عموما تحليل القوة للتأكد من أن هذه الدراسة لم تكن صغيرة جدا (أي تحت بالطاقة). الآن، ومع ذلك، الباحثون أن تفعل تحليل القوة للتأكد من أن هذه الدراسة ليست كبيرة جدا (أي الإفراط بالطاقة).

وأخيرا، فكرت في إضافة R الرابع: إعادة توظيفها. وهذا هو، إذا وجد الباحثون أنفسهم مع المزيد من البيانات التجريبية من هم بحاجة إلى معالجة على سؤال البحث الأصلي، ينبغي أن إعادة توظيفها البيانات لطرح أسئلة جديدة. على سبيل المثال، تخيل أن كرامر وزملاؤه استخدموا مقدر الفرق في الخلافات وجدت نفسها مع بيانات أكثر من اللازم لمعالجة مسألة أبحاثهم. بدلا من عدم استخدام البيانات إلى أقصى حد، فإنها يمكن أن درسوا حجم تأثير بوصفها وظيفة إلى ما قبل المعالجة التعبير العاطفي. كما Schultz et al. (2007) وجد أن تأثير العلاج كان مختلفا بالنسبة للمستخدمين الخفيفة والثقيلة، وربما كانت آثار أخبار الأعلاف المختلفة للأشخاص الذين يميلون بالفعل لنشر الرسائل سعيدة (أو حزينة). تطويعها لأغراض أخرى يمكن أن تؤدي إلى "الصيد" (Humphreys, Sierra, and Windt 2013) و "القرصنة ع" (Simmons, Nelson, and Simonsohn 2011) ، ولكن هذه هي عنونة إلى حد كبير مع مجموعة من التقارير صادقة (Simmons, Nelson, and Simonsohn 2011) ، التسجيل المسبق (Humphreys, Sierra, and Windt 2013) ، وطرق تعلم الآلة التي تحاول تجنب الإفراط المناسب.