غالباً ما تكون الأسئلة حول السببية في البحث الاجتماعي معقدة ومعقدة. للحصول على مقاربة أساسية للسببية القائمة على الرسوم البيانية السببية ، انظر Pearl (2009) ، وللنهج التأسيسي القائم على النتائج المحتملة ، انظر Imbens and Rubin (2015) . للمقارنة بين هذين النهجين ، انظر Morgan and Winship (2014) . للحصول على مقاربة رسمية لتحديد أحد VanderWeele and Shpitser (2013) ، انظر VanderWeele and Shpitser (2013) .
في هذا الفصل ، قمت بإنشاء ما بدا وكأنه خط مشرق بين قدرتنا على إجراء تقديرات سببية من البيانات التجريبية وغير التجريبية. ومع ذلك ، أعتقد أن التمييز أكثر وضوحا في الواقع. على سبيل المثال ، يقبل الجميع أن التدخين يسبب السرطان ، على الرغم من عدم إجراء تجربة معشاة ذات شواهد تجبر الناس على التدخين. بالنسبة للعلاجات الممتازة للكتب عند إجراء تقديرات سببية من بيانات غير تجريبية ، انظر Rosenbaum (2002) و ( ??? ) و Shadish, Cook, and Campbell (2001) و Dunning (2012) .
يقدم الفصلان الأول والثاني من Freedman, Pisani, and Purves (2007) مقدمة واضحة للاختلافات بين التجارب والتجارب الخاضعة للرقابة والتجارب المعشاة ذات الشواهد.
Manzi (2012) مقدمة رائعة ومقروءة للأسس الفلسفية والإحصائية للتجارب المعشاة ذات الشواهد. كما يوفر أمثلة مثيرة للاهتمام في العالم الحقيقي لقوة التجريب في الأعمال التجارية. Issenberg (2012) مقدمة رائعة لاستخدام التجريب في الحملات السياسية.
Box, Hunter, and Hunter (2005) و @ casella_statistical_2008 و Athey and Imbens (2016b) مقدمات جيدة للجوانب الإحصائية للتصميم التجريبي والتحليل. علاوة على ذلك ، هناك علاجات ممتازة لاستخدام التجارب في العديد من المجالات المختلفة: الاقتصاد (Bardsley et al. 2009) ، علم الاجتماع (Willer and Walker 2007; Jackson and Cox 2013) ، علم النفس (Aronson et al. 1989) ، العلوم السياسية (Morton and Williams 2010) ، والسياسة الاجتماعية (Glennerster and Takavarasha 2013) .
غالبًا ما لا تحظى أهمية تجنيد المشاركين (مثل أخذ العينات) بتقدير كبير في البحث التجريبي. ومع ذلك ، إذا كان تأثير العلاج غير متجانس في السكان ، فإن أخذ العينات أمر بالغ الأهمية. يشير Longford (1999) بوضوح إلى هذه النقطة عندما يدافع عن الباحثين الذين يفكرون في التجارب على أنها مسح سكاني مع أخذ عينات عشوائية.
لقد اقترحت أن هناك سلسلة متصلة بين التجارب المعملية والتجارب الميدانية ، واقترح الباحثون الآخرون (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) أكثر تفصيلاً ، خاصة تلك التي تفصل الأشكال المختلفة للتجارب الميدانية (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
قارن عدد من الأبحاث بين التجارب المختبرية والميدانية في الملخص (Falk and Heckman 2009; Cialdini 2009) ومن حيث نتائج تجارب محددة في العلوم السياسية (Coppock and Green 2015) والاقتصاد (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) ، وعلم النفس (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) للبحث لمقارنة النتائج من التجارب المختبرية والحقلية. يصف Parigi, Santana, and Cook (2017) كيف يمكن للتجارب الميدانية على الإنترنت أن تجمع بين بعض خصائص التجارب المختبرية والحقلية.
إن المخاوف المتعلقة بالمشاركين في تغيير سلوكهم لأنهم يعرفون أنه يتم مراقبتهم عن كثب تسمى أحيانًا تأثيرات الطلب ، وقد تمت دراستها في علم النفس (Orne 1962) والاقتصاد (Zizzo 2010) . على الرغم من ارتباطها في الغالب بالتجارب المخبرية ، إلا أن هذه المشكلات نفسها يمكن أن تسبب مشكلات في التجارب الميدانية أيضًا. في الواقع ، تسمى تأثيرات الطلب أحيانًا تأثيرات هوثورن ، وهو مصطلح يستمد تجارب الإضاءة الشهيرة التي بدأت في عام 1924 في أعمال هوثورن التابعة لشركة ويسترن إلكتريك (Adair 1984; Levitt and List 2011) . ترتبط كل من تأثيرات الطلب وتأثيرات هوثورن ارتباطًا وثيقًا بفكرة القياس التفاعلي التي تمت مناقشتها في الفصل 2 (انظر أيضًا Webb et al. (1966) ).
تمتلك التجارب الميدانية تاريخًا طويلًا في علم الاقتصاد (Levitt and List 2009) ، والعلوم السياسية (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) ، وعلم النفس (Shadish 2002) ، والسياسة العامة (Shadish and Cook 2009) . إن أحد مجالات العلوم الاجتماعية التي سرعان ما أصبحت فيها التجارب الميدانية بارزة هي التنمية الدولية. لمراجعة إيجابية لهذا العمل في علم الاقتصاد ، انظر Banerjee and Duflo (2009) ، Deaton (2010) النقدي انظر Deaton (2010) . لمراجعة هذا العمل في العلوم السياسية ، انظر Humphreys and Weinstein (2009) . وأخيرا ، تم استكشاف التحديات الأخلاقية الناجمة عن التجارب الميدانية في سياق العلوم السياسية (Humphreys 2015; Desposato 2016b) واقتصاديات التنمية (Baele 2013) .
في هذا القسم ، اقترحت استخدام معلومات ما قبل المعالجة لتحسين دقة آثار العلاج المقدرة ، ولكن هناك بعض الجدل حول هذا النهج ؛ انظر Freedman (2008) ، W. Lin (2013) ، Berk et al. (2013) ، و Bloniarz et al. (2016) لمزيد من المعلومات.
وأخيرًا ، هناك نوعان آخران من التجارب التي أجراها علماء الاجتماع والتي لا تتناسب بشكل جيد مع بُعد المجال المختبر: تجارب الاستطلاع والتجارب الاجتماعية. تجارب المسح هي تجارب تستخدم البنية التحتية للدراسات الاستقصائية الحالية وتقارن الاستجابات مع الإصدارات البديلة من نفس الأسئلة (تعرض بعض تجارب المسح في الفصل 3) ؛ لمعرفة المزيد عن تجارب الاستطلاع ، انظر Mutz (2011) . التجارب الاجتماعية هي تجارب يكون فيها العلاج بعض السياسات الاجتماعية التي لا يمكن تنفيذها إلا من قبل الحكومة. ترتبط التجارب الاجتماعية ارتباطًا وثيقًا بتقييم البرنامج. لمعرفة المزيد عن تجارب السياسة ، راجع Heckman and Smith (1995) و Orr (1998) و @ glennerster_running_2013.
لقد اخترت التركيز على ثلاثة مفاهيم: الصلاحية ، عدم تجانس تأثيرات العلاج ، والآليات. هذه المفاهيم لها أسماء مختلفة في مجالات مختلفة. على سبيل المثال ، يميل علماء النفس إلى تجاوز التجارب البسيطة من خلال التركيز على الوسطاء والمشرفين (Baron and Kenny 1986) . يتم التعرف على فكرة الوسطاء من خلال ما أسميه الآليات ، ويتم التقاط فكرة المشرفين من خلال ما أسميه الصلاحيات الخارجية (على سبيل المثال ، هل ستكون نتائج التجربة مختلفة إذا تم تشغيلها في مواقف مختلفة) وتغاير تأثيرات العلاج ( على سبيل المثال ، هي الآثار أكبر لبعض الناس من للآخرين).
التجربة من قبل Schultz et al. (2007) يبين كيف يمكن استخدام النظريات الاجتماعية لتصميم التدخلات الفعالة. للحصول على حجة أكثر عمومية حول دور النظرية في تصميم التدخلات الفعالة ، انظر Walton (2014) .
تم تقديم مفاهيم الصحة الداخلية والخارجية لأول مرة من قبل Campbell (1957) . انظر Shadish, Cook, and Campbell (2001) للحصول على تاريخ أكثر تفصيلاً وصياغة دقيقة لصحة الاستنتاج الإحصائي ، والصلاحيّة الداخليّة ، وبناء الصلاحيّة ، والصلاحيّة الخارجيّة.
للحصول على نظرة عامة حول المشكلات المتعلقة بصلاحية الاستنتاج الإحصائي في التجارب ، انظر Gerber and Green (2012) (من منظور العلوم الاجتماعية) و Imbens and Rubin (2015) (من منظور إحصائي). تشمل بعض المسائل المتعلقة بصلاحية الاستنتاج الإحصائي التي تنشأ تحديدًا في التجارب الميدانية عبر الإنترنت مسائل مثل الطرق الفعالة الحسابية حسابًا لإنشاء فواصل الثقة بالبيانات (Bakshy and Eckles 2013) .
قد يكون من الصعب ضمان الصلاحية الداخلية في التجارب الميدانية المعقدة. انظر على سبيل المثال ، Gerber and Green (2000) ، Imai (2005) ، و Gerber and Green (2005) لإجراء مناقشة حول تنفيذ تجربة حقلية معقدة حول التصويت. Kohavi et al. (2012) و Kohavi et al. (2013) تقديم مقدمة في تحديات الصلاحية الفاصلة في التجارب الميدانية عبر الإنترنت.
أحد التهديدات الرئيسية للصلاحية الداخلية هو إمكانية إخفاق التوزيع العشوائي. إحدى الطرق المحتملة للكشف عن المشاكل مع التوزيع العشوائي هي مقارنة مجموعات العلاج والسيطرة على الصفات التي يمكن ملاحظتها. هذا النوع من المقارنة يسمى فحص التوازن . انظر Hansen and Bowers (2008) لنهج إحصائي لموازنة الشيكات Mutz and Pemantle (2015) للاهتمامات بشيكات التوازن. على سبيل المثال ، باستخدام التحقق من الرصيد ، Allcott (2011) بعض الأدلة على أن التوزيع العشوائي لم يتم تنفيذه بشكل صحيح في ثلاثة من تجارب Opower (انظر الجدول 2 ؛ المواقع 2 و 6 و 8). للاطلاع على أساليب أخرى ، انظر الفصل 21 من Imbens and Rubin (2015) .
ومن بين الاهتمامات الرئيسية الأخرى ذات الصلة بالصحة الداخلية: (1) عدم الامتثال من جانب واحد ، حيث لم يتلق كل شخص في مجموعة العلاج العلاج ، (2) عدم امتثال من جانبين ، حيث لا يحصل كل فرد في مجموعة العلاج على العلاج وبعض الأشخاص في وتتلقى مجموعة المراقبة العلاج ، (3) الاستنزاف ، حيث لا يتم قياس النتائج لبعض المشاركين ، و (4) التداخل ، حيث ينتقل العلاج من الأشخاص في حالة العلاج إلى الأشخاص في حالة التحكم. انظر الفصول 5 و 6 و 7 و 8 من Gerber and Green (2012) لمعرفة المزيد عن كل من هذه القضايا.
لمعرفة المزيد عن صلاحية البناء ، راجع Westen and Rosenthal (2003) ، وللمزيد حول صلاحية الإنشاء في مصادر البيانات الكبيرة ، Lazer (2015) والفصل الثاني من هذا الكتاب.
أحد جوانب الصلاحية الخارجية هو الإعداد الذي يتم فيه اختبار التدخل. Allcott (2015) علاجًا نظريًا وتجريبيًا دقيقًا لتحيز اختيار الموقع. يناقش هذا الموضوع أيضًا بواسطة Deaton (2010) . جانب آخر للصحة الخارجية هو ما إذا كانت العمليات البديلة للتدخل نفسه ستكون لها آثار مماثلة. في هذه الحالة ، مقارنة بين Schultz et al. (2007) و Allcott (2011) تبين أن تجارب Opower كان لها تأثير معالج مقداره أصغر من التجارب الأصلية التي أجراها شولتز وزملاؤه (1.7٪ مقابل 5٪). Allcott (2011) أن تجارب المتابعة كان لها تأثير أصغر بسبب الطرق التي اختلف بها العلاج: عاطفة مكتوبة بخط اليد كجزء من دراسة برعاية إحدى الجامعات ، مقارنة مع تعبير مطبوع كجزء من إنتاج ضخم. تقرير من شركة كهرباء.
للحصول على نظرة عامة ممتازة عن عدم تجانس آثار العلاج في التجارب الميدانية ، انظر الفصل 12 من Gerber and Green (2012) . للحصول على مقدمات عدم تجانس آثار العلاج في التجارب الطبية ، انظر Kent and Hayward (2007) ، Longford (1999) ، Kravitz, Duan, and Braslow (2004) . تركز اعتبارات عدم التجانس في تأثيرات المعالجة عمومًا على الاختلافات القائمة على خصائص ما قبل المعالجة. إذا كنت مهتمًا بعدم التجانس استنادًا إلى نتائج ما بعد المعالجة ، فستكون هناك حاجة إلى نُهج أكثر تعقيدًا ، مثل التقسيم الطبقي الرئيسي (Frangakis and Rubin 2002) ؛ انظر Page et al. (2015) للمراجعة.
ويقدر العديد من الباحثين عدم تجانس تأثيرات العلاج باستخدام الانحدار الخطي ، لكن الأساليب الأحدث تعتمد على التعلم الآلي ؛ انظر ، على سبيل المثال ، Green and Kern (2012) ، Imai and Ratkovic (2013) ، Taddy et al. (2016) ، و Athey and Imbens (2016a) .
هناك بعض الشكوك حول نتائج التغاير في التأثيرات بسبب مشاكل المقارنة المتعددة و "الصيد". هناك مجموعة متنوعة من الأساليب الإحصائية التي يمكن أن تساعد في معالجة المخاوف حول المقارنة المتعددة (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . يتمثل أحد أساليب المخاوف بشأن "الصيد" في التسجيل المسبق ، والذي أصبح شائعاً بشكل متزايد في علم النفس (Nosek and Lakens 2014) والعلوم السياسية (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) والاقتصاد (Olken 2015) .
في الدراسة التي أجراها Costa and Kahn (2013) لا يمكن ربط سوى نصف الأسر في التجربة بالمعلومات الديموغرافية. يجب على القراء المهتمين بهذه التفاصيل الرجوع إلى الورقة الأصلية.
الآليات مهمة للغاية ، ولكن تبين أنها صعبة للغاية في الدراسة. يرتبط البحث عن الآليات ارتباطًا وثيقًا بدراسة الوسطاء في علم النفس (لكن انظر أيضًا VanderWeele (2009) لمقارنة دقيقة بين الفكرتين). تعتبر الأساليب الإحصائية لإيجاد آليات ، مثل النهج المتطور في Baron and Kenny (1986) ، شائعة إلى حد كبير. للأسف ، اتضح أن هذه الإجراءات تعتمد على بعض الافتراضات القوية (Bullock, Green, and Ha 2010) وتعاني عندما تكون هناك آليات متعددة ، كما قد يتوقع المرء في العديد من الحالات (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) و Imai and Yamamoto (2013) يقدمان بعض الأساليب الإحصائية المحسنة. علاوة على ذلك ، VanderWeele (2015) معالجة طول الكتاب مع عدد من النتائج الهامة ، بما في ذلك نهج شامل لتحليل الحساسية.
ويركز نهج منفصل على التجارب التي تحاول التعامل مع الآلية مباشرة (على سبيل المثال ، إعطاء البحارة فيتامين ج). لسوء الحظ ، في العديد من إعدادات العلوم الاجتماعية ، توجد في الغالب آليات متعددة ، ومن الصعب تصميم معالجات تغير واحدة دون تغيير الآخرين. يصف Imai, Tingley, and Yamamoto (2013) و Ludwig, Kling, and Mullainathan (2011) ، و Pirlott and MacKinnon (2016) بعض الطرق لتغيير الآليات التجريبية.
يجب على الباحثين الذين يديرون تجارب العوامل الكاملة أن يهتموا باختبار الفحوصات المتعددة ؛ راجع Fink, McConnell, and Vollmer (2014) و List, Shaikh, and Xu (2016) لمزيد من المعلومات.
وأخيرًا ، تتمتع الآليات أيضًا بتاريخ طويل في فلسفة العلم كما وصفها Hedström and Ylikoski (2010) .
لمعرفة المزيد عن استخدام دراسات المراسلات ودراسات المراجعة لقياس التمييز ، انظر Pager (2007) .
الطريقة الأكثر شيوعا لتجنيد المشاركين في التجارب التي تبنيها هي Amazon Mechanical Turk (MTurk). لأن MTurk يحاكي جوانب من التجارب المعملية التقليدية - دفع الناس لإكمال المهام التي لن يفعلوها بالمجان - فقد بدأ العديد من الباحثين بالفعل استخدام Turkers (العمال على MTurk) كمشاركين تجريبيين ، مما أدى إلى جمع بيانات أسرع وأرخص مما يمكن تحقيقه في التجارب المعملية التقليدية داخل الحرم الجامعي (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
بشكل عام ، فإن المزايا الأكبر لاستخدام المشاركين المعينين من MTurk هي لوجستية. في حين أن التجارب المعملية يمكن أن تستغرق أسابيع للتشغيل ، ويمكن أن تستغرق التجارب الميدانية شهوراً للإعداد ، يمكن إجراء التجارب مع المشاركين المعينين من MTurk خلال أيام. على سبيل المثال ، Berinsky, Huber, and Lenz (2012) من توظيف 400 شخص في يوم واحد للمشاركة في تجربة مدتها 8 دقائق. علاوة على ذلك ، يمكن تعيين هؤلاء المشاركين لأي غرض تقريباً (بما في ذلك الاستطلاعات والتعاون الجماعي ، كما تمت مناقشته في الفصلين 3 و 5). هذه السهولة في التعيين تعني أن بإمكان الباحثين تشغيل تسلسل من التجارب ذات الصلة في تتابع سريع.
قبل تعيين المشاركين من MTurk للتجارب الخاصة بك ، هناك أربعة أشياء مهمة تحتاج إلى معرفتها. أولاً ، لدى العديد من الباحثين شكوك غير محددة في تجارب توركيين. ولأن هذا التشكك ليس محددًا ، فمن الصعب مواجهة الأدلة. ومع ذلك ، بعد عدة سنوات من الدراسات التي تستخدم اللغة التركية ، يمكننا الآن أن نستنتج أن هذا التشكيك ليس مبررًا بشكل خاص. كانت هناك العديد من الدراسات التي تقارن التركيبة السكانية للتركانيين مع المجموعات السكانية الأخرى والعديد من الدراسات التي تقارن نتائج التجارب مع التركيين مع تلك من المجموعات السكانية الأخرى. بالنظر إلى كل هذا العمل ، أعتقد أن أفضل طريقة بالنسبة لك للتفكير في ذلك هو أن التركيين هم عينة معقولة من الراحة ، مثل الكثير من الطلاب ولكنهم أكثر تنوعًا بقليل (Berinsky, Huber, and Lenz 2012) . وهكذا ، فكما أن الطلاب هم عدد معقول من السكان لبعض البحوث ، وليس كلها ، فإن التركمان هم مجموعة سكانية معقولة لبعض الأبحاث وليس كلها. إذا كنت ستعمل مع التركرس ، فمن المنطقي قراءة العديد من هذه الدراسات المقارنة وفهم الفروق الدقيقة.
ثانياً ، طور الباحثون أفضل الممارسات لزيادة الصلاحية الداخلية لتجارب MTurk ، ويجب أن تتعلم وتتبع أفضل الممارسات (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . على سبيل المثال ، يتم تشجيع الباحثين الذين يستخدمون Turkers على استخدام أجهزة (Berinsky, Margolis, and Sances 2014, 2016) لإزالة المشاركات (Berinsky, Margolis, and Sances 2014, 2016) (ولكن انظر أيضا DJ Hauser and Schwarz (2015b) و DJ Hauser and Schwarz (2015a) ). إذا لم تقم بإزالة المشاركين الغافلين ، فعندئذ يمكن غسل أي تأثير للمعالجة من خلال الضوضاء التي يقدمونها ، وعمليًا يمكن أن يكون عدد المشاركين الغافلين جوهريًا. في التجربة التي أجراها Huber وزملاؤه (2012) ، أخفق حوالي 30 ٪ من المشاركين في فرز الانتباه الأساسي. المشاكل الأخرى التي تنشأ عادة عند استخدام التركمان هم المشاركون غير الساذجين (Chandler et al. 2015) والتآكل (Zhou and Fishbach 2016) .
ثالثًا ، بالنسبة إلى بعض أشكال التجارب الرقمية الأخرى ، لا يمكن أن تتوسع تجارب MTurk ؛ Stewart et al. (2015) تقدير أنه في أي وقت من الأوقات لا يوجد سوى حوالي 7000 شخص على MTurk.
وأخيرًا ، يجب أن تعرف أن MTurk هو مجتمع له قواعده وقواعده الخاصة (Mason and Suri 2012) . بنفس الطريقة التي تحاول من خلالها معرفة ثقافة البلد الذي ستجري فيه تجاربك ، عليك محاولة معرفة المزيد عن ثقافة وأعراف الترك (Salehi et al. 2015) Salhi (Salehi et al. 2015) . ويجب أن تعلم أن التركيين سيتحدثون عن تجربتك إذا فعلت شيئًا غير لائق أو غير أخلاقي (Gray et al. 2016) .
MTurk هو وسيلة مريحة للغاية لتجنيد المشاركين في تجاربك ، سواء كانت شبيهة بالمختبرات ، مثل تلك الخاصة بـ Huber, Hill, and Lenz (2012) ، أو أكثر مثل المجال ، مثل Mason and Watts (2009) و Goldstein, McAfee, and Suri (2013) و Goldstein et al. (2014) ، Horton and Zeckhauser (2016) ، and Mao et al. (2016) .
إذا كنت تفكر في محاولة إنشاء منتج خاص بك ، فأوصيك بقراءة النصائح التي تقدمها مجموعة MovieLens في Harper and Konstan (2015) . تتمثل إحدى الأفكار الرئيسية من خبرتهم في أن كل مشروع ناجح هناك العديد من حالات الفشل. على سبيل المثال ، أطلقت مجموعة MovieLens منتجات أخرى ، مثل GopherAnswers ، والتي كانت إخفاقات كاملة (Harper and Konstan 2015) . مثال آخر على فشل الباحث أثناء محاولة بناء منتج هو محاولة إدوارد كاسترونوفا لبناء لعبة على الإنترنت تسمى أردين. على الرغم من تمويل 250،000 دولار ، كان المشروع التقليب (Baker 2008) . من المؤسف أن مشاريع مثل GopherAnswers و Arden أكثر شيوعًا من مشاريع مثل MovieLens.
لقد استمعت إلى الفكرة التي ناقشها كاستور في مجلة Pasteur بشكل متكرر في شركات التكنولوجيا ، ويساعد على تنظيم جهود البحث في Google (Spector, Norvig, and Petrov 2012) .
كما تحاول دراسة بوند وزملائه (2012) أيضًا اكتشاف تأثير هذه العلاجات على أصدقاء من حصلوا عليها. وبسبب تصميم التجربة ، يصعب اكتشاف هذه الآثار غير المباشرة ؛ القراء المهتمين يجب أن يروا Bond et al. (2012) لإجراء مناقشة أكثر شمولاً. أجرت جونز وزملاؤها (2017) أيضًا تجربة مشابهة جدًا خلال انتخابات 2012. هذه التجارب جزء من تقليد طويل من التجارب في العلوم السياسية حول الجهود لتشجيع التصويت (Green and Gerber 2015) . تُعد تجارب الحصول على هذه الأصوات شائعة ، ويرجع ذلك جزئيًا إلى أنها في فقرة باستور. أي أن هناك العديد من الأشخاص الذين لديهم الحافز لزيادة التصويت ، ويمكن أن يكون التصويت سلوكًا مثيرًا لاختبار نظريات أكثر عمومية حول تغيير السلوك والنفوذ الاجتماعي.
للحصول على المشورة حول إجراء تجارب ميدانية مع المنظمات الشريكة مثل الأحزاب السياسية والمنظمات غير الحكومية والشركات ، انظر Loewen, Rubenson, and Wantchekon (2010) JA List (2011) و Gueron (2002) . للحصول على أفكار حول كيفية تأثير الشراكات مع المنظمات على تصاميم الأبحاث ، راجع King et al. (2007) و Green, Calfano, and Aronow (2014) . يمكن أن تؤدي الشراكة أيضًا إلى أسئلة أخلاقية ، كما ناقشها Humphreys (2015) Nickerson and Hyde (2016) .
إذا كنت بصدد إنشاء خطة تحليل قبل إجراء التجربة ، فأقترح أن تبدأ بقراءة إرشادات إعداد التقارير. تم تطوير إرشادات CONSORT (الإبلاغ الموحد عن التجارب) في الطب (Schulz et al. 2010) وتم تعديلها لأغراض البحث الاجتماعي (Mayo-Wilson et al. 2013) . تم تطوير مجموعة من الإرشادات ذات الصلة من قبل محرري مجلة العلوم السياسية التجريبية (Gerber et al. 2014) (انظر أيضًا Mutz and Pemantle (2015) و Gerber et al. (2015) ). وأخيرًا ، تم تطوير إرشادات إعداد التقارير في علم النفس (APA Working Group 2008) ، وانظر أيضًا Simmons, Nelson, and Simonsohn (2011) .
إذا قمت بإنشاء خطة تحليل ، يجب أن تفكر في تسجيلها مسبقًا لأن التسجيل المسبق سيزيد من ثقة الآخرين في نتائجك. علاوة على ذلك ، إذا كنت تعمل مع شريك ، فسيحد من قدرة شريكك على تغيير التحليل بعد رؤية النتائج. أصبح التسجيل المسبق شائعاً بشكل متزايد في علم النفس (Nosek and Lakens 2014) والعلوم السياسية (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ، والاقتصاد (Olken 2015) .
يتم تقديم نصائح التصميم خصيصًا للتجارب الميدانية عبر الإنترنت في Konstan and Chen (2007) و Chen and Konstan (2015) .
يطلق على ما أسمته استراتيجية أرمادا أحيانًا البحث البرمجي ؛ انظر Wilson, Aronson, and Carlsmith (2010) .
لمعرفة المزيد عن تجارب Salganik, Dodds, and Watts (2006) ، انظر Salganik, Dodds, and Watts (2006) ، Salganik and Watts (2008) ، Salganik and Watts (2009b) ، Salganik and Watts (2009a) ، و Salganik (2007) . لمزيد من المعلومات عن أسواق جميع الفئات الفائزة ، راجع Frank and Cook (1996) . لمعرفة المزيد عن الحظ والمهارة غير المتشابكين بشكل عام ، راجع Mauboussin (2012) و Watts (2012) و Frank (2016) .
هناك نهج آخر للقضاء على مدفوعات المشاركين التي يجب على الباحثين استخدامها بحذر: التجنيد. في العديد من التجارب الميدانية عبر الإنترنت ، تتم صياغة المشاركين بشكل أساسي في التجارب ولا يتم تعويضهم أبدًا. وتشمل أمثلة هذا النهج تجربة ريستيفو وفان دي ريجيت (2012) على المكافآت في تجربة ويكيبيديا وبوند وزميله (2012) لتشجيع الناس على التصويت. هذه التجارب لا تحتوي على أي تكلفة متغيرة - بل هي لا تحتوي على أي تكلفة متغيرة للباحثين . في مثل هذه التجارب ، حتى إذا كانت التكلفة لكل مشارك صغيرة للغاية ، يمكن أن تكون التكلفة الإجمالية كبيرة جدًا. غالبًا ما يبرر الباحثون الذين يديرون تجارب ضخمة عبر الإنترنت أهمية آثار العلاج المقدرة الصغيرة بقولهم أن هذه التأثيرات الصغيرة يمكن أن تصبح مهمة عند تطبيقها على العديد من الأشخاص. ينطبق نفس التفكير بالضبط على التكاليف التي يفرضها الباحثون على المشاركين. إذا تسببت التجربة في إهدار مليون شخص لدقيقة واحدة ، فإن التجربة ليست ضارة جدًا لأي شخص بعينه ، ولكن في مجمله أهدر ما يقرب من عامين من الزمن.
هناك طريقة أخرى لتخفيض دفع التكلفة المتغيرة للمشاركين وهي استخدام اليانصيب ، وهو أسلوب تم استخدامه أيضًا في أبحاث المسح (Halpern et al. 2011) . لمزيد من المعلومات حول تصميم تجارب ممتعة للمستخدم ، راجع Toomim et al. (2011) . لمعرفة المزيد حول استخدام برامج الروبوت لإنشاء تجارب صفر بتكلفة متغيرة ، انظر ( ??? ) .
فيما يلي وصفات R الثلاثة كما اقترحها Russell and Burch (1959) :
"استبدال يعني إحلال واعية الحيوانات الحية أعلى من المواد insentient. تخفيض يعني انخفاض في أعداد الحيوانات المستخدمة للحصول على معلومات من مبلغ معين والدقة. الصقل يعني أي انخفاض في معدل الإصابة أو شدتها من الإجراءات غير الإنسانية المطبقة على تلك الحيوانات التي لا تزال لديها لاستخدامها ".
لا تكتسح الثلاثة R التي أقترحها المبادئ الأخلاقية الموصوفة في الفصل 6. بل هي نسخة أكثر تفصيلاً واحدة من تلك المبادئ - الإحسان - وتحديدًا في وضع التجارب البشرية.
من حيث R الأولى ("الاستبدال") ، فإن مقارنة تجربة العدوى العاطفية (Kramer, Guillory, and Hancock 2014) والتجارب الطبيعية للعدوى العاطفية (Lorenzo Coviello et al. 2014) تقدم بعض الدروس العامة حول المقايضات المعنية في الانتقال من التجارب إلى التجارب الطبيعية (والنهج الأخرى مثل مطابقة تلك المحاولة لتقريب التجارب في البيانات غير التجريبية ؛ انظر الفصل 2). بالإضافة إلى الفوائد الأخلاقية ، فإن التحول من الدراسات التجريبية إلى الدراسات غير التجريبية يُمكِّن الباحثين من دراسة المعالجات التي لا يستطيعون نشرها من الناحية اللوجستية. هذه الفوائد الأخلاقية واللوجستية تأتي في التكلفة ، ولكن. باستخدام التجارب الطبيعية ، يتمتع الباحثون بقدرة أقل على التحكم في أشياء مثل تعيين المشاركين ، والعشوائية ، وطبيعة العلاج. على سبيل المثال ، أحد القيود على هطول الأمطار كعلاج هو أنه يزيد من الإيجابية ويقلل من السلبية. في الدراسة التجريبية ، تمكن كرامر وزملاؤه من تعديل الإيجابية والسلبية بشكل مستقل. النهج الخاص الذي استخدمه Lorenzo Coviello et al. (2014) تم تطويره بشكل أكبر من قبل L. Coviello, Fowler, and Franceschetti (2014) . للحصول على مقدمة للمتغيرات الآلية ، وهو النهج الذي استخدمه Lorenzo Coviello et al. (2014) ، انظر Angrist and Pischke (2009) (أقل رسمية) أو Angrist, Imbens, and Rubin (1996) (أكثر رسمية). للحصول على تقييم متشكك للمتغيرات الآلية ، انظر Deaton (2010) ، Deaton (2010) للمتغيرات Deaton (2010) ذات الأدوات الضعيفة (المطر هو أداة ضعيفة) ، انظر Murray (2006) . بشكل عام ، يتم تقديم مقدمة جيدة للتجارب الطبيعية بواسطة Dunning (2012) ، بينما يقدم Rosenbaum (2002) و ( ??? ) و Shadish, Cook, and Campbell (2001) أفكارًا جيدة حول تقدير التأثيرات السببية بدون تجارب.
من حيث R ("التنقيح" الثاني) ، هناك مبادلات علمية ولوجستية عند النظر في تغيير تصميم العدوى العاطفية من حجب الوظائف إلى تعزيز الوظائف. على سبيل المثال ، قد يكون السبب في أن التنفيذ الفني لخلاصة الأخبار يجعل من السهل جدًا إجراء تجربة يتم فيها حظر المشاركات بدلاً من واحدة يتم تعزيزها (لاحظ أنه يمكن تنفيذ تجربة تتضمن حظر الوظائف). كطبقة أعلى نظام "موجز الأخبار" دون الحاجة إلى أي تعديلات في النظام الأساسي). ولكن من الناحية العلمية ، لم تقترح النظرية التي تناولتها التجربة بوضوح تصميمًا على الآخر. لسوء الحظ ، لست على دراية بالبحث المسبق الكبير حول الميزات النسبية لحظر المحتوى وتعزيزه في موجز الأخبار. أيضا ، لم أر الكثير من الأبحاث حول تنقية العلاجات لجعلها أقل ضررا. استثناء واحد هو B. Jones and Feamster (2015) ، التي تنظر في حالة قياس الرقابة على الإنترنت (وهو موضوع (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) في الفصل 6 فيما يتعلق بدراسة Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
من حيث R ("التخفيض" الثالث) ، يتم تقديم مقدمات جيدة لتحليل القوة التقليدية بواسطة Cohen (1988) (كتاب) و Cohen (1992) (المقالة) ، في حين يقدم كل من Gelman and Carlin (2014) وجهة نظر مختلفة قليلاً. يمكن تضمين المتغيرات المشتركة قبل المعالجة في مرحلة التصميم والتحليل للتجارب ؛ يقدم الفصل 4 من Gerber and Green (2012) مقدمة جيدة لكلا النهجين ، ويقدم Casella (2008) أكثر عمقا. عادةً ما تسمى التقنيات التي تستخدم معلومات المعالجة المسبقة هذه في التوزيع العشوائي إما بالتصاميم التجريبية المحظورة أو التصاميم التجريبية الطبقية (لا يتم استخدام المصطلحات بشكل متسق عبر المجتمعات) ؛ وترتبط هذه التقنيات ارتباطًا وثيقًا بتقنيات أخذ العينات الطبقية التي تمت مناقشتها في الفصل 3. انظر Higgins, Sävje, and Sekhon (2016) لمعرفة المزيد عن استخدام هذه التصاميم في تجارب ضخمة. يمكن أيضًا تضمين المتغيرات المشتركة السابقة للعلاج في مرحلة التحليل. يستكشف McKenzie (2012) منهج اختلاف الاختلافات في تحليل التجارب الميدانية بمزيد من التفصيل. راجع Carneiro, Lee, and Wilhelm (2016) لمعرفة المزيد حول المقايضات بين الأساليب المختلفة لزيادة الدقة في تقديرات تأثيرات العلاج. وأخيرًا ، عند اتخاذ قرار بشأن محاولة تضمين المتغيرات المشتركة السابقة على المعالجة في مرحلة التصميم أو التحليل (أو كليهما) ، هناك بعض العوامل التي يجب وضعها في الاعتبار. في مكان يريد فيه الباحثون إثبات أنهم ليسوا " (Humphreys, Sierra, and Windt 2013) " (Humphreys, Sierra, and Windt 2013) ، فإن استخدام المتغيرات المشتركة السابقة على المعالجة في مرحلة التصميم يمكن أن يكون مفيدًا (Higgins, Sävje, and Sekhon 2016) . في الحالات التي يصل فيها المشاركون بالتسلسل ، خاصةً التجارب الميدانية عبر الإنترنت ، قد يكون استخدام معلومات ما قبل المعالجة في مرحلة التصميم أمرًا صعبًا من الناحية اللوجستية ؛ انظر ، على سبيل المثال ، Xie and Aurisset (2016) .
من الجدير إضافة بعض الحدس حول السبب في أن نهج الاختلاف في الاختلافات يمكن أن يكون أكثر فعالية من الاختلاف في واحد. العديد من النتائج عبر الإنترنت لها تباين عالٍ للغاية (انظر على سبيل المثال ، RA Lewis and Rao (2015) و Lamb et al. (2015) ) وهما مستقران نسبيًا مع مرور الوقت. في هذه الحالة ، سيكون لفرز التغيير تباين أصغر بكثير ، مما يزيد من قوة الاختبار الإحصائي. وأحد أسباب عدم استخدام هذا النهج في كثير من الأحيان هو أنه قبل العصر الرقمي ، لم يكن من الشائع الحصول على نتائج ما قبل المعالجة. وهناك طريقة أكثر واقعية للتفكير في هذا هو تصور تجربة لقياس ما إذا كان روتين ممارسة معين يسبب فقدان الوزن. إذا كنت تتبنى منهجًا مختلفًا عن الاختلاف ، فسيكون لتقديرك تقلب ناتج عن التباين في الأوزان بين السكان. ومع ذلك ، إذا قمت بإجراء نهج الاختلاف في الاختلافات ، فإن الاختلاف الطبيعي في الأوزان يتم إزالته ، ويمكنك بسهولة اكتشاف الاختلاف الذي يسببه العلاج.
وأخيرا ، فكرت في إضافة رابع رابع: "إعادة توظيف". بمعنى أنه إذا وجد الباحثون أنفسهم ببيانات تجريبية أكثر مما يحتاجون إلى معالجة سؤالهم البحثي الأصلي ، فعليهم إعادة توظيف البيانات لطرح أسئلة جديدة. على سبيل المثال ، تخيل أن كرامر وزملاؤه استخدموا مُقدِّر الاختلاف في الاختلاف ووجدوا أنفسهم ببيانات أكثر مما يحتاجون إليه لمعالجة سؤالهم البحثي. بدلاً من عدم استخدام البيانات إلى أقصى حد ، كان بإمكانهم دراسة حجم التأثير كدالة تعبير عاطفي ما قبل المعالجة. تماما كما Schultz et al. (2007) وجدت أن تأثير العلاج كان مختلفًا بالنسبة للمستخدمين الخفيفين والثقيلين ، وربما كانت تأثيرات "موجز الأخبار" مختلفة بالنسبة للأشخاص الذين يميلون بالفعل إلى إرسال رسائل سعيدة (أو حزينة). يمكن أن تؤدي إعادة التنشيط إلى "صيد الأسماك" (Humphreys, Sierra, and Windt 2013) و "القرصنة" (Simmons, Nelson, and Simonsohn 2011) ، ولكن يمكن التعامل معها بشكل كبير مع مجموعة من التقارير الصادقة (Simmons, Nelson, and Simonsohn 2011) ، التسجيل المسبق (Humphreys, Sierra, and Windt 2013) ، وطرق التعلم الآلي التي تحاول تجنب الإفراط في التركيب.