سوالاتی درباره علیت در تحقیقات اجتماعی اغلب پیچیده و پیچیده است. برای یک رویکرد مبتنی بر علیت بر اساس نمودارهای علمی، Pearl (2009) ، و برای یک رویکرد پایه بر اساس نتایج بالقوه، نگاه کنید به Imbens and Rubin (2015) . برای مقایسه بین این دو رویکرد، نگاه کنید به Morgan and Winship (2014) . برای یک رویکرد رسمی برای تعریف یک مخالف، VanderWeele and Shpitser (2013) .
در این فصل، آنچه را که به نظر می آید یک خط روشن بین توانایی ما برای ایجاد تخمین های علمی از داده های تجربی و غیر آزمایش است، ایجاد کرده ام. با این حال، من فکر می کنم که در واقع، تمایز مبهم تر است. به عنوان مثال، هر کس می پذیرد که سیگار باعث سرطان می شود، حتی اگر هیچ آزمایش تصادفی کنترل شده ای که افراد را مجبور به مصرف سیگار می کند، تاکنون انجام نشده است. برای بررسی های طولانی در طول کتاب، برآوردهای علمی از داده های غير آزمایشی، Rosenbaum (2002) ، ( ??? ) ، Shadish, Cook, and Campbell (2001) و Dunning (2012) .
فصل 1 و 2 Freedman, Pisani, and Purves (2007) مقدمه ای روشن برای تفاوت بین آزمایش ها، آزمایش های کنترل شده و آزمایش های کنترل شده تصادفی ارائه می دهند.
Manzi (2012) مقدمه ای جذاب و قابل خواندن در زمینه های فلسفی و آماری آزمایش های کنترل شده تصادفی را فراهم می کند. این همچنین نمونه های جالب دنیای واقعی را از قدرت آزمایش در کسب و کار ارائه می دهد. Issenberg (2012) مقدمه ای جذاب برای استفاده از آزمایش در مبارزات سیاسی ارائه می دهد.
Box, Hunter, and Hunter (2005) ، @ casella_statistical_2008، و Athey and Imbens (2016b) معرفی خوبی برای جنبه های آماری طراحی و تجزیه و تحلیل تجربی است. علاوه بر این، درمان بسیار خوبی از استفاده از آزمایش در زمینه های مختلف وجود دارد: اقتصاد (Bardsley et al. 2009) ، جامعه شناسی (Willer and Walker 2007; Jackson and Cox 2013) ، روانشناسی (Aronson et al. 1989) ، علوم سیاسی (Morton and Williams 2010) و سیاست های اجتماعی (Glennerster and Takavarasha 2013) .
اهمیت استخدام شرکت کنندگان (مثلا نمونه برداری) اغلب در تحقیقات تجربی کم اهمیت است. با این حال، اگر اثر درمان در جامعه ناهمگن باشد، نمونه گیری حیاتی است. Longford (1999) این نکته را به روشنی بیان می کند که او برای محققانی که فکر می کنند آزمایشات را به عنوان یک نظرسنجی جمعیتی با نمونه گیری بی نظیر مورد حمایت قرار می دهند، حمایت می کند.
من پیشنهاد کرده ام که بین آزمایش های آزمایشگاهی و آزمایشگاهی یک محدوده وجود دارد و محققان دیگر تئوری های دقیق تر را پیشنهاد کرده اند، به ویژه آنهایی که اشکال مختلف آزمایش های حوزه را جدا می کنند (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
تعدادی از مقالات آزمایشات آزمایشگاهی و آزمایشگاهی را در خلاصه مقالات (Falk and Heckman 2009; Cialdini 2009) و از نظر نتایج آزمایشات خاص در علوم سیاسی (Coppock and Green 2015) ، اقتصاد (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) و روانشناسی (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) یک طرح پژوهشی خوب برای مقایسه نتایج آزمایشات آزمایشگاهی و آزمایشگاهی ارائه می دهند. Parigi, Santana, and Cook (2017) توصیف می کند که چگونه آزمایش های آنلاین میدان می تواند برخی از ویژگی های آزمایشات آزمایشگاهی و آزمایشگاهی را ترکیب کند.
نگرانی در مورد شرکت کنندگان در تغییر رفتار آنها، چون آنها می دانند که از نزدیک دیده می شوند، گاهی به عنوان اثرات تقاضا نامیده می شود و در روانشناسی (Orne 1962) و اقتصاد (Zizzo 2010) مورد مطالعه قرار گرفته است. اگر چه اغلب با آزمایشات آزمایشگاهی مرتبط است، این مسائل مشابه نیز می تواند مشکلات را برای آزمایش های میدانی ایجاد کند. در حقیقت، اثرات تقاضا نیز گاهی اوقات به اثرات Hawthorne اثر می گذارند ، که اصطلاحاتی است که تجربیات برجسته روشنایی را که در سال 1924 در کارهای Hawthorne شرکت برق غربی آغاز شد (Adair 1984; Levitt and List 2011) . هر دو اثر تقاضا و اثرات Hawthorne نزدیک به ایده اندازه گیری واکنشی بحث شده در فصل 2 مربوط است (همچنین Webb et al. (1966) ).
آزمایشات میدانی تاریخ طولانی در اقتصاد دارند (Levitt and List 2009) ، علوم سیاسی (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) ، روانشناسی (Shadish 2002) و سیاست عمومی (Shadish and Cook 2009) . یکی از حوزه های علوم اجتماعی که در آن آزمایشات به سرعت سریع شد، توسعه بین المللی است. برای بررسی مثبت آن کار در اقتصاد، نگاه کنید به Banerjee and Duflo (2009) ، و برای ارزیابی انتقادی Deaton (2010) . برای بررسی این کار در علوم سیاسی، Humphreys and Weinstein (2009) . در نهایت، چالش های اخلاقی ناشی از آزمایش های میدانی در زمینه علوم سیاسی (Humphreys 2015; Desposato 2016b) و اقتصاد توسعه (Baele 2013) .
در این بخش پیشنهاد شد که اطلاعات پیش از درمان را می توان برای بهبود دقت اثرات درمان تخمین زده شده، اما بحث در مورد این روش وجود دارد. Freedman (2008) ، W. Lin (2013) ، Berk et al. (2013) ، و Bloniarz et al. (2016) برای اطلاعات بیشتر.
در نهایت، دو آزمایش دیگر انجام شده توسط دانشمندان علوم اجتماعی انجام می شود که به طور منظم در کنار ابعاد آزمایشگاهی قرار نگرفته اند: آزمایش های تجربی و آزمایش های اجتماعی. آزمایش های تحقیق ، آزمایشات با استفاده از زیرساخت های نظرسنجی های موجود و مقایسه پاسخ ها به نسخه های جایگزین مشابه سوالات (برخی از آزمایش های بررسی در فصل 3 ارائه شده است)؛ برای اطلاعات بیشتر در مورد آزمایشات بررسی، می بینید Mutz (2011) . آزمایش های اجتماعی آزمایش هایی هستند که در آن درمان برخی از سیاست های اجتماعی است که تنها توسط دولت قابل اجرا است. آزمایش های اجتماعی با ارزیابی برنامه ارتباط نزدیک دارد. برای کسب اطلاعات بیشتر در مورد آزمایشات سیاسی، Heckman and Smith (1995) ، Orr (1998) و @ glennerster_running_2013 را ببینید.
من تصمیم گرفتم بر سه مفهوم تمرکز کنم: اعتبار، ناهمگونی اثرات درمان، و مکانیزم. این مفاهیم در زمینه های مختلف نام های مختلفی دارند. به عنوان مثال، روانشناسان با تمرکز بر واسطه ها و مدیران، فراتر از آزمایش های ساده می روند (Baron and Kenny 1986) . ایده میانجی ها توسط چیزی است که من مکانیسم نامیده می شود دستگیر می شود و ایده مداران توسط آنچه من اعتبار بیرونی نامیده می شود دستگیر می شود (مثلا اگر نتایج آزمایش در شرایط مختلف اجرا متفاوت باشد) و ناهمگونی اثرات درمان ( به عنوان مثال، اثرات بیشتر برای برخی از افراد نسبت به دیگران است).
آزمایش Schultz et al. (2007) نشان می دهد چگونه نظریه های اجتماعی می توانند برای طراحی مداخلات موثر استفاده شوند. برای یک استدلال کلیتر در مورد نقش نظریه در طراحی مداخلات موثر، به Walton (2014) .
مفاهیم اعتبار داخلی و خارجی ابتدا توسط Campbell (1957) معرفی شد. برای تاریخ دقیق تر و دقیق تر بودن اعتبار نتیجه گیری آماری، اعتبار داخلی، اعتبار ساختاری و اعتبار بیرونی Shadish, Cook, and Campbell (2001) .
برای یک مرور کلی از مسائل مربوط به اعتبار نتیجه گیری آماری در آزمایشات، Gerber and Green (2012) (از دیدگاه علوم اجتماعی) و Imbens and Rubin (2015) (از دیدگاه آماری) را ببینید. بعضی از مسائل مربوط به اعتبار نتیجه گیری آماری که به طور خاص در آزمایشات آنلاین صورت می گیرد، شامل مسائلی مانند روش های محاسباتی کارآمد برای ایجاد فواصل اطمینان با داده های وابسته می باشد (Bakshy and Eckles 2013) .
اعتبار داخلی می تواند در آزمایشات پیچیده پیچیده شود. به عنوان مثال Gerber and Green (2000) ، Imai (2005) و Gerber and Green (2005) برای بحث در مورد پیاده سازی یک آزمایش پیچیده در مورد رای گیری، را ببینید. Kohavi et al. (2012) و Kohavi et al. (2013) مقدمه ای بر چالش های اعتبار بازه در آزمایش های آنلاین در سطح مقدماتی ارائه می دهد.
یکی از تهدیدات عمده برای اعتبار داخلی، احتمال تصادف شکست خورده است. یکی از راه های بالقوه برای تشخیص مشکلات با تصادف، مقایسه گروه های درمان و کنترل بر صفات قابل مشاهده است. این نوع مقایسه، کنترل تعادل است . Hansen and Bowers (2008) برای رویکرد آماری برای تعادل چک و Mutz and Pemantle (2015) برای نگرانی در مورد چک های تعادل ببینید. به عنوان مثال، با استفاده از یک چک تعادل، Allcott (2011) برخی شواهد دریافت که تصادفی در سه آزمایش آزمایشگاهی Opower به درستی انجام نشده است (جدول 2؛ سایت ها 2، 6 و 8 را ببینید). برای رویکردهای دیگر، نگاه کنید به فصل 21 Imbens and Rubin (2015) .
سایر نگرانی های عمده مربوط به اعتبار داخلی عبارتند از: (1) عدم انطباق یک طرفه، که در آن هیچ کس در گروه درمان در واقع درمان را دریافت نمی کرد؛ (2) عدم رعایت دو طرفه، که در آن هیچ کس در گروه درمان نمی پذیرد و برخی از افراد گروه کنترل دریافت درمان، (3) سستی، که نتایج برای برخی از شرکت کنندگان اندازه گیری نمی شود، و (4) مداخله، که در آن درمان از افراد در شرایط درمان به افراد در شرایط کنترل از بین می رود. به فصل 5، 6، 7 و 8 فصل Gerber and Green (2012) تا برای هر یک از این مسائل بیشتر بیاموزید.
برای اطلاعات بیشتر در مورد اعتبار سازه، Westen and Rosenthal (2003) و بیشتر برای اعتبار سازگاری در منابع داده بزرگ، Lazer (2015) و فصل 2 این کتاب را ببینید.
یکی از جنبه های اعتبار بیرونی، تنظیماتی است که در آن مداخله مورد آزمایش قرار می گیرد. Allcott (2015) درمان نظری و تجربی دقیق از شیوه انتخاب سایت را فراهم می کند. این موضوع همچنین توسط Deaton (2010) مورد بحث قرار گرفته است. یکی دیگر از جنبه روایی بیرونی این است که آیا تجربیات دیگری از همان مداخله اثر مشابهی خواهند داشت. در این مورد، مقایسه بین Schultz et al. (2007) و Allcott (2011) نشان می دهد که آزمایشات Opower اثر کمتر تحت تاثیر قرار گرفته از آزمایش های اصلی شولتز و همکارانش (1.7٪ و 5٪) داشته است. Allcott (2011) حدس زد که آزمایشات پیگیری به دلیل شیوه های درمان متفاوت، اثر کمتری داشته است: یک شکلک دست نویس به عنوان بخشی از مطالعه ای که توسط یک دانشگاه حمایت می شود، در مقایسه با شکلک چاپ شده به عنوان بخشی از یک تولید انبوه گزارش از یک شرکت قدرت.
برای یک مرور عالی از ناهمگونی اثرات درمان در آزمایشات زمینه، به فصل 12 Gerber and Green (2012) . برای معرفی به ناهمگونی اثرات درمان در آزمایشات پزشکی، Kent and Hayward (2007) ، Longford (1999) ، و Kravitz, Duan, and Braslow (2004) . در نظر گرفتن ناهمگونی اثرات درمان به طور کلی بر تفاوت های مبتنی بر ویژگی های قبل از درمان تمرکز می کنند. اگر شما علاقه مند به ناهمگونی بر اساس نتایج پس از درمان، سپس روش های پیچیده تر مانند طبقه بندی اصلی (Frangakis and Rubin 2002) ؛ ببینید Page et al. (2015) برای بررسی.
بسیاری از محققان ناهمگنی اثرات درمان را با استفاده از رگرسیون خطی تخمین می زنند، اما روش های جدیدتر به یادگیری ماشین بستگی دارد. به عنوان مثال، Green and Kern (2012) ، Imai and Ratkovic (2013) ، Taddy et al. (2016) ، و Athey and Imbens (2016a) .
برخی از شک و تردید در مورد یافته های ناهمگونی اثرات به دلیل مشکلات مقایسه چندگانه و "ماهیگیری" وجود دارد. روش های آماری متعددی وجود دارد که می تواند نگرانی های مربوط به مقایسه چندگانه را مورد توجه قرار دهد (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) یک رویکرد به نگرانی در مورد "ماهیگیری" پیش از ثبت نام است، که در روانشناسی (Nosek and Lakens 2014) ، علوم سیاسی (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ، و اقتصاد (Olken 2015) .
در مطالعه Costa and Kahn (2013) تنها حدود نیمی از خانوارها در آزمایش میتوانند با اطلاعات جمعیت شناختی مرتبط شوند. خوانندگان علاقه مند به این جزئیات باید به مقاله اصلی مراجعه کنند.
مکانیسم ها فوق العاده مهم هستند، اما برای مطالعه بسیار دشوار است. تحقیق در مورد مکانیزم ها به طور دقیق به مطالعه میانجیگری در روانشناسی VanderWeele (2009) اما همچنین VanderWeele (2009) برای مقایسه دقیق بین دو ایده). رویکردهای آماری برای یافتن مکانیسم ها، مانند رویکرد توسعه یافته در Baron and Kenny (1986) ، بسیار معمول است. متاسفانه معلوم می شود که این روش ها به برخی فرضیه های قوی بستگی دارد (Bullock, Green, and Ha 2010) و زمانی که مکانیزم های متعددی وجود دارد، همانطور که ممکن است در بسیاری از موارد انتظار داشته باشید (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) و Imai and Yamamoto (2013) برخی روش های آماری بهبود یافته را ارائه می دهند. علاوه بر این، VanderWeele (2015) یک دوره طولانی کتاب را با تعدادی از نتایج مهم ارائه می دهد، از جمله یک روش جامع برای تجزیه و تحلیل حساسیت.
یک رویکرد جداگانه تمرکز بر آزمایش هایی است که تلاش می کند به طور مستقیم این مکانیزم را دستکاری کند (به عنوان مثال، دادن ویتامین C ملوان). متاسفانه، در بسیاری از تنظیمات علوم اجتماعی، اغلب مکانیسم های متعددی وجود دارد و طراحی درمان هایی که بدون تغییر دیگران تغییر می کند سخت است. برخی از رویکردهای مکانیسم های تجربی تغییر شکل داده شده توسط Imai, Tingley, and Yamamoto (2013) ، Ludwig, Kling, and Mullainathan (2011) و Pirlott and MacKinnon (2016) Ludwig, Kling, and Mullainathan (2011) و Pirlott and MacKinnon (2016) .
محققان آزمایشات فاکتوریل را به طور کامل تحت آزمایش قرار می دهند. برای اطلاعات بیشتر به Fink, McConnell, and Vollmer (2014) و List, Shaikh, and Xu (2016) مراجعه کنید.
در نهایت، مکانیزم ها نیز در فلسفه علم تاریخ طولانی دارند، همانطور که Hedström and Ylikoski (2010) .
برای اطلاعات بیشتر در مورد استفاده از مطالعات مکاتبات و مطالعات حسابرسی برای اندازه گیری تبعیض، به Pager (2007) .
رایج ترین روش برای جمع آوری شرکت کنندگان در آزمایش هایی که شما انجام می دهید Amazon Mechanical Turk (MTurk) است. از آنجایی که MTurk جنبه های آزمایش آزمایشگاه های سنتی را تقلید می کند تا افراد را به انجام وظایفی که برای انجام امور رایگان انجام نمی دهند تقلید کنند، بسیاری از محققان قبلا از ترککر ها (کارگران MTurk) به عنوان مشارکت کنندگان تجربی استفاده کرده اند و در نتیجه جمع آوری داده ها سریع تر و ارزان تر است. در آزمایشات آزمایشگاهی سنتی در دانشگاه (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
به طور کلی، بزرگترین مزیت استفاده از شرکت کنندگان استخدام شده از MTurk، لجستیکی است. در حالی که آزمایش آزمایشگاه می تواند هفته ها طول بکشد تا آزمایشات انجام شود و آزمایش های میدانی می تواند چند ماه طول بکشد، آزمایش ها با شرکت کنندگان استخدام شده از MTurk می تواند در روز انجام شود. به عنوان مثال، Berinsky, Huber, and Lenz (2012) توانستند در یک روز Berinsky, Huber, and Lenz (2012) 400 نفر را برای شرکت در یک آزمایش 8 دقیقه ای استخدام کنند. علاوه بر این، این شرکت کنندگان را می توان برای تقریبا هر هدف (شامل نظرسنجی و همکاری جمعی، همانطور که در فصل 3 و 5 بحث شده است) استخدام می شود. این سهولت استخدام به این معنی است که محققان می توانند دنباله های آزمایش های مربوطه را در سرتاسر سریع اجرا کنند.
قبل از استخدام شرکت کنندگان از MTurk برای آزمایش خود، چهار چیز مهم است که باید بدانید. اولا، بسیاری از محققان شک و تردید ناسازگارانه از آزمایشات مربوط به ترک ها دارند. از آنجا که این شک و تردید مشخص نیست، با مخالفت با شواهد سخت است. با این حال، پس از چند سال تحقیق با استفاده از ترککر، اکنون می توان نتیجه گرفت که این شک و تردید به طور خاص قابل توجیه نیست. مطالعات زیادی انجام شده است که جمعیت جمعیت تورک ها را با جمعیت های دیگر مقایسه می کند و مطالعات زیادی را در مقایسه با نتایج آزمایش های ترککر انجام می دهد. با توجه به تمام این کارها، من فکر می کنم بهترین راه برای شما در مورد آن این است که ترک ها یک نمونه مناسب مناسب هستند، شبیه دانش آموزان، اما کمی متفاوت (Berinsky, Huber, and Lenz 2012) . بنابراین، به همان اندازه که دانش آموزان برای برخی، اما نه همه تحقیقات، یک جمعیت معقول هستند، تورک ها یک جمعیت معقول برای تحقیقات برخی، اما نه همه هستند. اگر قصد دارید با Turker کار کنید، لازم است که بسیاری از این مطالعات مقایسه ای را بخوانید و تفاوت های آنها را درک کنید.
دوم، محققان بهترین شیوه برای افزایش اعتبار داخلی آزمایشات MTurk را توسعه داده اند، و شما باید این روش ها را یاد بگیرند (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . به عنوان مثال، محققانی که از ترککر ها استفاده می کنند، تشویق می شوند که از شرکتکنندگان (Berinsky, Margolis, and Sances 2014, 2016) (اما همچنین DJ Hauser and Schwarz (2015b) و DJ Hauser and Schwarz (2015a) ). اگر شرکت کنندگان بی توجهی را حذف نکنید، هر گونه اثر درمان می تواند توسط سر و صدا که آنها معرفی، شسته و در عمل تعدادی از شرکت کنندگان بی توجهی می تواند قابل توجه است. در آزمایش هوبر و همکارانش (2012) ، حدود 30٪ از شرکت کنندگان شکست خورده اند. مشكلات دیگر كه معمولا هنگام استفاده از تورك ها بوجود می آیند، شركت كنندگان غيرعملي هستند (Chandler et al. 2015) و سایش (Zhou and Fishbach 2016) .
سوم، نسبت به برخی از اشکال دیگر آزمایش های دیجیتال، آزمایشات MTurk نمیتوانند مقیاس شوند؛ Stewart et al. (2015) برآورد می کند که در هر زمان خاص، حدود 7000 نفر در MTurk حضور دارند.
در نهایت شما باید بدانید که MTurk یک جامعه با قوانین و مقررات خاص خود است (Mason and Suri 2012) . به همین ترتیب، شما سعی می کنید تا در مورد فرهنگ یک کشوری که در آن قرار بود آزمایشات خود را انجام دهید، بیابید، باید سعی کنید بیشتر درباره فرهنگ و هنجارهای ترککر ها (Salehi et al. 2015) Salhi (Salehi et al. 2015) بیابید. و شما باید بدانید که Turker در مورد آزمایش شما صحبت می کند، اگر شما چیزی غیر نامطمئن یا غیر اخلاقی انجام دهید (Gray et al. 2016) .
MTurk یک روش فوق العاده راحت است که شرکت کنندگان را به آزمایش های خود بسپارید، به عبارتی آزمایشگاه هایی مانند Huber, Hill, and Lenz (2012) و یا بیشتر زمینه هایی مانند Mason and Watts (2009) ، Goldstein, McAfee, and Suri (2013) ، Goldstein et al. (2014) ، Horton and Zeckhauser (2016) و Mao et al. (2016) .
اگر به فکر ساختن محصول خود هستید، توصیه می کنم که توصیه های ارائه شده توسط گروه MovieLens را در Harper and Konstan (2015) . بینش کلی از تجربه آنها این است که برای هر پروژه موفق بسیاری از شکستهای بسیاری وجود دارد. به عنوان مثال، گروه MovieLens محصولات دیگری مانند GopherAnswers را راهاندازی کرد که خرابی کامل داشت (Harper and Konstan 2015) . یک نمونه دیگر از یک محقق که در تلاش برای ساخت یک محصول ناکام است، تلاش ادوارد کاسترونووا برای ساخت یک بازی آنلاین به نام آردن است. با وجود 250،000 دلار در بودجه، این پروژه یک فلاپ بود (Baker 2008) . پروژه هایی مانند GopherAnswers و Arden متاسفانه بسیار شایع تر از پروژه هایی مانند MovieLens هستند.
من شنیده ایده ی Quadrant پاستور را که اغلب در شرکت های فناوری مورد بحث قرار می گیرد شنیده ام و به سازماندهی تلاش های پژوهشی در Google کمک می کند (Spector, Norvig, and Petrov 2012) .
مطالعه Bond و همکاران (2012) همچنین تلاش می کند تا تأثیر این درمان ها را بر روی دوستان کسانی که آنها را دریافت می کنند شناسایی کند. به دليل طراحي آزمايش، اين پديده ها به راحتي قابل تشخيص هستند. خوانندگان علاقه مند باید Bond et al. (2012) برای یک بحث جامع تر. جونز و همکارانش (2017) نیز طی یک انتخابات سال 2012 یک آزمایش بسیار مشابه انجام دادند. این آزمایشات بخشی از سنت طولانی آزمایشات در علوم سیاسی در تلاش برای تشویق به رای دادن (Green and Gerber 2015) . این آزمایشات بیرون آمدن رایج هستند، بخشی از این که آنها در Quadrant پاستور هستند. به این معنا، افراد زیادی هستند که انگیزه افزایش رأی هستند و رأی دادن می تواند رفتار جالبی باشد تا تئوری های عمومی تر درباره تغییر رفتار و تأثیر اجتماعی را آزمایش کند.
برای مشاوره در مورد انجام آزمایش های مزرعه با سازمان های شریک مانند احزاب سیاسی، سازمان های غیر دولتی و کسب و کار، به Loewen, Rubenson, and Wantchekon (2010) ، JA List (2011) و Gueron (2002) . برای افکار درباره اینکه چگونه مشارکت با سازمانها می تواند بر طرح های پژوهشی تاثیر بگذارد، به King et al. (2007) و Green, Calfano, and Aronow (2014) . همکاری همچنین می تواند به سوالات اخلاقی منجر شود، همانطور که Humphreys (2015) و Nickerson and Hyde (2016) مورد بحث قرار گرفت.
اگر پیش از اجرای آزمایش، طرح تجزیه و تحلیل ایجاد کنید، پیشنهاد می کنم که با خواندن دستورالعمل های گزارشگری شروع کنید. دستورالعمل ها (Consolidated Standard Reporting Trials) در پزشکی (Schulz et al. 2010) و برای تحقیقات اجتماعی اصلاح شده (Mayo-Wilson et al. 2013) توسعه یافتند. مجموعه ای از دستورالعمل ها توسط سردبیران مجله علوم سیاسی تجربی (Gerber et al. 2014) (همچنین نگاه کنید به همچنین Mutz and Pemantle (2015) و Gerber et al. (2015) ) توسعه یافته است. سرانجام، دستورالعمل های گزارشگری در روانشناسی (APA Working Group 2008) توسعه یافته است و همچنین Simmons, Nelson, and Simonsohn (2011) .
اگر شما یک طرح تجزیه و تحلیل ایجاد کنید، باید قبل از ثبت آن را بررسی کنید، زیرا پیش ثبت نام اعتماد دیگران را در نتایج شما افزایش می دهد. علاوه بر این، اگر شما با یک شریک کار می کنید، توانایی شریک خود را برای تغییر تجزیه و تحلیل پس از مشاهده نتایج محدود می کند. پیش ثبت نام به طور فزاینده ای در روانشناسی (Nosek and Lakens 2014) ، علوم سیاسی (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) و اقتصاد (Olken 2015) (Nosek and Lakens 2014) به طور فزاینده ای تبدیل شده است.
مشاوره طراحی به طور خاص برای آزمایش های آنلاین آنلاین نیز در Konstan and Chen (2007) و Chen and Konstan (2015) .
آنچه که من به استراتژی ارتدا نامیده ام گاهی به نام تحقیق برنامه ریزی است ؛ Wilson, Aronson, and Carlsmith (2010) .
برای اطلاعات بیشتر در آزمایشهای MusicLab به Salganik, Dodds, and Watts (2006) ، Salganik and Watts (2008) ، Salganik and Watts (2009b) ، Salganik and Watts (2009a) و Salganik (2007) . برای کسب اطلاعات بیشتر در مورد بازار برنده همه، Frank and Cook (1996) . برای کسب اطلاعات بیشتر در مورد شانس و مهارت بیشتر به طور کلی، نگاه کنید به Mauboussin (2012) ، Watts (2012) ، و Frank (2016) .
روش دیگری برای از بین بردن پرداخت های شرکت کننده وجود دارد که محققان باید با احتیاط از آن استفاده کنند. در بسیاری از آزمایشات آنلاین، شرکت کنندگان اساسا به آزمایشات طراحی شده و هرگز جبران نمی شوند. نمونه هایی از این رویکرد عبارتند از (2012) آزمایشی Restivo و ون د ریت (2012) در پاداش ها در ویکیپدیا و آزمایش Bond و همکار (2012) در تشویق مردم برای رای دادن. این آزمایش ها واقعا هزینه صفر متغیری ندارند، بلکه هزینه های صفر متغیر را برای محققان دارند . در چنین آزمایشاتی، حتی اگر هزینه هر یک از شرکت کنندگان بسیار کوچک باشد، هزینه کل می تواند بسیار بزرگ باشد. محققان آزمایش های آنلاین گسترده ای را انجام می دهند و اغلب اهمیت تأثیرات اثرگذار بر کاهش اثربخشی را تبیین می کنند و می گویند این اثرات کوچک می تواند در هنگام استفاده از بسیاری از افراد مهم باشد. تفکر دقیق همان هزینههایی است که محققان در مورد شرکت کنندگان تحمیل میکنند. اگر آزمایش شما یک میلیون نفر را به زباله انداخت، یک آزمایش برای افراد خاص بسیار مضر نیست، اما تقریبا دو سال از آن صرف نظر کرده است.
یکی دیگر از رویکردهای ایجاد صفر هزینه صفر متغیر برای شرکت کنندگان، استفاده از یک قرعه کشی است، روشی که در تحقیقات تحقیقاتی نیز مورد استفاده قرار گرفته است (Halpern et al. 2011) . برای اطلاعات بیشتر در مورد طراحی تجارب لذت بخش کاربر، Toomim et al. (2011) . برای اطلاعات بیشتر در مورد استفاده از رباتها برای ایجاد صفر آزمایش هزینه متغیر ببینید ( ??? ) .
سه R در اصل توسط Russell and Burch (1959) پیشنهاد شده است:
"جایگزین این معنی است که جایگزینی برای آگاه زندگی حیوانات بالاتر از مواد بی جان. کاهش معنی کاهش در تعداد حیوانات مورد استفاده برای به دست آوردن اطلاعات از یک مقدار معین و دقت. پالایش معنی هر گونه کاهش در بروز یا شدت از روش های غیر انسانی اعمال شده به کسانی که حیوانات که هنوز هم باید مورد استفاده قرار گیرد. "
سه R که من پیشنهاد می کنم، اصول اخلاقی را که در فصل 6 توضیح داده شده، برتری ندهند. بلکه آنها یک نسخه پیچیده تر از آن اصول-سودمند بودن-به ویژه در زمینه آزمایش های انسانی هستند.
از لحاظ R ("جایگزینی") اول، مقایسه آزمایش تجربی عاطفی (Kramer, Guillory, and Hancock 2014) و آزمایش طبیعی طبیعی (Lorenzo Coviello et al. 2014) عاطفی (Lorenzo Coviello et al. 2014) ، درس های فراوانی در مورد مشارکت های تجاری ارائه می دهد در حال حرکت از آزمایشات به آزمایش های طبیعی (و روش های دیگر مانند تطبیق این تلاش برای تقریب آزمایش در داده های غیر تجربی؛ نگاه کنید به فصل 2). علاوه بر مزایای اخلاقی، تعویض از مطالعات تجربی به مطالعات غیر تجربی نیز محققان را قادر می سازد تا درمان هایی را که از لحاظ لجستیکی قادر به استقرار نیستند، مطالعه کنند. با این حال، این مزایای اخلاقی و منطقهای با هزینه مواجه میشوند. با آزمایش های طبیعی، محققان کنترل کمتری بر مواردی مانند استخدام شرکت کنندگان، تصادف و طبیعت درمان دارند. به عنوان مثال، یک محدودیت بارندگی به عنوان یک درمان، این است که هر دو افزایش مثبت و منفی را کاهش می دهد. با این حال، در مطالعه تجربی، کرمر و همکاران توانستند به طور مستقل مثبت و منفی را تنظیم کنند. رویکرد خاصی که توسط Lorenzo Coviello et al. (2014) توسط L. Coviello, Fowler, and Franceschetti (2014) . برای معرفی به متغیرهای ابزار، که رویکرد استفاده شده توسط Lorenzo Coviello et al. (2014) ، Angrist and Pischke (2009) (کمتر رسمی) یا Angrist, Imbens, and Rubin (1996) (رسمیتر) را ببینید. برای ارزیابی شکاکانه از متغیرهای ابزار، Deaton (2010) و برای معرفی متغیرهای ابزار با ابزار ضعیف (باران یک ابزار ضعیف است)، Murray (2006) . به طور کلی، مقدمه خوبی برای آزمایش های طبیعی توسط Dunning (2012) ، در حالی که Rosenbaum (2002) ، ( ??? ) ، و Shadish, Cook, and Campbell (2001) ایده خوبی در مورد برآورد اثرات علمی بدون آزمایش دارند.
از لحاظ R ("پالایش") دوم، در هنگام در نظر گرفتن تغییر در طراحی مسمومیت های عصبی از مسدود کردن پست ها به پست های تقویت شده، علمی و منطقی وجود دارد. به عنوان مثال، ممکن است این باشد که پیاده سازی فنی خوراک اخبار باعث می شود که آزمایش های بیشتری انجام شود، در حالی که پست ها مسدود می شوند و نه در آنها افزایش یافته است (توجه داشته باشید که یک آزمایش شامل مسدود کردن پست ها می تواند انجام شود به عنوان یک لایه در بالای سیستم تغذیه خبر بدون نیاز به تغییر در سیستم پایه). علمی، با این حال، نظریه ای که در این آزمایش مورد بررسی قرار گرفت، به وضوح یک طرح را بیش از دیگری نشان نمی داد. متاسفانه، من از تحقیقات پیشین قابل توجهی در مورد شایستگی نسبی مسدود کردن و افزایش محتوای در Feed Feed اطلاع ندارم. همچنین، من تحقیقات زیادی در مورد درمان های پالایش ندیده ام تا آنها کمتر مضر باشند؛ یکی از استثنائات این است که B. Jones and Feamster (2015) ، مورد بررسی اندازه گیری سانسور اینترنت را بررسی می کند (موضوعی که در فصل 6 در ارتباط با مطالعه Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
با توجه به سومین R ("کاهش")، معرفی خوبی برای تجزیه و تحلیل قدرت سنتی توسط Cohen (1988) ) و Cohen (1992) (مقاله) داده شده است، در حالی که Gelman and Carlin (2014) چشم انداز کمی متفاوت ارائه می دهند. ترکیبات پیش درمان ممکن است در مرحله طراحی و تجزیه و تحلیل آزمایشات گنجانده شود؛ فصل 4 Gerber and Green (2012) یک مقدمه خوب برای هر دو رویکرد را فراهم می کند، و Casella (2008) یک درمان عمیق تر را فراهم می کند. تکنیک هایی که از این اطلاعات پیش درمان در تصادف استفاده می کنند، معمولا به عنوان طرح های آزمایشی مسدود شده یا طرح های آزمایشی طبقه بندی شده (اصطلاحات به طور مداوم در سراسر جوامع استفاده نمی شود)؛ این تکنیک ها به روش های نمونه گیری طبقه بندی شده بحث شده در فصل 3 مربوط است. برای اطلاعات بیشتر در مورد استفاده از این طرح ها در آزمایش های عظیم Higgins, Sävje, and Sekhon (2016) به Higgins, Sävje, and Sekhon (2016) مراجعه کنید. هماتیت های پیش درمان همچنین می توانند در مرحله تجزیه و تحلیل قرار گیرند. McKenzie (2012) به بررسی روش تفاوت در تفاوت در تجزیه و تحلیل آزمایشات میدانی با جزئیات بیشتر می پردازد. Carneiro, Lee, and Wilhelm (2016) برای بیشتر در مورد ترکیب بین رویکردهای مختلف برای افزایش دقت در تخمین اثرات درمان مشاهده کنید. در نهایت، هنگام تصمیم گیری در مورد اینکه آیا سویه های پیش درمان را در مرحله طراحی یا تجزیه و تحلیل (یا هر دو) سعی می کنید، چند عامل برای بررسی وجود دارد. در محیطی که محققان می خواهند نشان دهند که آنها "ماهیگیری" نیستند (Humphreys, Sierra, and Windt 2013) ، استفاده از (Higgins, Sävje, and Sekhon 2016) پیش درمان در مرحله طراحی می تواند مفید باشد (Higgins, Sävje, and Sekhon 2016) . در شرایطی که شرکت کنندگان به طور پیوسته، به ویژه آزمایشات آنلاین آنلاین وارد می شوند، استفاده از اطلاعات پیش از درمان در مرحله طراحی ممکن است از لحاظ منطقی مشکل باشد؛ به عنوان مثال، Xie and Aurisset (2016) .
ارزش اضافه کردن کمی از شهود در مورد اینکه چرا یک رویکرد تفاوت در تفاوت می تواند خیلی موثر تر از یک تفاوت در یک معنی باشد. بسیاری از نتایج آنلاین، واریانس بسیار بالایی دارند (به عنوان مثال، RA Lewis and Rao (2015) و Lamb et al. (2015) ) و در طول زمان نسبتا پایدار هستند. در این مورد، نمره تغییر واریانس قابل ملاحظه ای کمتر خواهد بود و قدرت آزمون آماری را افزایش می دهد. یکی از دلایلی که این روش در اغلب موارد استفاده نشده این است که قبل از عصر دیجیتال، نتایج پیش درمان نبوده است. یک روش دقیق برای فکر کردن در مورد این است که تصور کنید یک آزمایش برای اندازه گیری اینکه آیا یک تمرین خاص خاص باعث کاهش وزن می شود. اگر روش متفاوتی را در نظر بگیرید، برآورد شما دارای تغییرپذیری ناشی از تغییرات وزن در جمعیت خواهد بود. با این وجود اگر تفاوت های در تفاوت ها را در نظر بگیرید، تغییرات طبقاتی در وزن ها برطرف می شوند و شما می توانید به راحتی تفاوت های ناشی از درمان را تشخیص دهید.
در نهایت، من اضافه نمودم چهارم R: "repurpose". به این ترتیب، اگر محققان خود را با دادههای تجربی بیشتری از آنچه که برای پاسخ به پرسش اصلی تحقیق خود نیاز دارند، پیدا کنند، باید داده ها را برای ارسال سؤالات جدید بازنویسی کنند. به عنوان مثال، تصور کنید که کرامر و همکارانش برآورد کننده اختلاف در اختلاف استفاده کرده و خود را با داده های بیشتری از آنچه که مورد نیاز برای پاسخگویی به پرسش های تحقیقشان بود، یافت. به جای استفاده از داده ها به طور کامل، آنها می توانند اندازه اثر را به عنوان یک عامل بیان عاطفی قبل از درمان مورد مطالعه قرار دهند. همانطور که Schultz et al. (2007) دریافت که اثر درمان برای کاربران سبک و سنگین متفاوت بود، شاید اثرات خوراک اخبار برای افرادی که قبلا مایل به ارسال پیام های شاد (یا ناراحت کننده) بودند متفاوت بود. Repurposing می تواند منجر به "ماهیگیری" (Humphreys, Sierra, and Windt 2013) و "p-hacking" (Simmons, Nelson, and Simonsohn 2011) ، اما این به طور عمده با ترکیبی از گزارش صادقانه (Simmons, Nelson, and Simonsohn 2011) ، قبل از ثبت نام (Humphreys, Sierra, and Windt 2013) ، و روش های یادگیری ماشین که در تلاش برای اجتناب از بیش از حد مناسب هستند.