این بخش طراحی شده است به عنوان یک مرجع استفاده می شود، به جای به عنوان یک روایت خوانده شود.
سوال در مورد علیت در تحقیقات اجتماعی اغلب پیچیده و پیچیده می باشد. برای یک رویکرد بنیادی به علیت بر اساس نمودار علت و معلولی، و Pearl (2009) ، و برای یک رویکرد بنیادی بر اساس نتایج بالقوه، و Imbens and Rubin (2015) (و آپاندیس فنی در این فصل). برای مقایسه بین این دو رویکرد، و Morgan and Winship (2014) . برای یک روش رسمی برای تعریف یک مداخله گر، و VanderWeele and Shpitser (2013) .
در فصل، من ایجاد چه مانند یک خط روشن بین توانایی ما را به تخمین علی از داده های تجربی و غیر تجربی به نظر می رسید. در واقع، من فکر می کنم که تمایز تار است. به عنوان مثال، هر کس می پذیرد که سیگار باعث سرطان حتی اگر ما یک آزمایش کنترل شده تصادفی که مردم را به دود انجام داده اند هرگز. برای درمان بسیار عالی طول کتاب در ساخت برآورد علی از داده های غیر تجربی به Rosenbaum (2002) ، Rosenbaum (2009) ، Shadish, Cook, and Campbell (2001) ، و Dunning (2012) .
فصل های 1 و 2 از Freedman, Pisani, and Purves (2007) ارائه مقدمه روشن به تفاوت بین آزمایش، آزمایش های کنترل شده، و آزمایش های کنترل شده تصادفی.
Manzi (2012) مقدمه جذاب و قابل خواندن از زمینههای فلسفی و آماری از آزمایش کنترل شده تصادفی را فراهم می کند. همچنین جالب نمونه های دنیای واقعی از قدرت تجربه در کسب و کار فراهم می کند.
Casella (2008) ، Box, Hunter, and Hunter (2005) ، Athey and Imbens (2016b) ارائه معرفی خوب به جنبه های آماری طراحی آزمایش و تجزیه و تحلیل. علاوه بر این، درمان بسیار خوبی از استفاده از آزمایش های در زمینه های مختلف وجود دارد: اقتصاد (Bardsley et al. 2009) ، جامعه شناسی (Willer and Walker 2007; Jackson and Cox 2013) ، روانشناسی (Aronson et al. 1989) ، علوم سیاسی (Morton and Williams 2010) ، و سیاست های اجتماعی (Glennerster and Takavarasha 2013) .
اهمیت استخدام شرکت کنندگان (به عنوان مثال، نمونه برداری) است که اغلب در تحقیقات تجربی زیر قدردانی. با این حال، اگر اثر درمان در جامعه ناهمگون است، و سپس نمونه حیاتی است. Longford (1999) این نکته را به وضوح زمانی که او برای محققان به فکر آزمایش به عنوان یک بررسی جمعیت با روش نمونه گیری تصادفی حمایت می کند.
این دوگانگی که من بین آزمایشگاه و درست آزمایشات ارائه است که کمی ساده شده است. در واقع، محققان دیگر نوع شناسی دقیق تر در آنهایی که خاص است که به اشکال مختلف از آزمایشات مزرعه جدا پیشنهاد کرده اند، (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . علاوه بر این، وجود دارد دو نوع دیگر از آزمایش های انجام شده توسط دانشمندان علوم اجتماعی که به آزمایشگاه و درست دوگانگی قرار نمیگیرند: آزمایش بررسی و تجربه های اجتماعی آزمایش بررسی آزمایشات با استفاده از زیرساخت های نظرسنجی موجود و مقایسه پاسخ به نسخه جایگزین از همان سوال (برخی از آزمایش های بررسی در فصل 3 ارائه شده است). برای اطلاعات بیشتر در آزمایش بررسی مشاهده Mutz (2011) . تجربه های اجتماعی آزمایش که در آن درمان برخی از سیاست های اجتماعی است که تنها می تواند توسط یک دولت اجرا می باشد. تجربه های اجتماعی هستند از نزدیک مرتبط به برنامه ارزیابی است. برای اطلاعات بیشتر در آزمایش های سیاست، و Orr (1998) ، Glennerster and Takavarasha (2013) ، و Heckman and Smith (1995) .
تعدادی از مقالات آزمایشگاه و درست آزمایش در انتزاعی مقایسه کرده اند (Falk and Heckman 2009; Cialdini 2009) و از نظر نتایج آزمایش خاص در علوم سیاسی (Coppock and Green 2015) ، اقتصاد (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) و روانشناسی (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ارائه می دهد یک طرح پژوهش خوب برای مقایسه نتایج از آزمایشگاه و درست آزمایش.
نگرانی ها در مورد شرکت کنندگان تغییر رفتار خود زیرا آنها می دانند که آنها در حال نزدیک مشاهده گاهی عوارض تقاضا نامیده می شود، و آنها را در روانشناسی مورد مطالعه قرار گرفته (Orne 1962) و اقتصاد (Zizzo 2009) . اگر چه بیشتر با آزمایشگاه مرتبط، این مسائل همان تواند مشکلاتی را برای آزمایشات مزرعه نیز شود. در واقع، اثرات تقاضا نیز گاهی اوقات مطالعات هاثورن نامیده می شود، یک اصطلاح است که از یک آزمایش میدانی مشتق شده، به طور خاص آزمایش روشنایی معروف است که در سال 1924 در آثار هاتورن از شرکت وسترن الکتریک آغاز شد (Adair 1984; Levitt and List 2011) . هر دو اثر تقاضا و اثرات زالزالک از نزدیک به این ایده از اندازه گیری واکنش در فصل 2 مربوط (همچنین نگاه کنید Webb et al. (1966) ).
تاریخ آزمایشات مزرعه شده است در اقتصاد توصیف (Levitt and List 2009) ، علوم سیاسی (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) ، روانشناسی (Shadish 2002) ، و سیاست های عمومی (Shadish and Cook 2009) . یکی از زمینه های علوم اجتماعی که در آن آزمایشات مزرعه به سرعت برجسته شد توسعه بین المللی است. برای بررسی مثبت از این کار در اقتصاد مشاهده Banerjee and Duflo (2009) ، و برای یک ارزیابی انتقادی را ببینید Deaton (2010) . برای بررسی این اثر در علوم سیاسی را ببینید Humphreys and Weinstein (2009) . در نهایت، چالشهای اخلاقی درگیر با آزمایشات مزرعه در علوم سیاسی بررسی شده است (Humphreys 2015; Desposato 2016b) و اقتصاد توسعه (Baele 2013) .
در فصل، من پیشنهاد کرد که این اطلاعات را قبل از درمان می توان برای بهبود دقت اثرات درمان برآورد، اما برخی از بحث در مورد این روش وجود دارد: Freedman (2008) ، Lin (2013) ، و Berk et al. (2013) ؛ مشاهده Bloniarz et al. (2016) برای اطلاعات بیشتر.
انتخاب من به تمرکز بر روی سه مفهوم: اعتبار، ناهمگونی از عوارض درمان، و مکانیزم. این مفاهیم به این نام های مختلف در زمینه های مختلف. به عنوان مثال، روانشناسان تمایل به فراتر از آزمایش های ساده حرکت با تمرکز بر واسطه ها و مدیران (Baron and Kenny 1986) . ایده واسطه است با آنچه که من مکانیزم پاسخ اسیر شده است، و این ایده از مدیران است با آنچه که من اعتبار خارجی (به عنوان مثال، به نتایج آزمایش های مختلف می شود اگر آن را در موقعیت های مختلف اجرا شد) و ناهمگونی از عوارض درمان (پاسخ اسیر به عنوان مثال، اثرات بزرگتر برای برخی از افراد نسبت به افراد دیگر) می باشد.
آزمایش از Schultz et al. (2007) نشان میدهد که چگونه نظریه های اجتماعی می تواند مورد استفاده برای طراحی مداخلات موثر است. برای بحثی کلی در مورد نقش تئوری در طراحی مداخلات موثر، و Walton (2014) .
مفاهیم اعتبار داخلی و خارجی برای اولین بار در معرفی شدند Campbell (1957) . مشاهده Shadish, Cook, and Campbell (2001) برای یک تاریخ دقیق تر و بسط دقیق از اعتبار نتیجه گیری آماری، اعتبار داخلی، اعتبار سازه و اعتبار خارجی.
برای یک مرور کلی از مسائل مربوط به اعتبار نتیجه گیری آماری در آزمایشات مشاهده Gerber and Green (2012) (برای دیدگاه علوم اجتماعی) و Imbens and Rubin (2015) (برای یک چشم انداز آماری). برخی از مسائل از اعتبار نتیجه گیری آماری است که به طور خاص در آزمایشات مزرعه آنلاین بوجود می آیند عبارتند از مسائلی مانند روش محاسباتی کارآمد برای ایجاد فاصله اطمینان با داده های وابسته (Bakshy and Eckles 2013) .
اعتبار داخلی می تواند مشکل باشد برای اطمینان از در آزمایشات مزرعه پیچیده است. برای مثال، نگاه کنید Gerber and Green (2000) ، Imai (2005) ، و Gerber and Green (2005) برای بحث در مورد اجرای یک آزمایش میدانی پیچیده در مورد رای گیری. Kohavi et al. (2012) و Kohavi et al. (2013) ارائه مقدمه ای به چالش اعتبار فاصله در آزمایشات مزرعه آنلاین.
یکی از نگرانی های عمده با اعتبار داخلی با تصادفی است. یکی از راه های به طور بالقوه تشخیص مشکلات با تصادفی است که به مقایسه گروه درمان و شاهد بر صفات قابل مشاهده است. این نوع از مقایسه یک بررسی تعادل نامیده می شود. مشاهده Hansen and Bowers (2008) برای یک روش آماری به تعادل چک، و ببینید که Mutz and Pemantle (2015) برای نگرانی در مورد چک تعادل. به عنوان مثال، با استفاده از یک تعادل بررسی Allcott (2011) پیدا شده است این است که شواهدی وجود دارد که تصادفی به درستی در سه آزمایش در برخی از آزمایش های OPower اجرا نشده وجود دارد (جدول 2؛ سایت های 2، 6 و 8). برای روش های دیگر، و Imbens and Rubin (2015) ، فصل 21.
دیگر نگرانی های عمده مربوط به اعتبار داخلی عبارتند از: 1) یک طرفه عدم رعایت، که در آن هر کس در گروه درمان در واقع درمان، 2) دو طرفه عدم رعایت، که در آن هر کس در گروه درمان درمان و برخی از دریافت مردم در گروه شاهد درمان، 3) ساییدگی، که در آن نتایج برای برخی از شرکت کنندگان اندازه گیری نیست، و 4) تداخل، که در آن درمان ریخته بیش از مردم در شرایط عملیات به مردم در شرایط کنترل دریافت خواهید کرد. مشاهده Gerber and Green (2012) فصل 5، 6، 7 و 8 برای اطلاعات بیشتر در هر یک از این مسائل است.
برای اطلاعات بیشتر در اعتبار سازه، و Westen and Rosenthal (2003) ، و برای اطلاعات بیشتر در اعتبار سازه در منابع داده های بزرگ، Lazer (2015) و فصل 2 این کتاب است.
یکی از جنبه های روایی خارجی تنظیم که در آن مداخله و تست شده است. Allcott (2015) یک درمان تجربی و نظری دقیق از تورش انتخاب سایت فراهم می کند. این موضوع نیز در مورد بحث Deaton (2010) . علاوه بر این که در بسیاری از سایت تکرار، صفحه اصلی گزارش انرژی مداخله نیز به طور مستقل توسط گروه های تحقیقاتی متعدد مورد مطالعه (به عنوان مثال، Ayres, Raseman, and Shih (2013) ).
برای عالی کلی از ناهمگونی از عوارض درمان در آزمایشات مزرعه، فصل 12 را ببینید Gerber and Green (2012) . برای ورود به ناهمگونی از عوارض درمان در آزمایشات پزشکی، و Kent and Hayward (2007) ، Longford (1999) ، و Kravitz, Duan, and Braslow (2004) . ناهمگونی از عوارض درمان به طور کلی در تفاوت بر اساس ویژگی های قبل از درمان تمرکز می کنند. اگر شما علاقه مند در ناهمگنی بر اساس نتایج بعد از درمان، پس از آن را approachs پیچیده تر مانند طبقه بندی اصلی مورد نیاز (Frangakis and Rubin 2002) ؛ مشاهده Page et al. (2015) برای یک بررسی.
بسیاری از محققان تخمین می زنند ناهمگونی از عوارض درمان با استفاده از رگرسیون خطی، اما روش های جدیدتر در یادگیری ماشین تکیه می کنند، برای مثال Green and Kern (2012) ، Imai and Ratkovic (2013) ، Taddy et al. (2016) ، و Athey and Imbens (2016a) .
برخی از شک و تردید در مورد یافته های ناهمگونی از اثرات به دلیل مشکلات مقایسه چندگانه و "ماهیگیری." انواع روش های آماری است که می تواند نگرانی آدرس مورد مقایسه چندگانه کمک کند وجود دارد وجود دارد (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . یکی از این روش به نگرانی در مورد "ماهیگیری" پیش ثبت نام، که تبدیل شدن به طور فزاینده ای در روانشناسی است (Nosek and Lakens 2014) ، علوم سیاسی (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ، و اقتصاد (Olken 2015) .
در این مطالعه از Costa and Kahn (2013) تنها در حدود نیمی از خانواده ها در این آزمایش قادر به به اطلاعات دموگرافیک مرتبط بودند. خوانندگان با این تجزیه و تحلیل علاقه مند به جزئیات و مشکلات احتمالی باید به مقاله اصلی مراجعه کنید.
مکانیزم فوق العاده مهم هستند، اما آنها به نوبه خود به بسیار دشوار است برای مطالعه است. تحقیقات در مورد مکانیسم های نزدیک به مطالعه واسطه در روانشناسی مربوط (بلکه دیدن VanderWeele (2009) برای مقایسه دقیق بین این دو ایده). روش های آماری به مکانیسم های پیدا کردن، مانند رویکرد توسعه یافته در Baron and Kenny (1986) ، کاملا رایج است. متاسفانه، معلوم است که این روش در برخی از پیش فرض های قوی بستگی دارد (Bullock, Green, and Ha 2010) و رنج می برند که می مکانیسم های متعددی وجود دارد، به عنوان یکی ممکن است در بسیاری از موارد انتظار (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) و Imai and Yamamoto (2013) ارائه برخی از روش های آماری بهبود یافته است. علاوه بر این، VanderWeele (2015) ارائه می دهد درمان کتاب طول با تعدادی از نتایج مهم، از جمله یک رویکرد جامع برای تجزیه و تحلیل حساسیت.
یک روش جداگانه در آزمایشهایی که سوء استفاده از مکانیزم به طور مستقیم (به عنوان مثال، ملوانان دادن ویتامین C) متمرکز است. متاسفانه در بسیاری از تنظیمات علوم اجتماعی اغلب وجود دارد مکانیسم های متعدد و از آن سخت است برای طراحی درمان که تغییر یک بدون تغییر از دیگران است. برخی از روش های به تجربی تغییر مکانیزم در شرح Imai, Tingley, and Yamamoto (2013) ، Ludwig, Kling, and Mullainathan (2011) ، و Pirlott and MacKinnon (2016) .
در نهایت، مکانیزم همچنین سابقه طولانی در فلسفه علم به عنوان توصیف Hedström and Ylikoski (2010) .
برای اطلاعات بیشتر در استفاده از مطالعات مکاتبات و مطالعات ممیزی برای اندازه گیری تبعیض را ببینید Pager (2007) .
رایج ترین روش برای جذب شرکت کنندگان به آزمایش های که شما برای ساختن آمازون مکانیک ترک (MTurk) است. از آنجا که MTurk تقلید جنبه های آزمایش پرداخت آزمایشگاه های سنتی مردم برای تکمیل وظایف که آنها نمی خواهد برای محققان آزاد بسیاری از انجام در حال حاضر شروع با استفاده از Turkers (کارگران در MTurk) به عنوان شرکت کنندگان در انسان آزمایش و در نتیجه جمع آوری داده ها سریع تر و ارزان تر از سنتی در دانشگاه های آزمایشگاهی (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
بزرگترین قدرت آزمایش با شرکت کنندگان استخدام از MTurk تدارکات را تحت پوشش هستند: آنها محققان اجازه می دهد به استخدام شرکت کنندگان به سرعت و به عنوان مورد نیاز است. در حالی که آزمایشگاه می تواند هفته به اجرا و آزمایشات مزرعه می کشد ماه برای تنظیم کردن، آزمایش با شرکت کنندگان استخدام از MTurk را می توان در روز را اجرا کنید. به عنوان مثال، Berinsky, Huber, and Lenz (2012) قادر به جذب 400 نفر در یک روز به شرکت در یک آزمایش 8 دقیقه بود. علاوه بر این، این شرکت کنندگان می تواند برای تقریبا هر هدف استخدام (از جمله نقشه ها و همکاری جمعی، همانطور که در فصل 3 مورد بحث قرار گرفته و 5). این سهولت استخدام بدان معنی است که محققان می توانند توالی آزمایش های مرتبط در سریع اجرا کنید.
قبل از استخدام شرکت کنندگان از MTurk برای آزمایش خود را، چهار چیز مهم است که بدانید وجود دارد. اول، بسیاری از محققان یک شک و تردید غیر اختصاصی آزمایش های مربوط به Turkers. از آنجا که این شک و تردید است خاص نیست، آن سخت است برای مقابله با شواهد. با این حال، پس از چند سال از مطالعات با استفاده Turkers، ما هم اکنون می توانید نتیجه گرفت که این شک و تردید است به خصوص لازم نیست. بسیاری از مطالعات مقایسه جمعیتی از Turkers به جمعیت های دیگر و بسیاری از مطالعات مقایسه نتایج حاصل از آزمایش با Turkers به نتایج حاصل از جمعیت های دیگر وجود داشته است. با توجه به تمام این کار، من فکر می کنم که بهترین راه برای شما در مورد آن فکر می کنم این است که Turkers یک نمونه مناسب معقول، بسیار شبیه به دانش آموزان اما کمی متنوع تر (Berinsky, Huber, and Lenz 2012) . بنابراین، فقط به عنوان دانش آموزان جمعیت مناسب برای برخی اما نه همه تحقیقات تجربی هستند، Turkers جمعیت مناسب برای برخی اما نه همه تحقیق هستند. اگر می خواهید برای کار با Turkers، سپس آن را حس می کند به عنوان خوانده شده بسیاری از این مطالعات تطبیقی و درک تفاوت های ظریف خود.
دوم، محققان بهترین شیوه برای افزایش اعتبار داخلی از آزمایش ترک را توسعه داده اند، و شما باید در مورد یادگیری و این بهترین شیوه را دنبال (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . برای مثال، محققان با استفاده از Turkers را تشویق به استفاده بازرسی به حذف شرکت کنندگان بی توجه (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (بلکه دیدن DJ Hauser and Schwarz (2015b) و DJ Hauser and Schwarz (2015a) ). اگر شما شرکت کنندگان بی توجه را حذف کنید، و سپس هر اثر درمان را می توان از سر و صدا معرفی شده از شرکت کنندگان بی توجه شسته شده، و در عمل تعداد شرکت کنندگان بی توجه می تواند قابل توجه باشد. در این آزمایش از هوبر و همکارانش (2012) در حدود 30٪ از شرکت کنندگان بازرسی توجه عمومی شکست خورده است. مشکل دیگر مشترک با Turkers شرکت کنندگان غیر ساده و بی تکلف است (Chandler et al. 2015) .
سوم، نسبت به برخی از انواع دیگر از آزمایش های دیجیتال، آزمایش MTurk نمی تواند مقیاس؛ Stewart et al. (2015) تخمین می زند که در هر زمان داده تنها حدود 7000 نفر در MTurk وجود دارد.
در نهایت، شما باید بدانید که MTurk یک جامعه با قواعد و هنجارهای خاص خود را دارد (Mason and Suri 2012) . در راه همان است که شما سعی کنید برای پیدا کردن در مورد فرهنگ یک کشور که در آن شما قرار بود به اجرا آزمایش های خود را، شما باید سعی کنید برای پیدا کردن اطلاعات بیشتر در مورد فرهنگ و هنجارهای Turkers (Salehi et al. 2015) . و، شما باید بدانید که Turkers خواهد شد صحبت کردن در مورد آزمایش خود را اگر شما چیزی را نامناسب و یا غیر اخلاقی (Gray et al. 2016) .
MTurk یک راه فوق العاده مناسب برای جذب شرکت کنندگان به آزمایش های خود را، که آیا آنها آزمایشگاه مانند هستند، مانند Huber, Hill, and Lenz (2012) ، و یا بیشتر درست مانند، مانند Mason and Watts (2009) ، Goldstein, McAfee, and Suri (2013) ، Goldstein et al. (2014) ، Horton and Zeckhauser (2016) ، و Mao et al. (2016) .
اگر شما به فکر تلاش برای ایجاد محصول خود را، توصیه می کنم که شما در مشاوره های ارائه شده توسط گروه MovieLens در خواندن Harper and Konstan (2015) . بینش کلیدی از تجربه خود است که برای هر پروژه موفق بسیاری، بسیاری از شکست وجود دارد. به عنوان مثال، گروه MovieLens محصولات دیگر مانند GopherAnswers که شکست کامل شد راه اندازی (Harper and Konstan 2015) . مثال دیگری از یک محقق شکست در حالی که تلاش برای ساخت یک محصول تلاش ادوارد Castronova هم برای ساخت یک بازی آنلاین به نام Arden است. با وجود 250،000 $ در بودجه، پروژه صدای تلپ افتادن بود (Baker 2008) . پروژه هایی مانند GopherAnswers و آردن متاسفانه بسیار شایع تر از پروژه مانند MovieLens. در نهایت، وقتی که من گفتم که من از هر محققان دیگر که موفقیت محصولات ساخته شده بود برای آزمایش تکرار نمی دانم که در اینجا معیارهای من: 1) شرکت کنندگان با استفاده از این محصول به دلیل از آنچه در آن آنها را فراهم می کند (به عنوان مثال، آنها را پرداخت نکرده و آنها نه داوطلبان کمک به علم) و 2) محصول شده است برای بیش از یک آزمایش مشخص (به عنوان مثال، نه همان آزمایش را چندین بار با استخر شرکت های مختلف) استفاده می شود. اگر شما از نمونه های دیگر می دانم، لطفا اجازه دهید من می دانم.
من شنیده ام که ایده ربع پاستور اغلب در شرکت های فن آوری مورد بحث، و آن را کمک می کند تا سازماندهی تلاش های تحقیقاتی در گوگل (Spector, Norvig, and Petrov 2012) .
باند و مطالعه همکاران (2012) نیز تلاش برای شناسایی اثر این درمان بر روی دوستان از کسانی که آنها را دریافت کرد. به دلیل طراحی آزمایش، این سرریز به شناسایی پاک دشوار است؛ خوانندگان علاقه مند باید ببینید Bond et al. (2012) برای بحث دقیق تر. این آزمایش بخشی از یک سنت طولانی مدت از آزمایش در علوم سیاسی در تلاش برای تشویق رای دادن است (Green and Gerber 2015) . این آزمایش مطلع کردن برای رای در بخش مشترک هستند زیرا آنها در ربع پاستور است. این است که، بسیاری از مردم که با انگیزه برای افزایش رای گیری و رای گیری می تواند یک رفتار جالب برای آزمایش تئوری های کلی در مورد تغییر رفتار و نفوذ اجتماعی وجود دارد.
محققان دیگر در مورد در حال اجرا آزمایشات مزرعه با سازمان های شریک مانند احزاب سیاسی، سازمان های غیر دولتی، و کسب و کار توصیه های ارائه شده اند (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . دیگران مشاوره در مورد چگونگی همکاری با سازمان ها می توانند طرح های تحقیقاتی تاثیر را ارائه داده اند (Green, Calfano, and Aronow 2014; King et al. 2007) . مشارکت همچنین می توانید به مسائل اخلاقی منجر شود (Humphreys 2015; Nickerson and Hyde 2016) .
اگر می خواهید ایجاد یک طرح تجزیه و تحلیل قبل از اجرای آزمایش خود را، من نشان می دهد که شما با خواندن دستورالعمل های گزارش شروع می شود. همسر (تلفیقی استاندارد گزارش از محاکمه) دستورالعمل در طب توسعه داده شد (Schulz et al. 2010) و اصلاح شده برای تحقیقات اجتماعی (Mayo-Wilson et al. 2013) . مجموعه ای از دستورالعمل های مرتبط شده توسط سردبیران مجله تجربی علوم سیاسی را توسعه داده است (Gerber et al. 2014) (همچنین نگاه کنید Mutz and Pemantle (2015) و Gerber et al. (2015) ). در نهایت، دستورالعمل های گزارش در روانشناسی توسعه یافته اند (Group 2008) ، و همچنین نگاه کنید Simmons, Nelson, and Simonsohn (2011) .
اگر شما یک برنامه تجزیه و تحلیل ایجاد شما باید در نظر پیش ثبت نام آن به دلیل پیش ثبت نام را به اعتماد به نفس که دیگران در نتایج خود را دارند افزایش می دهد. علاوه بر این، اگر شما در حال کار با یک شریک، آن را توانایی شریک زندگی خود را به تغییر تجزیه و تحلیل بعد از دیدن نتایج را محدود کند. پیش ثبت نام در حال تبدیل شدن به طور فزاینده ای در روانشناسی رایج (Nosek and Lakens 2014) ، علوم سیاسی (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ، و اقتصاد (Olken 2015) .
در حالی که ایجاد طرحی از پیش تحلیل خود شما باید آگاه باشید که برخی محققان همچنین رگرسیون و روش های مربوط به بهبود دقت از اثر درمان برآورد استفاده می شود، و در این باره در مورد این رویکرد وجود دارد: Freedman (2008) ، Lin (2013) ، و Berk et al. (2013) ؛ مشاهده Bloniarz et al. (2016) برای اطلاعات بیشتر.
طراحی مشاوره به طور خاص برای آزمایشات مزرعه آنلاین نیز در ارائه Konstan and Chen (2007) و Chen and Konstan (2015) .
برای اطلاعات بیشتر در آزمایش MusicLab، نگاه کنید Salganik, Dodds, and Watts (2006) ، Salganik and Watts (2008) ، Salganik and Watts (2009b) ، Salganik and Watts (2009a) ، و Salganik (2007) . برای اطلاعات بیشتر در برنده تمام بازارهای، و Frank and Cook (1996) . برای اطلاعات بیشتر در شانس و مهارت شفاف نمودن به طور کلی، و Mauboussin (2012) ، Watts (2012) ، و Frank (2016) .
روش دیگری برای از بین بردن پرداخت از شرکت کنندگان که محققان باید با احتیاط استفاده کنید وجود دارد: خدمت وظیفه عمومی. در بسیاری از آزمایشات مزرعه آنلاین شرکت کنندگان اساسا به آزمایش پیش نویس و هرگز جبران می شود. نمونه هایی از این روش شامل Restivo و ون د Rijt است (2012) آزمایش بر پاداش در ویکیپدیا و باند و همکاران (2012) آزمایش بر تشویق مردم به رای دادن. این آزمایش واقعا باید صفر هزینه متغیر، آنها صفر هزینه متغیر به محققان. حتی اگر هزینه بسیاری از این آزمایش برای هر شرکت بسیار کوچک است، هزینه های کوچک تحمیل تعداد زیادی از شرکت کنندگان می توانند به سرعت اضافه کردن. محققان در حال اجرا آزمایش آنلاین عظیم اغلب اهمیت اثرات درمان برآورد کوچک با گفتن این که این اثرات کوچک می تواند زمانی که به بسیاری از مردم اعمال مهم تبدیل را توجیه کند. تفکر دقیق به هزینه های که محققان تحمیل شرکت کنندگان اعمال می شود. اگر آزمایش های خود را باعث از یک میلیون نفر به هدر یک دقیقه، آزمایش است به فرد خاصی بسیار مضر نیست، اما در مجموع آن را تقریبا دو سال از زمان هدر رفته.
روش دیگر برای ایجاد صفر متغیر پرداخت هزینه به شرکت کنندگان است به استفاده از یک قرعه کشی، یک رویکرد است که همچنین در تحقیقات پیمایشی استفاده (Halpern et al. 2011) . در نهایت، برای اطلاعات بیشتر در مورد طراحی لذت بخش کاربر تجربه دیدن Toomim et al. (2011) .
در اینجا تعاریف اصلی از سه R، از می Russell and Burch (1959) :
"جایگزین این معنی است که جایگزینی برای آگاه زندگی حیوانات بالاتر از مواد بی جان. کاهش معنی کاهش در تعداد حیوانات مورد استفاده برای به دست آوردن اطلاعات از یک مقدار معین و دقت. پالایش معنی هر گونه کاهش در بروز یا شدت از روش های غیر انسانی اعمال شده به کسانی که حیوانات که هنوز هم باید مورد استفاده قرار گیرد. "
سه اصل است که پیشنهاد می کنم این که اصول اخلاقی در فصل 6. باطل نیست در عوض، آنها یک نسخه شفافی بیشتر یکی از این اصول-احسان-به طور خاص برای تنظیم از آزمایش انسان هستند.
که با توجه به سرایت عاطفی، سه مشکل غیر اخلاقی به خاطر داشته باشید زمانی که تفسیر این آزمایش وجود دارد. اول، آن را روشن است که چگونه جزئیات واقعی از آزمایش اتصال به ادعاهای نظری؛ به عبارت دیگر، سوال در مورد اعتبار سازه وجود دارد. این روشن است که که تعداد کلمه های مثبت و منفی در واقع یک شاخص خوب از حالت عاطفی از شرکت کنندگان به دلیل 1) روشن نیست که کلمات که مردم ارسال یک شاخص خوب از احساسات خود و 2) آن است که روشن است که نمی روش تجزیه و تحلیل احساسات خاص که محققان استفاده قادر به قابل اعتماد استنباط احساسات است (Beasley and Mason 2015; Panger 2016) . به عبارت دیگر، ممکن است اندازه گیری بد از یک سیگنال مغرضانه است. دوم، طراحی و تجزیه و تحلیل آزمایش ما هیچ چیزی در مورد کسی که بیشترین تأثیر قرار گرفت. (است، هیچ تجزیه و تحلیل ناهمگونی از عوارض درمان وجود دارد) و چه ساز و ممکن است می گوید. در این مورد، محققان مقدار زیادی از اطلاعات در مورد شرکت کنندگان بود، اما آنها اساسا به عنوان ویدجت در تجزیه و تحلیل تحت درمان قرار گرفتند. سوم، اندازه اثر در این آزمایش بسیار کوچک بود. تفاوت بین شرایط درمان و کنترل در حدود 1 در 1000 کلمه است. در این مقاله، کرامر و همکاران را مورد که یک اثر از این اندازه مهم است، زیرا صدها میلیون نفر از مردم دسترسی به اخبار خود را هر روز خوراک. به عبارت دیگر، آنها استدلال می کنند که حتی اثرات است که کوچک برای هر کسی که آنها بزرگ در کل هستند. حتی اگر شما را به قبول این استدلال، آن است که هنوز مشخص نیست اگر یک اثر از این اندازه مهم است با توجه به سوال علمی کلی در مورد سرایت عاطفی. برای اطلاعات بیشتر در شرایطی که در آن اثرات کوچک مهم هستند را ببینید Prentice and Miller (1992) .
از نظر اولین R (جایگزین)، مقایسه آزمایش عاطفی سرایت (Kramer, Guillory, and Hancock 2014) و سرایت عاطفی آزمایش طبیعی (Coviello et al. 2014) ارائه می دهد برخی از درس های کلی در مورد تجارت آف درگیر با حرکت از آزمایش به آزمایش های طبیعی (و روش های دیگر مانند تطبیق که تلاش برای تقریب آزمایش در داده های غیر تجربی، فصل 2). علاوه بر مزایای اخلاقی، تغییر از تجربی به مطالعات غیر تجربی نیز محققان را قادر می سازد که در مورد طب که آنها لجستیکی قادر به استقرار. این منافع اخلاقی و تدارکات را تحت پوشش هزینه در آمده است، با این حال. با آزمایش های طبیعی محققان کنترل کمتری بر چیزهایی مانند استخدام شرکت کنندگان، تصادفی، و طبیعت از درمان است. به عنوان مثال، یک محدودیت میزان بارش به عنوان یک درمان این است که آن دو را افزایش می دهد مثبت و منفی کاهش می یابد. در مطالعه تجربی، با این حال، کرامر و همکارانش قادر به تنظیم مثبت و منفی به طور مستقل بود.
روش خاص استفاده شده توسط Coviello et al. (2014) بیشتر در تفصیل شرح داده شد Coviello, Fowler, and Franceschetti (2014) . برای معرفی به متغیرهای ابزاری را ببینید Angrist and Pischke (2009) (کمتر رسمی) و یا Angrist, Imbens, and Rubin (1996) (رسمی تر). برای ارزیابی شک و تردید از متغیرهای ابزاری را ببینید Deaton (2010) ، و برای معرفی به متغیرهای ابزاری با ابزار ضعیف (باران یک ابزار ضعیف است)، و Murray (2006) .
به طور کلی، مقدمه خوبی برای آزمایش های طبیعی است Dunning (2012) ، و Rosenbaum (2002) ، Rosenbaum (2009) ، و Shadish, Cook, and Campbell (2001) ارائه ایده های خوب در مورد برآورد اثرات سببی بدون آزمایش.
از نظر دوم R (پالایش)، هستند علمی و تدارکات را تحت پوشش تجارت آف که با توجه به تغییر در طراحی از سرایت عاطفی از مسدود کردن پست به افزایش پست وجود دارد. برای مثال، ممکن است این مورد که اجرای فنی از خبر باعث می شود آن است قابل ملاحظه آسان تر برای انجام یک آزمایش با مسدود کردن پست به جای یک آزمایش با افزایش پست (توجه داشته باشید که یک آزمایش با مسدود کردن پست می تواند به عنوان یک لایه در اجرا بالای سیستم خبرخوان بدون نیاز به تغییرات سیستم زمینه). علمی، با این حال، این نظریه خطاب توسط آزمایش را به وضوح نشان می دهد یکی طراحی بیش از دیگر نیست.
متاسفانه، من از تحقیقات قبلی قابل توجهی در مورد مزیتهای نسبی مسدود کردن و افزایش محتوای در خبر خوان اطلاعی ندارم. همچنین، من تحقیقات زیادی در مورد پالایش درمان به آنها کمتر مضر دیده نمی. یک استثنا است Jones and Feamster (2015) ، که مورد اندازه گیری سانسور اینترنت در نظر (یک موضوع من در فصل 6 در رابطه با مطالعه دوباره به نواز دعوت بحث (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
از لحاظ سوم R (کاهش)، مقدمه خوبی برای تجزیه و تحلیل قدرت سنتی است Cohen (1988) . متغیرهای کمکی قبل از درمان را می توان در مرحله طراحی و مرحله تجزیه و تحلیل آزمایش شامل؛ فصل 4 از Gerber and Green (2012) فراهم می کند مقدمه خوبی برای دو روش، و Casella (2008) یک درمان بیشتر در عمق فراهم می کند. تکنیک که این اطلاعات را قبل از درمان در تصادفی استفاده معمولا نام یا طرح های تجربی و یا طرح های تجربی طبقه (اصطلاحات به طور مداوم در سراسر جوامع استفاده نمی شود) مسدود شده است؛ این تکنیک ها عمیقا به روش نمونه گیری طبقه ای مورد بحث در فصل 3. مشاهده مربوط Higgins, Sävje, and Sekhon (2016) برای اطلاعات بیشتر در استفاده از این طرح در آزمایش عظیم. متغیرهای کمکی قبل از درمان نیز می تواند در مرحله تجزیه و تحلیل شامل می شود. McKenzie (2012) به بررسی رویکرد تفاوت در تفاوت به تجزیه و تحلیل آزمایشات مزرعه با جزئیات بیشتر. مشاهده Carneiro, Lee, and Wilhelm (2016) برای اطلاعات بیشتر در تجارت آف بین روش های مختلف برای افزایش دقت در برآورد اثرات درمان است. در نهایت، زمانی که تصمیم گیری که آیا برای سعی کنید که شامل متغیرهای کمکی قبل از درمان در طراحی و یا تجزیه و تحلیل مرحله (یا هر دو)، چند عامل در نظر گرفتن وجود دارد. در یک محیط که در آن محققان خواهید برای نشان دادن است که آنها "ماهیگیری" نیست (Humphreys, Sierra, and Windt 2013) ، با استفاده از متغیرهای کمکی قبل از درمان در مرحله طراحی می تواند مفید باشد (Higgins, Sävje, and Sekhon 2016) . در شرایطی که شرکت کنندگان می رسند پی در پی، آزمایشات مزرعه ویژه اینترنتی، با استفاده از اطلاعات قبل از درمان در مرحله طراحی است لجستیکی تواند مشکل باشد، برای مثال رجوع کنید Xie and Aurisset (2016) .
آن را به ارزش اضافه کردن کمی از شهود در مورد اینکه چرا تفاوت در تفاوت می تواند بسیار موثر تر از تفاوت در معنی است. بسیاری از نتایج آنلاین داریم واریانس بسیار بالا است (به عنوان مثال، Lewis and Rao (2015) و Lamb et al. (2015) ) و در طول زمان نسبتا پایدار است. در این مورد، نمره تغییر خواهد واریانس قابل ملاحظه ای کوچکتر دارند، افزایش قدرت از آزمون آماری. یکی از دلایل این نزدیک استفاده نمی شود در اغلب موارد است که قبل از عصر دیجیتال آن مشترک به نتایج قبل از درمان است. راه بتن بیشتر در مورد آن فکر می کنم است تصور کنید یک آزمایش برای اندازه گیری که آیا روال ورزش خاص باعث از دست دادن وزن است. اگر شما از روش تفاضل در معنی، برآورد خود را خواهد تنوع که از تنوع می آید در وزن در جمعیت است. اگر شما از روش تفاضل در تفاوت، با این حال، که تنوع طبیعی موجود در وزن می شود حذف شده و شما به راحتی می توانید تشخیص تفاوت ناشی از درمان است.
یکی از راه های مهم برای کاهش تعداد شرکت کنندگان در آزمایش خود را به انجام تجزیه و تحلیل قدرت، که کرامر و همکاران می تواند بر اساس اندازه اثر از آزمایش طبیعی مشاهده انجام داده اند Coviello et al. (2014) و یا تحقیقات غیر آزمایشی قبل از آن توسط کرامر (2012) (در واقع این فعالیت ها در پایان این فصل هستند). توجه کنید که این استفاده از تجزیه و تحلیل قدرت کمی متفاوت از معمول است. در عصر آنالوگ، محققان عموما تجزیه و تحلیل قدرت مطمئن شوید که مطالعه آنها این بود بیش از حد کوچک نیست (یعنی تحت شده). در حال حاضر، با این حال، محققان باید تجزیه و تحلیل قدرت انجام مطمئن شوید که مطالعه آنها خیلی بزرگ نیست (یعنی بیش از شده).
در نهایت، من در نظر گرفته اضافه کردن یک R چهارم: Repurpose. است که، اگر محققان خود را با داده های تجربی را بیشتر پیدا کنید از آنها نیاز به آدرس درخواست تحقیق اولیه آنها، آنها باید داده repurpose به سوالات جدید بپرسید. به عنوان مثال، تصور کنید که کرامر و همکاران برآورد تفاوت در تفاوت با داده های بیش از مورد نیاز به آدرس سوال پژوهشی خود استفاده کرده و بر داشت خود را. به جای استفاده از داده ها را به حد کمال نیست، آنها می توانستند به اندازه اثر به عنوان یک تابع به قبل از درمان بیان عاطفی مطالعه قرار گرفت. فقط به عنوان Schultz et al. (2007) نشان داد که اثر درمان برای کاربران سبک و سنگین مختلف بود، شاید اثرات خوراک خبری برای کسانی که در حال حاضر تمایل به ارسال پیام های شاد (یا غمگین) متفاوت بود. Repurposing می تواند به "ماهیگیری" منجر شود (Humphreys, Sierra, and Windt 2013) و "P-هک" (Simmons, Nelson, and Simonsohn 2011) ، اما این تا حد زیادی با ترکیبی از گزارش صادقانه آدرس دهی (Simmons, Nelson, and Simonsohn 2011) ، پیش ثبت نام (Humphreys, Sierra, and Windt 2013) ، و روش های یادگیری ماشین است که تلاش برای جلوگیری از بیش از اتصالات.