Прашањата за каузалноста во општествените истражувања често се сложени и сложени. За основен пристап кон каузалноста базиран на каузални графики, видете Pearl (2009) , и за основен пристап базиран на потенцијални резултати, видете Imbens and Rubin (2015) . За споредба помеѓу овие два пристапа, видете Morgan and Winship (2014) . За формален пристап кон дефинирање на VanderWeele and Shpitser (2013) , видете VanderWeele and Shpitser (2013) .
Во ова поглавје, јас создадов што изгледаше како светла линија помеѓу нашата способност да правиме каузални проценки од експериментални и не-експериментални податоци. Сепак, мислам дека, во реалноста, разликата е повеќе нејасна. На пример, сите прифаќаат дека пушењето предизвикува рак, иако не е направено никаков рандомизиран контролиран експеримент кој ги тера луѓето да пушат. За одлични третмани во однос на книгата за правење каузални проценки од не експериментални податоци види Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) и Dunning (2012) .
Поглавјата 1 и 2 на Freedman, Pisani, and Purves (2007) нудат јасен вовед во разликите помеѓу експериментите, контролираните експерименти и рандомизираните контролирани експерименти.
Manzi (2012) обезбедува фасцинантен и читлив вовед во филозофските и статистичките основи на рандомизирани контролирани експерименти. Исто така, дава интересни реални примери на моќта на експериментирање во бизнисот. Issenberg (2012) дава фасцинантен вовед во употребата на експериментирање во политичките кампањи.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 Athey and Imbens (2016b) обезбедуваат добри вовед во статистичките аспекти на експерименталниот дизајн и анализа. Понатаму, постојат одлични третмани на употребата на експерименти во многу различни области: економија (Bardsley et al. 2009) , Социологија (Willer and Walker 2007; Jackson and Cox 2013) , психологија (Aronson et al. 1989) , Политички науки (Morton and Williams 2010) и социјалната политика (Glennerster and Takavarasha 2013) .
Важноста на регрутирањето на учесниците (на пример, земање мостри) често е недоволно ценето во експерименталните истражувања. Меѓутоа, ако ефектот на третманот е хетероген во популацијата, тогаш земањето примероци е критично. Longford (1999) јасно јасно укажува на тоа кога тој се залага за истражувачите да размислуваат за експерименти како анкета на населението со случајно земање мостри.
Јас сугерирав дека постои континуум помеѓу лабораториски и теренски експерименти, а други истражувачи предложија подетални типологии, особено оние кои ги одвојуваат различните форми на теренски експерименти (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Голем број на трудови ги споредуваат лабораториските и теренските експерименти во апстрактот (Falk and Heckman 2009; Cialdini 2009) и во однос на резултатите од специфични експерименти во политичките науки (Coppock and Green 2015) , економијата (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) и психологија (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) нудат убав дизајн за истражување за споредување на резултатите од лабораториски и теренски експерименти. Parigi, Santana, and Cook (2017) опишуваат како онлајн експериментите можат да комбинираат некои од карактеристиките на лабораториски и теренски експерименти.
Загриженоста за учесниците кои го менуваат своето однесување, бидејќи знаат дека се внимателно набљудувани, понекогаш се нарекуваат ефекти од побарувачката , и тие се изучуваат во психологијата (Orne 1962) и економијата (Zizzo 2010) . Иако најчесто се поврзани со лабораториски експерименти, овие истите проблеми можат да предизвикаат проблеми и за теренски експерименти. Всушност, ефектите од побарувачката понекогаш се нарекуваат и ефекти на Хоторн , термин што произлегува од прочуените експерименти за осветлување кои започнале во 1924 година во Хоторнското дело на Западното електростопанство (Adair 1984; Levitt and List 2011) . И ефектите од побарувачката и ефектите на Хоторн се тесно поврзани со идејата за реактивни мерења дискутирани во поглавје 2 (види и Webb et al. (1966) ).
Теренските експерименти имаат долга историја во економијата (Levitt and List 2009) , политички науки (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , психологијата (Shadish 2002) и јавната политика (Shadish and Cook 2009) . Едно поле на општествените науки, каде што теренските експерименти брзо станаа познати, е меѓународниот развој. За позитивен преглед на таа работа во економијата видете Banerjee and Duflo (2009) , и за критична проценка видете Deaton (2010) . За преглед на ова дело во политичките науки види Humphreys and Weinstein (2009) . Конечно, етичките предизвици кои произлегуваат од теренските експерименти биле истражени во контекст на политичките науки (Humphreys 2015; Desposato 2016b) и развојната економија (Baele 2013) .
Во овој дел, сугерирав дека информациите за предтретман може да се искористат за да се подобри прецизноста на проценетите ефекти од третманот, но има некои дебати за овој пристап; види Freedman (2008) , W. Lin (2013) , Berk et al. (2013) и Bloniarz et al. (2016) за повеќе информации.
Конечно, постојат два други видови на експерименти што ги изведуваат општествени научници кои не се вклопуваат уредно долж димензијата на лабораторијата: истражувачки експерименти и социјални експерименти. Експериментите за истражување се експерименти кои ја користат инфраструктурата на постоечките истражувања и ги споредуваат одговорите на алтернативните верзии на истите прашања (некои истражувачки експерименти се презентирани во Поглавје 3); за повеќе за експериментите од истражувањето видете Mutz (2011) . Социјалните експерименти се експерименти во кои третманот е некоја социјална политика која може да ја спроведе само владата. Социјалните експерименти се тесно поврзани со евалуацијата на програмата. За повеќе информации за експерименти со политиката, видете Heckman and Smith (1995) , Orr (1998) и @ glennerster_running_2013.
Избрав да се фокусирам на три концепти: валидност, хетерогеност на ефектите од третманот и механизми. Овие концепти имаат различни имиња во различни полиња. На пример, психолозите имаат тенденција да се движат надвор од едноставни експерименти со фокусирање на медијатори и модератори (Baron and Kenny 1986) . Идејата за медијатори е зафатена со она што јас го нарекувам механизми, а идејата за модераторите е зафатена со она што јас го нарекувам надворешна валидност (на пример, дали резултатите од експериментот би биле различни ако се работи во различни ситуации) и хетерогеноста на ефектите од третманот на пример, дали ефектите се поголеми за некои луѓе отколку за другите).
Експериментот на Schultz et al. (2007) покажува колку социјалните теории може да се користат за дизајнирање на ефективни интервенции. За поопшта аргумент за улогата на теоријата во дизајнирањето на ефективни интервенции, види Walton (2014) .
Концептите за внатрешна и надворешна валидност првпат беа воведени од Campbell (1957) . Види Shadish, Cook, and Campbell (2001) за подетална историја и внимателна елаборација на валидноста на статистичките заклучоци, интерната валидност, конструктната валидност и надворешната важност.
За преглед на прашања поврзани со валидноста на статистичките заклучоци во експериментите види Gerber and Green (2012) (од перспектива на општествените науки) и Imbens and Rubin (2015) (од статистичка гледна точка). Некои прашања за валидноста на статистичките заклучоци кои се појавуваат конкретно во онлајн експериментите вклучуваат прашања како што се пресметувачки ефикасни методи за создавање интервали на доверба со зависни податоци (Bakshy and Eckles 2013) .
Внатрешната валидност може да биде тешко да се обезбеди во сложени теренски експерименти. Види, на пример, Gerber and Green (2000) , Imai (2005) , и Gerber and Green (2005) за дебата за спроведување на комплексен теренски експеримент за гласање. Kohavi et al. (2012) и Kohavi et al. (2013) обезбеди вовед во предизвиците на интервалот валидност во онлајн експерименти.
Една голема закана за внатрешна важност е можноста за неуспешна рандомизација. Еден потенцијален начин да се детектираат проблемите со рандомизацијата е да се споредат групите за лекување и контрола на видливи особини. Овој вид на споредба се нарекува проверка на рамнотежата . Видете Hansen and Bowers (2008) за статистички пристап за проверка на рамнотежата Mutz and Pemantle (2015) за загриженост за проверките на рамнотежата. На пример, користејќи проверка на рамнотежата, Allcott (2011) откри некои докази дека рандомизацијата не е правилно имплементирана во три експерименти Opower (види табела 2, сајтови 2, 6 и 8). За други пристапи, види поглавје 21 од Imbens and Rubin (2015) .
Други главни загрижености поврзани со внатрешната валидност се: (1) еднострана неусогласеност, каде што не сите во лек групата всушност го добиле третманот, (2) двострано непочитување, каде што не сите во лек групата примаат третман, а некои луѓе во контролната група добива третман, (3) исцрпување, каде што резултатите не се мерат за некои учесници, и (4) мешање, кога третманот се истура од луѓето во третманот на лицата во контролната состојба. Видете поглавја 5, 6, 7 и 8 од Gerber and Green (2012) за повеќе за секое од овие прашања.
За повеќе да се создаде валидноста, видете Westen and Rosenthal (2003) , а за повеќе да се изгради валидност во големи извори на податоци, Lazer (2015) и поглавје 2 од оваа книга.
Еден аспект на надворешна валидност е поставувањето во кое интервенцијата се тестира. Allcott (2015) обезбедува внимателен теоретски и емпириски третман на пристрасност за избор на локација. Ова прашање е дискутирано и од Deaton (2010) . Друг аспект на надворешна валидност е дали алтернативните операционизации на иста интервенција ќе имаат слични ефекти. Во овој случај, споредбата помеѓу Schultz et al. (2007) и Allcott (2011) покажуваат дека експериментите на Opower имале помал проценет Allcott (2011) ефект од оригиналните експерименти од Шулц и колегите (1,7% наспроти 5%). Allcott (2011) шпекулираше дека експериментите што следеле имале помал ефект поради начинот на кој третманот се разликувал: рачно напишаниот емотив како дел од студијата спонзорирана од универзитет, во споредба со печатениот емотивен како дел од масовно произведениот извештај од енергетска компанија.
За одличен преглед на хетерогеноста на ефектите од третманот во теренските експерименти, види Поглавје 12 од Gerber and Green (2012) . За воведување на хетерогеност на ефектите од третманот во медицинските испитувања, видете Kent and Hayward (2007) , Longford (1999) и Kravitz, Duan, and Braslow (2004) . Размислувањата за хетерогеноста на ефектите од третманот главно се фокусираат на разликите базирани на карактеристиките пред третманот. Ако сте заинтересирани за хетерогеност врз основа на резултатите од пост-третман, тогаш потребни се посложени пристапи, како што се главната стратификација (Frangakis and Rubin 2002) ; види Page et al. (2015) за преглед.
Многу истражувачи ја проценуваат хетерогеноста на ефектите од третманот користејќи линеарна регресија, но поновите методи се потпираат на машинско учење; види, на пример, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) и Athey and Imbens (2016a) .
Постои некаков скептицизам во врска со наодите на хетерогеност на ефектите, поради проблеми со споредба и "риболов". Постојат различни статистички пристапи кои можат да помогнат во справувањето со загриженоста во врска со повеќекратните споредби (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Еден приод кон загриженост за "риболов" е пререгистрација, која станува се почеста во психологијата (Nosek and Lakens 2014) , политички науки (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , и економија (Olken 2015) .
Во студијата на Costa and Kahn (2013) само околу половина од домаќинствата во експериментот може да се поврзат со демографските информации. Читателите заинтересирани за овие детали треба да се однесуваат на оригиналниот документ.
Механизмите се неверојатно важни, но излегуваат многу тешко да учат. Истражувањата за механизмите се тесно поврзани со изучувањето на медијаторите во психологијата (но, исто така, видете VanderWeele (2009) за прецизна споредба помеѓу двете идеи). Статистичките пристапи за изнаоѓање на механизми, како што е пристапот развиен во Baron and Kenny (1986) , се доста чести. За жал, тие постапки зависат од некои силни претпоставки (Bullock, Green, and Ha 2010) и страдаат кога постојат повеќе механизми, како што може да се очекува во многу ситуации (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) и Imai and Yamamoto (2013) нудат некои подобри статистички методи. Понатаму, VanderWeele (2015) нуди третман со должина на книги со голем број важни резултати, вклучувајќи и сеопфатен пристап кон анализата на сензитивноста.
Посебен приод се фокусира на експерименти кои се обидуваат директно да го манипулираат механизмот (на пример, давање на морнари витамин Ц). За жал, во многу поставувања на општествените науки, често има повеќе механизми и тешко е да се дизајнираат третмани кои го менуваат без да ги менуваат другите. Некои пристапи кон експериментално менување на механизмите се опишани од Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , и Pirlott and MacKinnon (2016) .
Истражувачите кои работат целосно факториелни експерименти ќе треба да бидат загрижени за повеќе хипотетички тестови; види Fink, McConnell, and Vollmer (2014) и List, Shaikh, and Xu (2016) за повеќе информации.
Конечно, механизмите, исто така, имаат долга историја во филозофијата на науката како што е опишано од Hedström and Ylikoski (2010) .
За повеќе информации за користењето на студиите за преписка и ревизорските студии за мерење на дискриминацијата, видете Pager (2007) .
Највообичаен начин да ги регрутирате учесниците во експериментите што ги градите е Амазонски механички Турк (Муркур). Бидејќи MTurk имитира аспекти на традиционалните лабораториски експерименти - плаќајќи луѓе да ги завршат задачите што нема да ги направат бесплатно - многу истражувачи веќе почнаа да ги користат Туркерс (работниците од Муркур) како експериментални учесници, што резултираше со побрзо и поевтино собирање на податоци одошто може да се постигне во традиционалните лабораториски експерименти на кампусот (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Општо земено, најголемите предности на користењето на учесниците регрутирани од MTurk се логистички. Додека лабораториските експерименти може да траат неколку недели за да трчаат и експериментите на терен може да потраат неколку месеци за да се постават, експериментите со учесниците регрутирани од MTurk може да се извршат за неколку дена. На пример, Berinsky, Huber, and Lenz (2012) успеале да регрутираат 400 субјекти во еден ден за да учествуваат во 8-минутен експеримент. Понатаму, овие учесници може да се регрутираат за речиси секоја цел (вклучувајќи и анкети и масовна соработка, како што е дискутирано во поглавјата 3 и 5). Оваа леснотија за вработување значи дека истражувачите можат брзо да ја следат секвенцата на сродни експерименти.
Пред да регрутирате учесници од Муркур за свои експерименти, постојат четири важни работи што треба да ги знаете. Прво, многу истражувачи имаат неспецифичен скептицизам за експерименти кои вклучуваат Туркерс. Бидејќи овој скептицизам не е специфичен, тешко е да се спротивставиме со докази. Меѓутоа, по неколкугодишни студии со користење на Туркерс, сега можеме да заклучиме дека овој скептицизам не е особено оправдан. Имало многу студии според кои се споредува демографијата на Туркерите со оние на другите популации и многу студии споредувајќи ги резултатите од експериментите со Туркерите со оние од други популации. Со оглед на сето ова дело, мислам дека најдобриот начин да размислите за тоа е дека Туркерите се разумна пригодна мостра, слична на учениците, но малку поразновидна (Berinsky, Huber, and Lenz 2012) . Така, исто како што студентите се разумно население за некои, но не и за сите, истражувањата, Туркерите се разумно население за некои, но не и за сите, истражувања. Ако сакате да соработувате со Туркерите, тогаш има смисла да се прочитаат многу од овие компаративни студии и да се разберат нивните нијанси.
Второ, истражувачите имаат развиено најдобри практики за зголемување на интерната валидност на експериментите на Муррк, и треба да ги научите и да ги следите овие најдобри практики (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . На пример, истражувачите кои ги користат Туркерс се охрабруваат да ги користат скринсерите за да ги отстранат невнимателните учесници (Berinsky, Margolis, and Sances 2014, 2016) (но исто така видете и DJ Hauser and Schwarz (2015b) и DJ Hauser and Schwarz (2015a) ). Ако не ги отстраните невнимателните учесници, тогаш секој ефект од третманот може да биде измиен од бучавата што ја воведуваат, а во пракса бројот на невнимателни учесници може да биде значителен. Во експериментот на Хубер и колегите (2012) , околу 30% од учесниците не успеаја да ги свртат основните внимание. Други проблеми кои најчесто се јавуваат кога Туркерите се користат се не-наивни учесници (Chandler et al. 2015) и исцрпување (Zhou and Fishbach 2016) .
Трето, во однос на некои други форми на дигитални експерименти, Меркур експериментите не можат да ги зголемат; Stewart et al. (2015) проценуваат дека во секој момент има само околу 7.000 луѓе на Муркур.
Конечно, треба да знаете дека Муррк е заедница со сопствени правила и норми (Mason and Suri 2012) . На ист начин на кој би се обиделе да дознаете за културата на земја каде што требаше да ги извршите вашите експерименти, треба да се обидете да дознаете повеќе за културата и нормите на Туркерите (Salehi et al. 2015) Salehi (Salehi et al. 2015) . И треба да знаете дека Туркерите ќе зборуваат за вашиот експеримент ако направите нешто несоодветно или неетичко (Gray et al. 2016) .
Метурк е неверојатно лесен начин да ги регрутирате учесниците во вашите експерименти, без разлика дали се лабораториски, како што се Huber, Hill, and Lenz (2012) , или повеќе области како што се Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , и Mao et al. (2016) .
Ако размислувате да се обидете да создадете свој производ, препорачувам да го прочитате советот што го нуди групата MovieLens во Harper and Konstan (2015) . Клучен увид од нивното искуство е дека за секој успешен проект има многу, многу неуспеси. На пример, групата MovieLens лансираше други производи, како што се GopherAnswers, кои беа комплетни неуспеси (Harper and Konstan 2015) . Уште еден пример за неуспехот на истражувачот додека се обидува да изгради производ е обидот на Едвард Кастронова да изгради онлајн игра наречена Арден. И покрај 250.000 долари за финансирање, проектот беше пропаднат (Baker 2008) . Проектите како GopherAnswers и Arden се за жал многу почести од проектите како MovieLens.
Слушнав идејата за квадрант на Пастер, често се дискутираше за технолошки компании, и помага да се организираат истражувачки напори на Google (Spector, Norvig, and Petrov 2012) .
Студијата Бонд и колегите (2012) исто така, се обидува да го открие ефектот на овие третмани врз пријателите на оние кои ги примиле. Поради дизајнот на експериментот, овие пролиферации тешко може да се детектираат чисто; заинтересираните читатели треба да го видат Bond et al. (2012) за подетална дискусија. Џонс и неговите колеги (2017) исто така спроведоа многу сличен експеримент за време на изборите во 2012 година. Овие експерименти се дел од долгата традиција на експерименти во политичките науки за напорите за поттикнување на гласањето (Green and Gerber 2015) . Овие експерименти за добивање на гласови се чести, делумно затоа што се во квадрантот на Пастер. Тоа е, постојат многу луѓе кои се мотивирани да го зголемат гласањето и гласањето може да биде интересно однесување за да се тестираат поопштите теории за промена на однесувањето и социјалното влијание.
За совети за тековни експерименти со партнерските организации, како што се политичките партии, невладините организации и бизнисите, видете Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) и Gueron (2002) . За размислувањата за тоа како партнерствата со организации може да влијаат на истражувањата на дизајнот, видете King et al. (2007) и Green, Calfano, and Aronow (2014) . Партнерството, исто така, може да доведе до етички прашања, како што дискутираа Humphreys (2015) и Nickerson and Hyde (2016) .
Ако ви се креира план за анализа пред да го стартувате вашиот експеримент, предлагам да започнете со читање на упатствата за известување. Упатствата за CONSORT (Consolidated Standard Reporting of Trials) беа развиени во медицината (Schulz et al. 2010) и модифицирани за социјални истражувања (Mayo-Wilson et al. 2013) . Поврзани сет на упатства е развиен од страна на уредниците на Journal of Experimental Political Science (Gerber et al. 2014) (види исто така Mutz and Pemantle (2015) и Gerber et al. (2015) ). Конечно, во психологијата се развиваат упатства за известување (APA Working Group 2008) , а исто така ги видите и Simmons, Nelson, and Simonsohn (2011) .
Ако креирате план за анализа, треба да размислите за претходна регистрација, бидејќи пред-регистрацијата ќе ја зголеми довербата што другите ја имаат во вашите резултати. Понатаму, ако работите со партнер, тоа ќе ја ограничи можноста на партнерот да ја промени анализата откако ќе ги види резултатите. Пред-регистрацијата станува се почеста во психологијата (Nosek and Lakens 2014) , политички науки (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) и економија (Olken 2015) .
Дизајн совети специјално за онлајн теренски експерименти е исто така презентирана во Konstan and Chen (2007) и Chen and Konstan (2015) .
Она што јас го нарекувам стратегија за армада понекогаш се нарекува програмски истражувања ; види Wilson, Aronson, and Carlsmith (2010) .
Повеќе за експериментите MusicLab, види Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) и Salganik (2007) . За повеќе информации за пазарите на победниците, видете Frank and Cook (1996) . За повеќе информации за општата среќа и вештина поопшто, видете Mauboussin (2012) , Watts (2012) и Frank (2016) .
Постои уште еден пристап за елиминирање на плаќањата на учесниците што истражувачите треба да ги користат со претпазливост: регрутација. Во многу онлајн експерименти, учесниците во основа се подготвуваат во експерименти и никогаш не се надоместуваат. Примери за овој пристап се експериментот Restivo и van de Rijt (2012) за награди во Википедија и експериментот на Бонд и колегата (2012) за поттикнување на луѓето да гласаат. Овие експерименти навистина немаат нула варијабилна цена - туку имаат нула варијабилна цена за истражувачите . Во такви експерименти, дури и ако трошокот за секој учесник е исклучително мал, агрегатните трошоци може да бидат доста големи. Истражувачите кои извршуваат масивни онлајн експерименти често ја оправдуваат важноста на мали проценети ефекти од третманот, велејќи дека овие мали ефекти можат да станат важни кога се применуваат на многу луѓе. Точно истото размислување се однесува на трошоците што истражувачите ги наметнуваат на учесниците. Ако вашиот експеримент предизвикува еден милион луѓе да потрошат една минута, експериментот не е многу штетен за некоја одредена личност, но во вкупен износ потроши речиси две години.
Друг пристап за создавање нулта променлива цена на учесниците е да се користи лотарија, приод кој исто така се користел и во истражувањето (Halpern et al. 2011) . За повеќе информации за дизајнирање пријатни кориснички искуства, видете Toomim et al. (2011) . За повеќе информации за користење на ботови за креирање експерименти со нула варијабилни трошоци видете ( ??? ) .
Три R, како првично предложени од Russell and Burch (1959) се како што следува:
"Замена значи замена за свесно живеење повисоки животни од insentient материјал. Намалување значи намалување на бројот на животните кои се користат да се добијат информации за одредена сума и прецизност. Префинетост значи секое намалување на инциденцата или тежината на нехумани постапки кои се применуваат за оние животни кои се уште треба да се користи. "
Трите R-ови кои ги предлагам не ги прекршуваат етичките принципи опишани во поглавјето 6. Наместо тоа, тие се повеќе разработена верзија е една од тие принципи - корист - конкретно во поставувањето на човечки експерименти.
Во однос на првата R ("замена"), споредувајќи го експериментот со емоционална зараза (Kramer, Guillory, and Hancock 2014) и природниот експеримент со емоционална зараза (Lorenzo Coviello et al. 2014) нуди некои општи поуки за вклучените компромиси при премин од експерименти на природни експерименти (и други пристапи како појавување кои се обидуваат да ги приближат експериментите во не експериментални податоци, види поглавје 2). Освен етичките придобивки, преминувањето од експериментални во не експериментални студии, исто така, им овозможува на истражувачите да ги проучуваат третманите кои тие логистички не можат да ги распоредат. Меѓутоа, овие етички и логистички придобивки доаѓаат по цена. Со природните експерименти истражувачите имаат помала контрола врз нештата како регрутирање на учесниците, рандомизација и природата на третманот. На пример, едно ограничување на врнежите како третман е тоа што и двете ја зголемуваат позитивноста и ја намалуваат негативноста. Во експерименталната студија, сепак, Крамер и неговите колеги успеале самостојно да ја прилагодат позитивноста и негативноста. Посебен пристап користен од Lorenzo Coviello et al. (2014) беше дополнително разработена од L. Coviello, Fowler, and Franceschetti (2014) . За вовед во инструментални варијабли, што е пристап користен од Lorenzo Coviello et al. (2014) , види Angrist and Pischke (2009) (помалку формални) или Angrist, Imbens, and Rubin (1996) (повеќе формални). За скептична проценка на инструменталните варијабли, видете Deaton (2010) , и за вовед во инструментални варијабли со слаби инструменти (дождот е слаб инструмент), видете Murray (2006) . Општо земено, добар вовед во природните експерименти е даден од Dunning (2012) , додека Rosenbaum (2002) , ( ??? ) и Shadish, Cook, and Campbell (2001) нудат добри идеи за проценка на причинските ефекти без експерименти.
Во однос на втората R ("префинетост"), постојат научни и логистички компромиси кога се размислува за менување на дизајнот на Емоционалната контагија од блокирање на мислења за зголемување на мислењата. На пример, може да биде случај дека техничката имплементација на News Feed го прави значително полесно да се направи експеримент во кој ставовите се блокирани наместо оние во кои тие се засилени (забележете дека може да се спроведе експеримент со блокирање на постови како слој на врвот на системот за вести на вести, без потреба од промена на основниот систем). Научно, сепак, теоријата опфатена со експериментот не јасно сугерирала еден дизајн над другиот. За жал, не сум свесен за значително претходно истражување за релативните заслуги на блокирање и зајакнување на содржината во News Feed. Исто така, не сум видел многу истражувања за рафинирање третмани за да ги направи помалку штетни; еден исклучок е B. Jones and Feamster (2015) , кој го разгледува случајот на мерење на цензурата на интернетот (тема за која дискутирам во поглавје 6 во врска со студијата Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Во однос на третиот R ("намалување"), добриот вовед во традиционалната анализа на моќност се дадени од Cohen (1988) (книга) и Cohen (1992) (член), додека Gelman and Carlin (2014) нудат малку поинаква перспектива. Пред-третманските коваријати можат да бидат вклучени во фазата на дизајнирање и анализа на експериментите; Поглавје 4 од Gerber and Green (2012) дава добар увид во двата пристапи, а Casella (2008) обезбедува подетален третман. Техники кои ги користат овие информации за предтретман во рандомизацијата обично се нарекуваат или блокирани експериментални дизајни или стратифицирани експериментални дизајни (терминологијата не се користи постојано во заедниците); овие техники се тесно поврзани со стратифицираните техники за земање мостри дискутирани во поглавје 3. Види Higgins, Sävje, and Sekhon (2016) за повеќе за користење на овие дизајни во масивни експерименти. Пред-третманските коваријати, исто така, можат да бидат вклучени во фазата на анализа. McKenzie (2012) истражува начинот на разлика меѓу разликите во анализата на теренските експерименти подетално. Видете Carneiro, Lee, and Wilhelm (2016) за повеќе за размени помеѓу различни пристапи за зголемување на прецизноста во проценките на ефектите од третманот. Конечно, при одлучувањето дали да се обидат да вклучат ковариери за предтретман во фазата на дизајнирање или анализа (или и двете), има неколку фактори кои треба да се разгледаат. Во услови каде што истражувачите сакаат да покажат дека не се "риболов" (Humphreys, Sierra, and Windt 2013) , користењето на коваријари за предтретман во фазата на дизајнирање може да биде корисно (Higgins, Sävje, and Sekhon 2016) . Во ситуации каде што учесниците пристигнуваат секвенцијално, особено експериментите преку интернет, користењето информации за предтретман во фазата на дизајнирање може да биде тешко логистички; види, на пример, Xie and Aurisset (2016) .
Вреди да се додаде малку интуиција за тоа зошто пристапот "разлики во разликите" може да биде многу поефикасен од разликата во средствата. Многу онлајн резултати имаат многу висока варијанса (види, на пример, RA Lewis and Rao (2015) и Lamb et al. (2015) ) и се релативно стабилни со текот на времето. Во овој случај, резултатот на промена ќе има значително помала варијанса, што ќе ја зголеми моќта на статистичкиот тест. Една од причините поради кои овој пристап не се користи почесто е дека пред дигиталната ера, не беше вообичаено да се постигнат резултати пред третманот. Поконкретен начин да се размислува за ова е да се замисли експеримент за да се измери дали одредена рутинска вежба предизвикува губење на тежината. Ако прифатите пристап разлики во средства, вашата проценка ќе има варијабилност што произлегува од варијабилноста на тежината во популацијата. Доколку направите разлика меѓу разликите, сепак, варијацијата на тежината која се јавува природно се отстранува, и полесно може да ја откриете разликата предизвикана од третманот.
Конечно, размислував да додадам четврта R: "repurpose". Тоа е, ако истражувачите се најдат со повеќе експериментални податоци отколку што треба да го решат своето првично истражувачко прашање, тие треба да ги пренаменат податоците за да поставуваат нови прашања. На пример, замислете дека Крамер и неговите колеги користеле проценка разлики во разликите и се најдоа со повеќе податоци отколку што им требаа за да го решат своето истражувачко прашање. Наместо да не ги користат податоците во потполност, тие би можеле да ја проучуваат големината на ефектот како функција на пред-третман емоционална експресија. Исто како Schultz et al. (2007) утврди дека ефектот на третманот е различен за лесни и тешки корисници, можеби ефектите од News Feed беа различни за луѓето кои веќе имаа тенденција да објавуваат среќни (или тажни) пораки. Репродукцијата може да доведе до "риболов" (Humphreys, Sierra, and Windt 2013) и "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , но овие се во голема мера адресибилни со комбинација на чесни известувања (Simmons, Nelson, and Simonsohn 2011) , пред-регистрација (Humphreys, Sierra, and Windt 2013) и методи за машинско учење кои се обидуваат да избегнат преголема примена.