Әлеуметтік зерттеулердегі себеп-салдар туралы сұрақтар жиі күрделі және күрделі. Imbens and Rubin (2015) графиктерге негізделген негізделген көзқарас үшін Pearl (2009) және ықтимал нәтижелерге негізделген іргелі тәсіл үшін « Imbens and Rubin (2015) бөлімін қараңыз. Осы екі тәсілмен салыстыру үшін Morgan and Winship (2014) . VanderWeele and Shpitser (2013) анықтауға ресми көзқарас үшін VanderWeele and Shpitser (2013) .
Осы тарауда эксперименттік және тәжірибелік емес деректерден себеп-сандық бағалауды жасау қабілеті арасындағы жарқын сызық сияқты көріндім. Алайда, менің ойымша, шын мәнінде, айырмашылық бұлыңғыр. Мысалы, барлық адамдар темекі шегудің қатерлі ісікке әкелетінін мойындайды, тіпті адамдардың темекі шегуге мәжбүрлейтін рандомизацияланған бақыланатын эксперимент болған жоқ. Өте жақсы кітап-ұзындығы үшін емес эксперименттік деректер себеп-салдарлық бағалауларды бойынша емдеу қараңыз Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , және Dunning (2012) .
Freedman, Pisani, and Purves (2007) 1 және 2-тарауларында эксперименттер, бақыланатын эксперименттер және рандомизацияланған бақыланатын эксперименттер арасындағы айырмашылықтарға нақты кіріспе ұсынылады.
Manzi (2012) рандомизацияланған бақыланатын эксперименттердің философиялық және статистикалық негіздемесіне қызықты және оқылатын кіріспе береді. Ол сондай-ақ бизнесте эксперимент жүргізудің шынайы әлем мысалдарын ұсынады. Issenberg (2012) саяси науқандарда эксперименттерді қолданудың қызықты енгізілуін қамтамасыз етеді.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 және Athey and Imbens (2016b) эксперименттік дизайн және талдаудың статистикалық аспектілеріне жақсы енгізеді. Экономика: Әрі қарай, көптеген әр түрлі салаларда эксперименттер пайдалану тамаша емдеу бар (Bardsley et al. 2009) , әлеуметтану (Willer and Walker 2007; Jackson and Cox 2013) , психология (Aronson et al. 1989) , саясаттану (Morton and Williams 2010) және әлеуметтік саясат (Glennerster and Takavarasha 2013) .
Қатысушыларды іріктеу маңыздылығы (мысалы, іріктеу) эксперименталды зерттеулерде жиі бағаланады. Алайда, емдеудің әсері халықта гетерогенді болса, онда сынама алу өте маңызды. Longford (1999) зерттеушілерге эксперименттерді ойлап табуды популяциялық зерттеу ретінде таңдап алған кезде оны дәл анықтайды.
Мен зертханалық және далалық эксперименттер арасындағы (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) ұсындым, ал басқа зерттеушілер далалық тәжірибелердің әртүрлі нысандарын бөлетін (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) егжей-тегжейлі типологияларды ұсынды.
Бірқатар жұмыстарда дерексіз (Falk and Heckman 2009; Cialdini 2009) және саяси ғылымда (Coppock and Green 2015) , экономикадағы (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) (Coppock and Green 2015) эксперименттердің нақты нәтижелері бойынша зертханалық-далалық эксперименттерді салыстыру (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) және психология (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) зертханалық және далалық эксперименттер нәтижелерін салыстыру үшін жақсы зерттеу жобасын ұсынады. Parigi, Santana, and Cook (2017) зертханалық және далалық эксперименттердің кейбір сипаттамаларын онлайн-далалық эксперименттердің қалай біріктіре алатындығын сипаттайды.
Қатысушылардың өздерінің мінез-құлқын өзгерткені туралы алаңдаушылық тудырады, өйткені олар жақын уақытта қадағаланып жатқанын біледі, кейде сұраныс эффектілері деп аталады, олар психологияда (Orne 1962) және экономикада (Zizzo 2010) . Негізінен зертханалық эксперименттермен байланысты болғанымен, бұл мәселелер далалық эксперименттерге де себеп болуы мүмкін. Шын мәнінде, сұраныс эффектілері кейде Hawthorne эффектілері деп аталады, бұл термин 1924 жылы «Western Electric» компаниясының Hawthorne Works (Adair 1984; Levitt and List 2011) басталған атақты жарықтандыру эксперименттерін тудыратын термин. Талаптың екпінді әсерлері және Hawthorne әсерлері 2-тарауда талқыланған реактивті өлшеу идеясымен тығыз байланысты (қараңыз, Webb et al. (1966) ).
Field experiments экономикада (Levitt and List 2009) , саяси ғылымдарда (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , (Shadish 2002) (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , психология (Shadish 2002) және мемлекеттік саясат (Shadish and Cook 2009) . Өрістердің эксперименттері тез дамып келе жатқан әлеуметтік ғылымдардың бір саласы - халықаралық даму. Экономикадағы осы жұмысқа оң шолу үшін Banerjee and Duflo (2009) қараңыз және сыни бағалау үшін Deaton (2010) қараңыз. Саяси ғылымда осы жұмысты қарау үшін Humphreys and Weinstein (2009) . Ақыр соңында, далалық тәжірибелерден туындайтын этикалық проблемалар саяси ғылымдар (Humphreys 2015; Desposato 2016b) және даму экономикасы (Baele 2013) .
Бұл бөлімде алдын ала емдеу туралы ақпарат бағалаудың емдік әсерінің дәлдігін жақсарту үшін қолданыла алады, бірақ бұл тәсіл туралы пікірталастар бар; Freedman (2008) , W. Lin (2013) , Berk et al. (2013) және Bloniarz et al. (2016) .
Ақыр соңында, зертханалық-далалық өлшемдер бойынша сəйкес келмейтін əлеуметтік ғалымдар жүргізген эксперименттердің тағы екі түрі бар: зерттеу эксперименттері жəне əлеуметтік эксперименттер. Зерттеу эксперименттер - қолданыстағы зерттеулердің инфрақұрылымын қолдана отырып эксперименттер және сол сұрақтардың альтернативті нұсқаларына жауаптарды салыстыру (кейбір зерттеу эксперименттері 3-тарауда келтірілген); Зерттеу эксперименттері туралы көбірек білу үшін Mutz (2011) бөлімін қараңыз. Әлеуметтік эксперименттер - емдеу - бұл тек үкімет жүзеге асыратын кейбір әлеуметтік саясат. Әлеуметтік эксперименттер бағдарламаны бағалаумен тығыз байланысты. Саяси эксперименттер туралы толығырақ Heckman and Smith (1995) , Orr (1998) және @ glennerster_running_2013 қараңыз.
Мен үш тұжырымдаманы: емдеудің тиімділігі мен тетіктерінің жарамдылығын, әртүрлілігін назарға алдым. Бұл ұғымдар әртүрлі салаларда әртүрлі есімдерге ие. Мысалы, психологтар медиаторлар мен модераторларға назар аудара отырып, қарапайым эксперименттерден асып кетеді (Baron and Kenny 1986) . Медиаторлардың идеясы мен тетіктер деп аталады, ал модераторлардың идеясы мен сыртқы тәуелділік деп аталатын нәрсемен (мысалы, егер әртүрлі жағдайларда іске асырылған болса, эксперименттің нәтижелері әртүрлі болар еді) және емдеу әсерінің әртүрлі мысалы, басқа адамдарға қарағанда, кейбір адамдар үшін үлкенірек әсер етеді).
Schultz et al. (2007) эксперименті Schultz et al. (2007) Социологиялық теорияларды тиімді араласуды қалай құруға болатынын көрсетеді. Walton (2014) интервенцияларды жасауда теорияның рөлі туралы неғұрлым жалпы дәлел алу үшін Walton (2014) бөлімін қараңыз.
Ішкі және сыртқы негіздегі тұжырымдаманы алдымен Campbell (1957) ұсынды Campbell (1957) . Shadish, Cook, and Campbell (2001) егжей-тегжейлі тарих және статистикалық қорытындының шынайылығын, ішкі негізділігін, шынайылығын құруға және сыртқы жарамдылығын мұқият әзірлеу үшін қараңыз.
Эксперименттерде статистикалық қорытындының жарамдылығымен байланысты мәселелерді шолу үшін Gerber and Green (2012) (әлеуметтік ғылым тұрғысынан) және Imbens and Rubin (2015) (статистикалық тұрғыдан) қараңыз. Интернеттегі далалық эксперименттерде туындайтын статистикалық қорытындылардың шындыққа қатысты кейбір мәселелері тәуелді деректермен сенімді (Bakshy and Eckles 2013) құрудың есептеу әдісі сияқты мәселелерді қамтиды (Bakshy and Eckles 2013) .
Ішкі қолданылу күрделі далалық эксперименттерді қамтамасыз ету қиын болуы мүмкін. Мысалы, Gerber and Green (2000) , Imai (2005) және Gerber and Green (2005) дауыс беру туралы күрделі өріс экспериментін енгізу туралы пікірталастар үшін. Kohavi et al. (2012) Және Kohavi et al. (2013) онлайн-далалық эксперименттерде интервалдық заңдылықтың сын-қатерлерін енгізуді қамтамасыз етеді.
Ішкі қолданысқа қатысты негізгі қауіп-қатер - бұл кездейсоқ рандомизация мүмкіндігі. Рандомизациямен байланысты проблемаларды анықтаудың бір ықтимал тәсілі емдеу және бақылау топтарын бақыланатын қасиеттермен салыстыру болып табылады. Мұндай салыстыру балансты тексеру деп аталады. Hansen and Bowers (2008) баланстық тексерулер туралы алаңдаушылықтар үшін Mutz and Pemantle (2015) баланстық тексерулерге арналған статистикалық тәсілдерді қараңыз. Мысалы, балансты тексеруді пайдалана отырып, Allcott (2011) Опауэр эксперименттерінің үшеуінде рандомизация дұрыс енгізілмегендігі туралы бірнеше дәлелдер тапты (2-кестені қараңыз, 2, 6 және 8 сайттары). Басқа көзқарастар үшін Imbens and Rubin (2015) 21-тарауын қараңыз Imbens and Rubin (2015) .
Ішкі қолданысқа қатысты басқа да негізгі проблемалар мыналар болып табылады: (1) емдеу тобындағы емделушілердің бәрі іс жүзінде емделмеген біржақты сәйкессіздік; (2) емдеу тобында емдеудің барлық түрлерінде емделмейтін екі жақты сәйкессіздік бақылау тобы емдеуді алады, (3) кейбір қатысушылар үшін нәтиже өлшенбейтін потертизация, және (4) емделу жағдайында адамдардан емделу жағдайында адамдарға бақылау күйінде төгілетін араласу. Осы мәселелердің әрқайсысы туралы көбірек білу үшін Gerber and Green (2012) 5, 6, 7 және 8 тарауларын қараңыз.
Үлкен деректер көздерінде Lazer (2015) және 2-тараудың жарамдылығын құру туралы қосымша ақпарат алу үшін Westen and Rosenthal (2003) және тағы да қараңыз.
Сыртқы жарамдылықтың бір аспектісі - интервенцияны сынақтан өткізу параметрі. Allcott (2015) сайттарды іріктеуді алдын-ала таңдап алған теориялық және эмпирикалық Allcott (2015) қамтамасыз етеді. Бұл мәселе Deaton (2010) де талқыланады. Сыртқы заңдылықтың тағы бір аспектісі - сол араласудың альтернативті операциялары ұқсас әсерлерге ие бола ма. Бұл жағдайда Schultz et al. (2007) және Allcott (2011) көрсеткендей, Opower эксперименттері Шульц пен әріптестердің (1,7% қарсы 5%) бастапқы эксперименттерге қарағанда кішкене бағаланған әсерін тигізді. Allcott (2011) емдеумен ерекшеленетін әдістердің арқасында келесі эксперименттердің кішірек әсерін тигізді деп Allcott (2011) : университеттің демеушісі ретінде қолжазбалық эмотикон баспадан шыққан эмоциямен жаппай өндірілген энергетикалық компаниядан есеп.
Далалық эксперименттерде терапия әсері туралы әртүрлі шолу үшін Gerber and Green (2012) 12-тарауын қараңыз Gerber and Green (2012) . Медициналық зерттеулерде емдеудің әсерінің әртүрлі болуына кірісу үшін Kent and Hayward (2007) , Longford (1999) және Kravitz, Duan, and Braslow (2004) бөлімін қараңыз. Емдеу әсерінің біркелкілігін ескере отырып, әдетте алдын ала емдеу сипаттамаларына негізделген айырмашылықтарға назар аударылады. Егер сіз емдеуден кейінгі нәтижелерге негізделген біртекті болмасаңыз, онда негізгі стратификация сияқты аса күрделі тәсілдер қажет (Frangakis and Rubin 2002) ; қараңыз Page et al. (2015) шолу үшін.
Көптеген зерттеушілер желілік регрессияның көмегімен емдеу әсерінің әртүрлілігін бағалайды, бірақ жаңа әдістер машинада оқытуға негізделген; қараңыз, мысалы, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) Athey and Imbens (2016a) .
Көптеген салыстыру проблемалары мен «балық аулау» салдарынан әсердің бірнеше түрлерінің табылуы туралы кейбір күмәншілдер бар. Көптеген салыстыру (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . «Балық аулау» туралы алаңдаушылыққа бір көзқарас психологияда (Nosek and Lakens 2014) , саясаттану (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , және экономика (Olken 2015) .
Costa and Kahn (2013) зерттеуінде Costa and Kahn (2013) экспериментте үй шаруашылықтарының жартысына жуығы демографиялық ақпаратпен байланысты болуы мүмкін. Осы мәліметтерге қызығушылық танытқан оқырмандар түпнұсқа қағазға сілтеме жасауы керек.
Механизмдер өте маңызды, бірақ олар оқуға өте қиын. Механизмдер туралы зерттеулер медиаторларды психологияда зерттеумен тығыз байланысты (бірақ екі идеяны нақты салыстыру үшін VanderWeele (2009) қараңыз). Baron and Kenny (1986) дамыған тәсіл сияқты механизмдерді табудың статистикалық тәсілдері өте кең таралған. Өкінішке орай, бұл процедуралар кейбір күшті болжамдарға байланысты болады (Bullock, Green, and Ha 2010) және көп жағдайда тетіктер болған кезде зардап шегеді (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) және Imai and Yamamoto (2013) кейбір жақсартылған статистикалық әдістерді ұсынады. Сонымен қатар, VanderWeele (2015) сезімталдық талдауларына кешенді көзқарасты қамтитын бірқатар маңызды нәтижелермен кітапты VanderWeele (2015) ұсынады.
Жеке көзқарас тетікті тiкелей басқаруға әрекет жасайтын эксперименттерге баса назар аударады (мысалы, Теңiзшiлердiң С дәрумені). Өкінішке орай, көптеген әлеуметтік ғылымдарда жиі бірнеше механизмдер бар және басқаларды өзгертпестен бірін өзгертетін емдеуді жасау қиын. Тəжірибелік жолмен тəсілдерді өзгертетін кейбір тәсілдерді Imai, Tingley, and Yamamoto (2013) Ludwig, Kling, and Mullainathan (2011) Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) Pirlott and MacKinnon (2016) .
Толық факторлық эксперименттерді орындайтын зерттеушілер бірнеше гипотезаны тестілеуге алаңдаулары керек; Қосымша ақпарат алу үшін Fink, McConnell, and Vollmer (2014) және List, Shaikh, and Xu (2016) қараңыз.
Ақыр соңында, механизмдер Hedström and Ylikoski (2010) сипаттаған ғылымның философиясындағы ұзақ тарихқа ие.
Сырттай оқуды және кемсітушілікті өлшеу үшін аудиторлық зерттеулерді пайдалану туралы қосымша ақпаратты Pager (2007) бөлімінен қараңыз.
Сіз өзіңіз жасаған эксперименттерге қатысушыларға ең көп тараған әдіс - Amazon Mechanical Turk (MTurk). MTurk дәстүрлі зертханалық эксперименттердің аспектілерін имплементациялайды - адамдарға тегін жұмыс істемейтін тапсырмаларды орындау үшін төлем жасайды, көптеген зерттеушілер тәжірибелі қатысушылар ретінде түркілерді (MTurk қызметкерлері) пайдалана бастады, бұл деректерге жылдам және арзанырақ деректер жинауға мүмкіндік береді дәстүрлі қалалық зертханалық эксперименттерде (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Жалпы алғанда, MTurk-дан тартылған қатысушыларды пайдаланудың ең үлкен артықшылықтары - бұл логистикалық сипат. Зертханалық эксперименттер апта жүргізу және эксперимент жүргізу үшін бірнеше ай кетуі мүмкін болса, MTurk-дан тартылған қатысушылармен эксперименттер бірнеше күнде орындалуы мүмкін. Мысалы, Berinsky, Huber, and Lenz (2012) 8 минуттық экспериментке қатысу үшін бір күнде 400 тақырыпты қабылдады. Бұдан басқа, осы қатысушыларды іс жүзінде кез келген мақсаттарға (3 және 5-тарауларда талқыланған сауалнамалар мен жаппай ынтымақтастықты қоса) алуға болады. Бұл жұмысқа орналасудың қарапайымдылығы зерттеушілер тез арада бір-бірімен байланысты эксперименттердің қатарын іске асыра алады дегенді білдіреді.
Өзіңіздің эксперименттеріңіз үшін MTurk қатысушыларын жинамас бұрын, білуіңіз қажет төрт маңызды нәрсе бар. Біріншіден, көптеген зерттеушілер түркілердің қатысуымен эксперименттерге тән емес скептицизмге ие. Бұл шүбәсіздік нақты емес болғандықтан, дәлелдермен қарсыласу қиын. Алайда, бірнеше жылдан кейінгі зерттеулерден кейін, біз бұл скептицизмнің әсіресе ақталған жоқ деп тұжырымдай аламыз. Түріктердің демографиялық көрсеткіштерін басқа топтармен салыстыру және көптеген зерттеулермен салыстырғанда, Түрікмен бірге эксперименттер нәтижелерін салыстыра отырып, басқа топтардан шыққан көптеген зерттеулер бар. Осы жұмыстың барлығын ескере отырып, сіз ойлағандай, бұл түрікше студенттерге ұқсайтын ыңғайлы үлгі болып саналады, бірақ олар біршама әртүрлі (Berinsky, Huber, and Lenz 2012) . Осылайша, студенттер кейбіреулер үшін ақылға қонымды халық болғанымен, зерттеушілер емес, түріктер - кейбіреулер үшін ақылға қонымды халық, бірақ бәрі емес. Егер сіз сіздермен бірге жұмыс жасайтын болсаңыз, онда осы салыстырмалы зерттеулердің көпшілігін оқып, олардың нюанстарын түсіну керек.
Екіншіден, зерттеушілер MTurk эксперименттерінің ішкі негізділігін жоғарылатудың озық әдістерін әзірледі және сізге осы ең жақсы тәжірибелер туралы білуге және оларды ұстануға тиіс (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Мысалы, түркілерді пайдаланатын зерттеушілер назарсыз қатысушыларды (Berinsky, Margolis, and Sances 2014, 2016) алып тастау үшін скринингті қолдануға шақырылады (бірақ DJ Hauser and Schwarz (2015b) және DJ Hauser and Schwarz (2015a) ). Егер назарға алынбайтын қатысушыларды алып тастамасаңыз, онда емдеудің кез-келген әсері олар енгізген шуылмен жууға болады, ал іс жүзінде қатысушылардың назарынан тыс қалуы мүмкін. Хубердің және әріптестерінің экспериментінде (2012) Қатысушылардың 30% -ы негізгі назар аударушыларға қол жеткізе алмады. Түріктердің пайдаланған кезде әдетте пайда болатын басқа да проблемалар - бірегей емес қатысушылар (Chandler et al. 2015) (Zhou and Fishbach 2016) .
Үшіншіден, цифрлы эксперименттердің кейбір басқа түрлеріне қатысты MTurk эксперименттері ауқымды мүмкін емес; Stewart et al. (2015) , Кез-келген уақытта MTurk-да шамамен 7000 адам бар екенін бағалайды.
Ақырында, MTurk - өз ережелері мен нормалары бар қауымдастық (Mason and Suri 2012) . Өзіңіздің эксперименттеріңізді жүзеге асыратын елдің мәдениеті туралы білуге тырысатын болсаңыз, түріктердің мәдениеті мен нормалары туралы көбірек білуге тырысыңыз (Salehi et al. 2015) . Егер сіз дұрыс емес немесе этикалық емес нәрсе жасасаңыз, түркілер экспериментіңіз туралы сөйлесетін болады (Gray et al. 2016) .
MTurk - бұл Huber, Hill, and Lenz (2012) сияқты зертханалық секілді эксперименттерге қатысушыларды тартудың керемет ыңғайлы жолы немесе Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) және Mao et al. (2016) .
Егер сіз өзіңіздің өніміңізді жасамақшы деп ойласаңыз, Harper and Konstan (2015) MovieLens тобымен ұсынылған кеңесті оқып шығуыңызды ұсынамын. Әрбір сәтті жоба үшін көптеген, көп сәтсіздікке ұшыраған тәжірибесі бар. Мысалы, MovieLens тобы GopherAnswers секілді басқа да өнімдерді іске қосты, олар толық сәтсіздікке ұшырады (Harper and Konstan 2015) . Өнімді құруға талпынған зерттеушінің тағы бір мысалы - Эдвард Кастронованың Arden деп аталатын онлайн ойын салу әрекеті. Қаржыландыруға 250 000 АҚШ долларына қарамастан, жоба флоп болды (Baker 2008) . Өкінішке орай, GopherAnswers және Arden сияқты жобалар MovieLens сияқты жобаларға қарағанда әлдеқайда кең таралған.
Мен Пастер квадратының техникалық компанияларда жиі талқыланған идеясын естідім және Google-да (Spector, Norvig, and Petrov 2012) ғылыми-зерттеу жұмыстарын ұйымдастыруға көмектеседі.
Облигация және әріптестердің зерттеуі (2012) Сонымен қатар, осы емнің оларды қабылдағандардың достарына әсерін анықтауға тырысады. Эксперименттің жобаланғандығына байланысты, бұл құбылыстар таза түрде анықталу қиын; мүдделі оқырмандар Bond et al. (2012) көруі керек Bond et al. (2012) Талқыланды. Джонс және оның әріптестері (2017) 2012 жылы сайлауда өте ұқсас эксперимент өткізді. Бұл эксперименттер дауыс беруді ынталандыру бойынша саясат саласындағы ғылымның эксперименттерінің көптен келе жатқан дәстүрінің бөлігі болып табылады (Green and Gerber 2015) . Бұл сырттай дауыс беру эксперименттері көбінесе Пастердің квадрантында болғандықтан кеңінен таралған. Яғни дауыс беру мен дауыс беруді көбейтуге негізделген көптеген адамдар мінез-құлқының өзгеруі мен әлеуметтік әсер ету туралы жалпы теорияларды сынақтан өткізудің қызықты әрекеті болуы мүмкін.
Саяси партиялар, ҮЕҰ және бизнес сияқты серіктес ұйымдармен тәжірибе жүргізу туралы кеңес алу үшін Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) және Gueron (2002) бөлімін қараңыз. Ұйымдармен серіктестік қалай зерттеу жобаларына әсер етуі мүмкін деген ойлар үшін King et al. (2007) және Green, Calfano, and Aronow (2014) . Әріптестік Humphreys (2015) және Nickerson and Hyde (2016) талқылаған этикалық сұрақтарға да әкелуі мүмкін.
Егер сіз эксперимент жүргізгенге дейін талдау жоспарын жасасаңыз, мен сізге есеп беру нұсқауларын оқып бастауды ұсынамын. CONSORT (Сынақтардың біріктірілген стандарттық есептері) нұсқаулықтары медицинада әзірленді (Schulz et al. 2010) және социологиялық зерттеулер үшін модификацияланған (Mayo-Wilson et al. 2013) . Тәжірибелік саясаттану журналының редакторлары (Gerber et al. 2014) (сонымен бірге Mutz and Pemantle (2015) және Gerber et al. (2015) ) қараңыз. Ақырында, психология бойынша есеп беру нұсқаулары әзірленді (APA Working Group 2008) және Simmons, Nelson, and Simonsohn (2011) .
Егер сіз талдау жоспарын жасасаңыз, оны алдын-ала тіркеуіңізді ескеру қажет, себебі алдын-ала тіркелу сіздің нәтижелеріңізде басқаларға деген сенімді арттырады. Әрі қарай, серіктеспен жұмыс жасасаңыз, ол сіздің әріптестеріңіздің нәтижелерді көргеннен кейін талдауды өзгерту мүмкіндігін шектейді. Алдын-ала тіркелу психологияда (Nosek and Lakens 2014) , саясаттану (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) және экономика (Olken 2015) .
Konstan and Chen (2007) және Chen and Konstan (2015) да онлайн-далалық эксперименттерге арналған дизайны бойынша кеңестер ұсынылған.
Мен «ардада» стратегиясын деп атаған нәрселер кейде бағдарламалық зерттеулер деп аталады; Wilson, Aronson, and Carlsmith (2010) .
MusicLab эксперименттерінде Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) және Salganik (2007) . Жеңімпаздар туралы толығырақ ақпарат алу үшін, Frank and Cook (1996) бөлімін қараңыз. Табысқа жету үшін көп нәрсе білу үшін, Mauboussin (2012) , Watts (2012) және Frank (2016) бөлімін қараңыз.
Қатысушылардың төлемдерін жою үшін тағы бір тәсіл бар, олар зерттеушілер сақтықпен қолдануы керек: шақыру. Көптеген онлайн-далалық эксперименттерде қатысушылар негізінен эксперименттерге дайындалады және ешқашан өтемейді. Осы тәсілді мысалдары Restivo және ван де Rijt ның қамтиды (2012) Уикипедия және Облигацияны көтермелеу мен әріптесінің бойынша эксперимент (2012) дауыс адамдарды көтермелеу туралы эксперимент. Бұл эксперименттер шын мәнінде нөлдік емес айнымалы шығындарға ие емес, зерттеушілер үшін нөлдік айнымалы шығындарға ие . Мұндай эксперименттерде, тіпті әрбір қатысушы үшін шығын өте аз болса да, жиынтық құны өте үлкен болуы мүмкін. Көптеген адамдарға қолданған кезде, бұл шағын әсерлердің маңызды болуы мүмкін екенін айтсақ, жаппай онлайн эксперименттер жүргізетін зерттеушілер көбінесе кішігірім емделу әсерінің маңыздылығын ақтайды. Осындай ойлаушылар зерттеушілердің қатысушыларға арналған шығындарына қатысты. Егер сіздің экспериментіңіз бір миллион адамға бір минут жұмсауға мәжбүр болса, эксперимент қандай да бір адамға зиян келтірмейді, бірақ жиынтығында ол шамамен екі жыл уақытты жұмсады.
Қатысушыларға нөлдік айнымалы шығындарды төлеудің тағы бір тәсілі - лотереяны пайдалану, зерттеу (Halpern et al. 2011) қолданылған әдіс (Halpern et al. 2011) . Қызықты пайдаланушы тәжірибелерін жасау туралы қосымша ақпаратты Toomim et al. (2011) . Toomim et al. (2011) . Нөлдік айнымалы құнын құру эксперименттерін жасау үшін боттарды пайдалану туралы толығырақ қараңыз ( ??? ) .
Бастапқыда Russell and Burch (1959) ұсынған үш R:
«Ауыстыру insentient материал саналы тірі жоғары жануарлар үшін алмастыру дегенді білдіреді. Қысқарту берілген сомасы мен нақтылығы ақпаратты алу үшін қолданылатын жануарлардың санын азайтады білдіреді. Нақтылау адамгершілікке рәсімдерді сырқаттанушылық немесе ауырлығына кез келген төмендеуі әлі пайдаланылуы тиіс бар жануарларға қолданылатын білдіреді. «
Мен ұсынатын үш R-тарау 6-тарауда сипатталған этикалық қағидалардан бас тартпайды. Керісінше, олар сол қағидалардың бірі - мейірімділік, әсіресе, адам эксперименттерін орнатудағы ең егжей-тегжейлі нұсқа.
Эмоционалды инфекция экспериментін (Kramer, Guillory, and Hancock 2014) , эмоционалды инфекцияның табиғи экспериментін (Lorenzo Coviello et al. 2014) салыстыра отырып, бірінші R («ауыстыру») жағдайында сауда-саттық туралы эксперименттерден табиғи эксперименттерге көшу (және эксперименталды деректерде эксперименттерді жақындастыру әрекетін сәйкестендіру сияқты басқа тәсілдер, 2-тарауды қараңыз). Этикалық артықшылықтардан басқа, эксперименталды емес эксперименталды зерттеулерге көшу зерттеушілерге логистикалық түрде қолдануға болмайтын емдеуді зерттеуге мүмкіндік береді. Дегенмен, бұл этикалық және материалдық шығындардың өзіндік құны бар. Табиғи эксперименттермен бірге зерттеушілер қатысушыларды іріктеу, рандомизация және емнің табиғаты сияқты нәрселерді бақылауды азайтады. Мысалы, емдеу ретінде жаңбырдың бір шектеуі екеуі де оңдылықты арттырады және теріс құбылыстарды азайтады. Эксперименттік зерттеулерде, алайда, Крамер мен оның әріптестері позитивтілік пен жағымсыздықты өздігінен реттей алды. Lorenzo Coviello et al. (2014) L. Coviello, Fowler, and Franceschetti (2014) әзірлеген. Lorenzo Coviello et al. (2014) қолданатын тәсіл болып табылатын аспаптық айнымалыларға кіріспе Lorenzo Coviello et al. (2014) , Angrist and Pischke (2009) (ресми емес) немесе Angrist, Imbens, and Rubin (1996) (формальды) бөлімін қараңыз. Аспаптық ауыспалы Deaton (2010) бағалау үшін Deaton (2010) бөлімін қараңыз және әлсіз құралдармен (жаңбыр - әлсіз құралы) аспаптық ауыспалы құралдарды енгізу үшін Murray (2006) қараңыз Murray (2006) . Тұтастай алғанда, табиғи эксперимент жақсы енгізу беріледі Dunning (2012) , ал, Rosenbaum (2002) , ( ??? ) , және Shadish, Cook, and Campbell (2001) эксперименттер жоқ себептік әсерін бағалау туралы жақсы идеялар ұсынады.
Екінші Р («тазалау») терминінде эмоционалдық зақымданудың конструкциясын өзгертуге арналған бекеттердің позицияларын көтеруді қарастырған кезде ғылыми және логистикалық сауда-саттықтар бар. Мысалы, News Feed-тің техникалық іске асуы эксперимент жасауға мүмкіндік беретін жағдай болуы мүмкін, онда посттар күшейтілетін біреуден емес, бұғатталады (назарға алынсын, бұл хабарламаларды блоктауды қамтитын эксперимент жүйенің өзгеруіне қажеттіліксіз News Feed жүйесінің үстіндегі қабат ретінде). Ғылыми тұрғыдан алғанда, эксперимент арқылы қарастырылған теория бір бірінің үстінен бір жобаны нақты көрсетпеді. Өкінішке орай, News Feed-те мазмұнды блоктау мен мазмұнды жоғарылатудың салыстырмалы артықшылықтары туралы алдын-ала маңызды зерттеулер туралы білмеймін. Сондай-ақ, олардың зияндылығын азайту үшін емдеуді қайта өңдеу туралы көп зерттеулерді көрген жоқпын; Интернеттегі цензураны өлшеу жағдайын қарастыратын B. Jones and Feamster (2015) (I тақырыпты мен Encore зерттеуімен байланысты (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) тақырыпты талқылайды.
Үшінші R («төмендету») тұрғысынан, дәстүрлі қуат талдауларына жақсы кіріспе Cohen (1988) (Кітап) және Cohen (1992) (мақала), ал Gelman and Carlin (2014) аздап басқаша көзқарас ұсынады. Алдын ала өңдеу ковариаттары эксперименттердің жобалау және талдау кезеңіне енгізілуі мүмкін; Gerber and Green (2012) 4-тарауында Gerber and Green (2012) екі тәсілге де жақсы кіріспе ұсынылады, ал Casella (2008) тереңдетілген емделуді қамтамасыз етеді. Бұл алдын ала емдеу туралы ақпаратты рандомизация кезінде қолданатын әдістер, әдетте, бұғатталған экспериментальды конструкциялар немесе стратифицированные экспериментальды конструкциялар деп аталады (терминология қоғамдастықтар арасында дәйектілікпен пайдаланылмайды); бұл әдістер 3-тарауда талқыланған стратифицирленген іріктеу әдістерімен тығыз байланысты. Бұл жобаларды массивтік эксперименттерде қолдану туралы көбірек білу үшін Higgins, Sävje, and Sekhon (2016) қараңыз. Алдын ала өңдеу ковариаттары талдау кезеңіне қосылуы мүмкін. McKenzie (2012) өріс эксперименттерін егжей-тегжейлі талдау үшін айырмашылық-айырмашылықты қарастырады. Carneiro, Lee, and Wilhelm (2016) емдеу әсерін бағалауда дәлдігін арттыру үшін әртүрлі тәсілдер арасындағы сауда-саттық туралы көбірек білу үшін қараңыз. Ақырында, жобалау немесе талдау кезеңінде (немесе екеуінде) алдын ала емдеу шарттарын қосуға тырысу туралы шешім қабылданған кезде, қарастыруға болатын бірнеше фактор бар. Зерттеушілер «балық аулау» (Humphreys, Sierra, and Windt 2013) емес екенін көрсететін жерде, алдын ала емдеу шарттарын жобалау кезеңінде пайдалану пайдалы болуы мүмкін (Higgins, Sävje, and Sekhon 2016) . Қатысушылар дәйекті түрде келген жағдайда, әсіресе онлайн-далалық эксперименттер, жобалау сатысында алдын ала емдеу туралы ақпаратты пайдалана отырып, қиын логистикалық болуы мүмкін; қараңыз, мысалы, Xie and Aurisset (2016) .
Айырмашылыққа қарағанда айырмашылықтың айырмашылығы неғұрлым тиімді болуы мүмкін екендігі туралы біраз түсінік қосу керек. Интернеттегі көптеген нәтижелер өте жоғары дисперсиясы бар (мысалы, RA Lewis and Rao (2015) және Lamb et al. (2015) ) және уақыт бойынша салыстырмалы түрде тұрақты болып табылады. Бұл жағдайда өзгеру көрсеткіші статистикалық тестілеудің қуатын арттыра отырып айтарлықтай аз дисперсияға ие болады. Мұндай тәсілдің жиі қолданылмайтын себебі, сандық жасқа дейін, емдеудің алдын ала еместігін анықтаған жоқ. Бұл туралы ойланудың неғұрлым нақты жолы - белгілі бір жаттығулардың салмағын жоғалтуға әкелетінін анықтау үшін экспериментті елестету. Егер сіз айырмашылықты көздейтін тәсілдеме қабылдасаңыз, сіздің бағалауыңыз халықтың салмағының өзгермелілігінен туындайтын өзгермелі болады. Дегенмен, сіз айырмашылықтар бойынша айырмашылықты жасасаңыз, салмақтардың табиғи түрде өзгеруі жойылады және сіз емделуден туындаған айырмашылықты оңайырақ анықтай аласыз.
Ақырында, мен төртінші R қосу: «repurpose». Яғни, егер зерттеушілер бастапқы зерттеу сұрағын шешуге қарағанда тәжірибелік деректерге ие болса, олар жаңа сұрақ қою үшін деректерді қайтадан жариялауы керек. Мысалы, Крамер мен оның әріптестері өздерінің зерттеу сұрағын шешу үшін қарағанда, айырмашылықты бағалаушы бағалауды қолданғанын және олармен көбірек деректермен қамтылғанын елестетіп көріңіз. Деректерді толық көлемде пайдаланбаудың орнына олар әсердің көлемін алдын-ала емдеудің эмоциялық көріністері функциясы ретінде зерттеген болуы мүмкін. Schultz et al. (2007) Жеңіл және ауыр пайдаланушылар үшін емдеудің әсері әр түрлі болғандығын анықтады, мүмкін, News Feed-тың әсері бақытты (немесе қайғылы) хабарламаларды жариялауға бейім адамдар үшін әртүрлі болды. Repurposing «балық аулау» (Humphreys, Sierra, and Windt 2013) және «p-hacking» (Simmons, Nelson, and Simonsohn 2011) әкелуі мүмкін, бірақ олар негізінен адал хабарлау (Simmons, Nelson, and Simonsohn 2011) , алдын-ала тіркелу (Humphreys, Sierra, and Windt 2013) және артық жабдықталуды болдырмауға тырысатын машина оқыту әдістері.