Въпросите за причинно-следствената връзка в социалните изследвания често са сложни и сложни. За основен подход към причинно-следствената връзка въз основа на каузалните графики, вижте Pearl (2009) , а за основополагащ подход, основан на потенциалните резултати, вижте Imbens and Rubin (2015) . За сравнение между тези два подхода вижте Morgan and Winship (2014) . За формален подход към дефинирането на объркващо, виж VanderWeele and Shpitser (2013) .
В тази глава създадох нещо, което изглеждаше като ярка линия между способността ни да правим каузални оценки от експериментални и неспециализирани данни. Мисля обаче, че в действителност разграничението е по-замъглено. Например, всички приемат, че тютюнопушенето причинява рак, въпреки че никога не е имало рандомизирано контролирано изследване, което принуждава хората да пушат. За отлични лечения книга дължина по изготвянето на прогнозите за причинни от не-експериментални данни виж Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , както и Dunning (2012) .
Глави 1 и 2 на Freedman, Pisani, and Purves (2007) предлагат ясна представа за разликите между експерименти, контролирани експерименти и рандомизирани контролирани експерименти.
Manzi (2012) предоставя увлекателно и разбираемо въведение във философските и статистическите основи на рандомизираните контролирани експерименти. Той също така предоставя интересни реални примери за силата на експериментирането в бизнеса. Issenberg (2012) предоставя Issenberg (2012) въведение в използването на експерименти в политическите кампании.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, и Athey and Imbens (2016b) осигуряват добро представяне на статистическите аспекти на експерименталния дизайн и анализ. Освен това, има отлични процедури за използването на експерименти в различни области: икономика (Bardsley et al. 2009) , Социология (Willer and Walker 2007; Jackson and Cox 2013) , психология (Aronson et al. 1989) , Политически науки (Morton and Williams 2010) и социалната политика (Glennerster and Takavarasha 2013) .
Значението на набирането на участници (напр. Вземане на проби) често е недостатъчно оценено в експерименталните изследвания. Въпреки това, ако ефектът от лечението е хетерогенен в популацията, тогава вземането на проби е критично. Longford (1999) прави това ясно, когато се застъпва за изследователите, които мислят за експерименти като проучване на населението с случайно вземане на проби.
Предложих да има континуум между лабораторните и полевите експерименти, а други изследователи са предложили по-подробни типологии, по-специално такива, които разграничават различните форми на полеви опити (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
В редица статии са съпоставени абстрактните лабораторни и полеви експерименти (Falk and Heckman 2009; Cialdini 2009) и по отношение на резултатите от специфични експерименти в политическата наука (Coppock and Green 2015) , икономиката (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) и психология (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) предлагат хубав изследователски проект за сравняване на резултатите от лабораторни и полеви експерименти. Parigi, Santana, and Cook (2017) описва как онлайн полевите експерименти могат да съчетаят някои от характеристиките на лабораторните и полеви експерименти.
Тревогите за това, че участниците променят поведението си, защото знаят, че те се наблюдават отблизо, понякога се наричат ефекти на търсенето и те са изучавани в психологията (Orne 1962) и икономиката (Zizzo 2010) . Въпреки че най-често се свързват с лабораторни експерименти, същите тези проблеми могат да причинят проблеми и за полеви експерименти. В действителност ефектите от търсенето понякога се наричат " ефект на Хоторн " - термин, който извлича известните опити за осветление, започнали през 1924 г. в Hawthorne Works на Western Electric Company (Adair 1984; Levitt and List 2011) . Както ефекта на търсенето, така и ефектите на Hawthorne са тясно свързани с идеята за реактивно измерване, разгледана в глава 2 (вж. Също Webb et al. (1966) ).
Полевите експерименти имат дълга история в икономиката (Levitt and List 2009) , политическите науки (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , психологията (Shadish 2002) и обществената политика (Shadish and Cook 2009) , Една област на социалната наука, в която експериментите на място бързо стават видни, е международното развитие. За положителен преглед на тази работа в икономиката вижте Banerjee and Duflo (2009) и за критична оценка, вижте Deaton (2010) . За преглед на тази работа в политическите науки, вижте Humphreys and Weinstein (2009) . И накрая, в контекста на политическите науки (Humphreys 2015; Desposato 2016b) и икономиката на развитието (Baele 2013) бяха проучени етичните предизвикателства, възникващи от полевите експерименти.
В този раздел предложих, че информацията за предварителната обработка може да се използва, за да се подобри точността на оценените ефекти на лечението, но има известен дебат за този подход; виж Freedman (2008) , W. Lin (2013) , Berk et al. (2013) и Bloniarz et al. (2016) за повече информация.
И накрая, съществуват и други два вида експерименти, извършвани от социални учени, които не се вписват добре в лабораторното поле: проучвания и социален експеримент. Експериментите с експерименти са експерименти, използващи инфраструктурата на съществуващи проучвания, и сравняват отговорите на алтернативни версии на едни и същи въпроси (някои експерименти са дадени в глава 3); за повече експерименти с изследването, вижте Mutz (2011) . Социалните експерименти са експерименти, при които лечението е някаква социална политика, която може да бъде изпълнена само от правителство. Социалните експерименти са тясно свързани с оценката на програмата. За повече информация относно политическите експерименти вижте Heckman and Smith (1995) , Orr (1998) и @ glennerster_running_2013.
Аз избрах да се съсредоточа върху три понятия: валидност, хетерогенност на ефектите от лечението и механизми. Тези понятия имат различни имена в различни области. Например, психолозите са склонни да се движат отвъд обикновените експерименти, като се съсредоточават върху медиатори и модератори (Baron and Kenny 1986) . Идеята за медиатори се захваща от това, което наричам механизъм, а идеята за модераторите се захваща с онова, което наричам външна валидност (например дали резултатите от експеримента ще бъдат различни, ако се провеждат в различни ситуации) и хетерогенността на ефектите от лечението например, ефектите са по-големи за някои хора, отколкото за другите).
Експериментът на Schultz et al. (2007) показва как могат да се използват социални теории за проектиране на ефективни интервенции. За по-общ аргумент за ролята на теорията при проектирането на ефективни интервенции, вижте Walton (2014) .
Понятията за вътрешна и външна валидност бяха въведени за първи път от Campbell (1957) . Вижте Shadish, Cook, and Campbell (2001) за по-подробна история и внимателно изработване на валидност на статистическото заключение, вътрешна валидност, конструктивна валидност и външна валидност.
За преглед на въпросите, свързани с валидността на статистическите заключения в експериментите, вижте Gerber and Green (2012) (от гледна точка на социалната наука) и Imbens and Rubin (2015) (от статистическа гледна точка). Някои проблеми на валидността на статистическото заключение, които възникват конкретно в онлайн експериментите, включват въпроси като изчислително ефективни методи за създаване на доверителни интервали с зависими данни (Bakshy and Eckles 2013) .
В сложни полеви експерименти трудно може да се осигури вътрешна валидност. Вж. Например Gerber and Green (2000) , Imai (2005) и Gerber and Green (2005) за обсъждане на прилагането на сложен терен експеримент за гласуване. Kohavi et al. (2012) и Kohavi et al. (2013) представят въведение в предизвикателствата на валидността на интервалите в он-лайн опитни полета.
Една от основните заплахи за вътрешната валидност е възможността за неуспешна рандомизация. Един потенциален начин за откриване на проблеми с рандомизирането е да се сравнят лечебните и контролните групи с наблюдаваните черти. Този вид сравнение се нарича проверка на баланса . Вж. Hansen and Bowers (2008) за статистически подход за балансиране на проверките Mutz and Pemantle (2015) за опасения относно проверките на баланса. Например, с помощта на проверка на баланса, Allcott (2011) намери някои доказателства, че рандомизацията не е била приложена правилно в три от експериментите на Opower (виж таблица 2, сайтове 2, 6 и 8). За други подходи вижте глава 21 от Imbens and Rubin (2015) .
Други важни проблеми, свързани с вътрешната валидност, са: (1) едностранно несъответствие, при което не всички от лекуваната група действително са получили лечението, (2) двустранно несъответствие, при което не всички в лечебната група получават лечението, а някои хора контролната група получава лечението, (3) износване, при което резултатите не се измерват за някои участници и (4) интерференция, при която лечението се прехвърля от хора в лечебно състояние към хора в контролно състояние. Вижте глава 5, 6, 7 и 8 на Gerber and Green (2012) за повече за всеки от тези въпроси.
За повече информация относно конструктивната валидност вижте Westen and Rosenthal (2003) , а за повече за изграждането на валидност в големи източници на данни, Lazer (2015) и глава 2 на тази книга.
Един аспект на външната валидност е настройката, в която се тества интервенцията. Allcott (2015) осигурява внимателно теоретично и емпирично отношение към пристрастността към подбора на място. Този въпрос е обсъден и от Deaton (2010) . Друг аспект на външната валидност е дали алтернативните операционизации на една и съща намеса ще имат подобни ефекти. В този случай, сравнението между Schultz et al. (2007) и Allcott (2011) показват, че експериментите на Opower имат по-малък оценен лекуван ефект от оригиналните експерименти на Schultz и колеги (1,7% срещу 5%). Allcott (2011) спекулира, че последващите експерименти имат по-малък ефект поради начина, по който лечението се различава: ръкописно емотикони като част от проучване, спонсорирано от университет, в сравнение с отпечатан емотикон като част от масово произведени доклад от енергийна компания.
За отличен преглед на хетерогенността на ефектите от лечението в полеви експерименти, вижте глава 12 на Gerber and Green (2012) . За запознаване с хетерогенността на ефектите от лечението в медицински опити виж Kent and Hayward (2007) , Longford (1999) , и Kravitz, Duan, and Braslow (2004) . Съображенията за хетерогенността на ефектите от лечението обикновено се фокусират върху различията, основаващи се на характеристиките преди лечението. Ако се интересувате от разнородност въз основа на резултатите след лечението, тогава са необходими по-сложни подходи, като основната стратификация (Frangakis and Rubin 2002) ; виж Page et al. (2015) за преглед.
Много изследователи оценяват хетерогенността на ефектите от лечението, като използват линейна регресия, но по-новите методи разчитат на машинното обучение; виж например Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , и Athey and Imbens (2016a) .
Съществува известен скептицизъм относно констатациите за хетерогенност на ефектите, дължащи се на множество проблеми при сравнението и "риболов". Съществуват различни статистически подходи, които могат да помогнат за преодоляването на загрижеността относно множественото сравнение (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Един подход към загрижеността за "риболова" е предварителната регистрация, която става все по-често срещана в психологията (Nosek and Lakens 2014) , политическите науки (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , и икономика (Olken 2015) .
В проучването на Costa and Kahn (2013) само около половината от домакинствата в експеримента могат да бъдат свързани с демографската информация. Читателите, които се интересуват от тези подробности, трябва да се позовават на оригиналния документ.
Механизмите са невероятно важни, но те се оказват много трудни за изучаване. Изследванията за механизмите са тясно свързани с изследването на медиаторите в психологията (но вижте и VanderWeele (2009) за точното сравнение между двете идеи). Статистическите подходи за намиране на механизми, като например подхода, разработен от Baron and Kenny (1986) , са доста чести. За съжаление се оказва, че тези процедури зависят от някои силни предположения (Bullock, Green, and Ha 2010) и страдат, когато има многобройни механизми, както може да се очаква в много ситуации (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) и Imai and Yamamoto (2013) предлагат някои по-добри статистически методи. Освен това VanderWeele (2015) предлага лечение с дължина на книгата с редица важни резултати, включително цялостен подход към анализа на чувствителността.
Отделен подход се фокусира върху експерименти, които се опитват да манипулират механизма директно (напр. Дават на моряците витамин С). За съжаление, в много социални научни среди често има многобройни механизми и е трудно да се проектират лечения, които променят един, без да променят останалите. Някои подходи към експериментално променящите се механизми са описани от Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , и Pirlott and MacKinnon (2016) .
Изследователите, работещи с напълно факториални експерименти, ще трябва да се притесняват от тестването на множество хипотези; виж Fink, McConnell, and Vollmer (2014) и List, Shaikh, and Xu (2016) за повече информация.
И накрая, механизмите също имат дълга история във философията на науката, както е описано от Hedström and Ylikoski (2010) .
Повече за използването на проучвания за кореспонденция и одитни проучвания за измерване на дискриминацията вижте Pager (2007) .
Най-честият начин за набиране на участници в експерименти, които изграждате, е Amazon Mechanical Turk (MTurk). Тъй като MTurk имитира аспекти на традиционните лабораторни експерименти, които плащат на хората да изпълняват задачи, които не биха направили свободно, много изследователи вече са започнали да използват туркери (работниците на MTurk) като експериментални участници, което води до по-бързо и по-евтино събиране на данни, отколкото може да бъде постигнато в традиционните лабораторни опити в лабораторията (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Като цяло, най-големите предимства от използването на участници, наети от MTurk, са логистични. Докато лабораторните експерименти могат да отнемат седмици, а полевите експерименти могат да отнемат месеци, експериментите с участниците, набирани от MTurk, могат да се провеждат в дни. Например Berinsky, Huber, and Lenz (2012) са успели да наберат 400 участника в един ден, за да участват в 8-минутен експеримент. Освен това тези участници могат да бъдат наети за практически всякакви цели (включително проучвания и масово сътрудничество, както е разгледано в глави 3 и 5). Тази лекота на наемане означава, че изследователите могат да изпълняват поредици от свързани експерименти в бърза последователност.
Преди да наберете участници от MTurk за вашите собствени експерименти, има четири важни неща, които трябва да знаете. Първо, много изследователи имат неспецифичен скептицизъм към експерименти, включващи турци. Тъй като този скептицизъм не е специфичен, трудно е да се противопоставим на доказателства. Но след няколкогодишни проучвания, които използват туркери, можем да заключим, че този скептицизъм не е особено оправдан. Има много проучвания, сравняващи демографските данни на турците с тези на други популации, както и много проучвания, сравняващи резултатите от експериментите с турците с тези от други популации. Като се има предвид цялата тази работа, мисля, че най-добрият начин да помислите за това е, че туркерите са разумна удобна извадка, подобна на студентите, но малко по-разнообразна (Berinsky, Huber, and Lenz 2012) . По този начин, както студентите са разумно население за някои, но не и за всички, изследванията, турците са разумно население за някои, но не и за всички. Ако ще работите с турчинците, тогава има смисъл да четете много от тези сравнителни изследвания и да разберете техните нюанси.
Второ, изследователите са разработили най-добрите практики за увеличаване на вътрешната валидност на експериментите на MTurk и трябва да научите и да следвате тези най-добри практики (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Например, изследователи, които използват турски език, се насърчават да използват скрининги за отстраняване на неприятни участници (Berinsky, Margolis, and Sances 2014, 2016) (Вижте също DJ Hauser and Schwarz (2015b) и DJ Hauser and Schwarz (2015a) ). Ако не премахнете неприятните участници, тогава ефектът от лечението може да бъде изтрит от шума, който те въвеждат, и на практика броят на ненадейни участници може да бъде значителен. В експеримента на Хубер и колегите (2012) около 30% от участниците не успяха да преценят вниманието си. Други проблеми, които често възникват, когато се използват туркери, са не-наивни участници (Chandler et al. 2015) и износване (Zhou and Fishbach 2016) .
Трето, по отношение на някои други форми на цифрови експерименти, експериментите на MTurk не могат да се мащабират; Stewart et al. (2015) изчисляват, че във всеки един момент има само около 7000 души на MTurk.
И накрая, трябва да знаете, че MTurk е общност със собствени правила и норми (Mason and Suri 2012) . По същия начин, по който бихте се опитали да научите за културата на страната, в която ще проведете вашите експерименти, трябва да се опитате да научите повече за културата и нормите на турците (Salehi et al. 2015) . И трябва да знаете, че туркерите ще говорят за вашия експеримент, ако направите нещо неподходящо или неетично (Gray et al. 2016) .
MTurk е невероятно удобен начин за набиране на участници във вашите експерименти, независимо дали те са лабораторни, като тези на Huber, Hill, and Lenz (2012) или по-подобни на Mason and Watts (2009) , като тези на Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , и Mao et al. (2016) .
Ако възнамерявате да създадете свой собствен продукт, препоръчваме Ви да прочетете съветите, предложени от групата MovieLens в Harper and Konstan (2015) . Основно впечатление от техния опит е, че за всеки успешен проект има много, много неуспехи. Например, групата MovieLens пусна други продукти, като GopherAnswers, които бяха пълни неуспехи (Harper and Konstan 2015) . Друг пример за неуспех на един изследовател, докато се опитва да изгради продукт, е опитът на Едуард Кастророва да изгради онлайн игра, наречена "Арден". Въпреки финансирането на $ 250,000, проектът е бил флоп (Baker 2008) . Проекти като GopherAnswers и Arden за съжаление са много по-разпространени от проекти като MovieLens.
Чух идеята за квадранта на Пастьор, която често се обсъжда в технологичните компании, и спомага за организирането на изследователски усилия в Google (Spector, Norvig, and Petrov 2012) .
Проучването на Бонд и колегите (2012) също се опитва да открие ефекта от тези лечения върху приятелите на тези, които ги получават. Поради дизайна на експеримента, тези разливи са трудни за откриване; заинтересованите читатели трябва да видят Bond et al. (2012) за по-задълбочена дискусия. Джоунс и колегите (2017) проведоха и много подобен експеримент по време на изборите през 2012 година. Тези експерименти са част от дългата традиция на експерименти в политическите науки за усилията за насърчаване на гласуването (Green and Gerber 2015) . Тези експерименти за излизане от гласуването са често срещани, отчасти защото са в квадранта на Пастьор. Това означава, че има много хора, които са мотивирани да увеличат гласуването и гласуването, може да бъде интересно поведение, за да тестват по-общите теории за промяна на поведението и социално влияние.
За консултации относно провеждането на експерименти с партньорски организации, като политически партии, неправителствени организации и фирми, вижте Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) и Gueron (2002) . За мисли за това как партньорствата с организациите могат да повлияят върху проектите за изследване, вижте King et al. (2007) и Green, Calfano, and Aronow (2014) . Партньорството може да доведе и до етични въпроси, както се обсъждат от Humphreys (2015) и Nickerson and Hyde (2016) .
Ако възнамерявате да създадете план за анализ, преди да изпълните експеримента си, предлагам да започнете да четете указания за отчитането. В медицината са разработени насоки за консорцитиране (Consulted Standard Reporting of Trials) в медицината (Schulz et al. 2010) и са модифицирани за социални изследвания (Mayo-Wilson et al. 2013) . Съответният набор от насоки е разработен от редакторите на вестник "Експериментална политическа наука" (Gerber et al. 2014) (вж. Също Mutz and Pemantle (2015) и Gerber et al. (2015) ). Накрая, насоките за отчитане са разработени в психологията (APA Working Group 2008) и виж също Simmons, Nelson, and Simonsohn (2011) .
Ако създадете план за анализ, трябва да помислите за предварително регистриране, тъй като предварителната регистрация ще увеличи доверието, което другите имат във вашите резултати. Освен това, ако работите с партньор, това ще ограничи възможността на партньора ви да промени анализа, след като види резултатите. Предварителната регистрация става все по-често срещана в психологията (Nosek and Lakens 2014) , политиката (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) и икономиката (Olken 2015) .
Консултации за дизайн, специално предназначени за он-лайн полеви опити, също са представени в Konstan and Chen (2007) и в Chen and Konstan (2015) .
Това, което нарекох стратегията за армадата, понякога се нарича програмно изследване ; виж Wilson, Aronson, and Carlsmith (2010) .
За повече за експериментите на Salganik, Dodds, and Watts (2006) вижте Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) и Salganik (2007) . За повече информация относно победителите, вижте Frank and Cook (1996) . За повече подробности за успеха и уменията, вижте Mauboussin (2012) , Watts (2012) и Frank (2016) .
Има и друг подход за премахване на плащанията на участниците, които изследователите трябва да използват с повишено внимание: подбор. В много онлайн полеви експерименти участниците са основно изготвени в експерименти и никога не са компенсирани. Примерите за този подход включват експериментите на Restivo и van de Rijt (2012) за наградите в експериментите на Уикипедия и експеримента на Бонд и колегата (2012) за насърчаване на хората да гласуват. Тези експерименти наистина нямат нулева променлива цена - по-скоро те имат нулеви променливи разходи за изследователите . При такива експерименти, дори ако разходите за всеки участник са изключително малки, агрегираната цена може да бъде доста голяма. Изследователите, провеждащи масови онлайн експерименти, често оправдават значението на малките очаквани ефекти на лечението, като твърдят, че тези малки ефекти могат да станат важни, когато се прилагат за много хора. Същото мислене се отнася и за разходите, които учените налагат на участниците. Ако експериментът ви причини един милион души да загубят една минута, експериментът не е много вредно за конкретен човек, а като цяло е загубил почти две години.
Друг подход за създаване на плащане на нулеви променливи разходи за участниците е използването на лотария, подход, който също е бил използван при проучване на проучвания (Halpern et al. 2011) . За повече информация относно проектирането на приятни потребителски преживявания, вижте Toomim et al. (2011) . За повече информация относно използването на ботове, за да създадете експерименти с нулеви променливи разходи, вижте ( ??? ) .
Трите R, както първоначално бяха предложени от Russell and Burch (1959) са както следва:
"Подмяна означава заместването на съзнание, живеещи висши животни от неодушевен материал. Намаляване означава намаляване на броя на животните, използвани за получаване на информация от дадено количество и прецизност. Усъвършенстване означава всяко намаление на честотата или тежестта на нечовешки процедури, прилагани към тези животни, които все още трябва да се използва. "
Трите R, които предлагам, не пренебрегват етичните принципи, описани в глава 6. По-скоро те са една по-обработена версия един от тези принципи - благотворителност - по-конкретно в определянето на човешки експерименти.
По отношение на първия R ("заместване"), сравняването на емоционалния експеримент (Kramer, Guillory, and Hancock 2014) и естествения експеримент (Lorenzo Coviello et al. 2014) предлага някои общи уроци за съответните компромиси при преминаване от експерименти към естествени експерименти (и други подходи като сравняване, които се опитват да сближат експериментите с неспериментални данни, вижте глава 2). В допълнение към етичните преимущества преминаването от експериментални към неспециализирани проучвания също дава възможност на изследователите да изучават лечения, които не са в състояние да разположат логически. Тези етични и логистични предимства обаче идват на цена. С естествените експерименти изследователите имат по-малък контрол върху неща като набирането на участници, рандомизирането и естеството на лечението. Например, едно ограничение на валежите като лечение е, че и двете повишават позитивността и намаляват негативността. В експерименталното проучване обаче Креймър и колегите са могли да коригират позитивността и негативността независимо. Конкретният подход, използван от Lorenzo Coviello et al. (2014) е допълнително разработен от L. Coviello, Fowler, and Franceschetti (2014) . За въвеждане на инструменталните променливи, което е подхода, използван от Lorenzo Coviello et al. (2014) , вижте Angrist and Pischke (2009) (по-малко формално) или Angrist, Imbens, and Rubin (1996) (по-формални). За скептична оценка на инструменталните променливи, вижте Deaton (2010) и за въвеждане на инструментални променливи със слаби инструменти (дъждът е слаб инструмент), виж Murray (2006) . По-общо казано, едно добро въведение към естествените експерименти се дава от Dunning (2012) , а Rosenbaum (2002) , ( ??? ) , и Shadish, Cook, and Campbell (2001) предлагат добри идеи за оценка на причинно-следствените ефекти без експерименти.
По отношение на втория R ("усъвършенстване") съществуват научни и логистични компромиси, когато се обмисля промяна на дизайна на Емоционалната Завъртане от блокиране на постове до повишаване на длъжностите. Например може да се окаже, че техническото изпълнение на Feed Feed прави значително по-лесно извършването на експеримент, в който се блокират публикациите, а не един, в който те се подсилват (имайте предвид, че може да се приложи експеримент, включващ блокиране на публикации като слой над системата за новини, без да е необходимо да се правят промени в основната система). От научна гледна точка обаче теорията, адресирана в експеримента, не показва ясно един дизайн в сравнение с другия. За съжаление, не съм запознат със значителни предварителни проучвания за относителните предимства на блокирането и повишаването на съдържанието в "Новинар". Също така, не съм виждал много изследвания за рафиниране, за да ги направят по-малко вредни; едно изключение са B. Jones and Feamster (2015) , които разглеждат случая на измерване на цензурата в интернет (тема, която обсъждам в глава 6 във връзка с изследването на Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
По отношение на третото R ("намаление") доброто въвеждане на традиционния анализ на мощността е дадено от Cohen (1988) (книга) и Cohen (1992) ), докато Gelman and Carlin (2014) предлагат малко по-различна перспектива. Ковариатите преди лечението могат да бъдат включени в етапа на проектиране и анализ на експериментите; глава 4 от " Gerber and Green (2012) дава добро въведение и в двата подхода, а Casella (2008) предоставя по-задълбочено отношение. Техниките, които използват тази информация за предварителната обработка при рандомизирането, обикновено се наричат блокирани експериментални дизайни или стратифицирани експериментални проекти (терминологията не се използва последователно в общностите); тези техники са тясно свързани със стратифицираните техники за вземане на проби, разгледани в глава 3. Вижте Higgins, Sävje, and Sekhon (2016) за повече информация относно използването на тези проекти в масови експерименти. Ковариите преди лечението могат да бъдат включени и в етапа на анализ. McKenzie (2012) изследва подхода на разликата в разликите за по-подробно анализиране на полевите експерименти. Вижте Carneiro, Lee, and Wilhelm (2016) за повече информация относно компромисите между различните подходи за увеличаване на прецизността на оценките на ефекта от лечението. И накрая, когато решаваме дали да се опитаме да включим ковариатите преди лечението на етапа на проектиране или анализ (или и двете), има няколко фактора, които трябва да се имат предвид. В условия, при които изследователите искат да покажат, че не "ловят риба" (Humphreys, Sierra, and Windt 2013) , използването на ковариатите преди лечението по време на етапа на проектиране може да бъде полезно (Higgins, Sävje, and Sekhon 2016) . В ситуации, при които участниците пристигат последователно, особено онлайн полеви експерименти, използването на информация за предварителна обработка в етапа на проектиране може да е трудно логистично; виж например Xie and Aurisset (2016) .
Струва си да добавите малко интуиция за това защо подходът с разлика в разликите може да бъде много по-ефективен от този, който е различен. Много онлайн резултати имат много висока вариация (вж. Например RA Lewis and Rao (2015) и Lamb et al. (2015) ) и са сравнително стабилни във времето. В този случай промяната ще има значително по-малка вариация, увеличавайки силата на статистическия тест. Една от причините, поради която този подход не се използва по-често, е, че преди цифровата епоха не беше общоприето да има резултати преди лечението. По-конкретен начин да се мисли за това е да си представите експеримент за измерване на това, дали конкретна тренировъчна процедура причинява загуба на тегло. Ако приемете подход "разлика в средства", оценката ви ще има променливост, произтичаща от променливостта на теглата в населението. Ако обаче прилагате подход "разлика в различията", това естествено възникващо изменение на теглата се премахва и можете по-лесно да откриете разликата, причинена от лечението.
Накрая реших да добавите четвърта R: "repurpose". Това означава, че ако изследователите се окажат с по-експериментални данни, отколкото трябва да отговорят на техния първоначален изследователски въпрос, те трябва да повторят данните, за да задават нови въпроси. Например, си представете, че Креймър и колегите му са използвали оценки за разликите в разликите и са се озовали с повече данни, отколкото са били необходими, за да отговорят на техния изследователски въпрос. Вместо да използват данните в пълна степен, те биха могли да проучат размера на ефекта като функция на емоционалното изразяване преди лечението. Точно както Schultz et al. (2007) констатира, че ефектът от лечението е различен за леките и тежките потребители, може би ефектите на News Feed са различни за хората, които вече са имали склонност да публикуват щастливи (или тъжни) послания. Възпроизвеждането може да доведе до "риболов" (Humphreys, Sierra, and Windt 2013) и "p-хакери" (Simmons, Nelson, and Simonsohn 2011) , но те са до голяма степен адресирани в комбинация с честно отчитане (Simmons, Nelson, and Simonsohn 2011) , предварителна регистрация (Humphreys, Sierra, and Windt 2013) , както и методи за машинно обучение, които се опитват да избегнат (Humphreys, Sierra, and Windt 2013) .