Допълнителна коментар

Този раздел е предназначен да се използва като отправна точка, а не да се чете като разказ.

  • Въведение (раздел 4.1)

Въпроси относно причинно-следствената връзка в социални изследвания често са сложни и заплетени. За основополагащ подход за причинно-следствената връзка въз основа на причинните графики, вижте Pearl (2009) , както и за основополагащ подход, основан на потенциалните резултати, вижте Imbens and Rubin (2015) (и техническото приложение в тази глава). За сравнение между тези два подхода, вижте Morgan and Winship (2014) . За формален подход за определяне на confounder, вижте VanderWeele and Shpitser (2013) .

В главата, съм създал това, което изглеждаше като светла линия между нашата способност да причинни оценки от експериментални и не-експериментални данни. В действителност, аз мисля, че разликата е по-размазани. Например, всеки приема, че пушенето причинява рак, въпреки че никога не сме направили рандомизирано контролирано експеримент, който принуждава хората да пушат. За отлични лечения дължина книга за изготвянето на прогнози причинни от не-експериментални данни виж Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , и Dunning (2012) .

Глави 1 и 2 от Freedman, Pisani, and Purves (2007) предлагат ясна въвеждане в разликите между експерименти, контролирани експерименти, и рандомизирани контролирани експерименти.

Manzi (2012) осигурява завладяващ и четим въвеждане в философските и статистически основи на рандомизирани контролирани експерименти. Той също така предоставя интересни реални примери за силата на експериментиране в бизнеса.

  • Какви са експерименти? (Раздел 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) предоставя добри представяния на статистическите аспекти на проектирането на експеримента и анализ. Освен това, там са отлични лечения на използването на експерименти в различни области: икономика (Bardsley et al. 2009) , Социология (Willer and Walker 2007; Jackson and Cox 2013) , психология (Aronson et al. 1989) , Политически науки (Morton and Williams 2010) , и социалната политика (Glennerster and Takavarasha 2013) .

Значението на участник набиране (например, вземане на проби) е често под-ценена в експериментални изследвания. Въпреки това, ако ефектът от лечението е хетерогенна в населението, след вземане на проби е от решаващо значение. Longford (1999) прави този момент ясно, когато той се застъпва за изследователи мислят за експерименти като изследване на населението с случаен вземане на проби.

  • Две измерения на експерименти: лу-област и аналогово-цифров (раздел 4.3)

The дихотомия, че представих между лабораторни и полеви експерименти е малко опростено. В действителност, други изследователи са предложени по-подробни типологии, по-специално тези, които разделят различните форми на полеви експерименти (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Освен това, има две други видове експерименти, извършени от социолози, които не пасват в лаборатория и поле дихотомията:. Експерименти проучването и социални експерименти експерименти изследването са опити с инфраструктурата на съществуващи проучвания и сравни отговори на алтернативни версии на същите въпроси (някои експерименти проучването са представени в глава 3); за повече от експерименти проучването виж Mutz (2011) . социални експерименти са експерименти, където лечението е известно социална политика, която може да бъде изпълнена само от страна на правителството. Социални експерименти са тясно свързани с програма за оценка. За повече информация относно опитите на политиката, вижте Orr (1998) , Glennerster and Takavarasha (2013) , и Heckman and Smith (1995) .

Редица документи са в сравнение лабораторни и полеви опити с абстрактно (Falk and Heckman 2009; Cialdini 2009) и по отношение на резултатите от конкретни експерименти по политически науки (Coppock and Green 2015) , икономика (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) и психология (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) предлага приятен изследвания дизайн за сравняване на резултати от лабораторни и полеви експерименти.

Загрижеността за участниците променят поведението си, защото те знаят, че са били внимателно наблюдавани понякога се нарича ефект на търсенето, и те са изследвани в психологията (Orne 1962) и икономиката (Zizzo 2009) . Въпреки, че най-вече свързани с лабораторни експерименти, същите тези проблеми могат да причинят проблеми за полеви експерименти, както добре. В действителност, търсенето ефекти са също така понякога се нарича Hawthorne ефекти, термин, който произлиза от полски опит, специално известните осветление експериментите, които са започнали през 1924 г. в Hawthorne производител на Western Electric Company (Adair 1984; Levitt and List 2011) . И двата търсенето ефекти и глог ефекти са тясно свързани с идеята за измерване на реактивна обсъдено в глава 2 (виж също Webb et al. (1966) ).

Историята на полеви експерименти е описано по икономика (Levitt and List 2009) , политически науки (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , психология (Shadish 2002) , и обществения ред (Shadish and Cook 2009) . Една от областите на социалните науки, където полеви експерименти бързо станаха видни е международно развитие. За положителна оценка на тази работа в рамките на икономиката видите Banerjee and Duflo (2009) , както и за критична оценка видите Deaton (2010) . За преглед на тази работа по политически науки виж Humphreys and Weinstein (2009) . И накрая, на етичните предизвикателства, свързани с полеви експерименти са били проучени по политически науки (Humphreys 2015; Desposato 2016b) и развиващите се икономики (Baele 2013) .

В главата, аз предложих тази информация предварително третиране може да се използва, за да се подобри точността на очакваните ефекти от лечението, но има някакъв дебат за този подход: Freedman (2008) , Lin (2013) , и Berk et al. (2013) ; виж Bloniarz et al. (2016) за повече информация.

  • Извън прости експерименти (раздел 4.4)

Аз съм избрал да се съсредоточи върху три понятия: валидност, хетерогенност на ефекти от лечението, както и механизми. Тези понятия имат различни имена в различните области. Например, психолози са склонни да се премине отвъд простите експерименти, като се фокусира върху медиатори и модератори (Baron and Kenny 1986) . Идеята на медиаторите е заловен от това, което аз наричам механизми, както и идеята на модератори е заловен от това, което аз наричам външна валидност (например, резултатите от експеримента ще бъдат различни, ако се работи в различни ситуации) и хетерогенност на лечебни ефекти ( например, са ефектите по-големи за някои хора, отколкото други хора).

Експериментът на Schultz et al. (2007) показва как социалните теории може да се използва за проектиране на ефективни интервенции. За един по-общ аргумент за ролята на теория в разработването на ефективни интервенции, вижте Walton (2014) .

  • Валидност (раздел 4.4.1)

Понятията за вътрешна и външна валидност за първи път са въведени в Campbell (1957) . Вижте Shadish, Cook, and Campbell (2001) за по-подробно историята и внимателна подготовка на статистическа заключение валидност, вътрешна валидност, изграждане на валидност, и външна валидност.

За преглед на въпросите, свързани с статистическа валидност заключение в експерименти видите Gerber and Green (2012) (За гледна точка на социалните науки) и Imbens and Rubin (2015) (за статистическа гледна точка). Някои въпроси на статистическата валидност заключение, че възникнат по-специално в онлайн полеви експерименти включват въпроси като изчислително-ефективни методи за създаване на доверителни интервали с зависими данни (Bakshy and Eckles 2013) .

Вътрешен валидност може да бъде трудно да се осигури по-сложни теренни експерименти. Вижте, например, Gerber and Green (2000) , Imai (2005) , и Gerber and Green (2005) за дебат за прилагането на комплексен експеримент за гласуване. Kohavi et al. (2012) и Kohavi et al. (2013) предоставя въведение в предизвикателствата на интервал валидност в онлайн полеви експерименти.

Един основен проблем с вътрешна валидност е проблеми с рандомизацията. Един начин за откриване на потенциално проблеми с рандомизацията е да се сравни третирани и контролни групи на видими белези. Този вид сравнение се нарича проверка на баланс. Вижте Hansen and Bowers (2008) за статистически подход, за да се балансира проверки, и да видим Mutz and Pemantle (2015) за притеснения относно проверки баланс. Например, с помощта на баланс провери Allcott (2011) установи, че има доказателства, че рандомизацията не се прилага правилно в три от експериментите в някои от експериментите OPower (виж таблица 2; сайтове 2, 6 и 8). За други подходи, вижте Imbens and Rubin (2015) , глава 21.

Други по-големи опасения, свързани с вътрешната валидност са: 1) едностранно несъответствие, където не всеки в групата на лечение действително е получил лечение, 2) Двустранно несъответствие, където не всеки в групата на лечение получава лечение и някои хората в контролната група получават лечение, 3) изтощение, където резултатите не са измерени за някои от участниците, и 4) смущения, където лечението се разпростира върху от хората в състояние на лечение на хора в състояние на контрол. Вижте Gerber and Green (2012) глави 5, 6, 7 и 8 за повече информация по всеки един от тези въпроси.

За повече информация относно конструкт валидност, виж Westen and Rosenthal (2003) , а за повече информация относно конструкт валидност в големите източници на данни, Lazer (2015) и глава 2 от тази книга.

Един от аспектите на външната валидност е настройката, където се изпитва интервенция. Allcott (2015) осигурява внимателни теоретично и емпирично лечение на избора на площадката пристрастия. Този въпрос също се обсъжда в Deaton (2010) . В допълнение към последване в много сайтове, намесата на Home Energy доклад също е независимо изследван от няколко изследователски групи (например, Ayres, Raseman, and Shih (2013) ).

  • Хетерогенността на лечебни ефекти (раздел 4.4.2)

За отличен обзор на хетерогенност на лечебни ефекти при полеви експерименти, виж глава 12 от Gerber and Green (2012) . За въвеждане на хетерогенност на ефекти в лечебни проучвания, вижте Kent and Hayward (2007) , Longford (1999) , и Kravitz, Duan, and Braslow (2004) . Хетерогенността на лечебни ефекти обикновено се фокусира върху различията, основани на характеристиките на предварителна обработка. Ако се интересувате от хетерогенност, основани на резултатите след края на лечението, а след това по-сложни approachs са необходими като основен стратификация (Frangakis and Rubin 2002) ; виж Page et al. (2015) за да оставите коментар.

Много изследователи смятат, хетерогенността на лечебни ефекти, използвайки линейна регресия, но по-новите методи разчитат на машинно обучение, например Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , и Athey and Imbens (2016a) .

Има известен скептицизъм относно констатациите на хетерогенност на ефекти, поради множество проблеми, сравнение и "риболов". Съществува голямо разнообразие на статистически подходи, които могат да помогнат на адрес опасения за многократно сравнение (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Един от подходите за опасения за "риболов" е предварителна регистрация, която е все по-често в областта на психологията (Nosek and Lakens 2014) , политически науки (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) и икономиката (Olken 2015) .

В проучването на Costa and Kahn (2013) само около половината от домакинствата в експеримента са били в състояние да бъде свързана с демографската информация. Читателите, които се интересуват в подробности и възможни проблеми с този анализ трябва да се отнесат към оригиналната хартия.

  • Механизми (раздел 4.4.3)

Механизми са изключително важни, но те да се окаже много трудно да се учи. Изследвания за механизми за тясно свързани с изучаването на медиатори в областта на психологията (но виж също VanderWeele (2009) за точно сравнение между двете идеи). Статистически подходи за намиране на механизми, като например подхода, развит в Baron and Kenny (1986) , са доста често срещани. За съжаление, се оказва, че тези процедури зависят от някои силни предположения (Bullock, Green, and Ha 2010) и страдат, когато има множество механизми, както може да се очаква в много ситуации (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) и Imai and Yamamoto (2013) предложи някои подобрени статистически методи. Освен това, VanderWeele (2015) предлага лечение на книга дължина с редица важни резултати, включително и цялостен подход за анализ на чувствителността.

Отделен подход се фокусира върху опитите, които се опитват да манипулират механизма директно (например, даващи моряци витамин C). За съжаление, в много настройки на социалните науки често има множество механизми и е трудно да се изработи процедури, които се променят един без да се променят останалите. Някои подходи за експериментално променят механизми са описани в Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , и Pirlott and MacKinnon (2016) .

Накрая, механизми също имат дълга история във философията на науката, както е описано от Hedström and Ylikoski (2010) .

  • Използване на съществуващите среди (раздел 4.5.1.1)

За повече информация относно използването на кореспонденция проучвания и одиторски проучвания за измерване на дискриминацията виж Pager (2007) .

  • Изградете свой ​​собствен експеримент (раздел 4.5.1.2)

Най-разпространеният начин за набиране на участници за експерименти, които можете да построите е Amazon Mechanical Turk (MTurk). Защото MTurk имитира аспекти на традиционните лабораторни експерименти-плащат хората при изпълнение на задачи, които те не биха направили за безплатни-много изследователи вече са започнали с помощта Turkers (работниците на MTurk) като участници в човешки индивиди експерименти, водещи до по-бързо и по-евтино събиране на данни в сравнение с традиционните по-корпус лабораторни експерименти (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Най-голямата сила на експерименти с участниците, наети от MTurk са логистична: те позволяват на изследователите да набират участници бързо и, ако е необходимо. Като има предвид, лабораторни експерименти могат да вземат седмици, за да се движат и полеви експерименти може да отнеме месеци, за да настроите-нагоре, експерименти с участниците, наети от MTurk могат да се изпълняват в дни. Например, Berinsky, Huber, and Lenz (2012) са били в състояние да наемат 400 дисциплини в рамките на един ден, за да участва в 8 минути експеримент. Освен това, тези участници могат да бъдат наети на работа за почти всякакви цели (включително проучвания и масовото сътрудничество, както е обсъдено в глави 3 и 5). Тази лекота на набирането означава, че учените могат да работят на поредици от подобни експерименти в бърза последователност.

Преди назначаването на участниците от MTurk за вашите собствени експерименти, има четири важни неща, които трябва да знаете. Първо, много изследователи имат неспецифичен скептицизъм на опитите с Turkers. Тъй като този скептицизъм не е специфична, че е трудно да се противодейства с доказателства. Въпреки това, след няколко години на изследвания, използващи Turkers, сега можем да заключим, че този скептицизъм не е особено необходимо. Има много проучвания, сравняващи демографията на Turkers до други популации и много проучвания, сравняващи резултатите от експерименти с Turkers с резултатите от други популации. Като се има предвид цялата тази работа, аз мисля, че най-добрият начин за вас да се мисли за това е, че Turkers са разумен удобство проба, който много прилича на студентите, но малко по-разнообразно (Berinsky, Huber, and Lenz 2012) . По този начин, просто като студенти са разумен населението за някои, но не всички експериментални изследвания, Turkers са разумен населението за някои, но не всички изследвания. Ако ще да работи с Turkers, тогава има смисъл да се чете много от тези сравнителни изследвания и да разберат техните нюанси.

Второ, изследователи са разработили най-добри практики за подобряване на вътрешната валидност на турчин експерименти, и вие трябва да се запознаят и да следват тези най-добри практики (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Например, изследователи, използващи Turkers се насърчават да използват пресяващи да премахнете невнимателен участници (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (но виж и DJ Hauser and Schwarz (2015b) и DJ Hauser and Schwarz (2015a) ). Ако не се отстрани невнимателен участници, след това някакъв ефект от лечението може да се измие от шума, въведена от невнимателен участниците, и на практика броят на невнимателен участниците могат да бъдат значителни. В експеримента на Huber и колеги (2012) около 30% от участниците не успя основни внимание пресяващи. Друг проблем общо с Turkers е не-наивни участници (Chandler et al. 2015) .

Трето, в сравнение с други форми на цифрови експерименти MTurk експерименти не може да мащаб; Stewart et al. (2015) е изчислила, че във всеки един момент има само около 7000 души на MTurk.

И накрая, трябва да знаете, че MTurk е общност със свои собствени правила и норми (Mason and Suri 2012) . По същия начин, по който ще се опита да разбере за културата на страната, в която отиваш да тече експериментите си, трябва да се опитате да разберете повече за културата и нормите на Turkers (Salehi et al. 2015) . А, вие трябва да знаете, че Turkers ще се говори за експеримента си, ако не се направи нещо неподходящо или неетично (Gray et al. 2016) .

MTurk е невероятно удобен начин за набиране на участници за експериментите си, независимо дали те са лабораторно-подобни, като Huber, Hill, and Lenz (2012) , или по-област, подобна, като Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , и Mao et al. (2016) .

  • Изградете свой ​​собствен продукт (раздел 4.5.1.3)

Ако си мислиш, че се опитва да създаде свой ​​собствен продукт, ви препоръчвам да прочетете съветите, предлагани от групата MovieLens в Harper and Konstan (2015) . Ключов прозрение от техния опит е, че за всеки успешен проект има много, много провали. Например, групата MovieLens стартира други продукти, като например GopherAnswers, че са пълни провали (Harper and Konstan 2015) . Друг пример за един изследовател липса, докато се опитва да изгради един продукт е опит Едуард Castronova да се изгради онлайн игра, наречена Arden. Въпреки $ 250,000 в финансиране, проектът е флопа (Baker 2008) . Проекти като GopherAnswers и Arden са за съжаление много по-често, отколкото проекти като MovieLens. И накрая, когато казах, че аз не знам на други изследователи, които бяха успешно построени продукти за многократно експерименти тук са моите критерии: 1) участниците да използват продукта, защото от това, което им осигурява (например, те не са платени и те не са доброволци помагат на науката) и 2) продуктът е бил използван в продължение на повече от един отделен експеримент (т.е. не същия експеримент няколко пъти с различни участници басейни). Ако знаете за други примери, моля да ме уведомите.

  • Партньор с мощния (раздел 4.5.2)

Чувал съм за идеята на Quadrant Пастьор обсъжда често в технологични компании, и това помага за организиране на изследователските усилия в Google (Spector, Norvig, and Petrov 2012) .

Проучване на колегите Бонд и (2012) също се опитва да открие ефекта на тези лечения на приятелите на тези, които ги получили. Поради конструкцията на експеримента, тези разпространение са трудни за откриване чисто; заинтересованите читатели да видят Bond et al. (2012) за един по-задълбочено обсъждане. Този експеримент е част от една дълга традиция на експерименти по политически науки на усилията за насърчаване на глас (Green and Gerber 2015) . Тези GET-вън-на-на гласоподавателите експерименти са често срещани в част, защото те са в Quadrant Пастьор. Това означава, че има много хора, които са мотивирани да се увеличи гласуване и гласуване може да бъде интересна поведение да се тества по-общи теории за промяна на поведението и социално влияние.

Други изследователи са предоставени съвети за тичане полеви експерименти с партньорски организации, като политически партии, НПО и бизнеса (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Други са предложени съвети за това как партньорства с организации могат да окажат влияние върху изследователски проекти (Green, Calfano, and Aronow 2014; King et al. 2007) . Партньорство също може да доведе до етични въпроси (Humphreys 2015; Nickerson and Hyde 2016) .

  • Дизайн съвети (раздел 4.6)

Ако ще се създаде план за анализ, преди да пуснете своя експеримент, аз Ви предлагам да започнем с четене насоки за докладване. Съпруга (Консолидиран Standard докладването на опитите) насоки са разработени в медицината (Schulz et al. 2010) и модифициран за социални изследвания (Mayo-Wilson et al. 2013) . Свързан с набор от насоки е разработен от редакторите на вестник Experimental Политология (Gerber et al. 2014) (виж също Mutz and Pemantle (2015) и Gerber et al. (2015) ). И накрая, отчитане насоки са разработени в психологията (Group 2008) , и да видим също Simmons, Nelson, and Simonsohn (2011) .

Ако създадете план за анализ трябва да имате предвид, че предварителната регистрация, тъй като предварителна регистрация ще увеличи увереността, че други са в резултатите си. Освен това, ако се работи с партньор, това ще ограничи възможността на партньора си да промени анализа, след като видя резултатите. Предварителната регистрация е все по-често в областта на психологията (Nosek and Lakens 2014) , политически науки (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , и икономика (Olken 2015) .

При създаването си план предварително анализ трябва да сте наясно, че някои изследователи да използват и регресия и свързаните подходи за подобряване на точността на изчислената ефекта на лечението, и има някакъв дебат за този подход: Freedman (2008) , Lin (2013) , и Berk et al. (2013) ; виж Bloniarz et al. (2016) за повече информация.

Дизайн съвети специално за онлайн полеви експерименти също е представена в Konstan and Chen (2007) и Chen and Konstan (2015) .

  • Създаване нулеви данни променливите разходи (раздел 4.6.1)

За повече информация относно експериментите с MusicLab, вижте Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , и Salganik (2007) . За повече информация относно победителят обира всички пазари, вижте Frank and Cook (1996) . За повече информация по разплитане късмет и умение по-общо, виж Mauboussin (2012) , Watts (2012) , и Frank (2016) .

Има и друг подход за премахване на плащанията на участниците, че изследователите трябва да се използват с повишено внимание: задължителна военна служба. В много онлайн полеви експерименти участници са основно съставени в експерименти и никога не се компенсира. Примери за този подход включват Restivo и ван де Rijt му (2012) експеримент на награди в Wikipedia и Бонд и колега (2012) експеримент за насърчаване на хората да гласуват. Тези експерименти не наистина имат нула променливи разходи, те имат нула променливи разходи за изследователите. Въпреки че цената на много от тези експерименти е изключително малък на всеки участник, малки разходи, наложени огромен брой участници да добавите до бързо. Изследователите, работещи масивни онлайн експерименти често оправдават значението на малките оценените ефекти от лечението, като казва, че тези малки ефекти могат да се превърнат във важни, когато се прилага за много хора. Точният същото мислене се отнася и за разходите, които изследователи налагат на участниците. Ако експериментите си причиняват един милион души да губи една минута на експеримента не е много вредно за всеки отделен човек, но в съвкупност е губи почти две години от време.

Друг подход за създаване на нула плащане променливи разходи на участниците е да се използва лотария, подход, който също е бил използван в изследователското (Halpern et al. 2011) . И накрая, за повече за проектиране приятните потребителски опит виждат Toomim et al. (2011) .

  • Замяна, Уточнете, и да се намали (точка 4.6.2)

Това са оригиналните определения на трите R, от Russell and Burch (1959) :

"Подмяна означава заместването на съзнание, живеещи висши животни от неодушевен материал. Намаляване означава намаляване на броя на животните, използвани за получаване на информация от дадено количество и прецизност. Усъвършенстване означава всяко намаление на честотата или тежестта на нечовешки процедури, прилагани към тези животни, които все още трябва да се използва. "

Трите R е, че аз предлагам да не замените на етичните принципи, описани в глава 6. Вместо това, те са по-сложния вариант един от тези принципи-благотворителност-специално за създаването на човешки експерименти.

При разглеждане Емоционален зараза, има три не-етични въпроси трябва да имате предвид при тълкуването на този експеримент. Първо, не е ясно как действителните детайлите на експеримента се свързват с теоретичните претенции; С други думи, има въпроси за конструкт валидност. Не е ясно, че положителните и отрицателните брои дума всъщност са добър показател за емоционалното състояние на участниците, защото 1) не е ясно, че думите, които хората публикуват са добър индикатор на емоциите си и 2) не е ясно, че конкретната техника настроения анализ, че изследователите са използвали е в състояние надеждно заключим емоции (Beasley and Mason 2015; Panger 2016) . С други думи, може да има лоша мярка на предубедени сигнал. Второ, проектирането и анализа на експеримента не ни казва нищо за това кой е най-засегната (т.е., няма анализ на хетерогенност на лечебни ефекти) и какво може да е механизъм. В този случай, учените са имали много информация за участниците, но те са по същество третират като джаджи в анализа. Трето, размерът на ефекта от този експеримент е много малка; разликата между условията на лечение и контрол е около 1 в 1000 думи. В статията си, Крамер и колеги правят случай, че има ефект от този размер е важно, защото стотици милиони хора имат достъп до техните News Feed всеки ден. С други думи, те твърдят, че дори и ефекти, които са малки, за всеки човек те са голям сумарно. Дори и да се приеме този аргумент, тя все още не е ясно дали има ефект от този размер е важно по отношение на по-общ научен въпрос за емоционална зараза. За повече информация относно ситуациите, в които малки ефекти са важни видите Prentice and Miller (1992) .

По отношение на първия R (подмяна), сравнявайки Емоционален зараза експеримента (Kramer, Guillory, and Hancock 2014) и естествен експеримент емоционална зараза (Coviello et al. 2014) предлага някои общи уроци за компромисите, свързани с преминаването от експерименти на физически експерименти (и други подходи като съвпадение, че опитът да се сближат експерименти в не-експериментални данни, виж глава 2). В допълнение към етичните ползите, прелива от експериментален до не-експериментални проучвания също така дава възможност на изследователите да изучават лечения, които те са логистично не успя да разгърне. Тези етични и логистични предимства идват на цена, обаче. С естествени експерименти изследователите имат по-малко контрол върху неща като набиране на участници, рандомизацията, както и естеството на лечението. Например, едно ограничение на валежите за лечение е, че както се увеличава и намалява позитивност негативизъм. В експерименталната проучването, обаче, Крамер и колеги са били в състояние да коригира позитивност и негативност независимо.

В частност подхода, използван от Coviello et al. (2014) беше доразвита в Coviello, Fowler, and Franceschetti (2014) . За въведение в инструменталните променливи виж Angrist and Pischke (2009) (по-малко формален) или Angrist, Imbens, and Rubin (1996) (по-официално). За скептичната оценка на инструменталните променливи виж Deaton (2010) , както и за въвеждане на инструменталните променливи със слаби инструменти (дъжд е слаб инструмент), вижте Murray (2006) .

По-общо казано, едно добро въведение в естествен експеримент е Dunning (2012) , и Rosenbaum (2002) , Rosenbaum (2009) , и Shadish, Cook, and Campbell (2001) предлагат добри идеи за оценяване на причинните ефекти без експерименти.

По отношение на втората R (Усъвършенстване), има научни и логистични компромиси, когато обмислят промяна на дизайна на емоционална зараза от блокиране на съобщения за повишаване на мнения. Например, тя може да се окаже, че техническото изпълнение на News Feed го прави е значително по-лесно да се направи експеримент с блокиране на мнения, а не един експеримент с повишаване мнения (имайте предвид, че един експеримент с блокиране на съобщения може да се осъществи под формата на слой върху отгоре на системата на News Feed без да е необходимо за изменения на основната система). Научно, обаче, теорията, адресирано от експеримента не ясно предполагат един проект върху друга.

За съжаление, аз не съм наясно с значителна преди изследване на съответния принос на блокиране и повишаване на съдържанието в News Feed. Също така, аз не съм виждал много изследвания за прецизиране на лечение, за да ги направят по-малко вреден; едно изключение е Jones and Feamster (2015) , който разглежда случая на измерване на интернет цензурата (тема, аз обсъди в глава 6 в отношенията към изследването на Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

По отношение на третия R (Reduction), едно добро въведение в традиционния анализ мощност е Cohen (1988) . променливи Предварителна обработка могат да бъдат включени в етапа на проектиране и етапа на анализ на експерименти; Глава 4 на Gerber and Green (2012) осигурява едно добро въведение в двата подхода, а Casella (2008) осигурява лечението по-задълбочено. Техники, които използват тази информация предварително третиране в рандомизацията обикновено се събират или блокиран експериментални дизайни или стратифицирани експериментални дизайни (терминологията не се използва последователно в общности); тези техники са дълбоко свързани с техниките на стратифицирани за вземане на проби, обсъдени в Глава 3. Виж Higgins, Sävje, and Sekhon (2016) за повече информация относно използването на тези проекти в масивни експерименти. Променливи Предварителна обработка могат да се включат в етапа на анализ. McKenzie (2012) изследва подход разлика в-разлики за анализиране на полеви експерименти по-подробно. Вижте Carneiro, Lee, and Wilhelm (2016) за повече от компромисите между различни подходи за повишаване на точността на оценките на ефекти от лечението. Накрая, когато се решава дали да се опита да се включи променливи за предварително третиране на дизайн или анализ етап (или и двете), има няколко фактора, за да разгледа. В обстановка, където изследователите искат да покажат, че те не са "риболов" (Humphreys, Sierra, and Windt 2013) , с помощта на променливи за предварително третиране на етап проектиране може да бъде от полза (Higgins, Sävje, and Sekhon 2016) . В ситуации, в които участници пристигат последователно, особено онлайн експерименти поле, използвайки информация предварително третиране в етапа на проектиране може да бъде трудно логистично, виж например Xie and Aurisset (2016) .

Струва си да се добави малко интуиция за това, защо разликата-в-разлики може да бъде много по-ефективно, отколкото разликата-в-средства. Много онлайн резултати имат много висока променливост (виж например, Lewis and Rao (2015) и Lamb et al. (2015) ) и са относително стабилни във времето. В този случай, резултатът на климата ще има значително по-малък разрез, увеличаване на мощността на статистически тест. Една от причините за това се приближи не се използва по-често е, че преди дигиталната епоха не е било обичайно да има резултати за предварително третиране. А по-конкретен начин да се мисли за него е да си представим един експеримент, за да се измери дали определен рутинно упражнение причинява загуба на тегло. Ако го направите подход разлика-в-средства, вашата оценка ще има вариабилност, която идва от променливостта на тежести в населението. Ако го направите подход разлика-в-разлика, обаче, че естествено срещащи вариация в тегла се премахва и ще можете по-лесно да се открие разлика, причинени от лечение.

Един важен начин за намаляване на броя на участниците в експеримента е да се извърши анализ на властта, която Kramer и колеги биха могли да са направили въз основа на размерите на наблюдавания ефект от естествен експеримент от Coviello et al. (2014) или по-рано не са експериментални изследвания от Kramer (2012) (в действителност това са дейности, в края на тази глава). Забележете, че това използване на анализ мощност е малко по-различно, отколкото типичен. В аналогов възраст, изследователите обикновено направиха анализ на енергия, за да се уверите, че тяхното проучване не е твърде малък (т.е., при захранване). Сега, обаче, изследователите трябва да направят анализ на енергия, за да се уверите, че тяхното проучване не е прекалено голям (т.е. над захранване).

И накрая, аз се счита добавяне четвърти R: променя предназначението. Това е, ако изследователите да се окажат с по-експериментални данни, отколкото е необходимо за справяне с тяхното оригинално изследване въпрос, те трябва да се променя предназначението на данните да поиска нови въпроси. Например, представете си, че Kramer и колеги са използвали един оценител разлика-в-разлики и се оказаха с повече данни, отколкото са необходими за справяне с техните изследвания въпрос. Вместо да не използват данните за най-голяма степен, те биха могли да са учили размера на ефекта като функция за предварително третиране на емоционална експресия. Както Schultz et al. (2007) установи, че ефектът от лечението е различен за леки и тежки потребители, може би ефектите на фуража новини са различни за хора, които вече са склонни да публикувате щастливи (или тъжни) съобщения. Repurposing може да доведе до "риболов" (Humphreys, Sierra, and Windt 2013) и "р-хакване" (Simmons, Nelson, and Simonsohn 2011) , но те ​​са до голяма степен адресируем с комбинация от честен отчитане (Simmons, Nelson, and Simonsohn 2011) , предварителна регистрация (Humphreys, Sierra, and Windt 2013) , и методи за машинно обучение, които се опитват да се избегне твърде прилепнали.