понатаму коментар

Овој дел е дизајниран да се користи како референца, а не да се чита како приказна.

  • Вовед (Дел 4.1)

Прашања во врска со каузалност во социјални истражувања често се комплексни и сложени. За основни пристап на каузалноста врз основа на причинско-последична графикони, види Pearl (2009) , како и за основните пристап базиран на потенцијални исходи, видете Imbens and Rubin (2015) (и технички прилог во ова поглавје). За споредба помеѓу овие два пристапи, видете Morgan and Winship (2014) . За официјалниот пристап кон дефинирање на confounder, видете VanderWeele and Shpitser (2013) .

Во ова поглавје, јас создаде она што се чинеше како светла линија помеѓу нашата способност да се направи причинска проценки од експериментални и не-експеримент податоци. Во реалноста, мислам дека разликата е blurrier. На пример, секој прифаќа дека пушењето предизвикува рак, и покрај тоа што никогаш не сте направиле една рандомизирана контролирана експеримент кој ги принудува луѓето да пушат. За одличен третмани должина книга за правење проценки причинска од не-експериментални податоци се види Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , и Dunning (2012) .

Глава 1 и 2 на Freedman, Pisani, and Purves (2007) нудат јасен вовед во разликите меѓу експерименти, контролирани експерименти, и рандомизирани контролирани експерименти.

Manzi (2012) обезбедува фасцинантен и може да се чита вовед во филозофски и статистички основи на рандомизирани контролирани експерименти. Таа, исто така обезбедува интересни примери од реалниот свет на моќта на експериментирање во бизнисот.

  • Кои се експерименти? (Дел 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) обезбеди добар вовед на статистички аспекти на експерименталниот дизајн и анализа. Понатаму, постојат одлични третмани за употреба на експерименти во многу различни области: економија (Bardsley et al. 2009) , Социологија (Willer and Walker 2007; Jackson and Cox 2013) , психологија (Aronson et al. 1989) , Политички науки (Morton and Williams 2010) , и социјална политика (Glennerster and Takavarasha 2013) .

Важноста на учесник вработување (на пример, земање мостри) често потценети во експериментални истражувања. Меѓутоа, ако ефектот од третманот е хетерогена во населението, а потоа земање мостри е критична. Longford (1999) го прави овој момент јасно, кога тој се залага за истражувачите размислува за експерименти, како истражување на населението со случаен земање мостри.

  • Две димензии на експерименти: лабораториски поле и аналогни дигитални (Дел 4.3)

Дихотомијата кои ги презентирав помеѓу лабораториски и теренски експерименти е малку поедноставен. Всушност, други истражувачи предложиле подетални типологии, особено оние кои се разделиме различни форми на полето експерименти (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Понатаму, постојат две други видови на експерименти врши од страна на научници од општествените науки кои не се вклопуваат уредно во лабораторија и областа дихотомија. Експерименти истражување и социјални експерименти експерименти истражување се експерименти користење на инфраструктурата на постојните истражувања и да се споредат одговорите на алтернативни верзии на истите прашања (некои експерименти анкетата се претставени во Поглавје 3); За повеќе информации за експерименти истражувањето види Mutz (2011) . општествени експерименти се експерименти при третманот е некои социјалната политика што може да се спроведе од страна на владата. Социјални експерименти се тесно поврзани со програма за евалуација. За повеќе информации за експерименти политика види Orr (1998) , Glennerster and Takavarasha (2013) , и Heckman and Smith (1995) .

Голем број на трудови во споредба лабораториски и теренски експерименти во апстрактни (Falk and Heckman 2009; Cialdini 2009) и во однос на резултатите на одредени експерименти во политички науки (Coppock and Green 2015) , економија (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) и психологија (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) нуди убав дизајн истражување за споредување на резултатите од лабораторија и областа експерименти.

Загриженоста за учесниците промена на нивниот однос, бидејќи тие знаат дека се внимателно да се следат понекогаш се нарекува побарувачката ефекти, и тие се изучува во психологија (Orne 1962) и економија (Zizzo 2009) . Иако најчесто е поврзана со лабораториски експерименти, истите овие прашања може да предизвика проблеми за полето експерименти, како и. Всушност, побарувачката ефекти се, исто така, понекогаш се нарекува Хоторн ефекти, термин кој потекнува од областа експеримент, посебно познатиот осветлување експерименти, која започна во 1924 година во Hawthorne работи на земјите од Западен Electric Company (Adair 1984; Levitt and List 2011) . И побарувачката ефекти и глог ефекти се тесно поврзани со идејата на реактивни мерење дискутирано во Поглавје 2 (види исто така, Webb et al. (1966) ).

Историјата на полето експерименти е опишан во економијата (Levitt and List 2009) , политички науки (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , психологија (Shadish 2002) , и јавната политика (Shadish and Cook 2009) . Една област на општествените науки, каде што полето експерименти брзо стана познат е меѓународниот развој. За позитивен преглед на тоа дело во економијата види Banerjee and Duflo (2009) , како и за критичко оценување види Deaton (2010) . За преглед на оваа работа во политички науки ја гледате Humphreys and Weinstein (2009) . Конечно, етички предизвици кои се вклучени со полето експерименти биле истражени во политички науки (Humphreys 2015; Desposato 2016b) и развој на економијата (Baele 2013) .

Во ова поглавје, јас сугерираше дека информации за пред-третман може да се користи за подобрување на прецизноста на проценетите ефекти третман, но има некои дебата за овој пристап: Freedman (2008) , Lin (2013) , и Berk et al. (2013) ; види Bloniarz et al. (2016) за повеќе информации.

  • Се движат надвор од едноставни експерименти (Дел 4.4)

Јас ги избрав да се фокусира на три концепти: важење, хетерогеноста на третман ефекти, и механизми. Овие концепти имаат различни имиња во различни области. На пример, психолози се стремат да се движат подалеку од едноставни експерименти, со фокусирање на медијатори и модераторите (Baron and Kenny 1986) . Идејата на медијатори е фатен од страна на она што го нарекуваме механизми, и идејата за модераторите се заробени од страна на она што го нарекуваме надворешна валидност (на пример, резултатите од експериментот ќе биде поинаков, ако се вршела во различни ситуации) и хетерогеноста на третман ефекти ( на пример, се ефектите поголеми за некои луѓе од други лица).

Експериментот на Schultz et al. (2007) покажува како општествени теории може да се користи за дизајн на ефективни интервенции. За поопшт аргумент за улогата на теоријата во дизајнирање на ефективни интервенции, види Walton (2014) .

  • Важење (Дел 4.4.1)

Концептите на внатрешни и надворешни важност беа првите претстави во Campbell (1957) . Види Shadish, Cook, and Campbell (2001) за подетална историја и внимателен изработка на статистички заклучок важност, внатрешна валидност, изградба на важност, како и надворешно важност.

За преглед на прашања во врска со статистичките важност заклучок во експерименти види Gerber and Green (2012) (на перспектива на општествените науки) и Imbens and Rubin (2015) (на статистичка гледна точка). Некои прашања на статистички важност заклучок кои се јавуваат особено во онлајн поле експерименти вклучуваат прашања како што се изчислителна ефикасни методи за креирање на интервалите на доверба со зависни податоци (Bakshy and Eckles 2013) .

Внатрешна валидност може да биде тешко да се обезбеди во комплекс областа експерименти. Види, на пример, Gerber and Green (2000) , Imai (2005) , и Gerber and Green (2005) за дебата за спроведување на комплексни областа експеримент за гласање. Kohavi et al. (2012) и Kohavi et al. (2013) се обезбеди вовед во предизвиците на интервалот важност во онлајн поле експерименти.

Една голема загриженост со внатрешна валидност е проблеми со рандомизација. Еден начин да се потенцијално откривање на проблеми со рандомизација е да се споредат третман и контрола групи на видливи својства. Овој вид на споредба е наречен проверка рамнотежа. Види Hansen and Bowers (2008) за статистички пристап да се балансираат проверки, и да видиме Mutz and Pemantle (2015) за загриженост за проверките рамнотежа. На пример, со користење на рамнотежа провери Allcott (2011) откри дека има докази дека рандомизација не се имплементира правилно во три од експериментите во некои од експериментите OPower (види Табела 2; сајтови 2, 6 и 8). За други пристапи, види Imbens and Rubin (2015) , Глава 21.

Други поголеми проблеми поврзани со внатрешна валидност се: 1) еднострани неусогласеност, каде што не сите во групата на третман не го добил третманот, 2) Двострано неусогласеност, каде што не сите во групата на третман добива третман, а некои луѓе во контролната група добиваат третман, 3) загуби, каде што резултатите не се мери за некои од учесниците, и 4) мешање, каде што третманот прелева од луѓето во состојба на третман на луѓето во состојба на контрола. Види Gerber and Green (2012) Поглавје 5, 6, 7 и 8 за повеќе информации за секоја од овие прашања.

За повеќе информации за изградба на важење, види Westen and Rosenthal (2003) , како и за повеќе информации за изградба на важност во големите извори на податоци, Lazer (2015) и Глава 2 од оваа книга.

Еден аспект на надворешните важност е да се определи каде е тестиран интервенција. Allcott (2015) обезбедува внимателни теоретски и емпириски третман на избор на сајтови пристрасност. Ова прашање, исто така, се дискутира во Deaton (2010) . Покрај тоа што е пресликана во многу сајтови, интервенцијата на енергија во домот извештај му била независно изучува од страна на повеќе истражувачки групи (на пример, Ayres, Raseman, and Shih (2013) ).

  • Хетерогеноста на третман ефекти (Дел 4.4.2)

За одличен преглед на хетерогеноста на третман ефекти во полето експерименти, види Поглавје 12 од Gerber and Green (2012) . За вовед на хетерогеноста на третман ефекти во медицински испитувања, види Kent and Hayward (2007) , Longford (1999) , и Kravitz, Duan, and Braslow (2004) . Хетерогеноста на третман ефекти генерално се фокусира на разлики врз основа на карактеристики предтретман. Ако сте заинтересирани во хетерогеност врз основа на резултатите од пост-третман, а потоа посложени approachs се потребни како главен стратификација (Frangakis and Rubin 2002) ; види Page et al. (2015) за преглед.

Многу истражувачи проценуваат хетерогеноста на ефектите третман со користење на линеарна регресија, но поновите методи се потпираат на машина за учење, на пример Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , и Athey and Imbens (2016a) .

Има некои скептицизам во врска со наодите на хетерогеноста на ефекти, бидејќи на повеќе проблеми споредба и "риболов". Постојат различни статистички пристапи кои може да ви помогне да ги реши проблемите за повеќе споредба (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Еден начин да се грижи за "риболов" е пре-регистрација, која станува се повеќе заеднички во психологија (Nosek and Lakens 2014) , политички науки (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) и економија (Olken 2015) .

Во студијата на Costa and Kahn (2013) само околу половина од домаќинствата во експериментот беа во можност да бидат поврзани со демографски информации. Читателите заинтересирани за деталите и можните проблеми со оваа анализа треба да се однесуваат на оригиналниот документ.

  • Механизми (Дел 4.4.3)

Механизми се неверојатно важни, но тие да испаднат да биде многу тешко да учат. Истражување за механизми тесно поврзани со студијата на медијатори во психологија (но види, исто така VanderWeele (2009) за прецизна споредба меѓу двете идеи). Статистички пристапи кон изнаоѓање механизми, како што се пристапот развиен во Baron and Kenny (1986) , се многу чести. За жал, се покажа дека тие постапки зависи од некои силни претпоставки (Bullock, Green, and Ha 2010) и страдаат кога има повеќе механизми, како што може да се очекува во многу ситуации (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) и Imai and Yamamoto (2013) нудат некои подобрени статистички методи. Понатаму, VanderWeele (2015) нуди третман на книгата должина со голем број на важни резултати, вклучувајќи еден сеопфатен пристап кон анализата на сензитивноста.

А посебен пристап се фокусира на експерименти, кои се обидуваат да манипулираат со механизам за директно (на пример, давање на морнарите витамин Ц). За жал, во многу средини општествените науки најчесто постојат повеќе механизми и тоа е тешко да се дизајнира третмани кои се менуваат еден без промена на другите. Некои пристапи кон експериментално менување механизми се опишани во Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , и Pirlott and MacKinnon (2016) .

Конечно, механизми, исто така, имаат долга историја на филозофијата на науката како што е опишано од страна на Hedström and Ylikoski (2010) .

  • Со користење на постоечките околини (Оддел 4.5.1.1)

За повеќе информации за употребата на писмата студии и ревизија студии за мерење на дискриминацијата види Pager (2007) .

  • Изгради свој експеримент (Оддел 4.5.1.2)

Највообичаен начин да се ангажираат учесниците да експерименти, кои ќе се изгради е Амазон Машински Турк (MTurk). Бидејќи MTurk имитира аспекти на традиционалната лабораториски експерименти плаќаат луѓето да ги завршат задачите кои тие не би го направил за слободна многу истражувачи веќе започнаа со користење Turkers (работниците на MTurk), како учесници во човечки субјекти експерименти што резултира со побрзо и поевтино собирање на податоци од традиционалните на кампусот лабораториски експерименти (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Најголемата сила на експерименти со учесниците регрутирани од MTurk логични: тие им овозможуваат на истражувачите да се ангажираат учесниците брзо и колку што е потребно. Со оглед на лабораториски експерименти може да трае со недели да се кандидира и поле експерименти може да трае со месеци да го поставите-up, експерименти со учесниците регрутирани од MTurk може да се работи за неколку дена. На пример, Berinsky, Huber, and Lenz (2012) беа во можност да регрутира 400 предмети во еден ден да учествуваат во 8 минути експеримент. Понатаму, овие учесници можат да бидат регрутирани за речиси секоја цел (меѓу другото анкети и масовно соработка, како што беше дискутирано во Поглавје 3 и 5). Леснотијата на регрутирање значи дека истражувачите може да работи секвенци на поврзани експерименти во брзо едноподруго.

Пред да се регрутирање на учесници од MTurk за свој експерименти, постојат четири важни работи кои треба да се знае. Прво, многу истражувачи имаат неспецифични скептицизам на експерименти со Turkers. Поради овој скептицизам не е специфична, тоа е тешко да се спротивстави со докази. Сепак, по неколку години на студии користење Turkers, ние сега може да се заклучи дека овој скептицизам не е особено потребно. Има многу студии се споредуваат демографијата на Turkers на другите популации и многу студии се споредуваат резултатите од експериментите со Turkers со резултатите од другите популации. Со оглед на сето ова дело, јас мислам дека најдобар начин за вас да се размислува за тоа е дека Turkers се разумно погодност примерок, многу сличен на студентите, но малку поразлични (Berinsky, Huber, and Lenz 2012) . На тој начин, исто како и студентите се разумно населението за некои, но не сите експериментални истражувања, Turkers се разумно населението за некои, но не сите истражувања. Ако ви се случува да се работи со Turkers, тогаш тоа го прави смисла да се чита многу од овие компаративни студии и разбирање на нивните нијанси.

Второ, истражувачите развија најдобрите практики за зголемување на внатрешната валидноста на Турк експерименти, и треба да се запознаат и да ги следат овие најдобрите практики (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . На пример, истражувачите користење Turkers се охрабруваат да ги користат screeners да се отстрани невнимателен учесници (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (но види, исто така, DJ Hauser and Schwarz (2015b) и DJ Hauser and Schwarz (2015a) ). Ако не се отстранат невнимателен учесници, а потоа на било ефект од третманот може да се мијат надвор од бучава воведени од невнимателен учесници, а во практиката на бројот на невнимателен учесниците можат да бидат значителни. Во експериментот на Хубер и колеги (2012) околу 30% од учесниците не успеа основните внимание screeners. Друг проблем заедничко со Turkers е не-наивни учесници (Chandler et al. 2015) .

Трето, во однос на некои други форми на дигитални експерименти, MTurk експерименти не може да скала; Stewart et al. (2015) проценува дека во било кое дадено време има само околу 7.000 луѓе на MTurk.

Конечно, треба да знаете дека MTurk е заедница со свои правила и норми (Mason and Suri 2012) . Во истиот начин на кој ќе се обиде да дознаете повеќе за културата на една земја каде што ви се случува да се кандидира на вашиот експерименти, треба да се обидете да дознаете повеќе за културата и норми на Turkers (Salehi et al. 2015) . И, треба да знаете дека Turkers ќе се зборува за вашиот експеримент, ако се направи нешто несоодветно или неетички (Gray et al. 2016) .

MTurk е неверојатно лесен начин да се регрутирање на учесници на вашиот експерименти, без разлика дали тие се лабораториски како, како што Huber, Hill, and Lenz (2012) , или повеќе на терен како, како што Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , и Mao et al. (2016) .

  • Изгради свој производ (Оддел 4.5.1.3)

Ако се размислува за се обидува да создаде свој производ, јас Ви препорачуваме да го прочитате совети понудени од страна на група MovieLens во Harper and Konstan (2015) . Клучен увид од нивното искуство е дека за секој успешен проект има многу, многу грешки. На пример, групата започна MovieLens други производи како што GopherAnswers кои беа целосно неуспеси (Harper and Konstan 2015) . Друг пример на истражувач не при обид да се изгради еден производ е обид Едвард Castronova е да се изгради онлајн игра наречена Арден. И покрај 250.000 $ во финансирање на проектот била неуспешна (Baker 2008) . Проекти како GopherAnswers и Arden, за жал, многу почести отколку проекти како MovieLens. Конечно, кога јас реков дека јас не знам за други истражувачи кои успешно ја изградиле производи за повторно експериментирање еве ги моите критериуми: 1) учесниците се користи производот, бидејќи од она што им обезбедува (на пример, не се платени и тие не се волонтери помагајќи наука) и 2) на производот се користи за повеќе од една посебна експеримент (на пример, не е исто експеримент повеќе пати со различни учесник базени). Ако знаете на други примери, молам да ме известите.

  • Партнер со моќна (Дел 4.5.2)

Слушнав идејата за квадрант Пастер дискутира често во технолошки компании, а тоа помага да се организира истражувачки напори во Google (Spector, Norvig, and Petrov 2012) .

Студија колеги Бонд и (2012) исто така се обидува да се открие влијанието на овие третмани на пријатели на оние кои ги добиле. Затоа што на дизајнот на експериментот, овие прелевањето тешко да се открие чисто; заинтересирани читатели треба да се види Bond et al. (2012) за потемелна дискусија. Овој експеримент е дел од долгата традиција на експерименти во политички науки на напорите за поттикнување на гласање (Green and Gerber 2015) . Овие се-надвор-на-гласање експерименти се вообичаени во дел, бидејќи тие се во квадрант Пастер е. Тоа е, постојат многу луѓе кои се мотивирани да се зголеми гласање и гласањето може да биде интересно однесување за да се тестираат повеќе општи теории за промена на однесувањето и социјални влијанија.

Други истражувачи дадени совети за водење полето експерименти со партнерските организации, како што се политичките партии, невладините организации и бизниси (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Други, пак, нуди совети за тоа како партнерства со организации може да влијае на истражувачки проекти (Green, Calfano, and Aronow 2014; King et al. 2007) . Партнерството, исто така, може да доведе до етички прашања (Humphreys 2015; Nickerson and Hyde 2016) .

  • Дизајн совети (4.6)

Ако ви се случува да се создаде план за анализа пред да го стартувате вашиот експеримент, претпоставувам дека ќе почнете со читање на упатствата за известување. Сопруг (Пречистен Стандардна Известување за судење) Упатствата се развиени во медицината (Schulz et al. 2010) и пат е изменета за социјални истражувања (Mayo-Wilson et al. 2013) . А поврзани со збир на насоки е развиена од страна на уредниците на списанието Експериментални политички науки (Gerber et al. 2014) (види, исто така, Mutz and Pemantle (2015) и Gerber et al. (2015) ). Конечно, известување насоки се развиени во психологија (Group 2008) и видете исто така Simmons, Nelson, and Simonsohn (2011) .

Ако се создаде план за анализа треба да се разгледа пред-регистрација поради претходна регистрација ќе ја зголеми довербата дека другите имаат во вашите резултати. Понатаму, ако се работи со партнер, тоа ќе ја ограничи способноста на вашиот партнер за промена на анализа по гледањето на резултатите. Пререгистрација станува се повеќе заеднички во психологија (Nosek and Lakens 2014) , политички науки (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) и економија (Olken 2015) .

При создавање на план за пред-анализа треба да бидете свесни дека некои истражувачи, исто така, се користи регресија и пристапи, да се подобри точноста на проценетата третман ефект, и има некои дебата за овој пристап: Freedman (2008) , Lin (2013) , и Berk et al. (2013) ; види Bloniarz et al. (2016) за повеќе информации.

Дизајн совети специјално за онлајн полето експерименти исто така е претставена во Konstan and Chen (2007) и Chen and Konstan (2015) .

  • Креирај нула податоци варијабилни трошоци (Дел 4.6.1)

За повеќе информации за експерименти MusicLab, видете Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) и Salganik (2007) . За повеќе информации за победник-се-сите пазари, види Frank and Cook (1996) . За повеќе информации за отплеткување среќа и вештина поопшто, види Mauboussin (2012) , Watts (2012) , и Frank (2016) .

Постои уште еден пристап кон елиминирање исплати учесник дека истражувачите треба да се користи со претпазливост: регрутација. Во многу онлајн полето експерименти учесниците се во основа се регрутирани во експерименти и никогаш не се компензира. Примери за овој пристап вклучуваат Restivo и ван де Rijt е (2012) експеримент на награди во Википедија и Бонд и колега (2012) експеримент на охрабрување на луѓето да гласаат. Овие експерименти навистина не имаат нула варијабилни трошоци, тие имаат нула варијабилни трошоци за истражувачите. Иако цената на многу од овие експерименти е многу мал за секој учесник, мали трошоци изречени огромен број на учесници може да додадете до брзо. Истражувачите работи масивна онлајн експерименти често се оправда значењето на малите проценетите ефекти третман, велејќи дека овие мали ефекти може да стане важен кога се применува на многу луѓе. Иста размислување се однесува на трошоци кои истражувачите се наметне на учесниците. Ако вашите експерименти предизвикува еден милион луѓе да се потроши една минута, експериментот не е многу штетно за некоја посебна личност, но во вкупен таа потроши речиси две години на времето.

Друг пристап кон креирање на нула плаќање варијабилни трошоци на учесниците е да се користи на лотарија, пристап кој исто така се користи во истражување анкета (Halpern et al. 2011) . Конечно, за повеќе за дизајнирање пријатно кориснички искуства види Toomim et al. (2011) .

  • Замени, прецизност, и да се намали (Дел 4.6.2)

Еве оригиналниот дефинициите на трите R, од Russell and Burch (1959) :

"Замена значи замена за свесно живеење повисоки животни од insentient материјал. Намалување значи намалување на бројот на животните кои се користат да се добијат информации за одредена сума и прецизност. Префинетост значи секое намалување на инциденцата или тежината на нехумани постапки кои се применуваат за оние животни кои се уште треба да се користи. "

На три Р што ви ја предлагам не го отфрлат етичките принципи опишани во Поглавје 6. Наместо тоа, тие се повеќе разработени верзија еден од оние принципи beneficence конкретно за поставување на човечки експерименти.

Кога се разгледува емоционалната зараза, постојат три не-етички прашања кои треба да се има предвид при толкување на овој експеримент. Прво, тоа не е јасно како суштинските детали од експериментот се поврзете со теоретски побарувања; со други зборови, постојат прашања во врска конструкција важност. Не е јасно дека позитивните и негативните точки збор се всушност добар показател за емоционалната состојба на учесниците, бидејќи 1) не е јасно дека зборовите кои луѓе пост се добар показател на нивните емоции и 2) тоа не е јасно дека на одредена техника расположение анализа која истражувачите користеле може со сигурност да заклучиме емоции (Beasley and Mason 2015; Panger 2016) . Со други зборови, може да има лош мерка за пристрасен сигнал. Второ, дизајн и анализа на експериментот ни кажува ништо за тоа кој е најмногу погодени (на пример, не постои анализа на хетерогеноста на третман ефекти) и она што може да биде механизам. Во овој случај, научниците ја спроведоа многу информации за учесниците, но тие се во суштина се третираат како графички контроли во анализата. Трето, големината на сила во овој експеримент е многу мал; разликата помеѓу условите за третман и контрола е околу 1 од 1000 зборови. Во нивниот труд, Крамер и колеги направи случај дека ефектот на оваа големина е важно, бидејќи стотици милиони луѓе имаат пристап до своите News Feed секој ден. Со други зборови, тие тврдат дека дури и ефекти, кои се мали за секој човек, тие се големи во агрегат. Дури и ако сте во ситуација да го признае овој аргумент, тоа се уште не е јасно дали ефект на оваа големина е важно во врска со повеќе општи научни прашањето за емоционална зараза. Повеќе за ситуации каде што малите ефекти се важни види Prentice and Miller (1992) .

Во однос на првото R (замена), во споредба емоционална зараза експеримент (Kramer, Guillory, and Hancock 2014) и природен експеримент емоционална зараза (Coviello et al. 2014) , нуди некои општи лекции за размени кои се вклучени со поместување од експерименти врз природни експерименти (и други пристапи како појавување кои се обидуваат да се приближи експерименти во кои не се експериментални податоци, види Глава 2). Во прилог на етички бенефиции, префрлување од експериментални да не се експериментални студии, исто така, им овозможува на истражувачите да учат третмани кои се логистички не можат да се распоредат. Овие етички и логистичките предности доаѓаат во цена, сепак. Со природни експерименти научниците имаат помалку контрола врз нештата како регрутирање на учесници, рандомизација, како и природата на третманот. На пример, едно ограничување на врнежи како третман е тоа што и двете се зголемува позитивност и се намалува негативност. Во експериментална студија, сепак, Крамер и неговите колеги беа во можност да се прилагоди на позитивност и негативност независно.

Посебните пристап се користи од страна на Coviello et al. (2014) била елаборирана во Coviello, Fowler, and Franceschetti (2014) . За воведување на инструментални променливи види Angrist and Pischke (2009) (помалку формални) или Angrist, Imbens, and Rubin (1996) (повеќе формални). За скептични проценка на инструментални променливи види Deaton (2010) , како и за воведување на инструментални променливи со слаби инструменти (дожд е слаб инструмент), видете Murray (2006) .

Поопшто, добар вовед во природни експерименти е Dunning (2012) , и Rosenbaum (2002) , Rosenbaum (2009) , и Shadish, Cook, and Campbell (2001) нудат добри идеи за проценка на причинско-последична ефекти без експерименти.

Во однос на вториот R (рафинирање), постојат научни и логистичка размени кога размислува за промена на дизајнот на емоционална зараза од блокирањето на мислења за зголемување на мислења. На пример, тоа може да биде случај дека техничката имплементација на News Feed го прави тоа е значително полесно да се направи експеримент со блокирање на мислења, а не експериментираат со зголемување на мислења (Забележете дека експеримент со блокирање на пораки може да се имплементира како слој на врвот на системот на News Feed, без никаква потреба за измени на основниот систем). Научно, сепак, теоријата обрати на експериментот не јасно укажуваат на еден дизајн во однос на другите.

За жал, јас не сум свесен за значителен пред истражување за придобивките од блокирање и зголемување на содржината во Новости. Исто така, не сум ја видел многу истражувања за рафинирање третмани за да ги направи помалку штетни; Единствениот исклучок е Jones and Feamster (2015) , кој го разгледува случајот на мерење на цензурата на интернет (тема ќе разговараат во Поглавје 6 во врска со студијата на бис (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Во однос на третиот R (Намалување), добар вовед во традиционалната анализа моќ е Cohen (1988) . covariates пред-третман може да се вклучи во фазата на дизајнирање и фазата на анализа на експерименти; Глава 4 од Gerber and Green (2012) обезбедува добар вовед во двата пристапи, и Casella (2008) обезбедува третман повеќе во длабочина. Техники кои ги користат овие информации пред-третман во рандомизација обично се нарекуваат или блокирани експериментални дизајни или стратификуван експериментални дизајни (терминологијата не се користи главно во заедниците); овие техники се длабоко поврзани со техники на стратифициран примероци дискутирано во Поглавје 3. Види Higgins, Sävje, and Sekhon (2016) за повеќе информации за користење на овие дизајни во масовни експерименти. Covariates пред-третман, исто така може да бидат вклучени во фазата на анализа. McKenzie (2012) истражува пристап разлика-во-разлики во анализирање на полето експерименти во поголеми детали. Види Carneiro, Lee, and Wilhelm (2016) за повеќе информации за размени помеѓу различни пристапи за да се зголеми прецизноста во проценката на ефектите на третманот. Конечно, кога се одлучува дали да се обиде да го вклучите covariates пред-третман на дизајнот или анализа фаза (или двете), постојат неколку фактори да се разгледа. Во средина каде што истражувачите сакаат да покажат дека тие не се "риболов" (Humphreys, Sierra, and Windt 2013) , со користење на covariates предтретман во фазата на дизајнирање може да биде корисно (Higgins, Sävje, and Sekhon 2016) . Во ситуации каде што учесниците се дојде секвенцијално, особено онлајн експерименти област, користење на информации предтретман во фазата на дизајнирање може да биде тешко логистички, види на пример Xie and Aurisset (2016) .

Вреди да се додавајќи малку интуиција за тоа зошто разликата-во-разлики може да биде многу поефикасна од разликата-во-помош. Многу онлајн резултати имаат многу висока варијанса (види на пример, Lewis and Rao (2015) и Lamb et al. (2015) ) и се релативно стабилни со текот на времето. Во овој случај, резултат на промени ќе имаат значително помали варијанса, зголемување на моќта на статистички тест. Една од причините за ова се пристапи не се користи почесто е дека пред дигиталната ера, тоа не беше вообичаено да се има резултати предтретман. Поконкретен начин да се размислува за тоа е да се замисли еден експеримент за да се измери дали одредена вежбање предизвикува губење на тежината. Ако го направите пристап разлика-во-помош, вашата проценка ќе има варијабилност која доаѓа од варијабилноста на тегови во населението. Ако го направите пристап разлика-во-разлика, сепак, природно-настанатите видови на тежини се отстранува и може да се уште лесно да се открие разлика предизвикани од третманот.

Еден важен начин да се намали бројот на учесниците во експериментот е да се спроведе анализа на моќ, која Крамер и колеги може да се направи врз основа на големината на ефектот забележан од природен експеримент со Coviello et al. (2014) или порано не-експериментални истражувања од страна на Крамер (2012) (всушност овие активности на крајот на ова поглавје). Забележете дека оваа употреба на моќ анализа е малку различен од типичниот. Во аналогната ера, истражувачите обично се направи анализа моќ за да бидете сигурни дека нивната студија не е премногу мал (на пример, под-придвижуван). Сега, меѓутоа, истражувачите треба да се направи анализа на моќ за да бидете сигурни дека нивната студија не е премногу голем (на пример, над-придвижуван).

Конечно, се разгледуваат можноста за додавање на четвртата Р: Repurpose. Тоа е, ако истражувачите се најдат со повеќе експериментални податоци отколку што треба да се справат со нивните оригинални истражувања прашање, тие треба да repurpose на податоци за да се побара нови прашања. На пример, замислете дека Крамер и неговите колеги ја користел за проценка разлика-во-разлики и се најдоа со повеќе податоци отколку што е потребно за решавање на нивните истражувања прашање. Наместо да не ги користат податоците во најголема можна мера, тие може да се изучува на големината на ефектот како функција на пред-третман емотивен израз. Исто како Schultz et al. (2007) покажа дека ефектот на третманот е различен за лесни и тешки корисници, можеби последиците од Вести наслови се различни за луѓе кои веќе тенденција да испраќате среќен (или тажни) пораки. Repurposing може да доведе до "риболов" (Humphreys, Sierra, and Windt 2013) и "P-хакирање" (Simmons, Nelson, and Simonsohn 2011) , но тие се во голема мера адресибилен со комбинација на искрен известување (Simmons, Nelson, and Simonsohn 2011) , пред-регистрација (Humphreys, Sierra, and Windt 2013) , како и методи машина за учење кои се обидуваат да се избегне прекумерна монтирање.