Пытанні аб прычыннасці ў сацыяльных даследаваннях часта з'яўляюцца складанымі і заблытанымі. Для асноватворнага падыходу да прычыннасці на аснове прычынна - следчых графік, см Pearl (2009) , а таксама для асноватворнага падыходу , заснаванага на патэнцыйных выніках, см Imbens and Rubin (2015) . Для параўнання паміж гэтымі двума падыходамі см Morgan and Winship (2014) . Для фармальнага падыходу да вызначэння confounder см VanderWeele and Shpitser (2013) .
У гэтым раздзеле я стварыў тое, што, здавалася, як яркая лінія паміж нашай здольнасцю зрабіць прычынныя ацэнкі з эксперыментальных і ня эксперыментальных дадзеных. Тым не менш, я лічу, што, у рэчаіснасці, гэта адрозненне больш размытым. Напрыклад, кожны прызнае, што курэнне выклікае рак, нават калі не рандомізірованное эксперымент, які прымушае людзей паліць ніколі не было зроблена. Для выдатнай апрацоўкі кнігі даўжыні па падрыхтоўцы адзнак прычынных ад ня Эксперыментальная інфармацыя см Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , і Dunning (2012) .
Кіраўніка 1 і 2 з Freedman, Pisani, and Purves (2007) прапануюць дакладнае ўвядзенне адрозненняў паміж досведамі, якія кантралююцца эксперыментаў, і рандомізірованный кантраляваных эксперыментаў.
Manzi (2012) забяспечвае захапляльнае і чытанае ўвядзенне ў філасофскія і статыстычныя асновах рандомізірованный кантраляваных эксперыментаў. Ён таксама дае цікавыя прыклады сілы эксперыментаў ў бізнэсе ў рэальным свеце. Issenberg (2012) забяспечвае захапляльнае ўвядзенне ў выкарыстанне эксперыментаў у палітычных кампаніях.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 і Athey and Imbens (2016b) забяспечваюць добрыя ўвядзення да статыстычных аспектах эксперыментальнага праектавання і аналізу. Акрамя таго, ёсць выдатныя метады лячэння з выкарыстаннем эксперыментаў у розных галінах: эканоміка (Bardsley et al. 2009) і (Willer and Walker 2007; Jackson and Cox 2013) (Aronson et al. 1989) (Morton and Williams 2010) (Bardsley et al. 2009) . , Сацыялогія (Willer and Walker 2007; Jackson and Cox 2013) , псіхалогіі (Aronson et al. 1989) і (Aronson et al. 1989) , (Aronson et al. 1989) , паліталогія (Morton and Williams 2010) , і сацыяльная палітыка (Glennerster and Takavarasha 2013) .
Важнасць рэкрутынгу (напрыклад, выбаркі) часта недаацэньваюць ў эксперыментальных даследаваннях. Аднак, калі эфект лячэння неаднастайны ў папуляцыі, то выбарка мае вырашальнае значэнне. Longford (1999) робіць гэтую кропку ясна , калі ён выступае для даследчыкаў мыслення эксперыментаў як абследавання насельніцтва з бессістэмнай выбаркай.
Я выказаў меркаванне , што існуе кантынуум паміж лабараторнымі і палявымі эксперыментамі, і іншыя даследчыкі прапанавалі больш падрабязныя тыпалогіі, у прыватнасці тыя , якія аддзяляюць розныя формы палявых эксперыментаў (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Шэраг работ параўналі лабараторныя і палявыя эксперыменты ў рэферата (Falk and Heckman 2009; Cialdini 2009) і з пункту гледжання вынікаў канкрэтных эксперыментаў у галіне паліталогіі (Coppock and Green 2015) , эканомікі (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) і псіхалогіі (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) прапануюць добры дызайн даследаванні для параўнання вынікаў лабараторных і палявых эксперыментаў. Parigi, Santana, and Cook (2017) апісвае , як эксперыменты онлайн палі могуць аб'яднаць некаторыя з характарыстык лабараторных і палявых эксперыментаў.
Занепакоенасць удзельнікаў змяніць свае паводзіны , таму што яны ведаюць , што яны пільна назіраюць часам называюць эфектамі попыту, і яны былі вывучаны ў псіхалогіі (Orne 1962) і эканоміка (Zizzo 2010) . Хоць у асноўным звязаныя з лабараторнымі эксперыментамі, гэтыя ж праблемы могуць выклікаць праблемы для палявых эксперыментаў, а таксама. На самай справе, уплыў попыту таксама часам называюць Hawthorne эфект, тэрмін, вытворны знакамітыя эксперыменты асвятлення , якія пачаліся ў 1924 годзе ў Hawthorne Works Заходняй Electric Company (Adair 1984; Levitt and List 2011) . Абодва эфекту попыту і Hawthorne эфекты цесна звязаны з ідэяй вымярэння рэактыўнай разгледжанай у чале 2 (гл , таксама Webb et al. (1966) і Webb et al. (1966) ).
Палявыя эксперыменты маюць доўгую гісторыю ў эканоміцы (Levitt and List 2009) , паліталогія (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) і (Shadish 2002) (Shadish and Cook 2009) (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , псіхалогія (Shadish 2002) , і дзяржаўнай палітыкі (Shadish and Cook 2009) , Адной з абласцей сацыяльных навук, дзе палявыя эксперыменты хутка сталі прыкметнымі з'яўляюцца міжнародным развіццём. Для станоўчага разгляду гэтай працы ў эканоміцы см Banerjee and Duflo (2009) , а таксама для крытычнай ацэнкі см Deaton (2010) . Для агляду гэтай працы ў палітычнай навуцы см Humphreys and Weinstein (2009) . Нарэшце, этычныя праблемы , якія ўзнікаюць у сувязі з палявых эксперыментаў былі даследаваны ў кантэксце палітычнай навукі (Humphreys 2015; Desposato 2016b) і эканоміка развіцця (Baele 2013) .
У гэтым раздзеле я выказаў здагадку, што інфармацыя для папярэдняй апрацоўкі можа быць выкарыстана для павышэння дакладнасці разліковых вынікаў лячэння, але ёсць некаторыя дэбаты з нагоды такога падыходу; см Freedman (2008) , W. Lin (2013) , Berk et al. (2013) і Berk et al. (2013) , і Bloniarz et al. (2016) для атрымання дадатковай інфармацыі.
Нарэшце, існуе яшчэ два тыпу эксперыментаў, праведзеных сацыёлагамі, якія не ўпісваюцца акуратна па памеры лабараторнага поля: эксперыменты і даследаванні сацыяльных эксперыментаў. Эксперыменты абследавання эксперыментаў з выкарыстаннем інфраструктуры існуючых абследаванняў і параўнаць адказы на альтэрнатыўныя версіі адных і тыя ж пытанні (некаторыя эксперыменты даследавання прадстаўлены ў раздзеле 3); падрабязней пра эксперыменты апытання см Mutz (2011) . Сацыяльныя эксперыменты эксперыменты , дзе лячэнне некаторая сацыяльная палітыка , якая можа быць рэалізавана толькі з дапамогай ўрада. Сацыяльныя эксперыменты цесна звязаны з ацэнкай праграм. Больш падрабязную інфармацыю аб эксперыментах палітыкі см Heckman and Smith (1995) , Orr (1998) , і @ glennerster_running_2013.
Я вырашыў засяродзіцца на трох канцэпцыях: рэчаіснасць, гетэрагеннасць эфектаў лячэння, а таксама механізмаў. Гэтыя паняцці маюць розныя назвы ў розных галінах. Напрыклад, псіхолагі , як правіла , выйсці за рамкі простых эксперыментаў, засяродзіўшы ўвагу на медыятары і мадэратараў (Baron and Kenny 1986) . Ідэя медыятараў захопліваецца тое, што я называю механізмы, і ідэя мадэратараў захопліваецца, што я называю знешняя валіднасць (напрыклад, будуць вынікі эксперыменту інакш, калі б ён быў запушчаны ў розных сітуацыях) і гетэрагеннасць эфектаў лячэння ( напрыклад, з'яўляюцца эфекты больш для некаторых людзей, чым для іншых).
Эксперымент Schultz et al. (2007) і Schultz et al. (2007) паказвае , як сацыяльныя тэорыі могуць быць выкарыстаны для распрацоўкі эфектыўных мер. Для больш агульных меркаванняў пра ролю тэорыі ў распрацоўцы эфектыўных мер, см Walton (2014) .
Паняцці ўнутранага і знешняга дзеяння ўпершыню былі ўведзеныя Campbell (1957) . См Shadish, Cook, and Campbell (2001) для больш падрабязнай гісторыі і дбайнай распрацоўкі статыстычнага заключэння рэчаіснасці, унутранай рэчаіснасць, пабудаваць рэчаіснасць, і знешнюю валіднасць.
Для агляду пытанняў , звязаных з высновай статыстычнай верагоднасці ў эксперыментах см Gerber and Green (2012) (з пункту гледжання сацыяльнай навукі) і Imbens and Rubin (2015) (з пункту гледжання статыстыкі). Некаторыя пытанні статыстычнага вываду рэчаіснасці , якія ўзнікаюць менавіта ў эксперыментах онлайн палявых ўключаюць такія пытанні, як вылічальная эфектыўныя метады для стварэння даверных інтэрвалаў з залежнымі дадзенымі (Bakshy and Eckles 2013) .
Унутраная валіднасць можа быць цяжка забяспечыць у складаных палявых эксперыментах. Глядзіце, напрыклад, Gerber and Green (2000) , Imai (2005) , і Gerber and Green (2005) для дыскусіі аб рэалізацыі комплекснага палявога эксперыменту аб галасаванні. Kohavi et al. (2012) і Kohavi et al. (2012) і Kohavi et al. (2013) і Kohavi et al. (2013) забяспечыць ўвядзенне ў праблемы , інтэрвальнай дзеянні ў эксперыментах онлайн на месцах.
Адна з асноўных пагроз унутранай валіднасці з'яўляецца магчымасць няўдалай рандомизации. Адным з магчымых спосабаў выяўлення праблем з рандомизацией з'яўляецца параўнаннем лячэння і кантрольных груп назіраных прыкмет. Гэты выгляд параўнання называецца праверкай балансу. См Hansen and Bowers (2008) для статыстычнага падыходу да балансаваць праверкі і Mutz and Pemantle (2015) для боязі па нагоды праверкі балансу. Напрыклад, з дапамогай праверкі балансу, Allcott (2011) знайшоў доказ таго, што рандомизация не была рэалізаваная правільна ў трох эксперыментах Оповера (глядзіце табліцу 2; сайты , 2, 6 і 8). Для іншых падыходаў, глядзіце раздзел 21 з Imbens and Rubin (2015) .
Іншыя асноўныя праблемы, звязаныя з унутранай валіднасцю з'яўляюцца: (1) аднабаковым невыкананнем, дзе не ўсё ў групе лячэння на самай справе атрымлівалі лячэнне, (2) двухбаковае невыкананне, дзе не ўсё ў групе лячэння атрымліваюць лячэнне, і некаторыя чалавек у у кантрольнай групе атрымліваюць лячэнне, (3) сціранне, дзе вынікі не вымяраюцца для некаторых удзельнікаў, і (4) інтэрферэнцыйныя, дзе лячэнне разліваецца над ад людзей у стане лячэння для людзей у стане кіравання. См кіраўніка 5, 6, 7, і 8 Gerber and Green (2012) для атрымання дадатковай інфармацыі кожнаму з гэтых пытанняў.
Больш падрабязную інфармацыю аб валіднасці см Westen and Rosenthal (2003) , а таксама больш падрабязную інфармацыю аб валіднасці ў вялікіх крыніцах дадзеных, Lazer (2015) і 2 -й чале гэтай кнігі.
Адным з аспектаў знешняй рэчаіснасці з'яўляецца ўстаноўка, у якой выпрабоўваецца ўмяшанне. Allcott (2015) забяспечвае дбайнае тэарэтычнае і эмпірычнае лячэнне зрушэння выбару сайта. Гэтае пытанне таксама абмяркоўваецца Deaton (2010) . Іншы аспект знешняй рэчаіснасці, ці з'яўляецца альтэрнатыўныя операционализации таго ж ўмяшання будуць мець аналагічныя наступствы. У гэтым выпадку параўнанне паміж Schultz et al. (2007) і Schultz et al. (2007) і Allcott (2011) паказваюць , што эксперыменты Оповеров мелі меншы па ацэнак , апрацаваны эфект , чым першапачатковыя эксперыменты па Шульцу і яго калегам (1,7% супраць 5%). Allcott (2011) выказаў здагадку , што наступныя эксперыменты мелі меншы эфект са спосабаў , у якіх лячэнне адрознівалася: рукапіснае смайлік ў рамках даследавання пад эгідай універсітэта, па параўнанні з друкаванай смайлік ў рамках масавага вытворчасці справаздачу ад энергетычнай кампаніі.
Грунтоўны агляд гетэрагеннасць эфектаў лячэння ў палявых эксперыментах, см главу 12 Gerber and Green (2012) . Для ўвядзення ў гетэрагеннасць эфектаў лячэння ў медыцынскіх даследаваннях, см Kent and Hayward (2007) , Longford (1999) , і Kravitz, Duan, and Braslow (2004) . Меркаванні гетэрагеннасць эфектаў лячэння звычайна сканцэнтраваны на адрозненнях, заснаваных на характарыстыках папярэдняй апрацоўкі. Калі вы зацікаўлены ў разнароднасці на аснове вынікаў пасля лячэння, а затым больш складаныя падыходы неабходныя, напрыклад, асноўнай стратыфікацыі (Frangakis and Rubin 2002) , (Frangakis and Rubin 2002) ; см Page et al. (2015) і Page et al. (2015) для агляду.
Многія даследчыкі мяркуюць, гетэрагеннасць эфектаў лячэння з выкарыстаннем лінейнай рэгрэсіі, але новыя метады заснаваныя на машынным навучанні; глядзі, напрыклад, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) і Taddy et al. (2016) , і Athey and Imbens (2016a) .
Існуе некаторы скептыцызм па нагоды высноў гетэрагеннасць эфектаў з - за шматлікіх праблем параўнання і «рыбалка.» Ёсць цэлы шэраг статыстычных падыходаў , якія могуць дапамагчы ў вырашэнні праблем па нагоды множнага параўнання (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Адзін з падыходаў да заклапочанасці па нагоды «рыбалкі» з'яўляецца папярэдняя рэгістрацыя, якая становіцца ўсё больш распаўсюджаным з'явай у псіхалогіі (Nosek and Lakens 2014) , паліталогія (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) і эканоміка (Olken 2015) .
У даследаванні Costa and Kahn (2013) толькі каля паловы хатніх гаспадарак у эксперыменце можа быць звязаная з дэмаграфічнай інфармацыяй. Чытачы, зацікаўленыя ў гэтых дэталях трэба звярнуцца да арыгінальнай працы.
Механізмы неверагодна важныя, але яны аказваюцца вельмі цяжка вучыцца. Даследаванні пра механізмы цесна звязаны з вывучэннем медыятараў ў псіхалогіі (але глядзіце таксама VanderWeele (2009) для дакладнага параўнання паміж гэтымі двума ідэямі). Статыстычныя падыходы да пошуку механізмаў, такіх , як падыход , распрацаваны ў Baron and Kenny (1986) , з'яўляюцца даволі распаўсюджанай з'явай. На жаль, атрымліваецца, што гэтыя працэдуры залежаць ад некаторых моцных дапушчэнняў (Bullock, Green, and Ha 2010) і пакутаваць , калі існуе некалькі механізмаў, як можна было б чакаць у многіх сітуацыях (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) і Imai et al. (2011) і Imai and Yamamoto (2013) прапануюць некаторыя палепшаныя статыстычныя метады. Акрамя таго, VanderWeele (2015) прапануе лячэнне кніжнай даўжыні з цэлым шэрагам важных вынікаў, у тым ліку комплекснага падыходу да аналізу адчувальнасці.
Асобны падыход арыентаваны на эксперыментах, якія спрабуюць маніпуляваць механізм непасрэдна (напрыклад, даючы матросы вітамін С). На жаль, у многіх выпадках сацыяльных навук, часта множныя механізмы і цяжка распрацаваць працэдуры, якія змяняюць адзін без змянення іншых. Некаторыя падыходы да эксперыментальна змяняюць механізмы апісваюцца Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , і Pirlott and MacKinnon (2016) .
Даследчыкі, якія працуюць у поўнай меры факторных эксперыментаў павінны быць занепакоеныя множнай праверкай гіпотэз; см Fink, McConnell, and Vollmer (2014) і List, Shaikh, and Xu (2016) для атрымання дадатковай інфармацыі.
Нарэшце, механізмы таксама маюць даўнюю гісторыю ў філасофіі навукі , як апісана Hedström and Ylikoski (2010) .
Больш падрабязную інфармацыю аб прымяненні завочнага навучання і даследаванняў аўдыту для ацэнкі дыскрымінацыі, см Pager (2007) .
Найбольш распаўсюджаны спосаб вербаваць удзельнікаў эксперыментаў, якія вы будуеце з'яўляецца Amazon Mechanical Turk (MTurk). Паколькі MTurk пераймае аспекты традыцыйных лабараторных эксперыментаў, якія аплачваюць чалавек для выканання задач, якія яны не зрабілі б для свабодна многіх даследчыкаў ўжо пачалі выкарыстоўваць Turkers (рабочы на MTurk) у якасці паддоследных удзельнікаў, што прыводзіць да больш хуткага і таннага зборы дадзеных, чым можа быць дасягнута у традыцыйнай на кампусе лабараторныя эксперыменты (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Як правіла, самыя вялікія перавагі выкарыстання удзельнікаў, набраныя з MTurk з'яўляюцца лагістычнымі. У той час як лабараторныя эксперыменты могуць заняць некалькі тыдняў, каб запусціць і палявыя эксперыменты могуць заняць некалькі месяцаў, каб усталяваць склад, эксперыменты з удзельнікамі набраныя з MTurk могуць працаваць у дні. Напрыклад, Berinsky, Huber, and Lenz (2012) змаглі набраць 400 прадметаў у адзін дзень , каб прыняць удзел у 8 - й хвіліне эксперыменту. Акрамя таго, гэтыя ўдзельнікі могуць быць набраныя практычна для любых мэт (у тым ліку абследаванняў і масавага супрацоўніцтва, як апісана ў раздзелах 3 і 5). Гэтая прастата набору азначае, што даследчыкі могуць праводзіць паслядоўнасці узаемазвязаных эксперыментаў у хуткай паслядоўнасці.
Перад прыцягненнем удзельнікаў з MTurk для ўласных эксперыментаў, ёсць чатыры важных рэчаў, якія вы павінны ведаць. Па-першае, многія даследчыкі неспецыфічны скепсіс эксперыментаў з Turkers. Паколькі гэты скептыцызм не з'яўляецца спецыфічным, то цяжка супрацьпаставіць доказы. Тым не менш, пасля некалькіх гадоў даследаванняў з выкарыстаннем Turkers, зараз мы можам зрабіць выснову, што гэты скептыцызм не з'яўляецца асабліва апраўданым. Там было шмат даследаванняў, параўноўваць дэмаграфію Turkers з іншымі папуляцыямі і шматлікіх даследаванняў, параўноўваць вынікі эксперыментаў з Turkers досціп з іншых папуляцый. Улічваючы ўсю гэтую працу, я думаю , што лепшы спосаб для вас , каб думаць пра гэта, што Turkers з'яўляюцца разумным узорам камфорту, як і студэнты , але трохі больш разнастайнай (Berinsky, Huber, and Lenz 2012) . Такім чынам, гэтак жа, як студэнты разумнае насельніцтва для некаторых, але не ўсе, даследаванне, Turkers з'яўляюцца разумным насельніцтвам для некаторых, але не ўсе, даследаванні. Калі вы збіраецеся працаваць з Turkers, то мае сэнс прачытаць многія з гэтых параўнальных даследаванняў і зразумець свае нюансы.
Ва- другое, даследчыкі распрацавалі лепшыя метады для павышэння ўнутранай валіднасці эксперыментаў MTurk, і вы павінны вывучыць і прытрымлівацца гэтым перадавых метадаў (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Напрыклад, даследчыкі з дапамогай Turkers рэкамендуецца выкарыстоўваць грукат для выдалення няўважлівых удзельнікаў (Berinsky, Margolis, and Sances 2014, 2016) (Глядзіце таксама DJ Hauser and Schwarz (2015b) і DJ Hauser and Schwarz (2015a) ). Калі вы не выдаліце няўважлівыя удзельнік, то любы эфект лячэння можа быць прамыты ад шуму, што яны ўводзяць, так і на практыцы лік няўважлівых удзельнікаў можа быць істотным. У эксперыменце Хубер і яго калегі (2012) , каля 30% удзельнікаў не змаглі асноўная ўвага грукатам. Іншыя праблемы , якія звычайна ўзнікаюць пры выкарыстанні Turkers не зьяўляюцца наіўнымі удзельнікамі (Chandler et al. 2015) і (Zhou and Fishbach 2016) (Chandler et al. 2015) і сціральнасць (Zhou and Fishbach 2016) .
Па-трэцяе, у параўнанні з некаторымі іншымі формамі лічбавых эксперыментаў, MTurk эксперыменты не могуць маштабавацца; Stewart et al. (2015) і Stewart et al. (2015) падлічыў , што ў любы момант часу існуе ўсяго каля 7000 людзей на MTurk.
Нарэшце, вы павінны ведаць , што MTurk гэта супольнасць са сваімі ўласнымі правіламі і нормамі (Mason and Suri 2012) . Такім жа чынам , што вы спрабуеце даведацца пра культуру краіны , у якой вы збіраецеся запускаць эксперыменты, вы павінны паспрабаваць , каб даведацца больш пра культуру і нормах Turkers (Salehi et al. 2015) і (Salehi et al. 2015) . І вы павінны ведаць , што Turkers будзе казаць аб сваім вопыце , калі вы робіце што - то недарэчнае ці неэтычна (Gray et al. 2016) і (Gray et al. 2016) .
MTurk неверагодна зручны спосаб вербаваць удзельнікаў вашых эксперыментаў, ці з'яўляюцца яны лабараторным як, напрыклад, у Huber, Hill, and Lenz (2012) , або больш месцах, як, напрыклад , як тыя Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) і Goldstein et al. (2014) , Horton and Zeckhauser (2016) , і Mao et al. (2016) і Mao et al. (2016) .
Калі вы думаеце пра спробу стварыць свой уласны прадукт, я рэкамендую вам прачытаць парады , прапанаваныя групай MovieLens ў Harper and Konstan (2015) . Ключавое азарэнне ад іх вопыту ў тым, што для кожнага паспяховага праекта ёсць шмат, шмат няўдач. Так , напрыклад, група MovieLens запусціла іншыя прадукты, такія як GopherAnswers, якія былі поўныя няўдачы (Harper and Konstan 2015) . Іншы прыклад даследчыка няспраўнага пад час спробы стварыць прадукт з'яўляецца спробай Эдварда Кастронова, каб стварыць інтэрнэт-гульню пад назвай Arden. Нягледзячы на $ 250000 у фінансаванні, праект быў правал (Baker 2008) . Такія праекты, як GopherAnswers і Ардэн, на жаль, значна часцей, чым такія праекты, як MovieLens.
Я чуў ідэю Quadrant Пастера часта абмяркоўваюцца ў тэхналагічных кампаніях, і гэта дапамагае арганізаваць даследчую працу ў Google (Spector, Norvig, and Petrov 2012) .
Бонд і даследаванне калегаў (2012) таксама спрабуюць вызначыць уплыў гэтых апрацовак на сябрах тых , хто атрымаў іх. З-за дызайну эксперыменту гэтыя пералівы цяжка выявіць чыстае; Зацікаўленыя чытачы павінны ўбачыць Bond et al. (2012) і Bond et al. (2012) для больш падрабязнага абмеркавання. Джонс і яго калегі (2017) таксама правялі вельмі падобны эксперымент у ходзе выбараў 2012 года. Гэтыя эксперыменты з'яўляюцца часткай даўняй традыцыі эксперыментаў у палітычнай навуцы пра высілкі па заахвочванню галасавання (Green and Gerber 2015) . Гэтыя эксперыменты прыбудуць-з-The-галасавання з'яўляюцца агульнымі, збольшага таму, што яны знаходзяцца ў квадранце Пастера. Гэта значыць, ёсць шмат людзей, якія матываваныя, каб павялічыць галасаванне і галасаванне можа быць цікавым паводзінамі, каб праверыць больш агульныя тэорыі аб змене паводзін і сацыяльнага ўплыву.
Для атрымання кансультацыі аб выкананні палявых эксперыментаў з партнёрскімі арганізацыямі , такімі , як палітычныя партыі, НДА і бізнэсу, см Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) і Gueron (2002) . Для думкі пра тое , як партнёрскія адносіны з арганізацыямі , могуць паўплываць на даследчыя праекты, см King et al. (2007) і King et al. (2007) і Green, Calfano, and Aronow (2014) . Партнёрства таксама можа прывесці да этычных пытаннях, якія абмяркоўваліся Humphreys (2015) і Nickerson and Hyde (2016) .
Калі вы збіраецеся стварыць план аналізу перад запускам эксперыменту, я прапаную вам пачаць з чытання кіруючых прынцыпаў прадстаўлення дакладаў. Мужа і жонкі (Consolidated Стандартныя справаздачы аб выпрабаваннях) кіруючых прынцыпаў былі распрацаваны ў медыцыне (Schulz et al. 2010) і (Mayo-Wilson et al. 2013) (Schulz et al. 2010) і мадыфікаваная для сацыяльных даследаванняў (Mayo-Wilson et al. 2013) і (Mayo-Wilson et al. 2013) . Звязаны набор кіруючых прынцыпаў быў распрацаваны рэдактарамі часопіса эксперыментальнай паліталогіі (Gerber et al. 2014) і Mutz and Pemantle (2015) Gerber et al. (2015) (Gerber et al. 2014) (гл таксама Mutz and Pemantle (2015) і Gerber et al. (2015) і Gerber et al. (2015) ). Нарэшце, кіруючыя прынцыпы справаздачнасці былі распрацаваны ў псіхалогіі (APA Working Group 2008) , а таксама см Simmons, Nelson, and Simonsohn (2011) .
Калі вы ствараеце план аналізу, варта разгледзець магчымасць папярэдняй рэгістрацыі, таму што папярэдняя рэгістрацыя павысіць упэўненасць, што іншыя маюць у сваіх выніках. Акрамя таго, калі вы працуеце з партнёрам, ён будзе абмяжоўваць здольнасць вашага партнёра змяніць аналіз пасля прагляду вынікаў. Папярэдняя рэгістрацыя становіцца ўсё больш распаўсюджаным з'явай у псіхалогіі (Nosek and Lakens 2014) , паліталогія (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , і эканоміка (Olken 2015) .
Дызайн парады спецыяльна для эксперыментаў онлайн на месцах таксама прадстаўлены ў Konstan and Chen (2007) і Chen and Konstan (2015) .
То , што я назваў стратэгію армады часам называюць праграмныя даследаванні; см Wilson, Aronson, and Carlsmith (2010) .
Больш падрабязную інфармацыю аб эксперыментах MusicLab см Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) і Salganik (2007) . Больш падрабязную інфармацыю аб пераможца атрымлівае ўсе рынкі, см Frank and Cook (1996) . Больш падрабязную інфармацыю аб разблытванне поспеху і майстэрства ў больш агульным плане , см Mauboussin (2012) , Watts (2012) і Frank (2016) .
Існуе яшчэ адзін падыход да ўстаранення плацяжоў ўдзельніку, даследчыкі павінны выкарыстоўваць з асцярожнасцю: заклік на ваенную службу. У многіх эксперыментах онлайн палявых ўдзельнікі не ў асноўным распрацаваны ў эксперыменты і ніколі не кампенсаваныя. Прыклады такога падыходу ўключаюць Restivo і ван дэ Rijt ў (2012) эксперымент на ўзнагароды ў Вікіпедыі і Бонд і калегі (2012) эксперымент на заахвочванне людзей галасаваць. Гэтыя эксперыменты сапраўды не маюць нулявы зменныя выдаткі, хутчэй, яны маюць нулявы зменныя выдаткі для даследчыкаў. У такіх эксперыментах, нават калі кошт кожнага ўдзельніка вельмі малая, сукупны кошт можа быць даволі вялікім. Даследчыкі, якія працуюць масавыя онлайн-эксперыменты часта апраўдваюць важнасць невялікіх разліковых эфектаў лячэння, кажучы, што гэтыя малыя эфекты могуць стаць важнымі пры ўжыванні да многіх людзям. Сапраўды гэтак жа мысленне ставіцца да выдаткаў, якія даследчыкі накладаюць на ўдзельнікаў. Калі эксперымент выклікае адзін мільён людзей марнаваць адну хвіліну, эксперымент не вельмі шкодна для любога канкрэтнага чалавека, але ў сукупнасці ён выдаткаваў амаль два гады часу.
Іншы падыход да стварэння нулявы аплаты зменнай выдаткаў для ўдзельнікаў выкарыстоўваць латарэю, падыход , які таксама быў выкарыстаны ў даследаваннях абследавання (Halpern et al. 2011) і (Halpern et al. 2011) . Больш падрабязную інфармацыю аб распрацоўцы прыемны карыстацкі досвед, см Toomim et al. (2011) і Toomim et al. (2011) . Для дадатковай інфармацыі аб выкарыстанні ботаў для стварэння нулявых эксперыментаў зменнай кошту см ( ??? ) .
Тры R - х , як першапачаткова прапанаваны Russell and Burch (1959) наступным чынам :
"Замена азначае замяшчэнне свядомых жывых вышэйшых жывёл неадушаўлёныя матэрыялу. Скарачэнне азначае памяншэнне колькасці жывёл, якія выкарыстоўваюцца для атрымання інфармацыі аб зададзеным колькасці і дакладнасці. Дапрацоўка азначае любое зніжэнне частоты або цяжару нечалавечых працэдур, якія прымяняюцца да таго звера, якія яшчэ павінны быць выкарыстаны ".
Тры R пра тое, што я прапаную, ня перавызначаць этычныя прынцыпы, апісаныя ў чале 6. Больш за тое, яны з'яўляюцца больш разгорнутым варыянтам адзін з тых прынцыпаў, дабратворна-канкрэтна ў абстаноўцы чалавечых эксперыментаў.
З пункту гледжання першага R ( «замену»), параўноўваючы эмацыянальны даміно эксперымент (Kramer, Guillory, and Hancock 2014) і эмацыянальны даміно натуральны эксперымент (Lorenzo Coviello et al. 2014) і (Lorenzo Coviello et al. 2014) , (Lorenzo Coviello et al. 2014) прапануе некаторыя агульныя ўрокі пра кампрамісы , уцягнутых пры пераходзе ад эксперыментаў да натурных эксперыментаў (і іншых падыходаў, такім як адпаведнасць, што спроба аппроксимировать эксперыменты ў неэкспериментальных дадзеных, глядзіце раздзел 2). У дадатку да этычных пераваг, пераход ад эксперыментальнага ня-эксперыментальных даследаванняў таксама дазваляе даследчыкам вывучаць метады лячэння, што яны не ў стане матэрыяльна-тэхнічнае забеспячэнне для разгортвання. Гэтыя этычныя і лагістычныя перавагі даводзіцца плаціць, аднак. Пры натурных эксперыментах даследчыкі маюць менш кантролю над рэчамі, як вярбоўка удзельнікаў, рандомизации і характар лячэння. Напрыклад, адно абмежаванне ападкаў у якасці лячэння з'яўляецца тое, што гэта і павялічвае станоўча і адмоўна памяншаецца. У эксперыментальным даследаванні, аднак, Крамер і яго калегі змаглі прыстасавацца станоўча і адмоўна незалежна адзін ад аднаго. Прыватнасці , падыход , які выкарыстоўваецца Lorenzo Coviello et al. (2014) і Lorenzo Coviello et al. (2014) атрымала далейшае развіццё з дапамогай L. Coviello, Fowler, and Franceschetti (2014) . Для ўвядзення ў інструментальных зменных, які з'яўляецца падыход , які выкарыстоўваецца Lorenzo Coviello et al. (2014) і Lorenzo Coviello et al. (2014) , см Angrist and Pischke (2009) (менш фармальны) або Angrist, Imbens, and Rubin (1996) (больш фармальны). Для скептычнай ацэнкі інструментальных зменных см Deaton (2010) , а таксама для ўвядзення ў інструментальныя зменныя са слабымі інструментамі (дождж з'яўляецца слабым інструментам), см Murray (2006) . У цэлым, добрае ўвядзенне ў натуральныя эксперыменты даюцца Dunning (2012) , у той час як Rosenbaum (2002) , ( ??? ) , і Shadish, Cook, and Campbell (2001) прапануюць добрыя ідэі па нагоды ацэнкі прычынна - следчых эфектаў без эксперыментаў.
З пункту гледжання другога R ( «удакладнення»), ёсць навуковыя і лагістычныя кампрамісы пры разглядзе змены канструкцыі эмацыйнага Contagion ад блакавання паведамленні для павышэння паведамленні. Напрыклад, гэта можа быць так, што тэхнічная рэалізацыя Стужкі навін робіць гэта значна прасцей зрабіць эксперымент, у якім блакуюцца паведамленні, а не той, у якім яны фарсіраваныя (звярніце ўвагу, што эксперымент з удзелам блакавання паведамленняў можа быць рэалізаваны ў выглядзе пласта на верхняй часткі сістэмы падачы навін без неабходнасці змены базавай сістэмы). З навуковага пункту гледжання, аднак, тэорыя адрасаваны эксперыментам не ясна паказваюць адну канструкцыю над іншым. На жаль, я не ў курсе істотнага папярэдняга даследаванні аб адносных перавагах блакавання і павышэння ўтрымання ў Стужцы навінаў. Акрамя таго, я не бачыў шмат даследаванняў пра удасканальваючы метады лячэння, каб зрабіць іх менш шкоднымі; Адзіным выключэннем з'яўляецца B. Jones and Feamster (2015) , якая разглядае выпадак вымярэння інтэрнэт - цэнзуры (тэму я абмяркоўваю ў главе 6 , у сувязі з вывучэннем Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
З пункту гледжання трэцяга R ( «аднаўленьня»), добрыя ўвядзення да традыцыйнага аналізу магутнасці вызначаюцца Cohen (1988) (кніга) і Cohen (1992) (у тэксце), у той час як Gelman and Carlin (2014) прапануюць некалькі іншага пункту гледжання. ковариаты папярэдняй апрацоўкі могуць быць уключаны ў канструкцыі і аналізу стадыі эксперыментаў; кіраўнік 4 Gerber and Green (2012) забяспечвае добрае ўвядзенне ў абодвух падыходаў, і Casella (2008) забяспечвае апрацоўку больш глыбокі. Метады, якія выкарыстоўваюць гэтую інфармацыю папярэдняй апрацоўкі ў рандомизации, як правіла, называюцца альбо заблакаваныя эксперыментальныя канструкцыі або слаістыя эксперыментальныя канструкцыі (тэрміналогія не выкарыстоўваюцца паслядоўна ва ўсіх грамадах); гэтыя метады цесна звязаны з стратыфікаваць метадамі адбору пробаў , апісанымі ў раздзеле 3. Глядзі Higgins, Sävje, and Sekhon (2016) для дадатковай інфармацыі аб выкарыстанні гэтых канструкцый у масіўных эксперыментах. ковариаты папярэдняй апрацоўкі таксама могуць быць уключаны ў стадыі аналізу. McKenzie (2012) даследуе адрозненні-в-адрозненнях падыход да аналізу палявых эксперыментаў больш падрабязна. См Carneiro, Lee, and Wilhelm (2016) для атрымання дадатковай інфармацыі пра кампрамісы паміж рознымі падыходамі да павышэння дакладнасці ў ацэнках эфектаў лячэння. І, нарэшце, пры вырашэнні пытання, каб паспрабаваць ўключыць ковариат папярэдняй апрацоўкі на стадыі праектавання або аналізу стадыі (або абодва), ёсць некалькі фактараў, якія неабходна ўлічваць. Ва ўмовах , калі даследчыкі маюць намер паказаць , што яны не з'яўляюцца «рыбалкай» (Humphreys, Sierra, and Windt 2013) , з выкарыстаннем ковариата папярэдняй апрацоўкі на стадыі праектавання могуць быць карысныя (Higgins, Sävje, and Sekhon 2016) . У сітуацыях, калі ўдзельнікі прыбываюць паслядоўна, асабліва эксперыменты онлайн палёў, з выкарыстаннем інфармацыі папярэдняй апрацоўкі ў стадыі праектавання можа быць цяжкімі лагістычны; глядзіце, напрыклад, Xie and Aurisset (2016) .
Варта дадаць трохі інтуіцыі аб тым, чаму розніца ў рознасцяў падыход можа быць значна больш эфектыўным, чым розніца-в-азначае адно. Многія онлайн вынікі маюць вельмі высокую дысперсію (глядзі , напрыклад, RA Lewis and Rao (2015) і Lamb et al. (2015) і Lamb et al. (2015) ) і з'яўляюцца адносна стабільнымі ў працягу доўгага часу. У гэтым выпадку адзнака змены будзе мець істотна меншую дысперсію, павялічваючы магутнасць статыстычнага тэсту. Адной з прычын такога падыходу не выкарыстоўваюцца больш часта, што да лічбавага стагоддзя, не было распаўсюджана мець вынікі папярэдняй апрацоўкі. Больш канкрэтны спосаб думаць пра гэта, каб прадставіць сабе эксперымент па вымярэнні, ці выклікае канкрэтная працэдура практыкаванні страты вагі. Калі прыняць падыход розніца-в-сродкаў, ваша ацэнка будзе мець зменлівасць, якая ўзнікае ад зменлівасці вагаў ў папуляцыі. Калі вы робіце падыход розніцы-в-адрозненні, аднак, што ў прыродзе змена вагі выдаляецца, і вы можаце лёгка выявіць розніцу, выкліканае лячэннем.
Нарэшце, я лічыў, дадаўшы чацвёрты R: «перапрафіляваць». Гэта значыць, калі даследчыкі знаходзяць сябе з больш дасведчанымі дадзенымі, чым ім неабходна для вырашэння іх першапачатковага пытання даследавання, яны павінны пераарыентаваць гэтыя задаваць новыя пытанні. Напрыклад, уявіце, што Крамер і яго калегі выкарысталі рознасны-в-адрозненнях ацэншчык і апынуліся больш дадзеных, чым ім неабходна для вырашэння іх пытання даследавання. Замест таго, каб не выкарыстоўваць гэтыя дадзеныя ў поўнай меры, яны маглі б вывучалі памер эфекту ў залежнасці ад эмацыйнага выразы папярэдняй апрацоўкі. Падобна таму , як Schultz et al. (2007) і Schultz et al. (2007) выявіў , што эфект ад лячэння быў розны для лёгкіх і цяжкіх карыстальнікаў, магчыма , наступства Стужкі навін было розныя для людзей , якія ўжо мелі тэндэнцыю пакідаць шчаслівыя (або сумныя) паведамленні. Repurposing можа прывесці да «рыбалка» (Humphreys, Sierra, and Windt 2013) і «р-хакерства» (Simmons, Nelson, and Simonsohn 2011) , але яны ў значнай ступені адрасны з камбінацыяй сумленнай справаздачнасці (Simmons, Nelson, and Simonsohn 2011) , папярэдняя рэгістрацыя (Humphreys, Sierra, and Windt 2013) , а таксама метады машыннага навучання , якія спрабуюць пазбегнуць празмернай падганяння.