Mae cwestiynau am achosoldeb mewn ymchwil gymdeithasol yn aml yn gymhleth ac yn gymhleth. Ar gyfer ymagwedd sefydliadol at achosoldeb yn seiliedig ar graffiau achosol, gweler Pearl (2009) , ac ar gyfer dull sefydliadol yn seiliedig ar ganlyniadau posibl, gweler Imbens and Rubin (2015) . I gael cymhariaeth rhwng y ddau ddull hwn, gweler Morgan and Winship (2014) . Ar gyfer ymagwedd ffurfiol at ddiffinio confounder, gweler VanderWeele and Shpitser (2013) .
Yn y bennod hon, rwyf wedi creu yr hyn a ymddangosodd fel llinell ddisglair rhwng ein gallu i wneud amcangyfrifon achosol o ddata arbrofol ac nid arbrofi. Fodd bynnag, credaf, mewn gwirionedd, bod y gwahaniaeth yn fwy aneglur. Er enghraifft, mae pawb yn derbyn bod ysmygu'n achosi canser, er nad oes arbrawf wedi'i reolaeth ar hap sy'n gorfodi pobl i ysmygu erioed wedi cael ei wneud. Am driniaethau llyfr gwych ar wneud amcangyfrifon achosol o ddata nad ydynt yn arbrofol, gweler Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , a Dunning (2012) .
Mae Penodau 1 a 2 o Freedman, Pisani, and Purves (2007) cynnig cyflwyniad clir i'r gwahaniaethau rhwng arbrofion, arbrofion dan reolaeth, ac arbrofion a reolir ar hap.
Manzi (2012) rhoi cyflwyniad diddorol a darllenadwy i'r tanysgrifiadau athronyddol ac ystadegol arbrofion a reolir ar hap. Mae hefyd yn darparu enghreifftiau byd-eang diddorol o bŵer arbrofi mewn busnes. Issenberg (2012) rhoi cyflwyniad diddorol i'r defnydd o arbrofi mewn ymgyrchoedd gwleidyddol.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, ac Athey and Imbens (2016b) rhoi cyflwyniadau da i'r agweddau ystadegol ar ddylunio a dadansoddi arbrofol. Ymhellach, mae triniaethau ardderchog o'r defnydd o arbrofion mewn sawl maes gwahanol: economeg (Bardsley et al. 2009) , cymdeithaseg (Willer and Walker 2007; Jackson and Cox 2013) , seicoleg (Aronson et al. 1989) , gwyddoniaeth wleidyddol (Morton and Williams 2010) , a pholisi cymdeithasol (Glennerster and Takavarasha 2013) .
Mae pwysigrwydd recriwtio cyfranogwyr (ee samplu) yn aml yn cael ei werthfawrogi'n fawr mewn ymchwil arbrofol. Fodd bynnag, os yw effaith y driniaeth yn heterogenaidd yn y boblogaeth, yna mae samplo'n hanfodol. Longford (1999) gwneud y pwynt hwn yn glir pan fydd yn argymell i ymchwilwyr feddwl am arbrofion fel arolwg poblogaeth gyda samplu haphazard.
Rwyf wedi awgrymu bod continwwm rhwng arbrofion labordy a meysydd, ac mae ymchwilwyr eraill wedi cynnig teipolegau mwy manwl, yn enwedig rhai sy'n gwahanu'r gwahanol fathau o arbrofion maes (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Mae nifer o bapurau wedi cymharu arbrofion labordy a maes yn yr haniaethol (Falk and Heckman 2009; Cialdini 2009) ac o ran canlyniadau arbrofion penodol mewn gwyddoniaeth wleidyddol (Coppock and Green 2015) , economeg (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , a seicoleg (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) cynnig dyluniad ymchwil braf ar gyfer cymharu canlyniadau arbrofion labordy a maes. Parigi, Santana, and Cook (2017) disgrifio sut y gall arbrofion maes ar-lein gyfuno rhai o nodweddion arbrofion labordy a maes.
Mae pryderon ynghylch cyfranogwyr sy'n newid eu hymddygiad oherwydd eu bod yn gwybod eu bod yn cael eu harsylwi yn cael eu galw weithiau yn effeithiau galw , ac maent wedi cael eu hastudio mewn seicoleg (Orne 1962) ac economeg (Zizzo 2010) . Er ei fod yn gysylltiedig yn bennaf ag arbrofion labordy, gall yr un problemau hyn achosi problemau ar gyfer arbrofion maes hefyd. Mewn gwirionedd, mae effeithiau galw hefyd yn cael eu galw'n effeithiau Hawthorne weithiau, sef term sy'n deillio o'r arbrofion goleuo enwog a ddechreuodd yn 1924 yng Nghanolfan Hawthorne Works of the Western Electric Company (Adair 1984; Levitt and List 2011) . Mae effeithiau'r ddau gais ac effeithiau Hawthorne yn gysylltiedig yn agos â'r syniad o fesur adweithiol a drafodir ym mhennod 2 (gweler hefyd Webb et al. (1966) ).
Mae gan hanes arbrofion hanes hir mewn economeg (Levitt and List 2009) , gwyddoniaeth wleidyddol (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , seicoleg (Shadish 2002) , a pholisi cyhoeddus (Shadish and Cook 2009) . Un maes gwyddoniaeth gymdeithasol lle bu arbrofion maes yn gyflym yn ddatblygiad rhyngwladol. I gael adolygiad cadarnhaol o'r gwaith hwnnw o fewn economeg, gweler Banerjee and Duflo (2009) , ac ar gyfer asesiad beirniadol, gweler Deaton (2010) . Am adolygiad o'r gwaith hwn mewn gwyddoniaeth wleidyddol, gweler Humphreys and Weinstein (2009) . Yn olaf, mae'r heriau moesegol sy'n deillio o arbrofion maes wedi cael eu harchwilio yng nghyd-destun gwyddoniaeth wleidyddol (Humphreys 2015; Desposato 2016b) ac economeg datblygu (Baele 2013) .
Yn yr adran hon, awgrymais y gellir defnyddio gwybodaeth cyn-driniaeth i wella cywirdeb effeithiau triniaeth amcangyfrifedig, ond mae peth dadl ynghylch yr ymagwedd hon; gweler Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , a Bloniarz et al. (2016) am ragor o wybodaeth.
Yn olaf, mae dau fath arall o arbrofion a wneir gan wyddonwyr cymdeithasol nad ydynt yn ffitio'n daclus ar hyd dimensiwn y maes labordy: arbrofion arolwg ac arbrofion cymdeithasol. Arbrofion arolygu yw arbrofion gan ddefnyddio seilwaith arolygon sy'n bodoli eisoes a chymharu ymatebion i fersiynau amgen o'r un cwestiynau (cyflwynir rhai arbrofion arolwg ym Mhennod 3); Am ragor o wybodaeth ar arbrofion arolwg, gweler Mutz (2011) . Arbrofion cymdeithasol yw arbrofion lle mae'r driniaeth yn rhywfaint o bolisi cymdeithasol y gellir ei weithredu gan lywodraeth yn unig. Mae arbrofion cymdeithasol yn gysylltiedig yn agos â gwerthusiad rhaglenni. Am ragor o wybodaeth ar arbrofion polisi, gweler Heckman and Smith (1995) , Orr (1998) , a @ glennerster_running_2013.
Rwyf wedi dewis canolbwyntio ar dri chysyniad: dilysrwydd, heterogeneity o effeithiau triniaeth, a mecanweithiau. Mae gan y cysyniadau hyn enwau gwahanol mewn gwahanol feysydd. Er enghraifft, mae seicolegwyr yn dueddol o symud y tu hwnt i arbrofion syml trwy ganolbwyntio ar gyfryngwyr a chymedrolwyr (Baron and Kenny 1986) . Mae'r syniad o gyfryngwyr yn cael ei ddal gan yr hyn rwy'n galw mecanweithiau, ac mae'r syniad o gymedrolwyr yn cael ei ddal gan yr hyn rwy'n galw dilysrwydd allanol (ee, a fyddai canlyniadau'r arbrawf yn wahanol pe bai'n cael ei redeg mewn gwahanol sefyllfaoedd) a heterogeneity of treatment effects ( ee, yw'r effeithiau mwy i rai pobl nag i eraill).
Yr arbrawf gan Schultz et al. (2007) dangos sut y gellir defnyddio damcaniaethau cymdeithasol i ddylunio ymyriadau effeithiol. Am ddadl fwy cyffredinol am rôl theori wrth ddylunio ymyriadau effeithiol, gweler Walton (2014) .
Cyflwynwyd cysyniadau dilysrwydd mewnol ac allanol yn gyntaf gan Campbell (1957) . Gweler Shadish, Cook, and Campbell (2001) am hanes manylach a chwblhau dilysrwydd casgliad ystadegol, dilysrwydd mewnol, dilysrwydd adeiladu a dilysrwydd allanol.
Am drosolwg o faterion sy'n ymwneud â dilysrwydd casgliad ystadegol mewn arbrofion, gweler Gerber and Green (2012) (o safbwynt gwyddoniaeth gymdeithasol) a Imbens and Rubin (2015) (o safbwynt ystadegol). Mae rhai materion o ddilysrwydd casgliad ystadegol sy'n codi'n benodol mewn arbrofion maes ar-lein yn cynnwys materion megis dulliau cyfrifiannol effeithlon o greu cyfnodau hyder gyda data dibynnol (Bakshy and Eckles 2013) .
Gall dilysrwydd mewnol fod yn anodd ei sicrhau mewn arbrofion maes cymhleth. Gweler, er enghraifft, Gerber and Green (2000) , Imai (2005) , a Gerber and Green (2005) am ddadl ynghylch gweithredu arbrawf maes cymhleth ynghylch pleidleisio. Kohavi et al. (2012) a Kohavi et al. (2013) rhoi cyflwyniad i heriau dilysrwydd yr egwyl mewn arbrofion maes ar-lein.
Un o fygythiad mawr i ddilysrwydd mewnol yw'r posibilrwydd o hapoli ar ôl methu. Un ffordd bosibl o ganfod problemau gyda'r haposod yw cymharu'r grwpiau trin a rheoli ar nodweddion arsylwi. Gelwir y math hwn o gymhariaeth yn wiriad cydbwysedd . Gweler Hansen and Bowers (2008) am ymagwedd ystadegol tuag at gydbwyso gwiriadau a Mutz and Pemantle (2015) am bryderon ynghylch gwiriadau cydbwysedd. Er enghraifft, gan ddefnyddio gwiriad cydbwysedd, Allcott (2011) rywfaint o dystiolaeth nad oedd hapoli ar waith yn gywir mewn tri o'r arbrofion Opower (gweler tabl 2; safleoedd 2, 6, ac 8). Am ddulliau eraill, gweler pennod 21 Imbens and Rubin (2015) .
Ymhlith y prif bryderon eraill sy'n ymwneud â dilysrwydd mewnol yw: (1) anghydweithrediad unochrog, lle nad oedd pawb yn y grŵp triniaeth mewn gwirionedd wedi derbyn y driniaeth, (2) anghydweithrediad dwy ochr, lle nad yw pawb yn y grŵp triniaeth yn derbyn y driniaeth a rhai pobl yn mae'r grŵp rheoli'n derbyn y driniaeth, (3) adfywiad, lle nad yw canlyniadau'n cael eu mesur ar gyfer rhai cyfranogwyr, a (4) ymyrraeth, lle mae'r driniaeth yn cael ei ollwng gan bobl yn yr amod triniaeth i bobl yn y cyflwr rheoli. Gweler penodau 5, 6, 7, ac 8 o Gerber and Green (2012) am fwy ar bob un o'r materion hyn.
Am ragor o wybodaeth am ddilysrwydd adeiladu, gweler Westen and Rosenthal (2003) , ac am fwy ar ddilysrwydd adeiladu mewn ffynonellau data mawr, Lazer (2015) a pennod 2 y llyfr hwn.
Un agwedd ar ddilysrwydd allanol yw'r lleoliad lle mae ymyriad yn cael ei brofi. Allcott (2015) darparu triniaeth ddamcaniaethol ac Allcott (2015) ofalus o ragfarn dewis safle. Mae'r mater hwn hefyd yn cael ei drafod gan Deaton (2010) . Agwedd arall ar ddilysrwydd allanol yw a fyddai gweithrediadau amgen o'r un ymyriad yn cael effeithiau tebyg. Yn yr achos hwn, cymhariaeth rhwng Schultz et al. (2007) a Allcott (2011) dangos bod yr arbrofion Opower wedi cael effaith driniaeth amcangyfrifedig llai na'r arbrofion gwreiddiol gan Schultz a chydweithwyr (1.7% yn erbyn 5%). Allcott (2011) fod yr arbrofion dilynol yn cael effaith lai oherwydd y ffyrdd yr oedd y driniaeth yn wahanol: emosiwn wedi'i ysgrifennu'n llaw fel rhan o astudiaeth a noddir gan brifysgol, o'i gymharu â emosicon argraffedig fel rhan o gynhyrchiad màs adroddiad gan gwmni pŵer.
Am drosolwg ardderchog o heterogeneity effeithiau triniaeth mewn arbrofion maes, gweler pennod 12 Gerber and Green (2012) . Ar gyfer cyflwyniadau i heterogeneity effeithiau triniaeth mewn treialon meddygol, gweler Kent and Hayward (2007) , Longford (1999) , a Kravitz, Duan, and Braslow (2004) . Yn gyffredinol, mae ystyriaethau o heterogeneity of treatment effects yn canolbwyntio ar wahaniaethau yn seiliedig ar nodweddion cyn-driniaeth. Os oes gennych ddiddordeb mewn heterogeneity yn seiliedig ar ganlyniadau ôl-driniaeth, yna mae angen dulliau mwy cymhleth, fel prif haeniad (Frangakis and Rubin 2002) ; gweler Page et al. (2015) gyfer adolygiad.
Mae llawer o ymchwilwyr yn amcangyfrif heterogeneity effeithiau triniaeth gan ddefnyddio atchweliad llinol, ond mae dulliau newydd yn dibynnu ar ddysgu peiriannau; gweler, er enghraifft, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , ac Athey and Imbens (2016a) .
Mae peth amheuaeth ynghylch canfyddiadau heterogeneity effeithiau oherwydd problemau cymharol lluosog a "pysgota." Mae yna amrywiaeth o ddulliau ystadegol a all helpu i fynd i'r afael â phryderon am gymhariaeth lluosog (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Un ymagwedd at bryderon am "bysgota" yw cyn cofrestru, sy'n dod yn fwyfwy cyffredin mewn seicoleg (Nosek and Lakens 2014) , gwyddoniaeth wleidyddol (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ac economeg (Olken 2015) .
Yn yr astudiaeth gan Costa and Kahn (2013) dim ond tua hanner y cartrefi yn yr arbrawf y gellid eu cysylltu â'r wybodaeth ddemograffig. Dylai darllenwyr sydd â diddordeb yn y manylion hyn gyfeirio at y papur gwreiddiol.
Mae mecanweithiau yn hynod o bwysig, ond maent yn anodd iawn i astudio. Mae ymchwil am fecanweithiau'n gysylltiedig yn agos ag astudio cyfryngwyr mewn seicoleg (ond gweler hefyd VanderWeele (2009) am gymhariaeth fanwl rhwng y ddwy syniad). Mae dulliau ystadegol o ddod o hyd i fecanweithiau, megis yr ymagwedd a ddatblygwyd yn Baron and Kenny (1986) , yn eithaf cyffredin. Yn anffodus, mae'n ymddangos bod y gweithdrefnau hynny yn dibynnu ar rai rhagdybiaethau cryf (Bullock, Green, and Ha 2010) ac yn dioddef pan fo sawl mecanwaith, fel y gallai un ddisgwyl mewn sawl sefyllfa (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ac Imai and Yamamoto (2013) cynnig rhai dulliau ystadegol gwell. Ymhellach, mae VanderWeele (2015) cynnig triniaeth hyd llyfr gyda nifer o ganlyniadau pwysig, gan gynnwys dull cynhwysfawr o ddadansoddi sensitifrwydd.
Mae ymagwedd ar wahān yn canolbwyntio ar arbrofion sy'n ceisio trin y mecanwaith yn uniongyrchol (ee, rhoi marwyr i fitamin C). Yn anffodus, mewn llawer o leoliadau gwyddoniaeth, mae yna lawer o fecanweithiau yn aml ac mae'n anodd dylunio triniaethau sy'n newid un heb newid yr eraill. Mae Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , a Pirlott and MacKinnon (2016) yn disgrifio rhai ymagweddau at fecanweithiau newid yn arbrofol.
Bydd angen i ymchwilwyr sy'n rhedeg arbrofion ffactorau llawn bryderu am brofion lluosog o ragdybiaethau; gweler Fink, McConnell, and Vollmer (2014) a List, Shaikh, and Xu (2016) am ragor o wybodaeth.
Yn olaf, mae gan fecanweithiau hanes hir hefyd yn athroniaeth gwyddoniaeth fel y disgrifiwyd gan Hedström and Ylikoski (2010) .
I gael mwy o wybodaeth am astudiaethau gohebiaeth ac astudiaethau archwilio i fesur gwahaniaethu, gweler Pager (2007) .
Y ffordd fwyaf cyffredin o recriwtio cyfranogwyr i arbrofion yr ydych chi'n eu hadeiladu yw Amazon Mecanical Turk (MTurk). Gan fod MTurk yn dynwared agweddau ar arbrofion labordy traddodiadol - yn talu pobl i gwblhau tasgau na fyddent yn eu gwneud am ddim - mae llawer o ymchwilwyr eisoes wedi dechrau defnyddio Turkers (y gweithwyr ar MTurk) fel cyfranogwyr arbrofol, gan arwain at gasgliad data cyflymach a rhatach na ellir ei gyflawni yn arbrofion traddodiadol labordy ar y campws (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Yn gyffredinol, mae'r manteision mwyaf o ddefnyddio cyfranogwyr a recriwtiwyd o MTurk yn logistaidd. Er y gall arbrofion labordy gymryd wythnosau i redeg a gall arbrofion maes gymryd misoedd i sefydlu, gellir cynnal arbrofion gyda chyfranogwyr a recriwtiwyd o MTurk mewn diwrnodau. Er enghraifft, roedd Berinsky, Huber, and Lenz (2012) yn gallu recriwtio 400 o bynciau mewn un diwrnod i gymryd rhan mewn arbrawf 8 munud. Yn ogystal, gellir recriwtio'r cyfranogwyr hyn at unrhyw ddiben bron (gan gynnwys arolygon a chydweithredu màs, fel y trafodwyd ym mhenodau 3 a 5). Mae'r rhwyddineb recriwtio hwn yn golygu y gall ymchwilwyr redeg dilyniannau o arbrofion cysylltiedig mewn olyniaeth gyflym.
Cyn recriwtio cyfranogwyr o MTurk ar gyfer eich arbrofion eich hun, mae pedwar peth pwysig y mae angen i chi wybod. Yn gyntaf, mae gan lawer o ymchwilwyr amheuon annisgwyl arbrofion yn cynnwys Turkers. Gan nad yw'r amheuaeth hon yn benodol, mae'n anodd gwrthsefyll â thystiolaeth. Fodd bynnag, ar ôl sawl blwyddyn o astudiaethau gan ddefnyddio Turkers, gallwn bellach ddod i'r casgliad nad yw'r amheuaeth hon yn gyfiawnhau'n arbennig. Bu llawer o astudiaethau'n cymharu demograffeg Turkers â rhai poblogaethau eraill ac mae llawer o astudiaethau sy'n cymharu canlyniadau'r arbrofion gyda Turkers yn gwadu'r rhai o boblogaethau eraill. O ystyried yr holl waith hwn, rwy'n credu mai'r ffordd orau i chi feddwl amdani yw bod Turkers yn sampl cyfleus rhesymol, yn debyg iawn i fyfyrwyr ond ychydig yn fwy amrywiol (Berinsky, Huber, and Lenz 2012) . Felly, fel y mae myfyrwyr yn boblogaeth resymol ar gyfer ymchwil, ond nid pob un, mae Turkers yn boblogaeth resymol ar gyfer ymchwil, ond nid pob un, i gyd. Os ydych chi'n mynd i weithio gyda Turkers, mae'n gwneud synnwyr i ddarllen llawer o'r astudiaethau cymharol hyn a deall eu naws.
Yn ail, mae ymchwilwyr wedi datblygu arferion gorau ar gyfer cynyddu dilysrwydd mewnol arbrofion MTurk, a dylech chi ddysgu am y arferion gorau hyn a'u dilyn (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Er enghraifft, anogir ymchwilwyr sy'n defnyddio Turkers i ddefnyddio sgrinwyr i ddileu cyfranogwyr (Berinsky, Margolis, and Sances 2014, 2016) (ond gweler hefyd DJ Hauser and Schwarz (2015b) a DJ Hauser and Schwarz (2015a) ). Os na wnewch chi ddileu cyfranogwyr analluog, yna gellir golchi unrhyw effaith y driniaeth gan y sŵn y maent yn ei gyflwyno, ac yn ymarferol gall nifer y cyfranogwyr anfodlon fod yn sylweddol. Yn yr arbrawf gan Huber a chydweithwyr (2012) , methodd tua 30% o'r cyfranogwyr sgrinwyr sylw sylfaenol. Mae problemau eraill sy'n codi'n gyffredin pan ddefnyddir Turkers yn gyfranogwyr nad ydynt yn naïo (Chandler et al. 2015) ac adfywiad (Zhou and Fishbach 2016) .
Yn drydydd, o'i gymharu â rhai mathau eraill o arbrofion digidol, ni all arbrofion MTurk raddfa; Stewart et al. (2015) amcangyfrif bod dim ond tua 7,000 o bobl ar MTurk ar unrhyw adeg benodol.
Yn olaf, dylech wybod bod MTurk yn gymuned gyda'i reolau a'i normau ei hun (Mason and Suri 2012) . Yn yr un modd y byddech chi'n ceisio darganfod mwy am ddiwylliant gwlad lle'r oeddech chi'n mynd i gynnal eich arbrofion, dylech geisio darganfod mwy am ddiwylliant a normau Turkers (Salehi et al. 2015) . A dylech wybod y bydd y Turkers yn sôn am eich arbrawf os gwnewch rywbeth amhriodol neu anfoesegol (Gray et al. 2016) .
Mae MTurk yn ffordd anhygoel o gyfleus i recriwtio cyfranogwyr i'ch arbrofion, p'un a ydynt yn labordy tebyg, fel un o Huber, Hill, and Lenz (2012) , neu fwy o feysydd tebyg, megis y rhai sy'n Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , a Mao et al. (2016) .
Os ydych chi'n ystyried ceisio creu eich cynnyrch eich hun, rwy'n argymell eich bod chi'n darllen y cyngor a gynigir gan y group MovieLens yn Harper and Konstan (2015) . Mewnwelediad allweddol o'u profiad yw bod llawer o fethiannau ar gyfer pob prosiect llwyddiannus. Er enghraifft, lansiodd y grŵp MovieLens gynhyrchion eraill, megis GopherAnswers, a oedd yn fethiannau cyflawn (Harper and Konstan 2015) . Enghraifft arall o ymchwilydd sy'n methu wrth geisio adeiladu cynnyrch yw ymgais Edward Castronova i adeiladu gêm ar-lein o'r enw Arden. Er gwaethaf cyllid o $ 250,000, roedd y prosiect yn flop (Baker 2008) . Yn anffodus, mae prosiectau fel GopherAnswers ac Arden yn llawer mwy cyffredin na phrosiectau fel MovieLens.
Rwyf wedi clywed y syniad o Quadrant Pasteur a drafodir yn aml mewn cwmnïau technegol, ac mae'n helpu i drefnu ymdrechion ymchwil yn Google (Spector, Norvig, and Petrov 2012) .
Mae astudiaeth Bond a chydweithwyr (2012) hefyd yn ceisio canfod effaith y triniaethau hyn ar ffrindiau'r rhai a gafodd eu derbyn. Oherwydd dyluniad yr arbrawf, mae'r rhain yn anodd i'w canfod yn lân; dylai darllenwyr sydd â diddordeb weld Bond et al. (2012) am drafodaeth fwy trylwyr. Cynhaliodd Jones a chydweithwyr (2017) arbrawf debyg iawn hefyd yn ystod etholiad 2012. Mae'r arbrofion hyn yn rhan o draddodiad hir o arbrofion mewn gwyddoniaeth wleidyddol ar ymdrechion i annog pleidleisio (Green and Gerber 2015) . Mae'r arbrofion tynnu allan o'r bleidlais hyn yn gyffredin, yn rhannol oherwydd eu bod yn Quadrant Pasteur. Hynny yw, mae llawer o bobl sy'n cael eu cymell i gynyddu pleidleisio a gall pleidleisio fod yn ymddygiad diddorol i brofi damcaniaethau mwy cyffredinol ynghylch newid ymddygiad a dylanwad cymdeithasol.
Am gyngor ynghylch cynnal arbrofion maes gyda sefydliadau partner megis pleidiau gwleidyddol, cyrff anllywodraethol a busnesau, gweler Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) , a Gueron (2002) . I feddwl am sut y gall partneriaethau â sefydliadau effeithio ar ddyluniadau ymchwil, gweler King et al. (2007) a Green, Calfano, and Aronow (2014) . Gall partneriaeth hefyd arwain at gwestiynau moesegol, fel y trafodwyd gan Humphreys (2015) a Nickerson and Hyde (2016) .
Os ydych chi'n mynd ati i greu cynllun dadansoddi cyn cynnal eich arbrawf, yr wyf yn awgrymu eich bod yn dechrau trwy ddarllen canllawiau adrodd. Datblygwyd canllawiau CONSORT (Treialon Adrodd Cyfansawdd Cyfunol) mewn meddygaeth (Schulz et al. 2010) a'u haddasu ar gyfer ymchwil gymdeithasol (Mayo-Wilson et al. 2013) . Datblygwyd set o ganllawiau cysylltiedig gan olygyddion y Journal of Experimental Political Science (Gerber et al. 2014) (gweler hefyd Mutz and Pemantle (2015) a Gerber et al. (2015) ). Yn olaf, datblygwyd canllawiau adrodd yn seicoleg (APA Working Group 2008) , a gwelir hefyd Simmons, Nelson, and Simonsohn (2011) .
Os ydych yn creu cynllun dadansoddi, dylech ystyried ei rag-gofrestru oherwydd bydd cyn cofrestru yn cynyddu'r hyder sydd gan eraill yn eich canlyniadau. At hynny, os ydych chi'n gweithio gyda phartner, bydd yn cyfyngu ar allu eich partner i newid y dadansoddiad ar ôl gweld y canlyniadau. Mae cyn cofrestru yn dod yn fwyfwy cyffredin mewn seicoleg (Nosek and Lakens 2014) , gwyddoniaeth wleidyddol (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ac economeg (Olken 2015) .
Cyflwynir cyngor dylunio'n benodol ar gyfer arbrofion maes ar-lein hefyd yn Konstan and Chen (2007) a Chen and Konstan (2015) .
Weithiau gelwir yr hyn yr wyf wedi galw ar y strategaeth armada yn ymchwil raglennol ; gweler Wilson, Aronson, and Carlsmith (2010) .
Am ragor o wybodaeth ar yr arbrofion MusicLab, gweler Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , a Salganik (2007) . Am ragor o wybodaeth am farchnadoedd sy'n ennill yr holl farchnadoedd, gweler Frank and Cook (1996) . I gael mwy o wybodaeth am aflonyddu ar lwc a sgiliau yn fwy cyffredinol, gweler Mauboussin (2012) , Watts (2012) , a Frank (2016) .
Mae ymagwedd arall tuag at ddileu taliadau cyfranogwyr y dylai ymchwilwyr eu defnyddio gyda rhybudd: consgripsiwn. Mewn llawer o arbrofion maes ar-lein, mae cyfranogwyr yn cael eu drafftio yn y bôn yn arbrofion ac ni fyddant byth yn eu digolledu Mae enghreifftiau o'r dull hwn yn cynnwys arbrawf Restivo a van de Rijt (2012) ar wobrwyon yn arbrawf Wikipedia a Bond a chydweithiwr (2012) ar annog pobl i bleidleisio. Nid yw'r arbrofion hyn mewn gwirionedd yn costio dim ond yn amrywio, yn hytrach, nid oes ganddynt unrhyw gost amrywiol i ymchwilwyr . Mewn arbrofion o'r fath, hyd yn oed os yw'r gost i bob cyfranogwr yn fach iawn, gall y gost gyfan fod yn eithaf mawr. Mae ymchwilwyr sy'n cynnal arbrofion enfawr enfawr yn aml yn cyfiawnhau pwysigrwydd effeithiau triniaeth amcangyfrifedig bychan trwy ddweud y gall yr effeithiau bach hyn ddod yn bwysig pan gaiff eu cymhwyso i lawer o bobl. Mae'r union feddwl yn berthnasol i gostau y mae ymchwilwyr yn eu gosod ar gyfranogwyr. Os yw'ch arbrawf yn achosi miliwn o bobl i wastraffu un munud, nid yw'r arbrawf yn niweidiol iawn i unrhyw berson penodol, ond yn gyfan gwbl mae wedi ei wastraffu bron ddwy flynedd o amser.
Dull arall o greu taliad cost di-dor i gyfranogwyr yw defnyddio loteri, dull a ddefnyddiwyd hefyd mewn ymchwil arolwg (Halpern et al. 2011) . Am ragor o wybodaeth am ddylunio profiadau defnyddiol pleserus, gweler Toomim et al. (2011) . Am ragor o wybodaeth am ddefnyddio botiau i greu arbrofion cost di-newid, gweler ( ??? ) .
Mae'r tri R's fel y cynigiwyd yn wreiddiol gan Russell and Burch (1959) fel a ganlyn:
"Replacement golygu'r lle'r ymwybodol byw anifeiliaid uwch o ddeunydd insentient. Gostyngiad yn golygu lleihad yn y nifer o anifeiliaid a ddefnyddir i gael gwybodaeth am swm penodol a manylder. Mireinio golygu unrhyw ostyngiad yn nifer yr achosion neu ddifrifoldeb weithdrefnau annynol cymhwyso i anifeiliaid hynny sydd yn dal i orfod cael eu defnyddio. "
Nid yw'r tri R r yr wyf yn eu cynnig yn goresgyn yr egwyddorion moesegol a ddisgrifir ym mhennod 6. Yn hytrach, maent yn fersiwn fwy cymhleth un o'r egwyddorion hynny-budd-yn-benodol yn y broses o arbrofion dynol.
O ran y R cyntaf ("disodli"), mae cymharu'r arbrawf emosiynol o ymyrraeth (Kramer, Guillory, and Hancock 2014) a'r arbrawf emosiynol naturiol (Lorenzo Coviello et al. 2014) cynnig rhai gwersi cyffredinol am y masnachiadau sy'n gysylltiedig wrth symud o arbrofion i arbrofion naturiol (ac ymagweddau eraill fel cyfateb yr ymgais honno i frasu arbrofion mewn data nad yw'n arbrofol, gweler pennod 2). Yn ychwanegol at y manteision moesegol, mae newid o arbrofion i astudiaethau nad ydynt yn arbrofol hefyd yn galluogi ymchwilwyr i astudio triniaethau nad ydynt yn gallu eu defnyddio mewn modd rhesymegol. Fodd bynnag, mae'r manteision moesol a logistaidd hyn yn dod ar gost. Mae gan ymchwilwyr arbrofion naturiol lai o reolaeth dros bethau fel recriwtio cyfranogwyr, hapoli, a natur y driniaeth. Er enghraifft, un cyfyngiad o lawiad fel triniaeth yw ei fod yn cynyddu positifrwydd ac yn lleihau negyddol. Yn yr astudiaeth arbrofol, fodd bynnag, roedd Kramer a chydweithwyr yn gallu addasu positifrwydd a negyddol yn annibynnol. Yr ymagwedd benodol a ddefnyddiwyd gan Lorenzo Coviello et al. (2014) ymhellach gan L. Coviello, Fowler, and Franceschetti (2014) . Am gyflwyniad i newidynnau offerynnol, sef yr ymagwedd a ddefnyddir gan Lorenzo Coviello et al. (2014) , gweler Angrist and Pischke (2009) (llai ffurfiol) neu Angrist, Imbens, and Rubin (1996) (mwy ffurfiol). Am werthusiad amheus o newidynnau offerynnol, gweler Deaton (2010) , ac am gyflwyniad i newidynnau offerynnol gydag offerynnau gwan (mae glaw yn offeryn gwan), gweler Murray (2006) . Yn fwy cyffredinol, cyflwynir cyflwyniad da i arbrofion naturiol gan Dunning (2012) , tra bod Rosenbaum (2002) , ( ??? ) , a Shadish, Cook, and Campbell (2001) cynnig syniadau da am amcangyfrif effeithiau achosol heb arbrofion.
O ran yr ail R ("mireinio"), mae masnachiadau gwyddonol a logistaidd wrth ystyried newid dyluniad Ymwybyddiaeth Emosiynol rhag rhwystro swyddi i hybu swyddi. Er enghraifft, efallai y bydd gweithredu technegol y News Feed yn ei gwneud hi'n haws o lawer i wneud arbrofi lle mae swyddi yn cael eu rhwystro yn hytrach nag un lle y cânt eu hwb (nodwch y gellid gweithredu arbrawf sy'n cynnwys blocio swyddi fel haen ar ben y system Feed Feed heb unrhyw angen am newidiadau i'r system sylfaenol). Yn wyddonol, fodd bynnag, nid oedd y theori a anerchwyd gan yr arbrawf yn awgrymu yn glir un dyluniad dros y llall. Yn anffodus, nid wyf yn ymwybodol o ymchwil sylweddol sylweddol am rinweddau cymharol blocio a chynyddu cynnwys yn y News Feed. Hefyd, nid wyf wedi gweld llawer o ymchwil ynglŷn â mireinio triniaethau i'w gwneud yn llai niweidiol; Un eithriad yw B. Jones and Feamster (2015) , sy'n ystyried yr achos o fesur sensoriaeth ar y Rhyngrwyd (pwnc a drafodaf ym mhennod 6 mewn perthynas ag astudiaeth Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
O ran y drydedd R ("gostyngiad"), mae Cohen (1988) (llyfr) a Cohen (1992) (erthygl) yn rhoi cyflwyniadau da i ddadansoddiad pŵer traddodiadol, tra bod Gelman and Carlin (2014) cynnig persbectif ychydig yn wahanol. Gellir cynnwys covariates cyn triniaeth yng nghyfnod dylunio a dadansoddi arbrofion; mae pennod 4 Gerber and Green (2012) rhoi cyflwyniad da i'r ddau ddull, ac mae Casella (2008) darparu triniaeth fanylach. Mae technegau sy'n defnyddio'r wybodaeth cyn-driniaeth hon yn y hapchwarae fel arfer yn cael eu galw'n dyluniadau arbrofol naill ai wedi'u rhwystro neu gynlluniau arbrofol haenog (ni ddefnyddir y derminoleg yn gyson ar draws cymunedau); mae'r dechnegau hyn yn gysylltiedig yn agos â'r technegau samplu haenog a drafodir ym mhennod 3. Gweler Higgins, Sävje, and Sekhon (2016) am fwy ar ddefnyddio'r dyluniadau hyn mewn arbrofion enfawr. Gellir cynnwys covariates cyn driniaeth hefyd yn y cam dadansoddi. McKenzie (2012) archwilio'r ymagwedd gwahaniaeth-mewn-gwahaniaethau i ddadansoddi arbrofion maes yn fwy manwl. Gweler Carneiro, Lee, and Wilhelm (2016) am ragor o wybodaeth am y dulliau gwahardd rhwng gwahanol ddulliau o gynyddu manwldeb mewn amcangyfrifon o effeithiau triniaeth. Yn olaf, wrth benderfynu a ddylid ceisio cynnwys covariates cyn driniaeth yn y cam dylunio neu ddadansoddi (neu'r ddau), mae yna rai ffactorau i'w hystyried. Mewn lleoliad lle mae ymchwilwyr am ddangos nad ydynt yn "pysgota" (Humphreys, Sierra, and Windt 2013) , gall defnyddio covariates cyn driniaeth yn y cam dylunio fod o gymorth (Higgins, Sävje, and Sekhon 2016) . Mewn sefyllfaoedd lle mae cyfranogwyr yn cyrraedd yn ddilyniannol, yn enwedig arbrofion maes ar-lein, gall defnyddio gwybodaeth cyn-driniaeth yn y cam dylunio fod yn anodd yn rhesymegol; gweler, er enghraifft, Xie and Aurisset (2016) .
Mae'n werth ychwanegu ychydig o greddf ynglŷn â pham y gall ymagwedd gwahaniaeth-mewn-wahaniaeth fod yn llawer mwy effeithiol na gwahaniaeth mewn un modd. Mae gan lawer o ganlyniadau ar-lein amrywiad uchel iawn (gweler ee, RA Lewis and Rao (2015) a Lamb et al. (2015) ) ac maent yn gymharol sefydlog dros amser. Yn yr achos hwn, bydd gan y sgôr newid amrywiad sylweddol llai, gan gynyddu pwer y prawf ystadegol. Un rheswm pam na ddefnyddir yr ymagwedd hon yn amlach yw nad oedd yn gyffredin cael canlyniadau cyn-driniaeth cyn yr oes ddigidol. Un ffordd fwy concrid i feddwl am hyn yw dychmygu arbrawf i fesur a yw ymarfer corff penodol yn achosi colli pwysau. Os ydych chi'n mabwysiadu dull gwahaniaeth-mewn-modd, bydd gan eich amcangyfrif amrywiad yn deillio o'r amrywiad yn y pwysau yn y boblogaeth. Os gwnewch ymagwedd gwahaniaeth-mewn-gwahaniaethau, fodd bynnag, y caiff amrywiad naturiol mewn pwysau ei dynnu, a gallwch chi ddarganfod gwahaniaeth yn haws yn achos y driniaeth.
Yn olaf, ystyriais ychwanegu pedwerydd R: "repurpose". Hynny yw, os yw ymchwilwyr yn dod o hyd iddynt gyda data mwy arbrofol nag sydd angen iddynt fynd i'r afael â'u cwestiwn ymchwil gwreiddiol, dylent ail-dalu'r data i ofyn cwestiynau newydd. Er enghraifft, dychmygwch fod Kramer a chydweithwyr wedi defnyddio amcangyfrif gwahaniaeth-mewn-gwahaniaethau ac wedi dod o hyd iddynt gyda mwy o ddata nag oedd angen iddynt fynd i'r afael â'u cwestiwn ymchwil. Yn hytrach na pheidio â defnyddio'r data i'r eithaf, gallent fod wedi astudio maint yr effaith fel swyddogaeth o fynegiant emosiynol cyn driniaeth. Yn union fel Schultz et al. (2007) fod effaith y driniaeth yn wahanol i ddefnyddwyr ysgafn a throm, efallai bod effeithiau'r News Feed yn wahanol i bobl sydd eisoes yn tueddu i bostio negeseuon hapus (neu drist). Gallai ad-drefnu arwain at "bysgota" (Humphreys, Sierra, and Windt 2013) a "p-hacio" (Simmons, Nelson, and Simonsohn 2011) , ond mae'r rhain yn cael eu trafod yn bennaf gyda chyfuniad o adrodd yn onest (Simmons, Nelson, and Simonsohn 2011) , cyn cofrestru (Humphreys, Sierra, and Windt 2013) , a dulliau dysgu peiriannau sy'n ceisio osgoi gor-ffitio.