verdere kommentaar

Hierdie afdeling is ontwerp om gebruik te word as 'n verwysing, eerder as om te lees as 'n vertelling.

  • Inleiding (Afdeling 4.1)

Vrae oor oorsaaklikheid in sosiale navorsing is dikwels kompleks en ingewikkeld. Vir 'n fundamentele benadering tot kousaliteit gebaseer op oorsaaklike grafieke, sien Pearl (2009) , en vir 'n fundamentele benadering gebaseer op potensiële uitkomste, sien Imbens and Rubin (2015) (en die tegniese bylae in hierdie hoofstuk). Vir 'n vergelyking tussen hierdie twee benaderings, sien Morgan and Winship (2014) . Vir 'n formele benadering tot die definisie van 'n confounder, sien VanderWeele and Shpitser (2013) .

In die hoofstuk, ek geskep wat lyk soos 'n helder lyn tussen ons vermoë om kousale skattings van eksperimentele en nie-eksperiment data te maak. In werklikheid, Ek dink dat die onderskeid is blurrier. Byvoorbeeld, almal aanvaar dat die rook veroorsaak kanker selfs al het ons nog nooit 'n gerandomiseerde beheerde eksperiment wat dwing mense om te rook gedoen. Vir 'n uitstekende boek lengte behandelings op die maak van oorsaaklike skattings van nie-eksperimentele data te sien Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , en Dunning (2012) .

Hoofstukke 1 en 2 van Freedman, Pisani, and Purves (2007) bied 'n duidelike inleiding tot die verskille tussen eksperimente, gekontroleerde eksperimente, en gerandomiseerde beheerde eksperimente.

Manzi (2012) bied 'n fassinerende en leesbare inleiding tot die filosofiese en statistiese onderbou van ewekansige gekontroleerde eksperimente. Dit bied ook interessante werklike wêreld voorbeelde van die krag van eksperimentering in besigheid.

  • Wat is eksperimente? (Artikel 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) bied goeie inleiding tot die statistiese aspekte van eksperimentele ontwerp en ontleding. Verder is daar 'n uitstekende behandeling van die gebruik van eksperimente in baie verskillende velde: Ekonomie (Bardsley et al. 2009) , Sosiologie (Willer and Walker 2007; Jackson and Cox 2013) , sielkunde (Aronson et al. 1989) , Politieke wetenskap (Morton and Williams 2010) , en sosiale beleid (Glennerster and Takavarasha 2013) .

Die belangrikheid van deelnemer werwing (bv, steekproefneming) is dikwels onder-waardeer in eksperimentele navorsing. Maar, as die effek van die behandeling is skeef in die bevolking, dan steekproefneming is van kritieke belang. Longford (1999) maak hierdie punt duidelik wanneer hy pleit vir navorsers dink eksperimente as 'n bevolking opname met lukraak monsters.

  • Twee dimensies van eksperimente: laboratorium-veld en analoog-digitale (afdeling 4.3)

Die digotomie wat ek aangebied tussen laboratorium en in die veld eksperimente is 'n bietjie vereenvoudig. Trouens, het ander navorsers meer gedetailleerde tipologieë voorgestelde, in die besonder dié wat die verskillende vorme van veldeksperimente skei (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Verder is daar twee ander vorme van eksperimente wat uitgevoer word deur sosiale wetenskaplikes wat nie netjies pas in die laboratorium en in die veld digotomie:. Opname eksperimente en sosiale eksperimente Opname eksperimente is eksperimente uit deur die infrastruktuur van bestaande opnames en vergelyk die antwoorde op alternatiewe weergawes van die dieselfde vrae (sommige opname eksperimente word in Hoofstuk 3); Vir meer inligting oor opname eksperimente sien Mutz (2011) . Maatskaplike eksperimente is eksperimente uit waarvan die behandeling is 'n paar sosiale beleid dat slegs deur 'n regering geïmplementeer kan word. Sosiale eksperimente is nou verwant aan evalueringsprogram. Vir meer inligting oor die beleid eksperimente, sien Orr (1998) , Glennerster and Takavarasha (2013) , en Heckman and Smith (1995) .

'N Aantal vraestelle laboratorium en in die veld eksperimente in die abstrakte vergelyking (Falk and Heckman 2009; Cialdini 2009) en in terme van uitkomste van spesifieke eksperimente in politieke wetenskap (Coppock and Green 2015) , Ekonomie (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) en sielkunde (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) bied 'n mooi navorsingsontwerp vir die vergelyking van die resultate van lab en veldeksperimente.

Kommer oor deelnemers hul gedrag te verander, want hulle weet hulle word nou waargeneem word soms genoem vraag effekte, en hulle is bestudeer in sielkunde (Orne 1962) en ekonomie (Zizzo 2009) . Hoewel meestal verband hou met laboratorium eksperimente, kan hierdie selfde kwessies probleme vir veldeksperimente veroorsaak sowel. Trouens, die vraag effekte ook soms genoem Hawthorne effek, 'n term wat afgelei van 'n stuk grond eksperiment, spesifiek die beroemde verligting eksperimente wat begin het in 1924 by die Hawthorne Werke van die Western Electric Company (Adair 1984; Levitt and List 2011) . Beide effekte vraag en Hawthorn effekte is nou verwant aan die idee van reaktiewe meting bespreek in Hoofstuk 2 (sien ook Webb et al. (1966) ).

Die geskiedenis van veldeksperimente is al beskryf in ekonomie (Levitt and List 2009) , Politieke Wetenskap (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , sielkunde (Shadish 2002) , en openbare beleid (Shadish and Cook 2009) . Een gebied van sosiale wetenskap waar veldeksperimente het vinnig prominente is internasionale ontwikkeling. Vir 'n positiewe resensie van die werk binne die ekonomie sien Banerjee and Duflo (2009) , en vir 'n kritiese assessering sien Deaton (2010) . Vir 'n oorsig van hierdie werk in politieke wetenskap sien Humphreys and Weinstein (2009) . Ten slotte, het die etiese uitdagings wat betrokke is by veldeksperimente verken in politieke wetenskap (Humphreys 2015; Desposato 2016b) en ontwikkelingsekonomie (Baele 2013) .

In die hoofstuk, het ek voorgestel dat die pre-behandeling inligting kan gebruik word om die akkuraatheid van beraamde behandeling effekte te verbeter, maar daar is 'n debat oor hierdie benadering: Freedman (2008) , Lin (2013) , en Berk et al. (2013) ; sien Bloniarz et al. (2016) vir meer inligting.

  • Beweeg buite eenvoudige eksperimente (Afdeling 4.4)

Ek het besluit om te fokus op drie begrippe: geldigheid, heterogeniteit van behandeling effekte, en meganismes. Hierdie konsepte het verskillende name in verskillende velde. Byvoorbeeld, sielkundiges geneig om verby eenvoudige eksperimente deur te fokus op bemiddelaars en moderators (Baron and Kenny 1986) . Die idee van bemiddelaars is gevang deur wat ek noem meganismes, en die idee van moderators is vasgevang deur wat ek eksterne geldigheid (bv, sou die resultate van die eksperiment verskil as dit is hardloop in verskillende situasies) en heterogeniteit van behandeling effekte (noem bv, is die gevolge groter vir 'n paar mense as ander mense).

Die eksperiment van Schultz et al. (2007) wys hoe sosiale teorieë kan gebruik word om effektiewe intervensies te ontwerp. Vir 'n meer algemene argument oor die rol van teorie in die ontwerp van effektiewe intervensies, sien Walton (2014) .

  • Geldigheid (Afdeling 4.4.1)

Die konsepte van interne en eksterne geldigheid is die eerste keer in Campbell (1957) . Sien Shadish, Cook, and Campbell (2001) vir 'n meer gedetailleerde geskiedenis en 'n versigtige uitbreiding van statistiese gevolgtrekking geldigheid, interne geldigheid, geldigheid, en eksterne geldigheid te bou.

Vir 'n oorsig van kwessies wat verband hou met statistiese gevolgtrekking geldigheid in eksperimente sien Gerber and Green (2012) (vir 'n sosiale wetenskap perspektief) en Imbens and Rubin (2015) (vir 'n statistiese perspektief). Sommige kwessies van statistiese gevolgtrekking geldigheid wat spesifiek ontstaan ​​in aanlyn veldeksperimente sluit kwessies soos bestryk doeltreffende metodes vir die skep van vertrouensintervalle met afhanklike data (Bakshy and Eckles 2013) .

Interne geldigheid kan moeilik wees om te verseker in komplekse veld eksperimente. Sien, byvoorbeeld, Gerber and Green (2000) , Imai (2005) , en Gerber and Green (2005) vir debat oor die implementering van 'n komplekse veld eksperiment oor te stem. Kohavi et al. (2012) en Kohavi et al. (2013) bied 'n inleiding tot die uitdagings van interval geldigheid in aanlyn veldeksperimente.

Een groot bron van kommer met interne geldigheid is probleme met randomisasie. Een manier om potensieel probleme met die randomisatietechnieken spoor is om die behandeling en beheer groepe te vergelyk op waarneembare eienskappe. Hierdie soort van vergelyking is bekend as 'n balans check. Sien Hansen and Bowers (2008) vir 'n statistiese benadering tot tjeks te balanseer, en sien Mutz and Pemantle (2015) vir kommer oor balans tjeks. Byvoorbeeld, met behulp van 'n balans check Allcott (2011) het bevind dat daar 'n paar bewyse dat die randomisatietechnieken nie korrek in drie van die eksperimente is uitgevoer in 'n paar van die OPower eksperimente (sien tabel 2; webwerwe 2, 6, en 8). Vir ander benaderings, sien Imbens and Rubin (2015) , Hoofstuk 21.

Ander groot kommer met betrekking tot interne geldigheid is: 1) eensydige nie-nakoming, waar nie almal in die behandeling groep eintlik die behandeling ontvang, 2) twee ledig nie-nakoming, waar nie almal in die behandeling groep die behandeling en 'n paar ontvang mense in die kontrole groep ontvang die behandeling, 3) uitvloei, waar uitkomste nie gemeet vir 'n paar deelnemers, en 4) inmenging, waar die behandeling oorspoel van mense in die behandeling toestand om mense in die beheer toestand. Sien Gerber and Green (2012) Hoofstuk 5, 6, 7 en 8 vir meer inligting oor elk van hierdie kwessies.

Vir meer inligting oor konstrukgeldigheid, sien Westen and Rosenthal (2003) , en vir meer inligting oor konstrukgeldigheid in groot databronne, Lazer (2015) en hoofstuk 2 van hierdie boek.

Een aspek van eksterne geldigheid is die omgewing waar 'n intervensie getoets. Allcott (2015) bied 'n versigtige teoretiese en empiriese behandeling van site seleksie vooroordeel. Hierdie probleem is ook bespreek in Deaton (2010) . Benewens die feit dat herhaal in baie plekke, die Huis Energie Verslag ingryping is ook onafhanklik bestudeer word deur verskeie navorsingsgroepe (bv Ayres, Raseman, and Shih (2013) ).

  • Heterogeniteit van behandeling effekte (Afdeling 4.4.2)

Vir 'n uitstekende oorsig van heterogeniteit van behandeling effekte in veldeksperimente, sien hoofstuk 12 van Gerber and Green (2012) . Vir inleidings tot heterogeniteit van behandeling effekte in mediese toetse, sien Kent and Hayward (2007) , Longford (1999) , en Kravitz, Duan, and Braslow (2004) . Heterogeniteit van behandeling effekte algemeen fokus op verskille gebaseer op pre-behandeling eienskappe. As jy belangstel in heterogeniteit gebaseer op post-behandeling uitkomste is, dan is meer kompleks approachs nodig soos skoolhoof stratifikasie (Frangakis and Rubin 2002) ; sien Page et al. (2015) vir 'n oorsig.

Baie navorsers skat die heterogeniteit van die behandeling effekte met behulp van lineêre regressie, maar nuwer metodes staatmaak op masjienleer, byvoorbeeld Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , en Athey and Imbens (2016a) .

Daar is 'n paar skeptisisme oor bevindinge van heterogeniteit van effekte as gevolg van verskeie vergelyking probleme en "visvang." Daar is 'n verskeidenheid van statistiese benaderings wat kan help posadres kommer oor verskeie vergelyking (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Een benadering tot kommer oor "visvang" is pre-registrasie, wat steeds meer algemeen in die sielkunde (Nosek and Lakens 2014) , Politieke Wetenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) en ekonomie (Olken 2015) .

In die studie van Costa and Kahn (2013) slegs sowat die helfte van die huishoudings in die eksperiment was in staat om gekoppel word aan die demografiese inligting. Lesers wat belangstel in die besonderhede en moontlike probleme met hierdie analise moet verwys na die oorspronklike papier.

  • Meganismes (Afdeling 4.4.3)

Meganismes is ongelooflik belangrik, maar hulle draai uit baie moeilik om te studeer. Navorsing oor meganismes nou verwant is aan die studie van bemiddelaars in sielkunde (maar sien ook VanderWeele (2009) vir 'n akkurate vergelyking tussen die twee idees). Statistiese benaderings tot die vind van meganismes, soos die benadering ontwikkel in Baron and Kenny (1986) , is redelik algemeen. Ongelukkig is dit blyk dat daardie prosedures afhang van 'n sterk aannames (Bullock, Green, and Ha 2010) en ly wanneer daar is verskeie meganismes, soos mens sou verwag in baie gevalle (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) en Imai and Yamamoto (2013) bied 'n paar beter statistiese metodes. Verder VanderWeele (2015) bied 'n boek-lengte behandeling met 'n aantal belangrike resultate, insluitend 'n omvattende benadering tot sensitiwiteitsanalise.

'N Afsonderlike benadering fokus op eksperimente wat probeer om die meganisme direk (bv, gee matrose vitamien C) te manipuleer. Ongelukkig, in baie sosiale wetenskap instellings is daar dikwels verskeie meganismes en dit is moeilik om te behandelings wat 'n mens verander sonder om die ander te ontwerp. Sommige benaderings tot eksperimenteel verander meganismes word in Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , en Pirlott and MacKinnon (2016) .

Ten slotte, meganismes het ook 'n lang geskiedenis in die filosofie van die wetenskap soos beskryf deur Hedström and Ylikoski (2010) .

  • Die gebruik van bestaande omgewings (Afdeling 4.5.1.1)

Vir meer inligting oor die gebruik van korrespondensie studies en oudit studies te meet diskriminasie sien Pager (2007) .

  • Bou jou eie eksperiment (Afdeling 4.5.1.2)

Die mees algemene manier om deelnemers te werf om eksperimente wat jy bou is Amazon Meganiese Turk (MTurk). Omdat MTurk boots aspekte van tradisionele laboratorium eksperimente-betalende mense om take wat hulle nie vir vrye baie navorsers sou doen voltooi het reeds begin met behulp van Turkers (die werkers op MTurk) as deelnemers aan menslike vakke eksperimente wat lei tot vinniger en goedkoper dataversameling as die tradisionele op die kampus laboratorium eksperimente (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Die grootste krag van eksperimente met deelnemers gewerf MTurk is logistieke hulle toelaat navorsers aan deelnemers vinnig en as dit nodig is te werf. AANGESIEN laboratorium eksperimente weke uit te voer kan neem en veldeksperimente kan maande neem om die opstel, kan eksperimenteer met deelnemers gewerf MTurk uitgevoer word in dae. Byvoorbeeld, Berinsky, Huber, and Lenz (2012) was in staat om 400 vakke werf in 'n enkele dag om deel te neem in 'n 8 minute eksperiment. Verder kan hierdie deelnemers gewerf word vir feitlik enige doel (insluitend opnames en massa samewerking, soos bespreek in Hoofstuk 3 en 5). Dit vergemaklik werwing beteken dat navorsers rye van verwante eksperimente kan hardloop so vinnig.

Voordat die werwing van deelnemers uit MTurk vir jou eie eksperimente, is daar vier belangrike dinge om te weet. Eerstens, baie navorsers het 'n nie-spesifieke skeptisisme van eksperimente wat Turkers. Omdat hierdie skeptisisme is nie spesifieke, is dit moeilik om teen te met bewyse. Maar na 'n paar jaar van studie met behulp van Turkers, kan ons nou aflei dat hierdie skeptisisme is nie veral nodig. Daar is baie studies vergelyk die demografie van Turkers om ander bevolkings en baie studies vergelyk resultate van eksperimente met Turkers om die resultate van ander bevolkings nie. Gegewe al hierdie werk, ek dink dat die beste manier vir jou om te dink oor dit wat Turkers is 'n redelike gemak monster, baie soos studente maar effens meer divers (Berinsky, Huber, and Lenz 2012) . Dus, net soos studente is 'n redelike bevolking vir 'n paar, maar nie almal eksperimentele navorsing, Turkers is 'n redelike bevolking vir 'n paar, maar nie alle navorsing. As jy gaan om te werk met Turkers, dan maak dit sin om baie van hierdie vergelykende studies te lees en hul nuanses te verstaan.

Tweedens, het navorsers beste praktyke vir die verhoging van interne geldigheid van Turk eksperimente ontwikkel, en jy moet leer oor en volg hierdie beste praktyke (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Byvoorbeeld, is navorsers met behulp Turkers aangemoedig om vertoners gebruik om onoplettend deelnemers verwyder (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (maar sien ook DJ Hauser and Schwarz (2015b) en DJ Hauser and Schwarz (2015a) ). As jy nie onoplettend deelnemers te verwyder, dan is enige uitwerking van die behandeling kan deur geraas ingevoer uit onoplettend deelnemers gewas, en in die praktyk die aantal onoplettend deelnemers aansienlike kan wees. In die eksperiment van Huber en kollegas (2012) versuim het sowat 30% van die deelnemers basiese aandag vertoners. Nog 'n probleem gemeen met Turkers is nie-naïef deelnemers (Chandler et al. 2015) .

Derde, in vergelyking met 'n ander vorme van digitale eksperimente, MTurk eksperimente kan nie volgens skaal; Stewart et al. (2015) is van mening dat op enige gegewe tyd is daar slegs sowat 7000 mense op MTurk.

Ten slotte, moet jy weet dat MTurk is 'n gemeenskap met sy eie reëls en norme (Mason and Suri 2012) . Op dieselfde wyse wat jou sal probeer om uit te vind oor die kultuur van 'n land waar jy gaan om jou eksperimente uit te voer, moet jy probeer om meer oor die kultuur en norme van Turkers uitvind (Salehi et al. 2015) . En, moet jy weet dat die Turkers sal praat oor jou eksperiment as jy iets onvanpas of onetiese doen (Gray et al. 2016) .

MTurk is 'n ongelooflike maklike manier om deelnemers te werf om jou eksperimente, of hulle laboratorium-agtige, soos Huber, Hill, and Lenz (2012) , of meer veld-agtige, soos Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , en Mao et al. (2016) .

  • Bou jou eie produk (Afdeling 4.5.1.3)

As jy dink om te probeer om jou eie produk te skep, ek beveel aan dat jy die advies wat aangebied word deur die MovieLens groep in te lees Harper and Konstan (2015) . 'N Belangrike insig van hul ervaring is dat vir elke suksesvolle projek is daar baie, baie mislukkings. Byvoorbeeld, die MovieLens groep geloods ander produkte soos GopherAnswers wat volledige mislukkings was (Harper and Konstan 2015) . Nog 'n voorbeeld van 'n navorser by gebreke tydens 'n poging om 'n produk te bou, is Edward Castronova se poging om 'n aanlyn spel genaamd Arden bou. Ten spyte van $ 250,000 in befondsing, die projek was 'n flop (Baker 2008) . Projekte soos GopherAnswers en Arden is ongelukkig baie meer algemeen as projekte soos MovieLens. Ten slotte, wanneer ek sê dat ek nie geweet het van enige ander navorsers wat met sukses gebou produkte vir herhaalde eksperimentering hier is my kriteria: 1) deelnemers gebruik die produk as gevolg van wat dit bied hulle (bv, is dit nie beskrywe betaal en hulle is nie vrywilligers help die wetenskap) en 2) die produk is gebruik vir meer as een duidelike eksperiment (dit wil sê, nie dieselfde eksperiment verskeie kere met verskillende deelnemer swembaddens). As jy weet van ander voorbeelde, laat my asseblief weet.

  • Saam met die kragtige (Afdeling 4.5.2)

Ek het die idee van Pasteur se Quadrant gereeld bespreek tegnologie maatskappye gehoor, en dit help organiseer navorsing pogings op Google (Spector, Norvig, and Petrov 2012) .

Bond en studie kollegas (2012) poog ook om die effek van hierdie behandelings op die vriende van diegene wat hulle ontvang het op te spoor. As gevolg van die ontwerp van die eksperiment, die surplus is moeilik om skoon te spoor; belangstellende lesers moet sien Bond et al. (2012) vir 'n meer deeglike bespreking. Hierdie eksperiment is deel van 'n lang tradisie van eksperimente in politieke wetenskap aan pogings aan te moedig stem (Green and Gerber 2015) . Hierdie get-out-die-stem eksperimente is algemeen in deel, want hulle is in Pasteur se Quadrant. Dit wil sê, daar is baie mense wat gemotiveerd is om te stem en stem te verhoog kan 'n interessante gedrag meer algemene teorieë oor gedragsverandering en sosiale invloed te toets wees.

Ander navorsers verskaf advies oor die bestuur van die veld eksperimente met vennoot-organisasies soos politieke partye, nie-regeringsorganisasies en besighede (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Ander het raad oor hoe vennootskappe met organisasies navorsingsontwerpe kan 'n impak aangebied (Green, Calfano, and Aronow 2014; King et al. 2007) . Vennootskap kan ook lei tot etiese vraagstukke (Humphreys 2015; Nickerson and Hyde 2016) .

  • Ontwerp raad (afdeling 4.6)

As jy gaan skep 'n ontleding plan voordat jy jou eksperiment, ek stel voor dat jy begin deur die lees van riglyne verslagdoening. Die CONSORTMYN (Consolidated Standard verslag van Proewe) riglyne is ontwikkel in medisyne (Schulz et al. 2010) en aangepas is vir sosiale navorsing (Mayo-Wilson et al. 2013) . 'N Verwante stel riglyne is ontwikkel deur die redakteurs van die Journal of Experimental Politieke Wetenskap (Gerber et al. 2014) (sien ook Mutz and Pemantle (2015) en Gerber et al. (2015) ). Ten slotte, het verslagdoening riglyne is ontwikkel in sielkunde (Group 2008) , en sien ook Simmons, Nelson, and Simonsohn (2011) .

As jy 'n ontleding plan te maak moet jy oorweeg pre-registrasie is dit omdat pre-registrasie van die vertroue dat ander in jou resultate sal toeneem. Verdere, as jy besig is met 'n maat, dit sal vermoë jou maat se om die ontleding te verander na die sien van die resultate te beperk. Pre-registrasie word steeds algemeen in die sielkunde (Nosek and Lakens 2014) , Politieke Wetenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , en die ekonomie (Olken 2015) .

Terwyl die skep van jou pre-analise plan moet jy bewus wees dat sommige navorsers ook regressie en verwante benaderings gebruik om die akkuraatheid van die beraamde behandeling effek te verbeter, en daar is 'n debat oor hierdie benadering: Freedman (2008) , Lin (2013) , en Berk et al. (2013) ; sien Bloniarz et al. (2016) vir meer inligting.

Ontwerp advies spesifiek vir aanlyn veldeksperimente word ook in Konstan and Chen (2007) en Chen and Konstan (2015) .

  • Skep nul veranderlike koste data (Afdeling 4.6.1)

Vir meer inligting oor die MusicLab eksperimente, sien Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , en Salganik (2007) . Vir meer inligting oor wenner-neem-alles markte, sien Frank and Cook (1996) . Vir meer inligting oor die oplos van geluk en vaardigheid meer algemeen, sien Mauboussin (2012) , Watts (2012) , en Frank (2016) .

Daar is 'n ander benadering tot die uitskakeling van deelnemer betalings wat navorsers moet gebruik met omsigtigheid: diensplig. In baie online veldeksperimente deelnemers basies opgestel in eksperimente en nooit vergoed. Voorbeelde van hierdie benadering sluit Restivo en van die Rijt se (2012) eksperiment op belonings in Wikipedia en Bond en kollega se (2012) eksperiment op die aanmoediging van mense om te stem. Hierdie eksperimente het nie regtig 'n nul veranderlike koste, hulle het 'n zero veranderlike koste om navorsers. Selfs al is die koste van baie van hierdie eksperimente is baie klein aan elke deelnemer, klein koste opgelê 'n enorme aantal deelnemers kan vinnig voeg. Navorsers hardloop massiewe aanlyn eksperimente regverdig dikwels die belangrikheid van klein geraamde behandeling effekte deur te sê dat hierdie klein effekte belangrik kan wees wanneer dit toegepas word om baie mense. Presies dieselfde denke van toepassing op koste wat navorsers op te lê op die deelnemers. As jou eksperimente veroorsaak 'n miljoen mense na 'n minuut te mors, die eksperiment is nie baie skadelik vir 'n bepaalde persoon, maar in totaal is dit byna twee jaar tyd het verlore.

Nog 'n benadering tot die skep van nul veranderlike koste betaling aan deelnemers is 'n lotery, 'n benadering wat ook gebruik in opnamenavorsing gebruik (Halpern et al. 2011) . Ten slotte, vir meer inligting oor die ontwerp van genotvolle gebruiker-ervaring te sien Toomim et al. (2011) .

  • Vervang, verfyn, en Verminder (Afdeling 4.6.2)

Hier is die oorspronklike definisies van die drie R, uit Russell and Burch (1959) :

"Vervanging beteken die vervanging van bewuste lewende hoër diere van bezield materiaal. Vermindering beteken vermindering in die getalle van diere wat gebruik word om inligting van 'n gegewe hoeveelheid en presisie te verkry. Verfyning enige afname in die voorkoms of erns van onmenslike prosedures toegepas op die diere wat nog moet word. "

Die drie R's wat ek voor nie ignoreer die etiese beginsels in Hoofstuk 6. beskryf Inteendeel, hulle is 'n meer uitgebreide weergawe een van daardie beginsels-liefdadigheid-spesifiek vir die opstel van menslike eksperimente.

By die oorweging van Emosionele Contagion, is daar drie nie-etiese kwessies in gedagte gehou moet word wanneer die interpretasie van hierdie eksperiment. Eerstens, dit is nie duidelik hoe die werklike besonderhede van die eksperiment aan te sluit op die teoretiese eise; Met ander woorde, daar is vrae oor konstrukgeldigheid. Dit is nie duidelik dat die positiewe en negatiewe woord tel is eintlik 'n goeie aanduiding van die emosionele toestand van die deelnemers as gevolg 1) dit is nie duidelik dat die woorde wat mense plaas is 'n goeie aanduiding van hul emosies en 2) dit is nie duidelik wat die besondere sentiment analise tegniek wat die navorsers gebruik is in staat om 'n betroubare aflei emosies (Beasley and Mason 2015; Panger 2016) . Met ander woorde, kan daar 'n slegte maat van 'n bevooroordeelde sein wees. Tweedens, die ontwerp en ontleding van die eksperiment vertel ons niks oor wat die meeste geraak (dit wil sê, is daar geen ontleding van heterogeniteit van behandeling effekte) en wat die meganisme kan wees. In hierdie geval, het die navorsers het baie inligting oor die deelnemers, maar hulle is in wese beskou as widgets in die analise. Derde, die effekgrootte in hierdie eksperiment was baie klein; die verskil tussen die behandeling en beheer voorwaardes is sowat 1 in 1000 woorde. In hul papier, Kramer en kollegas te maak die geval dat 'n effek van hierdie grootte is belangrik, want honderde miljoene mense toegang tot hul Nuusvoer elke dag. Met ander woorde, hulle argumenteer dat selfs effekte wat klein vir elke persoon wat hulle is groot in totaal is. Selfs as jy na hierdie argument aanvaar, is dit nog nie duidelik of 'n effek van hierdie grootte is belangrik met betrekking tot die meer algemene wetenskaplike vraag oor emosionele besmetting. Vir meer inligting oor die situasies waar klein effekte is belangrik sien Prentice and Miller (1992) .

In terme van die eerste R (vervanging), vergelyk die emosionele Contagion eksperiment (Kramer, Guillory, and Hancock 2014) en die emosionele besmetting natuurlike eksperiment (Coviello et al. 2014) bied 'n paar algemene lesse oor die trade-offs betrokke by die beweging van eksperimente natuurlike eksperimente (en ander benaderings soos wat ooreenstem met die wat probeer om eksperimente in 'n nie-eksperimentele data te benader, sien Hoofstuk 2). Benewens die etiese voordele, oorskakeling van eksperimentele om nie-eksperimentele studies in staat stel om ook navorsers om behandelings wat hulle logisties nie ontplooi bestudeer. Hierdie etiese en logistieke voordele kom teen 'n koste egter. Met natuurlike eksperimente navorsers het minder beheer oor dinge soos werwing van deelnemers, randomisatietechnieken, en die aard van die behandeling. Byvoorbeeld, een beperking van reënval as 'n behandeling is dat dit beide verhoog positiwiteit en verminder negatiwiteit. In die eksperimentele studie egter Kramer en kollegas in staat was om positiwiteit en negatiwiteit onafhanklik te pas.

Die spesifieke benadering wat gebruik word deur Coviello et al. (2014) is verder uitgebrei in Coviello, Fowler, and Franceschetti (2014) . Vir 'n inleiding tot instrumentele veranderlikes sien Angrist and Pischke (2009) (minder formeel) of Angrist, Imbens, and Rubin (1996) (meer formele). Vir 'n skepties beoordeling van instrumentele veranderlikes sien Deaton (2010) , en vir 'n inleiding tot instrumentele veranderlikes met swak instrumente (reën is 'n swak instrument), sien Murray (2006) .

Meer in die algemeen, 'n goeie inleiding tot natuurlike eksperimente is Dunning (2012) , en Rosenbaum (2002) , Rosenbaum (2009) , en Shadish, Cook, and Campbell (2001) bied 'n goeie idees oor die skatte van oorsaaklike uitwerking sonder eksperimente.

In terme van die tweede R (Verfyning), is daar wetenskaplike en logistieke trade-offs by die oorweging van die verandering van die ontwerp van Emosionele besmetting van die sluit van poste tot die bevordering van poste. Byvoorbeeld, kan dit die geval dat die tegniese implementering van die Nuusvoer maak dit aansienlik makliker om 'n eksperiment te doen met die sluit van poste eerder as 'n eksperiment met die bevordering van poste wees (let op dat 'n eksperiment met die sluit van poste geïmplementeer kan word as 'n laag op bo-op die Nuusvoer stelsel sonder enige behoefte aan veranderings van die onderliggende stelsel). Wetenskaplik, maar die teorie deur die eksperiment aangespreek nie duidelik stel een ontwerp oor die ander.

Ongelukkig is ek nie bewus van 'n aansienlike vorige navorsing oor die relatiewe meriete van blokkeer en die bevordering van die inhoud in die Nuusvoer. Ook, het ek nie gesien baie navorsing oor verfyn behandelings om hulle minder skadelik te maak; een uitsondering is Jones and Feamster (2015) , wat die geval van meting van Internet sensuur ag ( 'n onderwerp wat ek bespreek in Hoofstuk 6 in verhouding tot die Encore studie (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

In terme van die derde R (vermindering), 'n goeie inleiding tot tradisionele krag analise is Cohen (1988) . Pre-behandeling covariates kan ingesluit word in die ontwerp stadium en die ontleding stadium van eksperimente; Hoofstuk 4 van Gerber and Green (2012) bied 'n goeie inleiding tot beide benaderings, en Casella (2008) bied 'n meer in-diepte behandeling. Tegnieke wat hierdie pre-behandeling inligting in die randomisatietechnieken gebruik word tipies genoem óf geblokkeer eksperimentele ontwerpe of gestratifiseerde eksperimentele ontwerpe (die terminologie is nie konsekwent gebruik oor gemeenskappe); hierdie tegnieke is diep verband hou met die gestratifiseerde steekproefneming tegnieke bespreek in Hoofstuk 3. Sien Higgins, Sävje, and Sekhon (2016) vir meer inligting oor die gebruik van hierdie ontwerpe in massiewe eksperimente. Pre-behandeling covariates kan ook ingesluit word in die analise fase. McKenzie (2012) ondersoek die verskil-in-verskille benadering tot die ontleding van veldeksperimente in meer besonderhede. Sien Carneiro, Lee, and Wilhelm (2016) vir meer inligting oor die kompromieë tussen verskillende benaderings tot presisie in skattings van behandeling effekte verhoog. Ten slotte, wanneer jy moet besluit of om te probeer om die pre-behandeling covariates by die ontwerp of ontleding stadium (of albei) insluit, is daar 'n paar faktore om te oorweeg. In 'n omgewing waar navorsers wil wys dat hulle nie "visvang" (Humphreys, Sierra, and Windt 2013) , met behulp van pre-behandeling covariates in die ontwerp stadium kan nuttig wees (Higgins, Sävje, and Sekhon 2016) . In situasies waar deelnemers kom agtermekaar, veral online veldeksperimente, met behulp van pre-behandeling inligting in die ontwerp stadium kan logisties moeilik wees, sien byvoorbeeld Xie and Aurisset (2016) .

Dit is die moeite werd te voeg 'n bietjie van intuïsie oor hoekom verskil-in-verskille soveel meer effektief kan wees as verskil-in-hand. Baie aanlyn uitkomste het 'n baie hoë variansie (sien bv, Lewis and Rao (2015) en Lamb et al. (2015) ) en is relatief stabiel oor tyd. In hierdie geval, sal die verandering telling aansienlik kleiner variansie het, die verhoging van die krag van die statistiese toets. Een van die redes hierdie genader word nie meer dikwels gebruik word, is dat voor die digitale era was dit nie algemeen om pre-behandeling uitkomste het. 'N meer konkrete manier om te dink oor wat dit is om 'n eksperiment te dink om te meet of 'n spesifieke oefening roetine veroorsaak gewigsverlies. As jy 'n verskil-in-middel benadering te doen, sal jou skatting variasie wat afkomstig is van die variasie in gewig in die bevolking het. As jy 'n verskil-in-verskil benadering het egter dat natuurlike variasie in gewig kry verwyder en jy kan makliker 'n verskil as gevolg van die behandeling op te spoor.

Een belangrike manier om die aantal deelnemers in jou eksperiment te verminder is om 'n krag analise, wat Kramer en kollegas kon gedoen het wat gebaseer is op die effekgroottes waargeneem vanaf die natuurlike eksperiment deur te voer Coviello et al. (2014) of vroeër nie-eksperimentele navorsing deur Kramer (2012) (in werklikheid dit is aktiwiteite aan die einde van hierdie hoofstuk). Let daarop dat hierdie gebruik van krag analise is 'n bietjie anders as tipiese. In die analoog ouderdom, navorsers het oor die algemeen krag analise om seker te maak dat hul studie was nie te klein (dit wil sê, onder-aangedrewe). Nou, egter, navorsers moet krag ontleding te doen om seker te maak dat hul studie is nie te groot (dit wil sê, oor-aangedrewe).

Uiteindelik het ek gesien dat die toevoeging van 'n vierde R: repurpose. Dit is, as navorsers bevind hulself met meer eksperimentele data as wat hulle nodig het om hul oorspronklike navorsingsvraag aan te spreek, moet hulle die data repurpose om nuwe vrae te vra. Byvoorbeeld, dink dat Kramer en kollegas 'n verskil-in-verskille beramer hulself gebruik het en gevind met meer inligting as wat nodig is om hul navorsingsvraag aan te spreek. Eerder as om nie gebruik te maak van die data om die volle omvang, kon hulle die grootte van die effek bestudeer as 'n funksie 'n pre-behandeling emosionele uitdrukking. Net soos Schultz et al. (2007) het bevind dat die effek van die behandeling was anders vir ligte en swaar gebruikers, miskien die uitwerking van die Nuusvoer anders vir mense wat reeds geneig om gelukkig (of hartseer) boodskappe plaas was. Herb stemmingen kan lei tot "visvang" (Humphreys, Sierra, and Windt 2013) en "p-inbraak" (Simmons, Nelson, and Simonsohn 2011) , maar dit is grootliks aanspreekbaar met 'n kombinasie van eerlike verslaggewing (Simmons, Nelson, and Simonsohn 2011) , pre-registrasie (Humphreys, Sierra, and Windt 2013) , en masjien leer metodes wat poog om te verhoed dat oor-pas.