Vprašanja vzročnosti družbenih raziskav so pogosto zapletena in zapletena. Za temeljni pristop k vzročnosti na podlagi vzročnih grafov glej Pearl (2009) in temeljni pristop, ki temelji na morebitnih rezultatih, glej Imbens and Rubin (2015) . Za primerjavo med tema dvema pristopoma glej Morgan and Winship (2014) . Za formalni pristop k opredelitvi zamenjav si oglejte VanderWeele and Shpitser (2013) .
V tem poglavju sem ustvaril tisto, kar se mi je zdelo svetlo črto med našo sposobnostjo, da naredimo vzročne ocene iz eksperimentalnih in neizkuševalnih podatkov. Vendar pa menim, da je v resnici razlika bolj nejasna. Na primer, vsi priznavajo, da kajenje povzroča raka, čeprav ni bil izveden naključno nadzorovan poskus, ki prisili ljudi na kajenje. Za odlične obdelave dolžin v knjigah pri izdelavi vzročnih ocen neeksperimentalnih podatkov glej Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) in Dunning (2012) .
V poglavjih 1 in 2 Freedman, Pisani, and Purves (2007) je jasno predstavljen razlike med eksperimenti, nadzorovanimi eksperimenti in randomiziranimi kontroliranimi eksperimenti.
Manzi (2012) ponuja zanimiv in berljiv uvod v filozofske in statistične podlage randomiziranih kontroliranih eksperimentov. Prav tako ponuja zanimive prave primere moči eksperimentiranja v podjetju. Issenberg (2012) daje zanimiv uvod v uporabo eksperimentiranja v političnih kampanjah.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, in Athey and Imbens (2016b) zagotavljata dober Athey and Imbens (2016b) v statistične vidike eksperimentalnega oblikovanja in analize. Nadalje so odlične zdravljenja z uporabo poskusov na različnih področjih: ekonomika (Bardsley et al. 2009) , Sociologija (Willer and Walker 2007; Jackson and Cox 2013) , psihologija (Aronson et al. 1989) , Politologija (Morton and Williams 2010) in socialno politiko (Glennerster and Takavarasha 2013) .
Pomembnost zaposlovanja udeležencev (npr. Vzorčenje) pogosto ni dovolj cenjena pri eksperimentalnih raziskavah. Če pa je učinek zdravljenja v populaciji heterogen, je vzorčenje kritično. Longford (1999) jasno poudarja to točko, ko se zavzema za raziskovalce, ki razmišljajo o eksperimentih kot popis prebivalstva z nesrečnim vzorčenjem.
Predlagal sem, da obstaja kontinuum med laboratorijskimi in poljskimi eksperimenti, drugi raziskovalci pa predlagajo podrobnejše tipologije, zlasti tiste, ki ločujejo različne oblike poljskih eksperimentov (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Številni dokumenti so primerjali laboratorijske in poljske eksperimente v povzetku (Falk and Heckman 2009; Cialdini 2009) in v smislu (Coppock and Green 2015) posebnih eksperimentov iz političnih znanosti (Coppock and Green 2015) , ekonomije (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) in psihologija (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ponujajo lepo raziskovalno zasnovo za primerjavo rezultatov laboratorijskih in terenskih eksperimentov. Parigi, Santana, and Cook (2017) opisujejo, kako online eksperimenti na spletu lahko kombinirajo nekatere značilnosti laboratorijskih in poljskih eksperimentov.
Zaskrbljenost udeležencev, ki spreminjajo svoje vedenje, saj vedo, da jih pozorno opazujejo, se včasih imenujejo učinki povpraševanja , študenti pa so jih študirali v psihologiji (Orne 1962) in ekonomiji (Zizzo 2010) . Čeprav so ti problemi večinoma povezani z laboratorijskimi eksperimenti, lahko tudi pri poskusih na terenu povzročijo težave. Pravzaprav so učinki povpraševanja včasih imenovani učinki Hawthorne , izraz, ki izvira iz znanih poskusov osvetljevanja, ki so se začeli leta 1924 v Hawthorne Worksu zahodnega električnega podjetja (Adair 1984; Levitt and List 2011) . Učinki učinka povpraševanja in učinek Hawthorne so tesno povezani z idejo reaktivne meritve, obravnavane v 2. poglavju (glej tudi Webb et al. (1966) ).
Terenski eksperimenti imajo dolgo zgodovino v ekonomiji (Levitt and List 2009) , politična znanost (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psihologija (Shadish 2002) in javna politika (Shadish and Cook 2009) . Na področju družbenih ved, kjer so eksperimenti na terenu hitro postali vidni, gre za mednarodni razvoj. Za pozitiven pregled tega dela v ekonomiji glej Banerjee and Duflo (2009) in za kritično oceno glej Deaton (2010) . Za pregled tega dela v politoloških znanjih glej Humphreys and Weinstein (2009) . Nazadnje so bili etični izzivi, ki izhajajo iz poljskih poskusov, raziskani v kontekstu političnih znanosti (Humphreys 2015; Desposato 2016b) in razvojne ekonomije (Baele 2013) .
V tem oddelku sem predlagal, da se informacije o predobdelavi lahko uporabijo za izboljšanje natančnosti ocenjenih učinkov zdravljenja, vendar obstaja nekaj razprav o tem pristopu; glej Freedman (2008) , W. Lin (2013) , Berk et al. (2013) in Bloniarz et al. (2016) za več informacij.
Končno, obstajata dve drugi vrsti eksperimentov, ki jih izvajajo socialni znanstveniki, ki se ne ujemajo lepo vzdolž laboratorijske razsežnosti: raziskovalni poskusi in socialni eksperimenti. Preizkusi raziskav so poskusi z uporabo infrastrukture obstoječih raziskav in primerjavo odgovorov na alternativne različice istih vprašanj (nekateri raziskovalni poskusi so predstavljeni v poglavju 3); za več o raziskovalnih poskusih glej Mutz (2011) . Socialni eksperimenti so eksperimenti, kjer je zdravljenje neke socialne politike, ki jo lahko izvaja samo vlada. Socialni posegi so tesno povezani z vrednotenjem programa. Za več o preizkusih politik glej Heckman and Smith (1995) , Orr (1998) in @ glennerster_running_2013.
Odločil sem se osredotočiti na tri koncepte: veljavnost, heterogenost učinkov zdravljenja in mehanizme. Ti koncepti imajo različna imena na različnih področjih. Na primer, psihologi se nagibajo k preseganju preprostih poskusov s poudarkom na mediatorjih in moderatorjih (Baron and Kenny 1986) . Idejo o mediatorjih zajamejo tisto, kar imenujem mehanizem, zamisel moderatorjev pa zajame tisto, kar imenujem zunanja veljavnost (npr. Ali bi bili rezultati poskusa drugačni, če bi se izvajali v različnih situacijah) in heterogenost učinkov zdravljenja ( npr. učinki so večji za nekatere ljudi kot za druge).
Preizkus Schultz et al. (2007) kaže, kako se lahko družbene teorije uporabijo za oblikovanje učinkovitih posegov. Za splošnejši argument o vlogi teorije pri načrtovanju učinkovitih posegov glej Walton (2014) .
Koncept notranje in zunanje veljavnosti je najprej uvedel Campbell (1957) . Glej Shadish, Cook, and Campbell (2001) za podrobnejšo zgodovino in skrbno izdelavo statistične zaključke veljavnosti, interne veljavnosti, gradnjo veljavnosti in zunanjo veljavnost.
Za pregled vprašanj, povezanih z veljavnostjo statističnih zaključkov v eksperimentih, glej Gerber and Green (2012) (iz perspektive družboslovja) ter Imbens and Rubin (2015) (s statističnega vidika). Nekatera vprašanja o veljavnosti statističnih zaključkov, ki se pojavijo posebej v spletnih eksperimentih, vključujejo vprašanja, kot so računsko učinkovite metode za ustvarjanje intervala zaupanja z odvisnimi podatki (Bakshy and Eckles 2013) .
V zahtevnih poljskih poskusih je težko zagotoviti interno veljavnost. Glej na primer Gerber and Green (2000) , Imai (2005) in Gerber and Green (2005) za razpravo o izvajanju kompleksnega poljskega eksperimenta o glasovanju. Kohavi et al. (2012) in Kohavi et al. (2013) predstavljajo uvod v izzive veljavnosti intervala v spletnih eksperimentih na terenu.
Ena glavna grožnja notranji veljavnosti je možnost neuspešne randomizacije. Eden od možnih načinov za odkrivanje težav z randomizacijo je primerjanje zdravljenja in kontrolnih skupin na opaznih lastnostih. Ta primerjava se imenuje preverjanje stanja . Glej Hansen and Bowers (2008) za statistični pristop k preverjanju ravnotežja ter Mutz and Pemantle (2015) skrbi za preverjanje ravnotežja. Na primer, z uporabo preverjanja stanja, Allcott (2011) našel nekaj dokazov, da randomizacija ni bila pravilno izvedena v treh poskusih Opower (glej tabelo 2, strani 2, 6 in 8). Za druge pristope glej poglavje 21 Imbens and Rubin (2015) .
Drugi pomembni pomisleki v zvezi z notranjo veljavnostjo so: (1) enostransko neupoštevanje, pri katerem se vsi v tretirani skupini dejansko niso zdravili, (2) dvostransko neupoštevanje, pri katerem se vsi ne obravnavajo v tretirani skupini, nekateri ljudje v kontrolna skupina prejme zdravljenje, (3) zmanjšanje vrednosti, pri katerih se rezultati ne izmerijo za nekatere udeležence, in (4) motnje, pri katerih se zdravljenje razširi od ljudi, ki so v stanju zdravljenja, ljudem v stanju nadzora. Glejte poglavji 5, 6, 7 in 8 iz Gerber and Green (2012) za več o vsaki od teh vprašanj.
Za več o gradnji veljavnosti glej Westen and Rosenthal (2003) in več o gradnji veljavnosti v velikih virih podatkov, Lazer (2015) in poglavju 2 te knjige.
Eden od vidikov zunanje veljavnosti je določitev, v kateri se testira poseg. Allcott (2015) skrbno teoretično in empirično obravnava pristranskosti izbire lokacije. O tem vprašanju razpravlja tudi Deaton (2010) . Drug vidik zunanje veljavnosti je, ali bodo imeli podobne učinke alternativne operacije istega posredovanja. V tem primeru je primerjava med Schultz et al. (2007) in Allcott (2011) kažejo, da so eksperimenti v Opowerju imeli manjši ocenjeni učinek kot prvotni poskusi Schultza in kolegov (1,7% v primerjavi s 5%). Allcott (2011) špekuliral, da so nadaljnji poskusi imeli manjši učinek zaradi načinov, kako se zdravljenje razlikuje: ročno napisan emotikon kot del študije, ki jo je sponzorirala univerza, v primerjavi s tiskanim čustvom kot del množične produkcije poročilo energetskega podjetja.
Za odličen pregled heterogenosti učinkov zdravljenja v poljskih poskusih glej poglavje 12 Gerber and Green (2012) . Za uvod v heterogenost učinkov zdravljenja v medicinskih preskušanjih glej Kent and Hayward (2007) , Longford (1999) in Kravitz, Duan, and Braslow (2004) . Razmišljanja o heterogenosti učinkov zdravljenja se na splošno osredotočajo na razlike, ki temeljijo na značilnostih pred zdravljenjem. Če vas zanima heterogenost, ki temelji na rezultatih po zdravljenju, so potrebni bolj zapleteni pristopi, kot je glavna stratifikacija (Frangakis and Rubin 2002) ; glej Page et al. (2015) za pregled.
Mnogi raziskovalci ocenjujejo heterogenost učinkov zdravljenja z linearno regresijo, vendar se novejši načini zanašajo na strojno učenje; glej na primer Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) ter Athey and Imbens (2016a) .
Obstaja nekaj skepticizma o ugotovitvah heterogenosti učinkov zaradi številnih primerjalnih problemov in "ribolova". Obstajajo številni statistični pristopi, ki lahko pomagajo rešiti skrbi glede več primerjave (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Eden od pristopov k skrbi glede "ribolova" je predregistracija, ki postaja vedno bolj razširjena v psihologiji (Nosek and Lakens 2014) , politična znanost (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , in ekonomija (Olken 2015) .
V študiji Costa and Kahn (2013) le približno polovico gospodinjstev v poskusu povezati z demografskimi informacijami. Bralci, ki jih zanima te podrobnosti, se morajo nanašati na izvirni članek.
Mehanizmi so neverjetno pomembni, vendar se jim zdi zelo težko preučiti. Raziskave o mehanizmih so tesno povezane s preučevanjem mediatorjev v psihologiji (glej tudi VanderWeele (2009) za natančno primerjavo med tema VanderWeele (2009) ). Statistični pristopi k iskanju mehanizmov, kot je pristop, ki so ga razvili Baron and Kenny (1986) , sta precej pogosta. Na žalost se izkaže, da so ti postopki odvisni od nekaterih močnih predpostavk (Bullock, Green, and Ha 2010) in trpijo, če obstaja več mehanizmov, kot bi lahko pričakovali v številnih situacijah (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) in Imai and Yamamoto (2013) ponujajo nekatere izboljšane statistične metode. Nadalje, VanderWeele (2015) ponuja knjigovodsko obdelavo s številnimi pomembnimi rezultati, vključno s celovitim pristopom k analizi občutljivosti.
Poseben pristop se osredotoča na poskuse, ki neposredno poskušajo manipulirati z mehanizmom (npr. Dajanje mornarjev vitaminu C). Žal je v mnogih nastavitvah družbenih ved pogosto več mehanizmov in je težko načrtovati zdravljenje, ki spremeni eno, ne da bi se spremenilo druge. Nekatere pristope za eksperimentalno spreminjanje mehanizmov opisujejo Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) ter Pirlott and MacKinnon (2016) .
Raziskovalci, ki izvajajo popolnoma faktorske poskuse, bodo morali skrbeti za večkratno testiranje hipotez; Za več informacij glej Fink, McConnell, and Vollmer (2014) ter List, Shaikh, and Xu (2016) .
Končno, mehanizmi imajo tudi dolgo zgodovino v filozofiji znanosti, kot so opisali Hedström and Ylikoski (2010) .
Za več o uporabi študij dopisovanja in revizijskih študij za merjenje diskriminacije glej Pager (2007) .
Najpogostejši način za zaposlitev udeležencev pri poskusih, ki jih gradite, je Amazon Mechanical Turk (MTurk). Ker MTurk posnema vidike tradicionalnih laboratorijskih eksperimentov, ki plačujejo ljudi, da dokončajo naloge, ki jih ne bi storili brezplačno - mnogi raziskovalci so že začeli uporabljati Turkers (delavce na MTurk) kot eksperimentalne udeležence, kar je povzročilo hitrejše in cenejše zbiranje podatkov, kot ga je mogoče doseči v tradicionalnih poskusih laboratorijskih laboratorijev (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Na splošno so največje prednosti uporabe udeležencev, ki so zaposleni pri MTurku, logistični. Medtem ko laboratorijski poskusi lahko trajajo več tednov, poskusi na terenu pa lahko trajajo več mesecev, poskusi z udeleženci, zaposleni iz MTurk, se lahko izvajajo v dnevih. Na primer, Berinsky, Huber, and Lenz (2012) so lahko na en dan zaposlili 400 oseb, da bi sodelovali v 8-minutnem poskusu. Poleg tega je mogoče te udeležence zaposliti za skoraj vse namene (vključno z anketami in množičnim sodelovanjem, kot je opisano v poglavjih 3 in 5). Ta enostavnost zaposlovanja pomeni, da lahko raziskovalci hitro zaporedje zaporedij povezanih eksperimentov vodijo.
Pred zaposlovanjem udeležencev iz MTurk za lastne preizkuse so štiri pomembne stvari, ki jih morate poznati. Prvič, mnogi raziskovalci imajo nespecifičen skepticizem eksperimentov, ki vključujejo Turkers. Ker ta skepticizem ni specifičen, je težko preprečiti dokaze. Vendar pa po več letih študij s pomočjo Turkersa lahko sklepamo, da ta skepticizem ni posebej upravičen. Veliko študij je primerjalo demografijo Turkersa s tistimi drugih populacij in veliko študij, ki so primerjale rezultate poskusov s Turkersi z drugimi populacijami. Glede na vse to delo, mislim, da je najboljši način, da razmišljate o tem, da so Turkers razumen vzorec primernosti, podobno kot študentje, a nekoliko bolj raznolik (Berinsky, Huber, and Lenz 2012) . Torej, tako kot študenti so razumno prebivalstvo za nekatere, vendar ne vse, raziskave, Turkers so razumno prebivalstvo za nekatere, vendar ne vse, raziskave. Če boste sodelovali s Turkersi, je smiselno prebrati številne te primerjalne študije in razumeti njihove nianse.
Drugič, raziskovalci so razvili najboljše prakse za povečanje interne veljavnosti poskusov MTurk, zato se morate naučiti in upoštevati ta najboljša praksa (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Na primer, raziskovalce, ki uporabljajo Turkers, se spodbuja, naj uporabijo (Berinsky, Margolis, and Sances 2014, 2016) da odstranijo (Berinsky, Margolis, and Sances 2014, 2016) udeležence (Berinsky, Margolis, and Sances 2014, 2016) (glej tudi DJ Hauser and Schwarz (2015b) ter DJ Hauser and Schwarz (2015a) ). Če ne odstranite nezaželenih udeležencev, lahko vsak učinek zdravljenja odpravi hrup, ki ga uvajajo, v praksi pa je lahko število nezaželenih udeležencev precejšnje. V eksperimentu s Huberjem in sodelavci (2012) je okrog 30% udeležencev neuspešno pregledalo osnovne pozornosti. Drugi problemi, ki se pogosto pojavljajo, ko so uporabljeni Turkers, so ne-naivni udeleženci (Chandler et al. 2015) (Zhou and Fishbach 2016) .
Tretjič, glede na nekatere druge oblike digitalnih eksperimentov, poskusi MTurk ne morejo meriti; Stewart et al. (2015) ocenjujejo, da je MTurk v vsakem trenutku le okoli 7.000 ljudi.
Končno, morate vedeti, da je MTurk skupnost z lastnimi pravili in normami (Mason and Suri 2012) . Na enak način, kot bi si želeli izvedeti o kulturi države, v kateri boste vodili svoje poskuse, bi morali poskusiti izvedeti več o kulturi in normah Turkersa (Salehi et al. 2015) . In vedite, da bodo Turkers govorili o vašem poskusu, če storite nekaj neprimernega ali neetičnega (Gray et al. 2016) .
MTurk je izjemno priročen način za zaposlitev udeležencev v vaših poskusih, ne glede na to, ali so laboratorijske, kot na primer pri Huber, Hill, and Lenz (2012) ali na več področjih, kot so Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) ter Mao et al. (2016) .
Če razmišljate o tem, da bi poskušali ustvariti svoj izdelek, vam priporočam, da preberete nasvet, ki ga ponuja skupina MovieLens v Harper and Konstan (2015) . Ključni vpogled iz njihovih izkušenj je, da za vsak uspešen projekt obstaja veliko, veliko napak. Na primer, skupina MovieLens je začela druge izdelke, kot so GopherAnswers, ki so bile popolne napake (Harper and Konstan 2015) . Še en primer raziskovalca, ki ni uspel pri izdelavi izdelka, je poskus Edwarda Castronove za izgradnjo spletne igre, imenovane Arden. Kljub 250.000 dolarjem je bil projekt flop (Baker 2008) . Projekti, kot so GopherAnswers in Arden, so na žalost veliko bolj pogosti kot projekti, kot so MovieLens.
Slišal sem, da se je ideja o Pasteurjevem kvadrantu pogosto pogovarjala o tehničnih podjetjih in pomaga organizirati raziskovalna prizadevanja v Googlu (Spector, Norvig, and Petrov 2012) .
Študija Bonda in kolegov (2012) tudi poskuša zaznati učinek teh tretiranj na prijatelje tistih, ki so jih prejeli. Zaradi zasnove poskusa je te prelive težko zaznati; zainteresirani bralci bi morali videti Bond et al. (2012) za podrobnejšo razpravo. Jones in sodelavci (2017) so med volitvami leta 2012 izvedli tudi zelo podoben eksperiment. Ti poskusi so del dolge tradicije poskusov političnih znanosti o prizadevanjih za spodbujanje glasovanja (Green and Gerber 2015) . Ti eksperimenti, ki se pojavljajo, so pogosti, delno zato, ker so v Pasteurjevem kvadrantu. To pomeni, da je veliko ljudi, ki so motivirani za povečanje glasovanja in glasovanja, lahko zanimivo vedenje za testiranje bolj splošnih teorij o spremembi vedenja in družbenega vpliva.
Za nasvete o tekočih eksperimentih s partnerskimi organizacijami, kot so politične stranke, nevladne organizacije in podjetja, glej Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) in Gueron (2002) . Za razmišljanja o tem, kako lahko partnerstva z organizacijami vplivajo na raziskovalne projekte, glej King et al. (2007) in Green, Calfano, and Aronow (2014) . Partnerstvo lahko vodi tudi do etičnih vprašanj, o katerih so razpravljali Humphreys (2015) in Nickerson and Hyde (2016) .
Če boste pred izvedbo preizkusa ustvarili načrt analize, predlagam, da začnete z branjem smernic za poročanje. Smernice CONSORT (Consolidated Standard Reporting Trials) so bile razvite v medicini (Schulz et al. 2010) in spremenjene za socialne raziskave (Mayo-Wilson et al. 2013) . Sestavljeni sklop smernic so razvili uredniki Journal of Experimental Political Science (Gerber et al. 2014) (glej tudi Mutz and Pemantle (2015) in Gerber et al. (2015) ). Končno so bile v psihologiji razvite smernice za poročanje (APA Working Group 2008) in glej tudi Simmons, Nelson, and Simonsohn (2011) .
Če ustvarite načrt analize, morate razmisliti o predhodni registraciji, ker predregistracija poveča zaupanje, ki ga imajo drugi v vaše rezultate. Nadalje, če delate s partnerjem, bo omejil sposobnost vašega partnerja, da spremeni analizo, potem ko bo videl rezultate. Predregistracija postaja vedno bolj razširjena v psihologiji (Nosek and Lakens 2014) , politična znanost (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) in ekonomija (Olken 2015) .
Oblikovanje nasvetov, posebej za spletne terenske eksperimente, je predstavljeno tudi v Konstan and Chen (2007) ter Chen and Konstan (2015) .
To, kar sem imenovala strategija armade, se včasih imenuje programska raziskava ; glej Wilson, Aronson, and Carlsmith (2010) .
Za več o poskusih MusicLab glej Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) in Salganik (2007) . Za več informacij o trgih zmagovalnih nakupov glej Frank and Cook (1996) . Za več informacij o splošni sreči in spretnostih na splošno si oglejte Mauboussin (2012) , Watts (2012) in Frank (2016) .
Obstaja še en pristop k odpravi plačil udeležencev, ki bi jih morali raziskovalci uporabljati previdno: povabilo. V mnogih poskusih na spletnem polju so udeleženci v bistvu pripravljeni na preizkuse in niso nikoli kompenzirali. Primeri tega pristopa so poskusi Restiva in van de Rijta (2012) o nagradah v Wikipediji in poskusu Bonda in sodelavca (2012) o spodbujanju ljudi, da glasujejo. Ti poskusi dejansko nimajo nič variabilne stroške, namesto, da imajo nič variabilne stroške za raziskovalce. V takih poskusih, čeprav so stroški za vsakega udeleženca izredno majhni, so lahko skupni stroški precej veliki. Raziskovalci, ki izvajajo množične spletne eksperimente, pogosto upravičujejo pomen majhnih ocenjenih učinkov zdravljenja, in sicer tako, da lahko ti majhni učinki postanejo pomembni, če se uporabljajo za mnoge ljudi. Enako razmišljanje velja za stroške, ki jih raziskovalci naložijo udeležencem. Če vaš preizkus povzroči, da milijon ljudi izgubi eno minuto, eksperiment ni zelo škodljiv za nobeno posamezno osebo, vendar je v skupni porabi zapravil skoraj dve leti časa.
Drugi pristop k ustvarjanju ničelnega variabilnega stroškovnega plačila udeležencem je uporaba loterije, pristopa, ki je bil uporabljen tudi pri raziskavah raziskav (Halpern et al. 2011) . Več o oblikovanju prijetnih uporabniških izkušenj glejte Toomim et al. (2011) . Več o uporabi botov za ustvarjanje ničelnih preizkusov s spremenljivo ceno si oglejte ( ??? ) .
Tri R, kot so prvotno predlagali Russell and Burch (1959) so naslednji:
"Nadomestni pomeni zapušča za zavestnih živijo višjih živali insentient materiala. Zmanjšanje pomeni zmanjšanje števila živali, ki se uporabljajo za pridobivanje informacij o določenem znesku in natančnosti. Prefinjenost pomeni vsako zmanjšanje pojavnosti ali resnosti nehumanih postopkov sklepanja navedenih živali, ki jih je treba še uporabljajo. "
Trije R, ki jih predlagam, ne nadomeščajo etičnih načel, opisanih v poglavju 6. Namesto tega so bolj razčlenjena različica ena od teh načel - korist, posebej pri določanju človeških eksperimentov.
V primerjavi s prvim R ("zamenjavo"), primerjava čustvenih poskusov okužbe (Kramer, Guillory, and Hancock 2014) in naravnega eksperimenta (Lorenzo Coviello et al. 2014) ponujajo nekaj splošnih spoznanj o kompromisih pri prehodu s preizkusov na naravne eksperimente (in drugi pristopi, kot so ujemanje, ki poskušajo približati eksperimente v neeksperimentalnih podatkih, glej poglavje 2). Poleg etičnih koristi, prehod iz eksperimentalnih v neeksperimentalne študije omogoča raziskovalcem tudi študije zdravljenja, ki jih logistično ne morejo uporabiti. Vendar pa te etične in logistične koristi prinašajo stroške. Z naravnimi eksperimenti imajo raziskovalci manj nadzora nad stvari, kot so zaposlovanje udeležencev, randomizacija in narava zdravljenja. Na primer, ena omejitev padavin kot zdravljenje je, da obe povečata pozitivnost in zmanjšata negativnost. V poskusni študiji pa sta Kramer in kolegi lahko samostojno prilagodili pozitivnost in negativnost. Poseben pristop, ki ga uporabljajo Lorenzo Coviello et al. (2014) so nadalje razvili L. Coviello, Fowler, and Franceschetti (2014) . Za uvod v instrumentalne spremenljivke, kar je pristop, ki ga uporabljajo Lorenzo Coviello et al. (2014) Angrist and Pischke (2009) (manj formalen) ali Angrist, Imbens, and Rubin (1996) (bolj formalen). Za skeptično oceno instrumentalnih spremenljivk glej Deaton (2010) in za uvod v instrumentalne spremenljivke s šibkimi instrumenti (dež je šibki instrument), glej Murray (2006) . Na splošno je Dunning (2012) dober uvod v naravne eksperimente, medtem ko Rosenbaum (2002) , ( ??? ) in Shadish, Cook, and Campbell (2001) ponujajo dobre ideje o ocenjevanju vzročnih učinkov brez eksperimentov.
V smislu drugega R ("izboljšanje") obstajajo znanstveni in logistični kompromisi, ko razmišljamo o spremembi načrta Emotional Contagion od blokiranih delovnih mest do povečanja števila delovnih mest. Na primer, lahko v primeru tehnične izvedbe novice vira precej olajša opravljanje preizkusa, v katerem so objave blokirane in ne tiste, v katerih se spodbujajo (upoštevajte, da se lahko izvede poskus, ki vključuje blokiranje delovnih mest kot sloj na vrhu novice Feed brez potrebe po spremembah osnovnega sistema). Znanstveno, pa teorija, ki jo obravnava eksperiment, ni jasno predlagala ene oblike nad drugo. Na žalost se ne zavedam bistvenih predhodnih raziskav o relativnih prednostih blokiranja in povečevanja vsebine v News Feedu. Prav tako nisem videl veliko raziskav o rafiniranju zdravljenja, da bi jih naredili manj škodljive; ena izjema sta B. Jones and Feamster (2015) , ki obravnava primer merjenja internetne cenzure (tema, o kateri razpravljam v poglavju 6 v zvezi s študijo Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
V smislu tretjega R ("zmanjšanje"), dober uvod v tradicionalno analizo moči Cohen (1988) (knjiga) in Cohen (1992) (članek), medtem ko Gelman and Carlin (2014) ponujata nekoliko drugačno perspektivo. Predpremne covariates se lahko vključijo v fazo projektiranja in analize poskusov; poglavje 4 Gerber and Green (2012) zagotavlja dober uvod v oba pristopa, Casella (2008) zagotavlja bolj poglobljeno obravnavo. Tehnike, ki uporabljajo te pred-obdelovalne informacije v randomizaciji, se običajno imenujejo blokirani eksperimentalni vzorci ali stratificirani poskusni vzorci (terminologija se ne uporablja dosledno med skupnostmi); te tehnike so tesno povezane s stratificiranimi tehnikami vzorčenja, ki so opisane v poglavju 3. Za več o uporabi teh modelov v ogromnih eksperimentih glej Higgins, Sävje, and Sekhon (2016) . V analizno fazo je mogoče vključiti tudi predpristopne preglede. McKenzie (2012) raziskuje pristop razlik med različnostmi pri analizi poljskih eksperimentov. Glej Carneiro, Lee, and Wilhelm (2016) za več o kompromisih med različnimi pristopi za povečanje natančnosti pri ocenah učinkov zdravljenja. Nazadnje, ko se odločimo, ali bomo poskušali vključiti kovarijance pred obdelavo v fazi načrtovanja ali analize (ali oboje), je treba upoštevati nekaj dejavnikov. V okolju, kjer raziskovalci želijo pokazati, da niso "ribolov" (Humphreys, Sierra, and Windt 2013) , je lahko koristno (Higgins, Sävje, and Sekhon 2016) v fazi načrtovanja (Higgins, Sävje, and Sekhon 2016) . V situacijah, ko udeleženci prispejo zaporedno, zlasti na spletno eksperimentiranje na terenu, je uporaba podatkov o predobdelavi v fazi načrtovanja logistično težavna; glej npr. Xie and Aurisset (2016) .
Treba je dodati malo intuicije o tem, zakaj je pristop razlik med različnostmi lahko veliko bolj učinkovit kot razliko med sredstvi. Številni spletni rezultati imajo zelo veliko odstopanje (glej npr. RA Lewis and Rao (2015) in Lamb et al. (2015) ) in sčasoma sorazmerno stabilno. V tem primeru ima sprememba bistveno manjšo varianco, s čimer se poveča moč statističnega preskusa. Eden od razlogov, zakaj se ta pristop ne uporablja pogosteje, je, da pred digitalno dobo ni bilo običajno imeti rezultatov pred zdravljenjem. Bolj konkreten način razmišljanja o tem je zamisliti eksperiment, da izmeri, ali posebna vadbena rutina povzroči izgubo teže. Če sprejmete pristop "razlika v sredstvih", bo vaša ocena imela spremenljivost, ki izhaja iz variabilnosti uteži v populaciji. Če naredite razliko med različnimi pristopi, pa se odstranijo naravno spremenjene uteži in lahko lažje zaznate razliko, ki jo povzroča zdravljenje.
Na koncu sem razmišljal o dodajanju četrtega R: "popraviti". To pomeni, da se raziskovalci, ko se znajdejo z več eksperimentalnimi podatki, kot jih potrebujejo za reševanje prvotnega raziskovalnega vprašanja, bi morali podatke preoblikovati, da bi postavili nova vprašanja. Predstavljajte si, da sta Kramer in sodelavci uporabili ocenjevalca razlik med razlikami in našli več podatkov, kot je bilo potrebno za reševanje njihovega raziskovalnega vprašanja. Namesto da ne bi uporabljali podatkov v največji možni meri, bi lahko proučili velikost učinka kot funkcijo čustvenega izražanja pred zdravljenjem. Tako kot Schultz et al. (2007) ugotovil, da je bil učinek zdravljenja drugačen za lahke in težke uporabnike, morda so bili učinki Novice Feed drugačni za ljudi, ki so že objavljali vesele (ali žalostne) sporočila. Ponovitev bi lahko privedla do "ribolova" (Humphreys, Sierra, and Windt 2013) in "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , vendar je to mogoče obravnavati s kombinacijo poštenega poročanja (Simmons, Nelson, and Simonsohn 2011) , predregistracijo (Humphreys, Sierra, and Windt 2013) in metodami strojnega učenja, ki se poskušajo izogniti prekomernim prilagajanju.