Küsimused sotsiaalteadusliku põhjuslikkuse kohta on sageli keerukad ja keerukad. Imbens and Rubin (2015) graafikust lähtuva põhjusliku seose kohta vt Pearl (2009) ja potentsiaalsete tulemuste põhjal põhinevat lähenemisviisi vt Imbens and Rubin (2015) . Nende kahe lähenemise võrdluseks vt Morgan and Winship (2014) . Formaalse lähenemisviisi kohta segiajamise määratlemiseks vt VanderWeele and Shpitser (2013) .
Selles peatükis olen loonud tõelise jooni meie võimest teha katseandmete ja eksperimentaalsete andmete alusel põhjuslikke hinnanguid. Kuid ma arvan, et tegelikkuses on eristamine rohkem hägune. Näiteks kõik nõustuvad, et suitsetamine põhjustab vähktõbe, kuigi kunagi ei ole tehtud randomiseeritud kontrollitud eksperimente, mis sunnivad inimesi suitsetama. Suurepärase raamatute pikkuse ravi kohta põhjuslike hinnangute mitte-eksperimentaalsetel andmetel vt Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) ja Dunning (2012) .
Freedman, Pisani, and Purves (2007) peatükkides 1 ja 2 on selgelt näha eksperimentide, kontrollitud katsete ja randomiseeritud kontrollitud eksperimentide erinevusi.
Manzi (2012) pakub põnev ja loetav sissejuhatus randomiseeritud kontrollitud eksperimentide filosoofilisse ja statistilistesse alustesse. Samuti pakub see huvitavaid näpunäiteid eksperimenteerimisvõimaluste kohta äris. Issenberg (2012) annab põneva ülevaate katsetuste kasutamisest poliitilistes kampaaniates.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 ja Athey and Imbens (2016b) annavad hea ülevaate eksperimentaalse disaini ja analüüsi statistilistest aspektidest. Lisaks on suurepärased katsed eksperimentidega mitmesugustes valdkondades: majandus (Bardsley et al. 2009) , sotsioloogia (Willer and Walker 2007; Jackson and Cox 2013) , psühholoogia (Aronson et al. 1989) , politoloogia (Morton and Williams 2010) ja sotsiaalpoliitika (Glennerster and Takavarasha 2013) .
Osalejate värbamise (nt proovide võtmise) tähtsus on eksperimentaaluuringutes sageli alahinnatud. Kuid kui ravi mõju on populatsioonis heterogeenne, on proovide võtmine kriitiline. Longford (1999) teeb selle punkti selgeks, kui ta pooldab teadlasi, kes mõtlevad eksperimentidele kui rühma proovivõtuga populatsiooniuuring.
Ma olen väitnud, et laboritevaheline katse on katkematu ja teised teadlased on välja pakkunud üksikasjalikumaid tüpoloogiaid, eriti neid, mis eraldavad eri katsete vorme (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Mitmetes artiklites on laboratoorseid katseid (Falk and Heckman 2009; Cialdini 2009) ja konkreetsete eksperimentide tulemused poliitikas (Coppock and Green 2015) , majandusteaduses (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) ja psühholoogia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) pakuvad suurepärast uurimustööd, et võrrelda labori- ja välieksperimentide tulemusi. Parigi, Santana, and Cook (2017) kirjeldab, kuidas veebipõhised katsed võivad ühendada mõningad labori- ja välieksperimentide omadused.
Mõeldes osalejatele, kes muudavad oma käitumist, sest nad teavad, et neid hoolikalt jälgitakse, kutsutakse mõnikord nõudluse mõju ja neid on uuritud psühholoogias (Orne 1962) ja majanduses (Zizzo 2010) . Kuigi enamasti on see seotud laboratoorsete eksperimentidega, võivad need samad probleemid tekitada probleeme ka välikatsetes. Tegelikult nimetatakse nõudluse mõju mõnikord ka Hawthorne'i efektiks - termini "Lääne elektriettevõtte Hawthorne teosed" (Adair 1984; Levitt and List 2011) aluseks olnud kuulsad valgustuskatsed, mis algasid 1924. aastal. Mõlemad nõudlusefektid ja Hawthorne efektid on tihedalt seotud 2. peatükis käsitletud reaktiivmõõtmise ideega (vt ka Webb et al. (1966) ).
Välikatsed on pikaajalise majandusteadusega (Levitt and List 2009) , politoloogia (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) ; psühholoogia (Shadish 2002) ; avaliku korra (Shadish and Cook 2009) . Üks sotsiaalteaduste valdkond, kus väliskatsed kiiresti said oluliseks, on rahvusvaheline areng. Selle töö positiivse ülevaate saamiseks majanduses vt Banerjee and Duflo (2009) ning kriitilise hinnangu saamiseks vt Deaton (2010) . Selle töö ülevaatamiseks politoloogias vaata Humphreys and Weinstein (2009) . Lõpuks on (Humphreys 2015; Desposato 2016b) tulenevaid eetilisi väljakutseid uuritud ka poliitiliste teaduste kontekstis (Humphreys 2015; Desposato 2016b) ja arengumajanduses (Baele 2013) .
Selles osas osutasin ma, et eeltöötlemist puudutavat teavet saab kasutada hinnanguliste raviefektide täpsuse parandamiseks, kuid selle lähenemisviisi kohta on mõningaid arutelusid; vt Freedman (2008) , W. Lin (2013) , Berk et al. (2013) ja Bloniarz et al. (2016) lisateabe saamiseks.
Lõpuks on ka sotsiaalteadlaste poolt sooritatud kaks eksperimenti, mis ei sobi lab-ala mõõtmetega: uuringukriteeriumid ja sotsiaalsed eksperimendid. Uuringute eksperimendid on eksperimendid, milles kasutatakse olemasolevate uuringute infrastruktuuri ja võrreldakse vastuseid samade küsimuste alternatiivsetele versioonidele (mõned uuringukatused on esitatud 3. peatükis); uurimiskatsete kohta lisateabe saamiseks vaata Mutz (2011) . Sotsiaalsed eksperimendid on eksperimendid, kus käsitlus on mõni sotsiaalpoliitika, mida saab rakendada vaid valitsus. Sotsiaalsed eksperimendid on tihedalt seotud programmi hindamisega. Lisateavet poliitiliste eksperimentide kohta vt Heckman and Smith (1995) , Orr (1998) ja @ glennerster_running_2013.
Olen otsustanud keskenduda kolmele kontseptsioonile: kehtivus, ravitulemuste heterogeensus ja mehhanismid. Nendel mõistetel on erinevad nimed erinevates valdkondades. Näiteks kalduvad psühholoogid minema kaugemale lihtsatest eksperimentidest keskendudes vahendajatele ja moderaatoritele (Baron and Kenny 1986) . Vahendajate ideed on hõivatud mehhanismide abil, ja moderaatorite ideed püütakse läbi viia, mida nimetan väliseks sobivaks (nt kas eksperimendi tulemused erinevad, kui seda kasutatakse erinevates olukordades) ja raviefektide heterogeensusega ( Näiteks mõne inimese jaoks on mõju mõnele inimestele suurem kui teistel).
Schultz et al. (2007) eksperiment Schultz et al. (2007) näitab, kuidas sotsiaalseid teooriaid saab kasutada tõhusate sekkumiste kavandamiseks. Üldisema argumendi kohta teooria rolli kohta tõhusate sekkumiste kujundamisel vt Walton (2014) .
Sisemise ja välise õigsuse mõisteid tutvustas esmakordselt Campbell (1957) . Täpsemat ajalugu ja statistiliste järelduste kehtivuse, sisemise kehtivuse, konstrueerimise kehtivuse ja välise kehtivuse kohta vt Shadish, Cook, and Campbell (2001) .
Ülevaade statistiliste järelduste kehtivust puudutavate probleemide kohta eksperimentides vt Gerber and Green (2012) (sotsiaalteaduslikest perspektiividest) ja Imbens and Rubin (2015) (statistilist perspektiivi). Mõned statistiliste järelduste kehtivuse küsimused, mis ilmnevad spetsiaalselt veebipõhiste katsete käigus, hõlmavad selliseid küsimusi nagu arvutuslikult tõhusad meetodid sõltuvate andmetega seotud usaldusvahemike loomiseks (Bakshy and Eckles 2013) .
Komplekssetes välikatsetes on keeruline tagada sisemine kehtivus. Vt näiteks Gerber and Green (2000) , Imai (2005) ja Gerber and Green (2005) et arutada keerulise hääletusvälja eksperimendi rakendamist. Kohavi et al. (2012) ja Kohavi et al. (2013) annavad intervalli kehtivuse väljakutsetele veebipõhiste katsete käigus sissejuhatuse.
Üheks suureks ohuks sisemisele kehtivusele on ebaõnnestunud randomiseerimise võimalus. Randomiseerimisega seotud probleemide tuvastamise üks võimalus on võrrelda ravitavaid ja kontrollrühmi jälgitavate omadustega. Sellist võrdlust nimetatakse tasakaalu kontrolliks . Hansen and Bowers (2008) kasutavad statistilist lähenemisviisi tasakaalude kontrollimiseks ja Mutz and Pemantle (2015) jaoks seoses tasakaalu kontrollimisega seotud muredega. Näiteks kasutades tasakaalukontrolli, leidis Allcott (2011) mõningaid tõendeid selle kohta, et randomiseerimist ei rakendatud kolme Opoweri eksperimendi korrektselt (vt tabel 2; saitidel 2, 6 ja 8). Teiste lähenemisviiside kohta vt Imbens and Rubin (2015) peatükk 21.
Teised olulised sisemise kehtivusega seotud probleemid on: (1) ühepoolne mittevastavus, kus ravigruppi ei saanud tegelikult kõik ravigrupi saanud, (2) kahepoolne mittevastavus, kus ravigrupi kõik ei saa ravi ja mõned inimesed kontrollrühma saavad ravi, (3) hõõrumine, kus mõne osaleja jaoks tulemusi ei mõõdeta ja (4) sekkumine, kus ravi lakkab inimestelt, kes on ravi seisundis, kontrolli all olevatele inimestele. Gerber and Green (2012) peatükid 5, 6, 7, ja 8 leiate lisateavet kõigist neist probleemidest.
Lisateavet ehituse kehtivuse kohta vt Westen and Rosenthal (2003) ning rohkem selle kohta, kuidas ehitada kehtivust suurtes andmeallikates, Lazer (2015) ja käesoleva raamatu 2. peatükk.
Välise kehtivuse üks aspekt on seade, milles testitakse sekkumist. Allcott (2015) pakub kohapealse valiku eelarvamuste hoolikat teoreetilist ja empiirilist käsitlemist. Seda küsimust arutleb ka Deaton (2010) . Välise kehtivuse teine aspekt on, kas samade sekkumiste alternatiivsed rakendamisviisid on sarnased. Sel juhul võrdleb Schultz et al. (2007) ja Allcott (2011) näitavad, et Opoueri eksperimentide hinnanguliselt vähenenud mõju oli võrreldes Schultzi ja tema kolleegide esialgsete eksperimentidega (1,7% versus 5%). Allcott (2011) väitis, et järelmeetmete eksperimendid olid väiksemad, kuna ravi erineb: käsitsi kirjutatud emotikon osana ülikooli poolt sponsitud uuringust, võrreldes trükitud emotikone osana massitoodangust elektriettevõtte aruanne.
Hea ülevaate saamiseks ravi katsete heterogeensusest vaata Gerber and Green (2012) peatükki 12. Meditsiiniliste uuringute raviefektide heterogeensuse sissetoomise kohta vt Kent and Hayward (2007) , Longford (1999) , Kravitz, Duan, and Braslow (2004) . Ravi efektide heterogeensuse kaalutlused keskenduvad tavaliselt erinevustele, mis põhinevad eeltöötluse omadustel. Kui olete huvitatud ravivastust (Frangakis and Rubin 2002) tulemustest lähtuva heterogeensuse pärast, siis on vaja keerukamaid lähenemisviise, nagu põhiline stratifitseerimine (Frangakis and Rubin 2002) ; vt Page et al. (2015) läbivaatamiseks.
Paljud teadlased hindavad raviefektide heterogeensust, kasutades lineaarset regressiooni, kuid uuemad meetodid sõltuvad masinõppest; vaata näiteks Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) ja Athey and Imbens (2016a) .
Mitu võrdlusprobleeme ja "kalapüüki" põhjustavad mõningaid skeptilisi tagajärgede heterogeensuse tulemusi. On mitmeid statistilisi lähenemisviise, mis aitavad probleemide lahendamiseks mitu võrdlust (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Üks lähenemisviis muretsemiseks "kalapüügi kohta" on eelregistreerimine, mis psühholoogias üha enam (Nosek and Lakens 2014) , politoloogia (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ja ökonoomika (Olken 2015) .
Costa and Kahn (2013) uuringus Costa and Kahn (2013) ligikaudu pooled eksperimentides leibkondadest olla seotud demograafilise teabega. Nende üksikasjade huvitatud lugejad peaksid viitama originaaldokumendile.
Mehhanismid on äärmiselt olulised, kuid need on väga raske õppida. Mehhanismide uurimine on tihedalt seotud psühholoogia vahendajate uurimisega (kuid vt ka VanderWeele (2009) kahe idee täpseks võrdlemiseks). Statistilised lähenemisviisid mehhanismide leidmiseks, nagu Baron and Kenny (1986) välja töötatud lähenemine, on üsna tavalised. Kahjuks selgub, et need protseduurid sõltuvad mõnest kindlast eeldusest (Bullock, Green, and Ha 2010) ning kannatavad siis, kui on olemas mitu mehhanismi, mida võiks paljudes olukordades eeldada (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ja Imai and Yamamoto (2013) pakuvad mõningaid täiustatud statistilisi meetodeid. Veelgi enam, VanderWeele (2015) pakub raamatute pikkust ja mitmeid olulisi tulemusi, sealhulgas terviklik lähenemisviis tundlikkuse analüüsile.
Eraldi lähenemine keskendub katsetustele, mis püüavad mehhanismi otseselt manipuleerida (nt anda meremeestele vitamiin C). Kahjuks on paljudes sotsiaalteaduste seadetes sageli mitmed mehhanismid ja neid on raske kujundada, mis muudavad üksteist, muutes neid teisi. Mõningaid lähenemisviise eksperimentaalselt muutuvatele mehhanismidele kirjeldavad Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) ning Pirlott and MacKinnon (2016) .
Teadlased, kes kasutavad täielikult faktoriaalseid eksperimente, peavad muretsema mitme hüpoteesi testimise pärast; Lisateabe saamiseks vt Fink, McConnell, and Vollmer (2014) ja List, Shaikh, and Xu (2016) .
Lõpuks on mehhanismidel ka pikk ajalugu teaduse filosoofias, mida on kirjeldanud Hedström and Ylikoski (2010) .
Lisateavet kirjavahetuste ja auditiuuringute kasutamise kohta diskrimineerimise mõõtmiseks vt Pager (2007) .
Kõige levinum viis osalejate värbamiseks katsetest, mida te ehitate, on Amazon Mehaaniline Türk (MTurk). Kuna MTurk jäljendab tavapäraste laborikatsetustega seotud aspekte, et maksta inimesi ülesannete täitmiseks, mida nad tasuta ei tee, on paljud teadlased katserakendajatena juba kasutanud Türkereid (MTurkis töötajad), mille tulemusena on andmete kogumine kiirem ja odavam kui see on võimalik traditsioonilises ülikoolilinnakus laborikatsetes (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Üldiselt on MTurkist värvatud osalejate kasutamine suurimad eelised logistilised. Kui laborikatsetused võivad kuluda nädalaid, et vältida katseid, võib kuluda mitu kuud paigutamiseks, katsed MTurkiga värvatud osalejatega võib toimuda päevadel. Näiteks Berinsky, Huber, and Lenz (2012) suutsid Berinsky, Huber, and Lenz (2012) päeva jooksul osaleda 400 teemal, et osaleda kaheksa minuti Berinsky, Huber, and Lenz (2012) katses. Lisaks saab neid osalejaid tööle võtta praktiliselt mis tahes eesmärgil (sealhulgas uuringud ja massikoostöö, nagu on kirjeldatud peatükkides 3 ja 5). Selline töölevõtmise lihtne tähendab, et teadlased võivad kiiresti kattuvaid katseid järjestada.
Enne MTurki osalejate värbamist oma enda eksperimentideks on neli olulist asja, mida peate teadma. Esiteks on paljudel teadlastel turkslaste eksperimente mittespetsiifiline skeptitsism. Kuna see skeptitsism ei ole konkreetne, on tõendeid raske vastata. Kuid pärast mitmeid aastaid läbi viidud uuringuid, kasutades Türkereid, võime nüüd järeldada, et see skeptitsism ei ole eriti õigustatud. On uuritud mitmeid uurimusi, milles võrreldakse Türkeri demograafia teiste populatsioonide demograafiaga ja paljud uuringud, milles võrreldi turkrite ja teiste populatsioonide eksperimentide tulemusi. Arvestades kogu seda tööd, arvan, et parim viis selle üle mõtlema on see, et Türkers on mõistlik mugavuse valim, mis sarnaneb õpilastele, kuid veidi mitmekesisem (Berinsky, Huber, and Lenz 2012) . Seega, kuna üliõpilased on mõne (kuid mitte kõik) teadusuuringute jaoks mõistlikud populatsioonid, on mõned inimesed, kuid mitte kõik, teadlased mõistlikud. Kui te kavatsete töötada koos türkidega, on mõistlik lugeda paljud neist võrdlevatest uuringutest ja mõista nende nüansse.
Teiseks on teadlased välja töötanud MTurk eksperimentide sisemise kehtivuse suurendamiseks parimad tavad ning peaksite neid parimaid tavasid tundma õppima ja järgima (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Näiteks julgustatakse türkereid kasutavaid uurijaid kasutama mittevajalikke osalejaid (Berinsky, Margolis, and Sances 2014, 2016) (aga vaata ka DJ Hauser and Schwarz (2015b) ja DJ Hauser and Schwarz (2015a) ). Kui te ei eemalda tähelepanelikke osalejaid, võib nende ravimi müra kõrvaldada mis tahes raviefekti ning praktikas võib märkamatute osalejate arv olla märkimisväärne. Huberi ja tema kolleegide eksperimendis (2012) jättis ligikaudu 30% osalejatest põhiprobleemid läbi. Muud probleemid, mis tavaliselt tekivad Türkeri kasutamisel, on mittenavivad osalejad (Chandler et al. 2015) ja hõõrdumine (Zhou and Fishbach 2016) .
Kolmandaks, mõne muu digitaalse eksperimendi vormi puhul ei saa MTurk eksperimente teha; Stewart et al. (2015) hinnangul on MTurk igal ajahetkel umbes 7000 inimest.
Lõpuks peaksite teadma, et MTurk on kogukond, millel on oma reeglid ja normid (Mason and Suri 2012) . Samal viisil, kui püüaksite teada saada selle riigi kultuuri kohta, kus sa kavatsed oma katsed käia, peate proovima rohkem teada saada turkide kultuurist ja normidest (Salehi et al. 2015) . Ja te peaksite teadma, et turkrid räägivad teie eksperimendist, kui teete midagi sobimatut või ebaeetilist (Gray et al. 2016) .
MTurk on uskumatult mugav viis, kuidas osaleda teie eksperimentides, olgu need siis lab-tüüpi, näiteks Huber, Hill, and Lenz (2012) või rohkem, nagu näiteks Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) ja Mao et al. (2016) .
Kui soovite oma toote loomist proovida, soovitan teil lugeda MovieLensi grupi poolt Harperis Harper and Konstan (2015) pakutud nõuandeid. Nende kogemuste põhjal on oluline, et iga eduka projekti puhul on palju ja palju ebaõnnestumisi. Näiteks käivitas MovieLens grupp muid tooteid, nagu GopherAnswers, mis olid täielikud ebaõnnestumised (Harper and Konstan 2015) . Teine näide sellest, et uurija ei suutnud toote valmistamisel proovida, on Edward Castronova püüdlus luua Ardeni veebimängu. Hoolimata 250 000 dollarist rahastamisest, oli tegemist flopiga (Baker 2008) . Projektid nagu GopherAnswers ja Arden on kahjuks palju levinumad kui sellised projektid nagu MovieLens.
Olen kuulnud Pasteuri kvadrandi ideed, mida sageli tehnoloogiaettevõtted arutasid ja aitab Google'is korraldada teadusuuringuid (Spector, Norvig, and Petrov 2012) .
Bond ja kolleegide uuring (2012) püüab ka tuvastada nende raviviiside mõju neile, kes neid said. Katse ülesehituse tõttu on neid väljatõmbeid raske tuvastada; huvitatud lugejad peaksid nägema Bond et al. (2012) põhjalikuma arutelu jaoks. Jones ja tema kolleegid (2017) viisid 2012. aasta valimistel läbi väga sarnase katse. Need katsed on osa poliitiliste teaduste pikaajalisest katsetest, mille eesmärk on hääletada (Green and Gerber 2015) . Need hääleõiguslikud katsed on levinud, osaliselt seetõttu, et nad on Pasteuri kvadrandis. See tähendab, et on palju inimesi, kes on motiveeritud suurendama hääletamist ja hääletamine võib olla huvitav käitumine, et testida üldisemaid teooriaid käitumise muutumise ja sotsiaalse mõju kohta.
Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) ja Gueron (2002) nõu partnerorganisatsioonide, näiteks erakondade, valitsusväliste organisatsioonide ja ettevõtete jaoks Loewen, Rubenson, and Wantchekon (2010) . Mõistmise kohta, kuidas partnerlused organisatsioonidega võivad mõjutada uurimisprojekte, vt King et al. (2007) ja Green, Calfano, and Aronow (2014) . Partnerlus võib põhjustada ka eetikaküsimusi, mida arutasid Humphreys (2015) ja Nickerson and Hyde (2016) .
Kui teete enne katse tegemist oma analüüsiplaani, soovitame teil alustada aruandluse juhiste lugemisega. Konsorts (konsolideeritud standardite uuringute aruandlus) töötati välja meditsiinis (Schulz et al. 2010) ja seda muudeti sotsiaalsete uuringute jaoks (Mayo-Wilson et al. 2013) . Poliitikateaduste ajakirjanduse (Gerber et al. 2014) toimetajate (vt ka Mutz and Pemantle (2015) ja Gerber et al. (2015) kohta on välja töötatud seonduvad suunised). Lõpuks on aruandlusjuhised välja töötatud psühholoogias (APA Working Group 2008) ja vt ka Simmons, Nelson, and Simonsohn (2011) .
Kui loote analüüsiplaani, peaksite kaaluma selle eelregistreerimist, sest eelregistreerimine suurendab teiste tulemuste usaldusväärsust. Lisaks, kui teete partneriga koostööd, piirab see teie partneri võimet analüüsi muutuda pärast tulemuste nägemist. Eelregistreerimine muutub üha sagedamaks psühholoogias (Nosek and Lakens 2014) , politoloogia (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ; ja majandus (Olken 2015) .
Konkreetsed veebipõhiste katsete jaoks mõeldud disainilahendused on esitatud ka Konstan and Chen (2007) ning Chen and Konstan (2015) .
Seda, mida ma nimetan armada strateegiat nimetatakse mõnikord programmitööks ; vt Wilson, Aronson, and Carlsmith (2010) .
Lisateavet MusicLabi eksperimentide kohta vt Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) ja Salganik (2007) . Lisateavet kõigi võitjate turgude kohta vt Frank and Cook (1996) . Lisateavet õnne ja oskuste üldisema Mauboussin (2012) vt Mauboussin (2012) , Watts (2012) ja Frank (2016) .
Osalejate maksete kõrvaldamiseks on teisel viisil teadlaste ettevaatlik: vangistus. Paljudes veebipõhistes eksperimentides osalevad osalejad põhimõtteliselt eksperimentidesse ja ei kompenseeri kunagi. Selle lähenemisviisi näideteks on Restivo ja van de Rijti (2012) eksperiment hüvede kohta Wikipedias ja Bond ja kolleegi (2012) eksperiment, mis julgustab inimesi hääletama. Neil eksperimentidel ei ole tegelikku muutuvkulusid null, pigem on teadlastele null muutuvkulud. Sellistes katsetes, isegi kui iga osaleja maksumus on äärmiselt väike, võib kogumaksumus olla suhteliselt suur. Suurte online-eksperimentidega tegelevad teadlased on sageli põhjendanud väikeste hinnanguliste raviefektide olulisust, öeldes, et need väikesed efektid võivad paljudele inimestele rakendamisel muutuda oluliseks. Täpselt sama mõtteviis kehtib ka osalejate jaoks teadustöötajatele tehtavate kulude kohta. Kui teie eksperiment põhjustab ühe minuti jooksul jäätmeid miljonil inimesel, ei ole see katse konkreetsele isikule väga kahjulik, kuid kokku on see raisatud peaaegu kaks aastat.
Osalejate jaoks muutuvkulude tasumise nullmäära muutmiseks on teine võimalus kasutada loteriit, lähenemist, mida on kasutatud ka uuringusuuringutes (Halpern et al. 2011) . Lisateavet meeldivate kasutajakogemuste kujundamise kohta vt Toomim et al. (2011) . Lisateavet robotite kasutamise kohta muutujakulu eksperimentide loomiseks vaata ( ??? ) .
Russell and Burch (1959) algselt välja pakutud kolm R on järgmised:
"Asendamine tähendab asenduse teadlik elavad suurema loomad insentient materjali. Vähendamine tähendab vähenemist kasutatavate loomade arvu, et saada informatsiooni antud summa ja täpsust. Täpsustus mis tahes vähenemine esinemissagedust või raskust ebainimlik protseduure rakendatakse neid loomi, kes on veel võimalik kasutada. "
Kolm R, mille ma teen ettepaneku, ei eirata 6. peatükis kirjeldatud eetikapõhimõtteid. Pigem on need üheks neist põhimõtetest, mis on kasulikud, täpsemalt inimkatsetuste loomisel.
Seoses esimese R-ga ("asendamine"), võrreldakse emotsionaalse leviku eksperimendi (Kramer, Guillory, and Hancock 2014) ja emotsionaalse nakkusega loodusliku katsega (Lorenzo Coviello et al. 2014) pakub mõningaid üldiseid õppetunde seoses kompromissidega katsetest loobumisel looduslikesse eksperimentidesse (ja muud lähenemisviisid, näiteks selle katsetamine katsetes ligikaudsete katsete võrdlemiseks, vt peatükk 2). Lisaks eetilistele eelistele võib eksperimentaalsete eksperimentaalsete eksperimentaalsete uuringute kasutamine ka uurijatel uurida ravimeetodeid, mida nad logistiliselt ei suuda rakendada. Sellised eetilised ja logistilised eelised tulevad siiski hinnaga. Naturaalsete katsetega on teadlastel vähem kontrolli selliste asjade üle nagu osalejate värbamine, randomiseerimine ja ravi olemus. Näiteks on sademete üheks piiramiseks raviks see, et see suurendab positiivsust ja vähendab negatiivsust. Kuid eksperimentaalses uuringus suutsid Kramer ja tema kolleegid iseseisvalt positiivsuse ja negatiivsuse reguleerida. Lorenzo Coviello et al. (2014) täiendasid veel L. Coviello, Fowler, and Franceschetti (2014) . Instrumentaalsete muutujate sissejuhatuseks, mis on Lorenzo Coviello et al. (2014) , vaadake Angrist and Pischke (2009) (vähem formaalne) või Angrist, Imbens, and Rubin (1996) (formaalsemad). Instrumentaalsete muutujate skeptiline hindamine on Deaton (2010) ja nõrkade instrumentidega seotud instrumentaalsete muutujate tutvustamine (vihm on nõrk vahend), vt Murray (2006) . Üldisemalt annab hea ülevaate looduslikest katsetest Dunning (2012) , samas kui Rosenbaum (2002) , ( ??? ) ja Shadish, Cook, and Campbell (2001) pakuvad häid ideid põhjuslike mõjude hindamiseks ilma katseteta.
Teise R-ga ("rafineerimine") silmas pidades on teaduslikud ja logistilised kompromissid, kui kaalutakse emotsionaalse nakkusliku disaini muutmist ametikohtade blokeerimisest kuni ametikohtade tõstmiseni. Näiteks võib juhtuda, et uudistevoo tehniline rakendamine muudab oluliselt lihtsamaks katse, kus ametikohad on blokeeritud, mitte neid, kus neid suurendatakse (märkus, et ametikohtade blokeerimise katset saab rakendada kui uudistevoogude süsteemi ülaosas olev kiht, ilma et oleks vaja aluseks oleva süsteemi muudatusi). Kuid teaduslikult ei andnud eksperimendis esitatud teooria selgelt ühe disaini teistest. Kahjuks pole ma teadlik olulistest varasematest teadusuuringutest, mis puudutavad uudistevoogu sisu blokeerimise ja suurendamise suhtelisi eeliseid. Samuti ei ole ma näinud palju uuringuid rafineerimistehaste kohta, et muuta need vähem kahjulikuks; Üks erand on B. Jones and Feamster (2015) , mis arvestab Interneti tsensuuri mõõtmise juhtumit (teema arutletakse 6. peatükis seoses Encore-uuringuga (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Kolmanda R ("vähendamise") osas on Cohen (1988) ) ja Cohen (1992) (artikkel) andnud hea ülevaate traditsioonilisest energiaanalüüsist, samas kui Gelman and Carlin (2014) pakuvad veidi erinevat perspektiivi. Katseprojekteerimise ja analüüsimise etappi võib lisada eeltöötluse kaasariate; Gerber and Green (2012) 4. osa) 4. peatükk annab mõlemale lähenemisele hea ülevaate, ja Casella (2008) pakub põhjalikumat käsitlemist. Randomiseerimisega seotud eeltöötluse alaseid andmeid kasutavad meetodid nimetatakse kas blokeeritud katseprojektideks või stratifitseeritud katseprojektideks (terminoloogiat ei kasutata kogukondade kaupa); need tehnikad on tihedalt seotud 3. peatükis käsitletud stratifitseeritud proovivõtumeetoditega. Vaadake Higgins, Sävje, and Sekhon (2016) et saada rohkem teavet nende kujunduste kasutamisel massilistes katsetes. Analüüsi etapis võib lisada ka eelravimiga kaasuvaid ravimeid. McKenzie (2012) uurib pisikuliste analüüside põhjal üksikasjalikumat erinevust-erinevusi. Vaadake Carneiro, Lee, and Wilhelm (2016) et saada rohkem teavet erinevate lähenemisviiside kompromisside kohta, et suurendada raviefektide hinnangut täpsusega. Lõpuks, otsustades, kas proovida lisada eeltöötlusviiside kombinatsioone projekteerimis- või analüüsietapis (või mõlemas), on mõni tegur kaaluda. Selles keskkonnas, kus teadlased soovivad näidata, et nad ei "kalastavad" (Humphreys, Sierra, and Windt 2013) , võib olla kasulik kasutada eeltöötlusviiside (Humphreys, Sierra, and Windt 2013) projekteerimisetapis (Higgins, Sävje, and Sekhon 2016) . Olukordades, kus osalejad saabuvad järjestikku, eriti veebipõhiste katsete puhul, on eeltöötlemisteabe kasutamine projekteerimisetapis keeruline logistiliselt; vt näiteks Xie and Aurisset (2016) .
Tasub lisada natuke intuitsiooni selle kohta, miks erinevus-erinevuste lähenemisviis võib olla palju tõhusam kui erinevus-in-means-üks. Paljud veebi tulemused on väga erinevad (vt nt RA Lewis and Rao (2015) ja Lamb et al. (2015) ) ning on aja jooksul suhteliselt stabiilsed. Sel juhul on muutuse skooril oluliselt väiksem dispersioon, mis suurendab statistilise testi võimsust. Üks põhjus, miks sellist lähenemisviisi ei kasutata sagedamini, on see, et enne digitaalajastut ei leitud eeltöötluse tulemusi. Konkreetsem viis seda mõelda on selleks, et kujutada eksperimenti, et mõõta, kas konkreetne treeningu rutiin põhjustab kehakaalu langust. Kui te võtate kasutusele erineva sissetulekuga lähenemise, on teie hinnangul varieeruvus, mis tuleneb elanikkonna massi varieeruvusest. Kui teete erinevusi erinevuste suunas, eemaldatakse see looduslikult esinev kaalude erinevus ja saate hõlpsamini tuvastada ravist tingitud erinevust.
Lõpuks pidasin ma neljanda R-i lisamist: "reparpose". See tähendab, et kui teadlased leiavad end rohkem eksperimentaalsete andmetega kui nad vajavad oma esialgse uurimisküsimusega tegelemiseks, peaksid nad neid andmeid uute küsimuste esitamiseks ümber pakkima. Näiteks, kujutan ette, et Kramer ja tema kolleegid kasutasid erineva hinnangu andurit ja leidsid end rohkemate andmetega, kui oli vaja oma uurimisküsimuste lahendamiseks. Selle asemel, et neid andmeid täielikult ära kasutada, oleksid nad saanud uurida selle mõju suurust eeltöötlemise emotsionaalse avaldise funktsioonina. Sarnaselt Schultz et al. (2007) leidis, et kergete ja raskete kasutajate ravimise mõju oli erinev, ehkki uudistevoo tagajärjed olid erinevad inimestele, kes juba kaldusid postitama õnnelikud (või kurvad) sõnumid. Repurposing võib viia "kalapüügi" (Humphreys, Sierra, and Windt 2013) ja "p-häkkimine" (Simmons, Nelson, and Simonsohn 2011) , kuid need on suuresti adresseeritud koos ausate aruannete (Simmons, Nelson, and Simonsohn 2011) , eelregistreerimine (Humphreys, Sierra, and Windt 2013) , mis üritavad vältida liigset paigaldamist.