See osa on mõeldud kasutamiseks viitena, mitte tuleb lugeda tekstilist.
Küsimused põhjuslikkuse sotsiaalsed uuringud on sageli keerulised ja keerulise. Sest foundational lähenemine põhjuslikkuse põhineb põhjusliku graafikud, vaata Pearl (2009) , ja foundational lähenemine põhineb võimalikke tulemusi, vaata Imbens and Rubin (2015) (ja tehnilises lisas käesolevas peatükis). Võrdluse need kaks lähenemist, vaata Morgan and Winship (2014) . Sest ametlik lähenemine määratleb confounder vt VanderWeele and Shpitser (2013) .
Peatükis, ma lõin mis tundus helge piiri meie võimet teha põhjuslikku hinnangute eksperimentaalne ja mitte-eksperimendi andmetele. Tegelikult ma arvan, et vahet on blurrier. Näiteks igaüks nõustub, et suitsetamine põhjustab vähki, kuigi me ei ole kunagi teinud randomiseeritud kontrollitud eksperiment, mis sunnib inimesi suitsetada. Suurepärase raamat pikkuse ravi tegemise põhjuslik hinnangul mitte-katseandmed näha Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , ja Dunning (2012) .
Gruppi 1 ja 2 Freedman, Pisani, and Purves (2007) pakuvad selget toomist erinevused eksperimente, kontrollitud eksperimente ja randomiseeritud kontrollitud eksperimente.
Manzi (2012) pakub põnevaid ja loetav toomist filosoofiline ja statistika alused randomiseeritud kontrollitud eksperimente. Samuti pakub huvitavaid reaalse maailma näidete võimu eksperimenteerimise äri.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) annab häid sissejuhatused statistilisi aspekte eksperimentaalse projekteerimise ja analüüsi. Lisaks on suurepärane ravi kasutamise katsed paljudes erinevates valdkondades: majandus (Bardsley et al. 2009) , sotsioloogia (Willer and Walker 2007; Jackson and Cox 2013) , psühholoogia (Aronson et al. 1989) , politoloogia (Morton and Williams 2010) , ja sotsiaalpoliitika (Glennerster and Takavarasha 2013) .
Tähtsust osaleja värbamist (nt proovide võtmine) on sageli alla hinnatud eksperimentaalne teadus. Kuid kui ravitoime on heterogeenne elanikkonnast, siis proovi võtmine on kriitiline. Longford (1999) teeb siinkohal selgelt, kui ta toetab teadlaste mõelnud eksperimendid nagu uuringul juhuslik proovide võtmist.
VASTURÄÄKIVUS et ma esitatakse vahel lab ja eksperimente on natuke lihtsustada. Tegelikult teised teadlased on teinud ettepaneku üksikasjalikumat tüüpe, eriti need, mis eraldavad erinevate eksperimente (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Lisaks on veel kaks tüüpi eksperimendid läbi ühiskonnateadlased, mis ei mahu korralikult laborisse ja valdkonnas dihhotoomia: uuringu eksperimentide ja sotsiaalseid eksperimente. Survey eksperimendid on katsed infrastruktuuri kasutamise olemasolevate uuringute ja vastuseid võrrelda alternatiivseid versioone samad küsimused (mõned uuringu eksperimendid on esitatud 3. peatükk); rohkem Uuringu eksperimendid näha Mutz (2011) . Sotsiaalne eksperimendid on katsed, kus ravi on mõned sotsiaalpoliitika, mida saab rakendada ainult valitsuse. Sotsiaalsed eksperimendid on tihedalt seotud programmide hindamiseks. Rohkem poliitika eksperimente, vaata Orr (1998) , Glennerster and Takavarasha (2013) , ja Heckman and Smith (1995) .
Mitmed dokumendid on võrreldes lab ja eksperimente abstraktselt (Falk and Heckman 2009; Cialdini 2009) ja nii tulemusi konkreetseid eksperimente politoloogia (Coppock and Green 2015) , majanduse (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) ja psühholoogia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) pakub kena teadus disain tulemuste võrdluse lab ja eksperimente.
Mure osalejad muudavad oma käitumist, sest nad teavad, et nad on tihedalt kinni nimetatakse mõnikord nõudlus mõju ja nad on uuritud psühholoogia (Orne 1962) ja majandus (Zizzo 2009) . Kuigi enamasti seostatakse lab eksperimente, need samad küsimused võib põhjustada probleeme eksperimente samuti. Tegelikult nõudlus mõju nimetatakse mõnikord ka Hawthorne mõju, termin, mis tuleneb valdkonnas eksperiment, eriti kuulus valgustuse eksperimente, mis algas 1924. aastal kell Hawthorne tööd Lääne Electric Company (Adair 1984; Levitt and List 2011) . Nii nõudluse mõju ja Hawthorn mõju on tihedalt seotud idee reaktiivne mõõtmine 2. peatükis käsitletav (vt ka Webb et al. (1966) ).
Ajalugu eksperimente on kirjeldatud ökonoomika (Levitt and List 2009) , politoloogia (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psühholoogia (Shadish 2002) , ja avalikku korda (Shadish and Cook 2009) . Üks valdkond ühiskonnaõpetus, kus eksperimente sai kiiresti silmapaistev on rahvusvahelise arengu. Positiivse läbivaatamist, et töö ökonoomika näha Banerjee and Duflo (2009) , ja kriitilise hindamise näha Deaton (2010) . Ülevaadet sellest tööst politoloogia näha Humphreys and Weinstein (2009) . Lõpuks eetilised probleemid seotud eksperimente on uuritud politoloogia (Humphreys 2015; Desposato 2016b) ja arenguprobleemide (Baele 2013) .
Peatükis, soovitasin eeltöötluse teavet võib kasutada, et parandada täpsust hinnanguliselt ravi mõju, kuid seal on mõned arutelu sellist lähenemist: Freedman (2008) , Lin (2013) ja Berk et al. (2013) ; vaata Bloniarz et al. (2016) rohkem teavet.
Olen otsustanud keskenduda kolme kontseptsiooni: kehtivust, heterogeensus ravi mõju ja mehhanismid. Need mõisted on erinevad nimed erinevates valdkondades. Näiteks psühholoogid liiguvad kaugemale lihtsatest eksperimentidest, keskendudes vahendajate ja moderaatoritel (Baron and Kenny 1986) . Idee vahendajateks on pildistatud, mida ma nimetan mehhanismid ja idee moderaatoreid kajastuvad mida ma nimetan välise kehtivus (nt oleks tulemused eksperimendi olla teistsugune, kui ta oli joosta erinevates olukordades) ja heterogeensus ravi mõju ( nt on mõju suurem mõned inimesed kui teised inimesed).
Eksperimendi Schultz et al. (2007) näitab, kuidas sotsiaalne teooriaid saab kasutada projekteerime tõhus sekkumine. Üldisema argument rollist teooria kujundamisel tõhus sekkumine, vaata Walton (2014) .
Mõisted sisemise ja välise kehtivuse võeti esmakordselt kasutusele Campbell (1957) . Vaata Shadish, Cook, and Campbell (2001) , mis sisaldab üksikasjalikumat ajalugu ja hoolikas väljatöötamine statistilise järelduse kehtivust, sisemine kehtivus, ehitada kehtivuse ja välised kehtivuse.
Ülevaate seotud küsimusi statistilise järelduse kehtivust katsetes näha Gerber and Green (2012) (sotsiaalse teaduse perspektiivi) ja Imbens and Rubin (2015) (Statistiliste perspektiiv). Mõned küsimused statistilise järelduse kehtivust, mis tekivad eriti online eksperimente hõlmata selliseid küsimusi nagu arvutuslikult tõhusa loomise meetodid usaldusvahemikud ülalpeetavate andmed (Bakshy and Eckles 2013) .
Sisemine kehtivuse võib olla raske tagada keerulistes eksperimente. Vaata näiteks, Gerber and Green (2000) , Imai (2005) ja Gerber and Green (2005) aruteluks rakendamine keerukas valdkonnas eksperimendist hääletamisel. Kohavi et al. (2012) ja Kohavi et al. (2013) annavad toomist väljakutseid intervall kehtivuse online eksperimente.
Üks suur mure sisemise kehtivus on probleeme randomiseerimist. Üks võimalus potentsiaalselt tuvastada probleeme randomiseerimisskeemile on võrrelda ravi rühmas ja kontrollrühmas vaadeldavad tunnused. Selline võrdlus on nn tasakaalu kontroll. Vaata Hansen and Bowers (2008) statistilist lähenemist tasakaal kontrolli ja vaata Mutz and Pemantle (2015) eest muret tasakaalu kontrolli. Näiteks, kasutades tasakaalu vaadake Allcott (2011) leidis, et on mõningaid tõendeid, et randomiseerimisskeemile ei rakendatud korrektselt kolm eksperimendid mõned OPower eksperimente (vt tabel 2; saite 2, 6 ja 8). Sest teisi lähenemisviise, vaata Imbens and Rubin (2015) , peatükk 21.
Muud suurt muret seoses sisemise kehtivuse: 1) ühekülgne mittevastavus, kus kõik ei katserühma tegelikult saadud ravi, 2) kahepoolse mittevastavus, kus kõik ei katserühma saab ravi ja mõned inimesed kontrollgrupis saada ravi, 3) hõõrdumine, kus tulemusi ei mõõdeta mõned osalejad, ja 4) sekkumine, kus ravi kandub üle inimeselt ravi tingimus inimesi kontrolli tingimus. Vaata Gerber and Green (2012) peatükis 5, 6, 7, ja 8 rohkem kõik need probleemid.
Lisateavet ehitada kehtivuse vt Westen and Rosenthal (2003) , ja rohkem ehitada kehtivuse suurte allikatele Lazer (2015) ja 2. peatükk sellest raamatust.
Üks aspekt välise kehtivus on seade, kus sekkumine on testitud. Allcott (2015) annab ettevaatlik teoreetilise ja empiirilise ravi kohavaliku eelarvamusi. See teema on käsitletud ka Deaton (2010) . Lisaks sellele, et korrata paljudes kohtades, Home Energy aruanne sekkumine on ka iseseisvalt uurinud mitu uurimisgrupid (nt Ayres, Raseman, and Shih (2013) ).
Sest hea ülevaate heterogeensus ravitoime eksperimente, vt peatükki 12 Gerber and Green (2012) . Asustamisega heterogeensus ravitoime arsti uuringutes näha Kent and Hayward (2007) , Longford (1999) , ja Kravitz, Duan, and Braslow (2004) . Ebaühtlus ravi mõju üldiselt keskenduma erinevused põhinevad eeltöötluse omadused. Kui olete huvitatud heterogeensus põhineb post-ravitulemusi, siis keerulisem approachs on vaja näiteks peamine kihistumine (Frangakis and Rubin 2002) ; vaata Page et al. (2015) läbivaatamiseks.
Paljud teadlased on jõudnud heterogeensus ravi mõju, kasutades lineaarset regressiooni, kuid uuemad meetodid tuginevad masinõpe, näiteks Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , ja Athey and Imbens (2016a) .
On mõned skeptitsismi järeldused heterogeensus mõju tõttu mitme võrreldes probleemid ja "kalapüük". On erinevaid statistilisi lähenemisviise, mis aitavad aadress muret mitmese võrdluse (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Üks lähenemine mure "kalapüük" on eelregistreerimine, mis on muutumas üha tavalisemaks psühholoogia (Nosek and Lakens 2014) , politoloogia (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ja ökonoomika (Olken 2015) .
Uuringus Costa and Kahn (2013) vaid umbes pooled leibkonnad katses suutsid olla seotud demograafilisi andmeid. Lugejad huvitatud üksikasju ja võimalikke probleeme peaks analüüs viitavad algsele paberile.
Mehhanismid on äärmiselt oluline, kuid nad osutuvad väga raske uurida. Uurimusi mehhanismid tihedalt seotud uuringu vahendajate psühholoogia (vt ka VanderWeele (2009) täpset võrdlust ideid). Statistilised lähenemisviise leida mehhanisme, nagu lähenemine töötatud Baron and Kenny (1986) , on üsna tavalised. Kahjuks tuleb välja, et need protseduurid sõltuvad mõned tugevad eeldused (Bullock, Green, and Ha 2010) ja kannatab, kui on mitu mehhanisme, nagu võiks eeldada paljudes olukordades (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ja Imai and Yamamoto (2013) pakuvad parandatud statistiliste meetoditega. Lisaks VanderWeele (2015) pakub raamat pikkusega ravi mitmeid olulisi tulemusi, sealhulgas terviklik lähenemine tundlikkuse analüüsi.
Eraldi lähenemine keskendub eksperimente, mis püüavad manipuleerida mehhanism otse (nt andes meremehed vitamiin C). Kahjuks paljudes ühiskonnaõpetus seaded on sageli mitme mehhanismiga ning raske on kujundada ravi, mis muuta üks muutmata teised. Mõned lähenemisviise eksperimentaalselt muutes mehhanismid on kirjeldatud Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , ja Pirlott and MacKinnon (2016) .
Lõpuks mehhanismid on ka pikk ajalugu teadusfilosoofia, mida on kirjeldanud Hedström and Ylikoski (2010) .
Täpsema kasutamise kohta kaugõpe ja audit uuringud mõõta diskrimineerimise näha Pager (2007) .
Kõige levinum viis värvata osalejaid eksperimendid, et kui ehitada on Amazon Mechanical Turk (MTurk). Kuna MTurk jäljendab aspekte traditsioonilist lab eksperimendid tasustatud inimesed täita ülesandeid, et nad ei teeks vaba paljud teadlased on juba alustanud Turkers (töötajate kohta MTurk) kui osalejad inimsubjektid eksperimentide tulemusena kiirem ja odavam andmekogumise kui traditsioonilised ülikoolilinnakus laboratoorseid eksperimente (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Suurim tugevus eksperimendid osalejate tööle MTurk on logistilise: need võimaldavad teadlastel värvata osalejaid kiiresti ja nii nagu vaja. Arvestades lab eksperimente võib võtta nädalaid joosta ja eksperimente võib kesta kuid paika panna, eksperimendid osalejate tööle MTurk saab käivitada päeva. Näiteks Berinsky, Huber, and Lenz (2012) suutsid värvata 400 isikul ühe päeva osaleda 8 minutit eksperiment. Lisaks nendele osalejatele on võimalik tööle praktiliselt iga eesmärgi (sh uurimuste ja mass koostööd, nagu on käsitletud peatükkides 3 ja 5). See lihtsus värbamine tähendab, et teadlased saaksid joosta seotud järjestikuste katsete üksteise järel.
Enne värbamine osalejat MTurk enda eksperimendid on neli olulist asja teada. Esiteks, paljud teadlased on mittespetsiifilised skeptitsismi läbiviidavate katsete Turkers. Kuna see skeptitsism ei ole spetsiifiline, siis on raske võidelda tõendid. Kuid pärast mitmeid aastaid kestnud uuringuid kasutades Turkers, saame järeldada, et see skeptitsism ei ole eriti vajalik. On olnud palju uuringutes võrreldi demograafia Turkers teiste populatsioonide ja paljud uuringutes võrreldi tulemusi eksperimendid Turkers tulemuste teistest populatsioonides. Arvestades kõike seda tööd, ma arvan, et parim viis, kuidas saate mõelda, et Turkers on mõistlik mugavuse proovi, palju nagu õpilased, kuid pisut mitmekesisem (Berinsky, Huber, and Lenz 2012) . Nii nagu õpilased on mõistlik elanikkonna mõnede, kuid mitte kõigi eksperimentide, Turkers on mõistlik elanikkonna mõned, kuid mitte kõik uuringud. Kui te ei kavatse töötada Turkers, siis on mõttekas lugeda mitu neist võrdlevad uuringud ja mõista oma nüansid.
Teiseks, teadlased on välja töötanud häid tavasid, et suurendada sisemist kehtivuse Turk eksperimente, ja sa peaksid tundma õppida ja järgida neid häid tavasid (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Näiteks teadlased kasutavad Turkers soovitatakse kasutada sorterid eemaldada tähelepanematu osalejad (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (vt ka DJ Hauser and Schwarz (2015b) ja DJ Hauser and Schwarz (2015a) ). Kui te ei eemalda tähelepanematu osalejad, siis mingit mõju ravi võib pesta läbi müra sissetoodud tähelepanematu osalejate ja praktikas arvu tähelepanematu osalejad võivad olla märkimisväärsed. Eksperimendis Huber ja tema kolleegid (2012) umbes 30% osalejatest ei põhi tähelepanu sorterid. Teine probleem ühist Turkers on mitte-naiivne osalejad (Chandler et al. 2015) .
Kolmandaks võrreldes mõnede muude digitaalse eksperimentides MTurk eksperimendid ei saa mõõtkavas; Stewart et al. (2015) hinnangul on igal ajahetkel on vaid umbes 7000 inimest MTurk.
Lõpuks, siis peaksid teadma, et MTurk on kogukonna oma reeglite ja normide (Mason and Suri 2012) . Samamoodi, et sa püüaksid teada kultuuri riigis, kus te kavatsete käivitada oma eksperimente, siis peaks leidma rohkem kultuuri ja normide Turkers (Salehi et al. 2015) . Ja sa peaksid teadma, et Turkers hakatakse rääkima oma eksperimendi, kui sa midagi sobimatut või ebaeetiliseks (Gray et al. 2016) .
MTurk on uskumatult mugav viis värvata osalejaid oma eksperimente, kas nad on lab moodi, nagu Huber, Hill, and Lenz (2012) , või rohkem alast nagu näiteks Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) ja Mao et al. (2016) .
Kui te olete mõelnud, et püüda luua oma toode, salli, et olete lugenud nõu pakutud MovieLens rühma Harper and Konstan (2015) . Oluline ülevaate oma kogemus on, et iga eduka projekti on palju, palju ebaõnnestumisi. Näiteks MovieLens grupp alustas muid tooteid, nagu GopherAnswers, mis olid täielikud ebaõnnestumised (Harper and Konstan 2015) . Teine näide teadlane jättes samal ajal üritades luua toode on Edward Castronova püüet ehitada online mängu nimega Arden. Vaatamata $ 250.000 rahastamise projekt oli flop (Baker 2008) . Sellised projektid nagu GopherAnswers ja Arden on kahjuks palju rohkem ühist kui projektid nagu MovieLens. Lõpuks, kui ma ütlesin, et ma ei tea ühtegi teised teadlased, et on edukalt ehitatud tooted korrata katsetamist siin on minu kriteeriumidele: 1) Osalejate toodet kasutada, sest mida see annab neile (nt nad ei maksta ja nad ei ole vabatahtlikel aidates teaduse) ja 2) toode on kasutatud rohkem kui ühte erinevat eksperimenti (st mitte samas katses mitu korda erinevate osaleja basseinid). Kui sa tead teiste näidetega, palun andke mulle teada.
Olen kuulnud idee Pasteur tema Quadrant arutatud sagedamini tech ettevõtted, ja see aitab korraldada teadusuuringuid Google (Spector, Norvig, and Petrov 2012) .
Bond ja kolleegide uuring (2012) üritab samuti tuvastada mõju nende ravi kohta sõbrad, kes said neid. Kuna disain Eksperimendi need kõrvalmõjud on raske tuvastada puhtalt; huvitatud lugejad peaksid nägema Bond et al. (2012) põhjalikumalt arutada. See eksperiment on osa pikk traditsioon eksperimendid politoloogia kohta ergutamine hääletamise (Green and Gerber 2015) . Need get-out-the-hääletamise eksperimendid on ühine osa, sest nad on Pasteur tema Quadrant. See tähendab, et on palju inimesi, kes on motiveeritud suurendada hääletamist ja hääletamise saab huvitav käitumist testida üldisemaid teooriaid käitumise muutumise ja sotsiaalne mõju.
Teised teadlased on pakkunud nõu töötab eksperimente partnerorganisatsioonidega nagu erakondade, vabaühenduste ja ettevõtete (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Teised on pakkunud nõu, kuidas partnerlust organisatsioonid saavad mõjutada teadus projekteerimine (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerlus võib viia ka eetilisi küsimusi (Humphreys 2015; Nickerson and Hyde 2016) .
Kui te ei kavatse luua analüüsi plaan enne töötab eksperimendi, pakun, et hakkate lugedes aruandluse suunised. Ansambli (konsolideeritud Standard aruandlus Trials) koostamisel osalesid meditsiinis (Schulz et al. 2010) ja modifitseeritud sotsiaalsed uuringud (Mayo-Wilson et al. 2013) . Sellega seotud suunised on välja töötatud toimetajate poolt ajakirjas Journal of Experimental Politoloogia (Gerber et al. 2014) (vt ka Mutz and Pemantle (2015) ja Gerber et al. (2015) ). Lõpuks aruandluse suuniste väljatöötamisel on psühholoogia (Group 2008) , vt ka Simmons, Nelson, and Simonsohn (2011) .
Kui loote analüüsi kava, mida tuleks kaaluda eelregistreerimisel, sest eelregistreerimise suurendab usaldust, et teised on oma tulemusi. Veelgi enam, kui te töötate koos partneriga, ta piirab oma partneri võime muutuda analüüsi pärast näeme tulemusi. Eelregistreerimine on muutumas üha tavalisemaks psühholoogia (Nosek and Lakens 2014) , politoloogia (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ja ökonoomika (Olken 2015) .
Luues oma pre-analüüsi plaan, mida peaks teadma, et mõned teadlased kasutavad ka regressiooni ja sellega seotud lähenemisviise, et parandada täpsust hinnatakse raviefekti, ja seal on mõned arutelu sellist lähenemist: Freedman (2008) , Lin (2013) , ja Berk et al. (2013) ; vaata Bloniarz et al. (2016) rohkem teavet.
Design nõuandeid spetsiaalselt online eksperimente on esitatud ka Konstan and Chen (2007) ja Chen and Konstan (2015) .
Juba rohkem MusicLab eksperimente, vaata Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , ja Salganik (2007) . Lisateavet võitja-võtab-kõik turud, vaata Frank and Cook (1996) . Lisateavet untangling õnne ja oskust üldisemalt näha Mauboussin (2012) , Watts (2012) ja Frank (2016) .
On veel üks lähenemine kõrvaldada osaleja maksed et teadlased peaksid kasutama ettevaatusega: ajateenistus. Paljudel Internetis eksperimente osalejad on põhiliselt koostatud arvesse eksperimente ja kunagi kompenseerida. Näited selle lähenemise hulka Restivo ja van de Rijt oma (2012) eksperiment premeerib Wikipedia ja Bond ja kolleegi (2012) eksperiment julgustades inimesi hääletama. Need katsed tõesti ei ole null muutuvkulu, neil on null muutuvate kulude teadlastele. Kuigi kulu palju need eksperimendid on äärmiselt väike, et iga osaleja, väike kulusid tohutu osalejate arv võib tõusta kiiresti. Teadlased töötavad tohutu Internetis eksperimendid sageli õigustada tähtsust väikeste Eeldatavad ravi mõjud, öeldes, et need väikesed mõjud võivad muutuda oluline, kui seda kohaldada paljudele inimestele. Täpselt sama mõtlemist kehtib kulusid, et teadlased panevad osalejatele. Kui teie eksperimendid põhjustab ühe miljoni inimese raisata ühe minuti katse ei ole väga kahjulik mingit erilist inimene, kuid summaarselt on raisatud ligi kaks aastat aega.
Teine lähenemine luua null muutuvate kulude tasumist osalejatele on kasutada loterii, kuna selline lähenemisviis on kasutatud ka küsitlusuuring (Halpern et al. 2011) . Lõpuks, rohkem projekteerimine nauditav kasutaja kogemusi vaata Toomim et al. (2011) .
Siin on originaal mõisted kolme R, alates Russell and Burch (1959) :
"Asendamine tähendab asenduse teadlik elavad suurema loomad insentient materjali. Vähendamine tähendab vähenemist kasutatavate loomade arvu, et saada informatsiooni antud summa ja täpsust. Täpsustus mis tahes vähenemine esinemissagedust või raskust ebainimlik protseduure rakendatakse neid loomi, kes on veel võimalik kasutada. "
Kolme Ri, et pakun, ei kirjuta eetilised põhimõtted on kirjeldatud peatükis 6. Pigem on põhjalikum versioon üks nendest põhimõtetest-heategevuse-spetsiaalselt seadmine inimese eksperimente.
Kaaludes Emotsionaalne Nakkus on kolm mitte-eetilised küsimused, mida meeles pidada, kui ta tõlgendab seda eksperimenti. Esiteks ei ole selge, kuidas tegelik üksikasju eksperimendi ühenduda teoreetiline väiteid; Teisisõnu, on küsimusi ehitada kehtivuse. Ei ole selge, et positiivse ja negatiivse sõna loeb on tegelikult hea näitaja emotsionaalset seisundit osalejatele, sest 1) see ei ole selge, et sõnad, et inimesed postitada on hea näitaja oma emotsioone ja 2) ei ole selge, et konkreetse sentiment analüüs tehnikat, mis kasutasid uurijad on võimalik usaldusväärselt järeldada emotsioone (Beasley and Mason 2015; Panger 2016) . Teisisõnu, seal võib olla halb mõõt kallutatud signaali. Teiseks, disaini ja analüüsi katse ütleb meile midagi selle kohta, kes oli kõige mõjutanud (st puudub analüüs heterogeensus ravi mõju) ja mida mehhanism võiks olla. Sel juhul pidid teadlased palju teavet osalejate, kuid need olid sisuliselt käsitleda vidinad analüüsi. Kolmandaks mõju suurus selles eksperimendis oli väga väike; vahe raviks ja kontrolli tingimustes on umbes 1 1000 sõna. Oma raamatus, Kramer ja tema kolleegid teevad nii, et mõju selle suurus on oluline, sest sajad miljonid inimesed pääsevad oma News Feed iga päev. Teisisõnu, nad väidavad, et isegi toimeid, mis on väike, iga inimene on need suured üheskoos. Isegi kui sa olid selle väitega nõustuda, on see siiski ei ole selge, kas mõju selle suurus on oluline seoses üldisema teaduslik küsimus emotsionaalse nakkuse. Juba rohkem olukordi, kus väike mõju on oluline näha Prentice and Miller (1992) .
Seoses esimese R (asendamine), võrreldes Emotsionaalne Nakkus eksperiment (Kramer, Guillory, and Hancock 2014) ja emotsionaalse nakkuse loomulik eksperiment (Coviello et al. 2014) pakub mõningaid üldisi õppetunde kompromisse seotud liikudes eksperimendid looduslikud eksperimendid (ja teisi lähenemisviise nagu samaväärselt katse lähendada eksperimendid mitte-katseandmed, vt 2. peatükk). Lisaks eetilise kasu, minnakse eksperimentaalse mitte-katseuuringutega võimaldab teadlastel uurida ravi, et nad on logistiliselt suutnud juurutada. Need eetilised ja logistilist kasu kulukaks siiski. Looduslike eksperimentide teadlased on vähem kontrolli asjad osalejate värbamine, Randomiseerimisele ja laadi ravi. Näiteks üks piiramine vihmasademed ravi on see, et nii suurendab positiivsus ja väheneb negatiivsus. Eksperimentaalse uuringu siiski Kramer ja kolleegid saavad kohandada positiivsus ja negatiivsus sõltumatult.
Konkreetne kasutatud lähenemisviis Coviello et al. (2014) oli edasi arendatud Coviello, Fowler, and Franceschetti (2014) . Sest sissejuhatus instrumentaalne muutujad näha Angrist and Pischke (2009) (vähem formaalne) või Angrist, Imbens, and Rubin (1996) (rohkem formaalne). Sest skeptiline hindamise instrumentaalne muutujad näha Deaton (2010) , ja sissejuhatus instrumentaalne muutujaid nõrk vahendid (vihm on nõrk vahend), vaata Murray (2006) .
Üldisemalt hea sissejuhatuse loomulik eksperimendid on Dunning (2012) , ja Rosenbaum (2002) , Rosenbaum (2009) , ja Shadish, Cook, and Campbell (2001) pakuvad head ideed hinnata põhjuslikku mõju, ilma katseid.
Seoses teise R (täpsustus) on teadus- ja logistika kompromisse vahetamist kaaludes disain Emotsionaalne nakkav blokeerides postitusi tõstmisse postitusi. Näiteks võib juhtuda, et tehnilise rakendamise News Feed muudab oluliselt lihtsam teha eksperimendi blokeeriva postitusi asemel eksperiment tõstes teated (pange tähele, et eksperiment blokeeriva postitused võiks rakendada kihina peal News Feed süsteemi ilma vajaduseta muudatuste aluseks oleva süsteemi). Teaduslikult siiski teooria käsitletud katse ei näitavad selgelt ühe kavandi teiste üle.
Kahjuks ma ei ole teadlik olulistest enne uurimusi suhtelisi eeliseid blokeerimise ja tõstes sisu News Feed. Samuti ei ole ma näinud palju uurimusi rafineerimiseks ravi, et muuta need vähem kahjulikud; Ainus erand on Jones and Feamster (2015) , kes leiab, tehakse mõõtmisi interneti tsenseerimist (teema ma arutada peatükis 6 suhe Encore uuring (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Seoses kolmanda R (Reduction), hea sissejuhatuse traditsioonilise võimu analüüs on Cohen (1988) . Eeltöötlemine ühismuutujaga saab lisada kavandamisel ja analüüsimisel etapi katsed; 4. peatükk Gerber and Green (2012) annab hea sissejuhatuse mõlemad lähenemised ja Casella (2008) annab põhjalikumat ravi. Meetodid, mis kasutavad seda eeltöötluse teavet randomiseerimisskeemile on tavaliselt nimetatakse kas blokeeritud eksperimentaalseid või kihistunud eksperimentaalseid (terminoloogia ei kasutata järjepidevalt Ühenduste); Neid meetodeid on sügavalt seotud kihtvalik tehnikat arutatakse peatükk 3. Vt Higgins, Sävje, and Sekhon (2016) rohkem kasutamise kujunduse massiivne eksperimente. Eelnev ravi ühismuutujaid saab ka analüüsi kaasatud staadiumis. McKenzie (2012) uurib vahe-in-erinevused lähenemine analüüsides eksperimente üksikasjalikumalt. Vaata Carneiro, Lee, and Wilhelm (2016) eest rohkem kompromisse erinevaid lähenemisviise, et suurendada täpsust hinnangute ravi mõju. Lõpuks, kui otsustatakse, kas proovida lisada eeltöötluse ühismuutujaid disaini või analüüsi etapis (või mõlemad), seal on mõned tegurid, mida kaaluda. Maailmas, kus teadlased tahavad näidata, et nad ei ole "kalapüük" (Humphreys, Sierra, and Windt 2013) , kasutades eeltöötluse ühismuutujaga väljatöötamise staadiumis võib olla kasulik (Higgins, Sävje, and Sekhon 2016) . Olukordades, kus osalejad saabuvad üksteise järel, eriti Internetis eksperimente, kasutades eeltöötluse informatsiooni väljatöötamise staadiumis võib olla raske logistiliselt, vt näiteks Xie and Aurisset (2016) .
Väärib lisamist natuke intuitsiooni, miks vahe-in-erinevused võivad olla nii palju efektiivsem kui vahe-in-vahenditega. Paljud online tulemused on väga suure varieerumise (vt nt Lewis and Rao (2015) ja Lamb et al. (2015) ) ja on suhteliselt stabiilne aja jooksul. Sel juhul muutus skoor on oluliselt väiksemad variatsioonid, võimsuse tõstmine statistiline test. Üks põhjus, miks see lähenes ei kasutata sagedamini on see, et enne digitaalajastul ei olnud ühist on eelnevalt ravitulemusi. Konkreetsema viis mõelda on ette kujutada, eksperiment, et mõõta, kas konkreetne teostada rutiinset põhjustab kehakaalu langus. Kui sul vahe-in-vahendeid lähenemine, oma hinnangu on varieeruvus, mis pärineb varieeruvus massid elanikkonnast. Kui sul vahe-in-erinevus lähenemine aga, et looduslikult esinev varieeruvus kaalu saab eemaldada ja saab kergemini leida erinevust põhjustab ravi.
Üks oluline viis, kuidas vähendada osalejate arv eksperiment on läbi võimu analüüsi, mis Kramer ja tema kolleegid oleks võinud teha põhineb mõju suurused täheldatud looduslikust eksperiment Coviello et al. (2014) või varem mitte-eksperimentaalse uurimuse Kramer (2012) (tegelikult on need tegevused on käesoleva peatüki lõpus). Pange tähele, et seda kasutada võimu analüüs on natuke teistsugune kui tavaline. Analoog vanus, teadlased üldiselt tegi võim analüüs veendumaks, et nende uuring ei olnud liiga väike (st all töötav). Nüüd aga teadlased peaksid tegema võim analüüs veendumaks, et nende uuring ei ole liiga suur (st üle võimsusega).
Lõpuks pidasin täiendatakse neljanda R: Kasutage uuesti. Seda juhul, kui teadlased leiavad end rohkem katseandmeid kui nad peavad tegelema oma esialgse uurimistöö küsimusele, peaksid nad repurpose andmeid küsida uusi küsimusi. Näiteks, kujutage ette, et Kramer ja tema kolleegid kasutasid vahe-in-erinevused prognoosija ja leidis end rohkem andmeid, kui on vaja lahendada nende uurimisteema. Selle asemel, et ei kasuta andmeid suures ulatuses, võivad nad uurisid mõju suurust funktsioonina ravieelsetele emotsionaalne väljendus. Nii nagu Schultz et al. (2007) leidis, et ravitoime oli erinev kergete ja raskete kasutajad, ehk mõju News Feed olid erinevad inimesed, kes on juba kaldunud postitada õnnelikud (või kurb) sõnumeid. Repurposing võib viia "kalapüük" (Humphreys, Sierra, and Windt 2013) ja "p-häkkimise" (Simmons, Nelson, and Simonsohn 2011) , kuid need on enamasti adresseeritav kombinatsiooniga aus aruandlus (Simmons, Nelson, and Simonsohn 2011) , eelregistreerimine (Humphreys, Sierra, and Windt 2013) ja masin õppimise meetodeid, mis püüavad vältida liigset liibuvad.