Otázky týkající se kauzality v sociálním výzkumu jsou často složité a složité. K základnímu přístupu k příčinnosti založenému na kauzálních grafech viz Pearl (2009) a pro založení založený na možných výsledcích viz Imbens and Rubin (2015) . Pro srovnání mezi těmito dvěma přístupy viz Morgan and Winship (2014) . K formálnímu přístupu k definici zmatek viz VanderWeele and Shpitser (2013) .
V této kapitole jsem vytvořil to, co se zdálo jako jasná čára mezi našimi schopnostmi provést kauzální odhady z experimentálních a nepe experimentálních dat. Domnívám se však, že ve skutečnosti je tento rozpor více rozmazaný. Například každý uznává, že kouření způsobuje rakovinu, ačkoli nikdy nebyl proveden žádný randomizovaný kontrolovaný experiment, který nutí lidi kouřit. Za vynikající kniha-délka léčby na výrobu kauzální odhady z non-experimentálních dat viz Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , a Dunning (2012) .
Kapitoly 1 a 2 Freedman, Pisani, and Purves (2007) nabízejí jasný úvod k rozdílům mezi experimenty, kontrolovanými experimenty a randomizovanými kontrolovanými experimenty.
Manzi (2012) poskytuje fascinující a čitelný návod k filozofickým a statistickým základům randomizovaných řízených experimentů. Poskytuje také zajímavé reálné příklady síly experimentování v podnikání. Issenberg (2012) představuje fascinující úvod k využití experimentů v politických kampaních.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 a Athey and Imbens (2016b) poskytují dobré představy o statistických aspektech experimentálního návrhu a analýzy. Dále jsou zde výborné ošetření využití experimentů v mnoha různých oblastech: ekonomika (Bardsley et al. 2009) , Sociologie (Willer and Walker 2007; Jackson and Cox 2013) , psychologie (Aronson et al. 1989) , politologie (Morton and Williams 2010) a sociální politiku (Glennerster and Takavarasha 2013) .
Význam náboru účastníků (např. Odběru vzorků) je v experimentálním výzkumu často nedostatečně oceňován. Nicméně pokud je účinek léčby v populaci heterogenní, je vzorek rozhodující. Longford (1999) zdůrazňuje jasně, když se obhajuje pro výzkumníky, kteří myslí na experimenty, jako populační průzkum s náhodným výběrem vzorků.
Navrhoval jsem, že existuje kontinuum mezi laboratorními a terénními experimenty a jiní výzkumníci navrhli podrobnější typologie, zejména ty, které oddělují různé formy terénních experimentů (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Řada článků porovnávala abstraktní laboratorní a terénní experimenty (Falk and Heckman 2009; Cialdini 2009) a výsledky konkrétních experimentů v politické vědě (Coppock and Green 2015) , ekonomie (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) a psychologie (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) nabízejí pěkný výzkumný návrh pro porovnání výsledků laboratorních a terénních experimentů. Parigi, Santana, and Cook (2017) popisují, jak on-line experimenty v terénu mohou kombinovat některé charakteristiky laboratorních a terénních experimentů.
Obavy ze změn chování účastníků, protože vědí, že jsou pečlivě sledováni, se někdy nazývají dopady poptávky a studovali se v oboru psychologie (Orne 1962) a ekonomie (Zizzo 2010) . Přestože jsou většinou spojeny s laboratorními experimenty, mohou tyto problémy také způsobit problémy při terénních experimentech. Ve skutečnosti jsou účinky poptávky někdy nazývány Hawthorne efekty , což je termín, který odvozuje slavné osvětlovací experimenty, které začaly v roce 1924 u Hawthorne Works společnosti Western Electric (Adair 1984; Levitt and List 2011) . Oba dopady a Hawthorneovy účinky jsou úzce spjaty s myšlenkou reaktivního měření popsaného v kapitole 2 (viz také Webb et al. (1966) ).
Terénní experimenty mají dlouhou historii v ekonomii (Levitt and List 2009) , politické vědy (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psychologie (Shadish 2002) a veřejné politiky (Shadish and Cook 2009) . Jednou z oblastí společenských věd, kde se terénní experimenty rychle staly prominentními, je mezinárodní rozvoj. Pro pozitivní přehled této práce v ekonomice viz Banerjee and Duflo (2009) a pro kritické hodnocení viz Deaton (2010) . Pro přezkoumání této práce v politické vědě viz Humphreys and Weinstein (2009) . Nakonec byly zkoumány etické problémy vyplývající z terénních experimentů v kontextu politických věd (Humphreys 2015; Desposato 2016b) a vývojové ekonomiky (Baele 2013) .
V této části jsem navrhl, aby informace před léčbou mohly být použity ke zlepšení přesnosti odhadovaných účinků léčby, avšak o tomto přístupu se diskutuje. viz Freedman (2008) , W. Lin (2013) , Berk et al. (2013) a Bloniarz et al. (2016) pro více informací.
Konečně existují dva další typy experimentů prováděných sociálními vědci, kteří se nehodí úzce na rozměr laboratoře: průzkumné experimenty a sociální experimenty. Pokusy o průzkumy jsou experimenty využívající infrastrukturu stávajících průzkumů a srovnání reakcí na alternativní verze stejných otázek (některé experimenty jsou uvedeny v kapitole 3); více o průzkumných pokusech viz Mutz (2011) . Sociální experimenty jsou experimenty, kde se jedná o určitou sociální politiku, kterou může provádět pouze vláda. Sociální experimenty jsou úzce spjaty s hodnocením programu. Více o politických experimentech viz Heckman and Smith (1995) , Orr (1998) a @ glennerster_running_2013.
Rozhodla jsem se zaměřit na tři pojmy: platnost, heterogenita léčebných účinků a mechanismy. Tyto pojmy mají různá jména v různých oblastech. Například psychologové mají tendenci přesahovat jednoduché experimenty tím, že se zaměřují na mediátory a moderátory (Baron and Kenny 1986) . Myšlenka mediátorů je zachycena tím, co nazývám mechanismy, a myšlenka moderátorů je zachycena tím, co nazývám vnější platnost (např. Pokud by výsledky experimentu byly odlišné, pokud by byly prováděny v různých situacích) a heterogenita účinků léčby ( např. jsou pro některé osoby větší než pro ostatní).
Experiment podle Schultz et al. (2007) ukazuje, jak lze sociální teorie využít k navržení efektivních intervencí. Pro obecnější argument o úloze teorie při navrhování účinných intervencí viz Walton (2014) .
Pojmy vnitřní a vnější platnosti byly poprvé představeny Campbell (1957) . Viz Shadish, Cook, and Campbell (2001) pro podrobnější historii a důkladné zpracování statistické závěrečné platnosti, vnitřní platnosti, konstrukce platnosti a externí platnosti.
Pro přehled otázek týkajících se platnosti statistických závěrů v experimentech viz Gerber and Green (2012) (z pohledu společenské vědy) a Imbens and Rubin (2015) (ze statistického hlediska). Některé problémy statistické závěrečné platnosti, které vznikají konkrétně v on-line experimentech v terénu, zahrnují například výpočetně účinné metody pro vytváření intervalů spolehlivosti se závislými daty (Bakshy and Eckles 2013) .
Interní platnost může být obtížné zajistit v komplexních experimentech v terénu. Viz například Gerber and Green (2000) , Imai (2005) a Gerber and Green (2005) pro debatu o provádění komplexního terénního experimentu o hlasování. Kohavi et al. (2012) a Kohavi et al. (2013) poskytují úvod do výzvy platnosti intervalu v on-line experimentech v terénu.
Jedním z hlavních hrozeb pro vnitřní platnost je možnost selhání randomizace. Jedním z možných způsobů, jak zjistit problémy s randomizací, je srovnání léčby a kontrolních skupin s pozorovatelnými vlastnostmi. Tento druh srovnání se nazývá bilance . Viz Hansen and Bowers (2008) o statistickém přístupu k vyrovnání kontrol a Mutz and Pemantle (2015) ohledně obav z kontrol bilance. Například pomocí kontroly vyváženosti Allcott (2011) nějaké důkazy, že randomizace nebyla správně provedena ve třech experimentech společnosti Opower (viz tabulka 2, stránky 2, 6 a 8). Další přístupy viz kapitola 21 z Imbens and Rubin (2015) .
Další hlavní obavy související s interní platností jsou: (1) jednostranná neplnění, kde ne všichni v léčené skupině skutečně dostali léčbu, (2) dvoustranný nesoulad, kde ne všichni v léčené skupině léčeni a někteří lidé v léčbě kontrolní skupina obdrží léčbu, (3) odřeniny, u kterých se u některých účastníků neměří výsledky a (4) interference, kde se léčba přelévá z lidí v podmínkách léčby osobám, které jsou v kontrolním stavu. Viz kapitoly 5, 6, 7 a 8 společnosti Gerber and Green (2012) naleznete více informací o každé z těchto otázek.
Více o konstruktivní platnosti viz Westen and Rosenthal (2003) a více o konstrukci platnosti ve velkých zdrojích dat, Lazer (2015) a kapitole 2 této knihy.
Jeden aspekt externí platnosti je nastavení, ve kterém je testován zásah. Allcott (2015) poskytuje pečlivě teoretickou a empirickou úpravu předpojatosti výběru lokality. Tuto otázku diskutuje také Deaton (2010) . Dalším aspektem vnější platnosti je, zda alternativní operace stejného zásahu budou mít podobné účinky. V tomto případě srovnání mezi Schultz et al. (2007) a Allcott (2011) ukazuje, že experimenty Opower měly menší odhadovaný ošetřený účinek než původní pokusy Schultze a kolegů (1,7% oproti 5%). Allcott (2011) spekuloval, že následné experimenty měly menší vliv kvůli způsobům, jimiž se léčba lišila: ručně psaný emotikon jako součást studie sponzorované univerzitou ve srovnání s tištěným emotikonem jako součást masově vyráběné zpráva od energetické společnosti.
Pro vynikající přehled heterogenity účinků léčby v terénních experimentech viz kapitola 12 Gerber and Green (2012) . Pro zavedení heterogenity léčebných účinků v lékařských studiích viz Kent and Hayward (2007) , Longford (1999) a Kravitz, Duan, and Braslow (2004) . Úvahy o heterogenitě účinku léčby se obecně zaměřují na rozdíly založené na charakteristikách před léčbou. Pokud máte zájem o heterogenitu založenou na výsledcích po léčbě, je zapotřebí komplexnějších přístupů, jako je hlavní stratifikace (Frangakis and Rubin 2002) ; viz Page et al. (2015) .
Mnoho vědců odhaduje heterogenitu léčebných účinků pomocí lineární regrese, ale novější metody se spoléhají na strojové učení; viz například Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) a Athey and Imbens (2016a) .
Existuje několik skepticismů ohledně zjištění heterogenity účinků z důvodu mnoha problémů s porovnáváním a "rybolovu". Existuje řada statistických přístupů, které mohou pomoci při řešení obav o vícečetném srovnání (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Jedním z přístupů k obavám z "rybolovu" je předběžná registrace, která se stává stále častější v psychologii (Nosek and Lakens 2014) , politické vědy (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , a ekonomika (Olken 2015) .
Ve studii Costa and Kahn (2013) by mohla být jen asi polovina domácností experimentu spojena s demografickými informacemi. Čtenáři, kteří se o tyto podrobnosti zajímají, by se měli obrátit na původní příspěvek.
Mechanismy jsou neuvěřitelně důležité, ale ukázaly se být velmi obtížné studovat. Výzkum o mechanismech úzce souvisí se studiem mediátorů v psychologii (ale viz také VanderWeele (2009) aby bylo možné přesně porovnat obě myšlenky). Statistické přístupy k nalezení mechanismů, jako je přístup vyvinutý v Baron and Kenny (1986) , jsou poměrně časté. Bohužel se ukázalo, že tyto postupy závisí na některých silných předpokladech (Bullock, Green, and Ha 2010) a trpí, jestliže existuje mnoho mechanismů, jak by se dalo očekávat v mnoha situacích (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) a Imai and Yamamoto (2013) nabízejí některé zlepšené statistické metody. Dále VanderWeele (2015) nabízí knihu o délce léčby s řadou důležitých výsledků, včetně komplexního přístupu k analýze citlivosti.
Samostatný přístup se zaměřuje na experimenty, které se pokoušejí manipulovat přímo s mechanismem (např. Poskytování námořníků vitamínu C). Bohužel v mnoha společenskovědních prostředích existuje často mnoho mechanismů a je těžké navrhnout léčebné postupy, které změní jeden, aniž by se změnily ostatní. Některé přístupy k experimentálním změnám mechanismů popisují Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) a Pirlott and MacKinnon (2016) .
Výzkumní pracovníci, kteří provádějí plně faktoriální experimenty, budou muset být znepokojeni testováním několika hypotéz; viz Fink, McConnell, and Vollmer (2014) a List, Shaikh, and Xu (2016) pro další informace.
Nakonec mechanismy mají také dlouhou historii ve filozofii vědy, jak popsal Hedström and Ylikoski (2010) .
Další informace o použití korespondenčních studií a studií auditu zaměřených na měření diskriminace viz Pager (2007) .
Nejčastějším způsobem získávání účastníků experimentů, které stavíte, je Amazon Mechanical Turk (MTurk). Vzhledem k tomu, že MTurk napodobuje aspekty tradičních laboratorních experimentů - placené lidi, kteří plní úkoly, které nebudou dělat zdarma - mnozí výzkumníci již začali používat Turkmenisty (pracovníci na MTurku) jako experimentální účastníci, což vedlo k rychlejšímu a levnějšímu sběru dat než je možné dosáhnout (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Obecně platí, že největší výhody využívání účastníků přijatých z MTurku jsou logistické. Zatímco laboratorní experimenty mohou trvat několik týdnů a experimenty s terénními experimenty mohou trvat měsíce, experimenty s účastníky z MTurk mohou probíhat za několik dní. Například Berinsky, Huber, and Lenz (2012) dokázali během jediného dne přijmout 400 osob, aby se zúčastnili 8 minutového experimentu. Dále mohou být tito účastníci přijímáni prakticky pro jakýkoli účel (včetně průzkumů a masové spolupráce, jak je uvedeno v kapitolách 3 a 5). Toto ulehčení náboru znamená, že výzkumníci mohou provádět sekvence souvisejících experimentů v rychlém sledu.
Před náborem účastníků z MTurku pro vaše vlastní experimenty existují čtyři důležité věci, které musíte znát. Za prvé, mnozí badatelé mají nespecifický skepticismus ohledně experimentů týkajících se Turkicistů. Protože tento skepticismus není specifický, je obtížné čelit důkazům. Nicméně, po několika letech studií používajících Turkméři lze nyní dospět k závěru, že tento skepticismus není zvlášť oprávněný. Bylo mnoho studií, které porovnávaly demografické údaje mezi Turkmény a populace jiných populací a mnoho studií porovnávalo výsledky pokusů s Turkméři s těmi z jiných populací. Vzhledem k této práci si myslím, že nejlepším způsobem, jak si o tom přemýšlet, je, že Turkmenisté jsou rozumným příkladem pohodlí, podobně jako studenti, ale poněkud rozmanitější (Berinsky, Huber, and Lenz 2012) . Proto, stejně jako studenti jsou rozumnou populací pro některé, ale ne všechny, výzkum, Turkové jsou rozumná populace pro některé, ale ne všechny, výzkum. Pokud hodláte spolupracovat s Turkmenisty, pak je rozumné číst mnohé z těchto srovnávacích studií a pochopit jejich nuance.
Za druhé, vědci vyvinuli osvědčené postupy pro zvýšení interní platnosti experimentů MTurk a měli byste se o těchto osvědčených postupech dozvědět (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Například výzkumní pracovníci, kteří používají Turkmenisty, jsou vyzýváni k tomu, aby používali screenery k odstranění neúmyslných účastníků (Berinsky, Margolis, and Sances 2014, 2016) (ale také viz DJ Hauser and Schwarz (2015b) a DJ Hauser and Schwarz (2015a) ). Pokud neodstraníte neúmyslné účastníky, pak může být jakýkoli účinek léčby odstraněn hlukem, který představují, a v praxi může být počet nepozorných účastníků podstatný. V experimentu od Hubera a kolegů (2012) asi 30% účastníků neuspělo na základní pozornosti. Jiné problémy, které se běžně vyskytují při použití Turkčanů, jsou non-naivní účastníci (Chandler et al. 2015) a zničení (Zhou and Fishbach 2016) .
Zatřetí, v porovnání s jinými formami digitálních experimentů, experimenty MTurk nemohou měřit; Stewart et al. (2015) odhadují, že v daném okamžiku je na MTurku jen asi 7 000 lidí.
Nakonec byste měli vědět, že MTurk je společenství s vlastními pravidly a normami (Mason and Suri 2012) . Stejně jako byste se pokoušeli zjistit o kultuře země, kde byste měli experimentovat, měli byste se pokusit dozvědět více o kultuře a normách Turků (Salehi et al. 2015) . A měli byste vědět, že turkáři budou mluvit o vašem experimentu, pokud uděláte něco nevhodného nebo neetického (Gray et al. 2016) .
MTurk je neuvěřitelně pohodlný způsob, jak oslovit účastníky vašich experimentů, ať už se jedná o laboratoře, jako je Huber, Hill, and Lenz (2012) , nebo více podobných polí jako Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) a Mao et al. (2016) .
Pokud uvažujete o pokusu o vytvoření vlastního produktu, doporučuji vám, abyste si přečetli rady, které nabízí skupina MovieLens v Harper and Konstan (2015) . Klíčovým náhledem z jejich zkušeností je, že pro každý úspěšný projekt existuje mnoho, mnoho neúspěchů. Například skupina MovieLens spustila další produkty, jako například GopherAnswers, které byly úplné selhání (Harper and Konstan 2015) . Dalším příkladem toho, že výzkumník při pokusu o vybudování produktu selhal, je pokus Edwarda Castronova o vybudování online hry s názvem Arden. Navzdory financování ve výši 250 000 dolarů byl projektem flop (Baker 2008) . Projekty jako GopherAnswers a Arden jsou bohužel mnohem častější než projekty jako MovieLens.
Slyšel jsem, že Pasteurův kvadrant je často diskutován v technologických společnostech a pomáhá organizovat výzkumné práce na Googlu (Spector, Norvig, and Petrov 2012) .
Studie Bond a kolegů (2012) také pokouší zjistit účinek těchto léčby na přátele těch, kteří je přijali. Vzhledem k návrhu experimentu je obtížné tyto průniky zjistit čistě; zájemci o čtenáře by měli vidět Bond et al. (2012) pro důkladnější diskusi. Jones a kolegové (2017) rovněž provedli velmi podobný experiment během voleb v roce 2012. Tyto experimenty jsou součástí dlouhé tradice experimentů v politické vědě o úsilí o podporu hlasování (Green and Gerber 2015) . Tyto experimenty "get-out-the-vote" jsou běžné, zčásti proto, že jsou v Pasteurově kvadrantu. To znamená, že existuje mnoho lidí, kteří jsou motivováni ke zvýšení hlasování a hlasování může být zajímavé chování pro testování obecnějších teorií o změnách chování a sociálním vlivu.
Informace o běžících experimentech s partnerskými organizacemi, jako jsou politické strany, nevládní organizace a podniky, viz Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) a Gueron (2002) . Pro úvahy o tom, jak mohou partnerství s organizacemi ovlivňovat návrhy výzkumu, viz King et al. (2007) a Green, Calfano, and Aronow (2014) . Partnerství může také vést k etickým otázkám, o nichž hovořili Humphreys (2015) a Nickerson and Hyde (2016) .
Pokud se chystáte vytvořit plán analýzy před spuštěním experimentu, doporučuji vám začít číst pokyny pro přehled. V medicíně byly vyvinuty pokyny CONSORT (Consolidated Standard Reporting of Trials) v lékařství (Schulz et al. 2010) a upraveny pro sociální výzkum (Mayo-Wilson et al. 2013) . Související sady pokynů vypracovali redaktoři časopisu Experimentální politologie (Gerber et al. 2014) (viz také Mutz and Pemantle (2015) a Gerber et al. (2015) ). Nakonec byly vypracovány pokyny pro podávání zpráv v psychologii (APA Working Group 2008) a viz také Simmons, Nelson, and Simonsohn (2011) .
Pokud vytvoříte plán analýzy, měli byste zvážit jeho předběžnou registraci, protože předběžná registrace zvýší důvěru ostatních ve vaše výsledky. Dále, pokud pracujete s partnerem, omezí se schopnost vašeho partnera měnit analýzu po zobrazení výsledků. Předběžná registrace se stává stále častější v psychologii (Nosek and Lakens 2014) , politické vědy (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) a ekonomika (Olken 2015) .
Konstrukční rady specifické pro on-line experimenty v terénu jsou také uvedeny v Konstan and Chen (2007) a Chen and Konstan (2015) .
Co jsem nazýval strategií armády, se někdy nazývá programový výzkum ; viz Wilson, Aronson, and Carlsmith (2010) .
Další informace o experimentech MusicLab najdete v Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) a Salganik (2007) . Další informace o trzích vítězů - vše - viz Frank and Cook (1996) . Více o rozvíjení štěstí a dovedností obecněji viz Mauboussin (2012) , Watts (2012) a Frank (2016) .
Existuje další přístup k vyloučení plateb účastníků, které by výzkumníci měli používat opatrně: odvod. V mnoha on-line experimentech v terénu jsou účastníci prakticky propracováni do experimentů a nikdy se nekompenzují. Příklady tohoto přístupu zahrnují experimenty Restivo a van de Rijt (2012) o odměňování ve Wikipedii a experiment Bonda a kolegy (2012) o povzbuzení lidí k hlasování. Tyto experimenty nemají skutečně nulové proměnné náklady - spíše mají výzkumné pracovníky nulové proměnné náklady. Při takových pokusech, i když jsou náklady pro každého účastníka extrémně malé, mohou být souhrnné náklady poměrně velké. Výzkumní pracovníci provádějící rozsáhlé on-line experimenty často zdůvodňují význam malých odhadovaných účinků léčby tím, že říkají, že tyto malé účinky mohou být důležité, pokud jsou aplikovány na mnoho lidí. Stejné myšlenky platí i pro náklady, které vědci ukládají účastníkům. Pokud váš experiment způsobí, že jeden milion lidí ztratí jednu minutu, experiment není pro žádnou osobu velmi škodlivý, ale celkově to zbylo téměř dva roky.
Dalším přístupem k vytvoření nulové platby proměnlivé ceny pro účastníky je využití loterie, což je přístup, který byl také použit v průzkumu výzkumu (Halpern et al. 2011) . Více informací o návrhu příjemných uživatelských zkušeností naleznete v Toomim et al. (2011) . Další informace o používání robotů při vytváření experimentů s nulovými proměnnými náklady naleznete v ( ??? ) .
Tři R, jak původně navrhly Russell and Burch (1959) jsou následující:
"Náhrada znamená substituci vědomí živých vyšších živočichů neživý materiál. Snížení znamená snížení počtu zvířat použitých za účelem získání informací o daném množství a přesnosti. Zjemnění rozumí jakýkoli pokles výskytu nebo závažnosti nelidských postupů uplatňovaných na těch zvířat, která ještě musí být použit. "
Tři R, které navrhuji, nepřekračují etické principy popsané v kapitole 6. Jsou spíše propracovanější verzí jednoho z těchto principů - beneventa - konkrétně při stanovování lidských experimentů.
Pokud jde o první R ("nahrazení"), porovnáním experimentu s emocionální nákazou (Kramer, Guillory, and Hancock 2014) a přirozeného experimentu s emocionální nákazou (Lorenzo Coviello et al. 2014) při přesunu z experimentů na přirozené experimenty (a dalších přístupů, jako je shoda, která se snaží přiblížit experimenty s nepermanentními daty, viz kapitola 2). Vedle etických výhod přechod z experimentálních na nepermanentní studie také umožňuje výzkumníkům studovat léčebné postupy, které nejsou logicky schopné nasadit. Tyto etické a logistické výhody přicházejí však za cenu. Pomocí přirozených experimentů vědci mají menší kontrolu nad věcmi, jako je nábor účastníků, randomizace a povaha léčby. Například jedním omezením srážek jako léčby je to, že zvyšuje pozitivitu a snižuje negativitu. V experimentální studii se však Kramer a kolegové mohli nezávisle přizpůsobit pozitivitu a negativitu. Zvláštní přístup, který používají Lorenzo Coviello et al. (2014) dále rozpracovali L. Coviello, Fowler, and Franceschetti (2014) . Pro úvod do instrumentálních proměnných, což je přístup, který používají Lorenzo Coviello et al. (2014) , viz Angrist and Pischke (2009) (méně formální) nebo Angrist, Imbens, and Rubin (1996) (více formální). Pro skeptické vyhodnocení instrumentálních proměnných viz Deaton (2010) a pro úvod do instrumentálních proměnných se slabými nástroji (déšť je slabý nástroj), viz Murray (2006) . Obecněji řečeno, dobrý úvod do přírodních pokusů je dán Dunning (2012) , zatímco Rosenbaum (2002) , ( ??? ) , a Shadish, Cook, and Campbell (2001) nabízejí dobré představy o odhadu kauzální efekty bez experimentů.
Pokud jde o druhou R ("refinement"), existují vědecké a logistické kompromisy při zvažování změny designu emoční nákazy z blokování příspěvků na posílení postů. Může se například stát, že technická implementace krmiv pro zprávy způsobí, že je podstatně snazší provést experiment, ve kterém jsou blokovány příspěvky spíše než experiment, ve kterém jsou posíleny (poznamenat, že by mohl být implementován experiment zahrnující blokování příspěvků jako vrstva na vrcholu systému News Feed, aniž by bylo nutné provádět změny základního systému). Vědecky však teorie oslovená experimentem jasně nenaznačuje jeden design než druhý. Bohužel si nejsem vědom podstatného předchozího výzkumu o relativních výhodách zablokování a posílení obsahu ve zdroji zpráv. Také jsem neviděl hodně výzkumu o úpravách rafinace, aby byly méně škodlivé; Jedinou výjimkou je B. Jones and Feamster (2015) , který se zabývá případem měření cenzury na internetu (téma, o kterém se diskutuji v kapitole 6 ve vztahu k studii Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Pokud jde o třetí R ("redukce"), dobré představy k tradiční analýze moci jsou dány Cohen (1988) (kniha) a Cohen (1992) (článek), zatímco Gelman and Carlin (2014) nabízejí trochu jinou perspektivu. Kovariáty před ošetřením mohou být zahrnuty do konstrukční a analytické fáze pokusů; kapitola 4 Gerber and Green (2012) poskytuje dobrý přehled o obou přístupech a Casella (2008) poskytuje podrobnější zpracování. Techniky, které používají tyto informace před randomizací, se obvykle nazývají buď blokované experimentální návrhy nebo stratifikované experimentální návrhy (terminologie se nepoužívá konzistentně ve všech komunitách); tyto techniky jsou úzce spjaty se stratifikovanými vzorkovacími technikami popsanými v kapitole 3. Viz Higgins, Sävje, and Sekhon (2016) o tom, jak používat tyto návrhy v masivních experimentech. Kovariáty před ošetřením mohou být také zahrnuty do analytického stupně. McKenzie (2012) zkoumá přístup rozdílů v rozdílech k analýze terénních experimentů podrobněji. Viz Carneiro, Lee, and Wilhelm (2016) více o kompromisech mezi různými přístupy ke zvýšení přesnosti odhadů účinku léčby. Konečně, při rozhodování o tom, zda se má pokusit o zařazení kovalentů před léčbou do fáze návrhu nebo analýzy (nebo obojí), existuje několik faktorů, které je třeba zvážit. V prostředí, kde vědci chtějí ukázat, že nejsou "rybařením" (Humphreys, Sierra, and Windt 2013) , mohou být užitečné ve fázi návrhu léčebné kovariáty (Higgins, Sävje, and Sekhon 2016) . V situacích, kdy účastníci přijíždějí postupně, zejména on-line experimenty v terénu, může být použití informací předběžné léčby ve fázi návrhu obtížné logisticky; viz například Xie and Aurisset (2016) .
Stojí za to přidat trochu intuice o tom, proč přístup založený na rozdílných rozdílech může být mnohem účinnější než rozdíl v tom, jaký je rozdíl. Mnoho online výsledků má velmi vysoký rozptyl (viz např. RA Lewis and Rao (2015) a Lamb et al. (2015) ) a jsou poměrně stabilní v průběhu času. V tomto případě bude mít změna skóre podstatně menší rozdíly, čímž se zvýší výkon statistického testu. Jedním z důvodů, proč se tento přístup nepoužívá častěji, spočívá v tom, že před digitálním věkem nebylo běžné mít před léčbou výsledky. Konkrétnějším způsobem, jak přemýšlet o tom, je představit si experiment, který by měřil, zda určitá rutina cvičení způsobuje ztrátu hmotnosti. Pokud přijmete přístup založený na rozdílu v míře, váš odhad bude mít variabilitu vyplývající z variability váh v populaci. Použijete-li však přístup založený na rozdílech rozdílů, odstraní se přirozeně se vyskytující odchylky váh a můžete snadno zjistit rozdíl způsobený léčbou.
Konečně jsem zvažoval přidání čtvrtého R: "repurpose". To znamená, že pokud se výzkumní pracovníci ocitnou s experimentálními daty, než potřebují řešit svou původní výzkumnou otázku, měli by znovu zpracovávat data a klást nové otázky. Představte si například, že Kramer a kolegové použili odhad rozdílu v rozdílech a zjistili, že mají více údajů než potřebovali k řešení své výzkumné otázky. Spíše než nepoužívat údaje v plném rozsahu, mohli si prostudovat velikost efektu jako funkci emočního výrazu před léčbou. Stejně jako Schultz et al. (2007) zjistili, že účinek léčby byl u světlých a těžkých uživatelů odlišný, snad účinky krmiv News byly jiné u lidí, kteří již měli tendenci publikovat radostné (nebo smutné) zprávy. Přehodnocení by mohlo vést k "rybolovu" (Humphreys, Sierra, and Windt 2013) a "p-hackingu" (Simmons, Nelson, and Simonsohn 2011) , ale tyto jsou do značné míry adresovatelné kombinací poctivých zpráv (Simmons, Nelson, and Simonsohn 2011) , předběžná registrace (Humphreys, Sierra, and Windt 2013) a metody strojového učení, které se snaží vyhnout se nadměrné montáži.