Tato část je určena k použití jako referenční, spíše než aby se číst jako příběh.
Otázky týkající se příčinné souvislosti v sociální oblasti výzkumu jsou často složité a spletité. Pro prazákladní přístupu ke kauzalitě založené na kauzální grafů, viz Pearl (2009) , a na prazákladní přístupu založeného na potenciální výsledky, viz Imbens and Rubin (2015) (a technická příloha v této kapitole). Pro srovnání mezi těmito dvěma přístupy, viz Morgan and Winship (2014) . K formálnímu přístupu k vymezení matoucí faktor, viz VanderWeele and Shpitser (2013) .
V kapitole jsem vytvořil, co vypadalo jako jasná čára mezi naší schopnosti dělat příčinné odhady z experimentálních a non-experimentálních dat. Ve skutečnosti si myslím, že rozdíl je rozmazanějším. Například, každý připouští, že kouření způsobuje rakovinu, i když nikdy jsme udělali nahodilou kontrolní experiment, který nutí lidi, aby kouřit. Za vynikající kniha délka léčby na to, aby příčinné odhadů od non-experimentálních dat viz Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , a Dunning (2012) .
Kapitoly 1 a 2 Freedman, Pisani, and Purves (2007) poskytují jasný úvod do rozdílech mezi pokusy, řízených experimentů a randomizované kontrolované experimenty.
Manzi (2012) nabízí fascinující a čitelný úvod do filosofických a statistických opor randomizované kontrolované experimentů. Poskytuje také zajímavé příklady z reálného světa o síle experimentování v podnikání.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) poskytují dobré úvody ke statistické aspekty pro experimentální design a analýzu. Dále jsou zde výborné ošetření využití experimentů v mnoha různých oblastech: ekonomika (Bardsley et al. 2009) , Sociologie (Willer and Walker 2007; Jackson and Cox 2013) , psychologie (Aronson et al. 1989) , politologie (Morton and Williams 2010) a sociální politika (Glennerster and Takavarasha 2013) .
Význam Účastník nábor (např vzorkování) je často nedoceněná v experimentálním výzkumu. Nicméně, pokud účinek léčby je heterogenní populaci, pak vzorkování je kritická. Longford (1999) dělá tento bod jasně, když se zasazuje pro výzkumné pracovníky uvažují o experimentů jako výběrové populace s nahodilá vzorkování.
Dichotomie, že jsem prezentoval mezi laboratorních a polních pokusů je trochu zjednodušený. Ve skutečnosti, jiní výzkumníci navrhli podrobnější typologie, zejména těch, které oddělují různé formy polních pokusů (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Dále existují další dva typy experimentů provedených sociology, které se nevejdou úhledně do laboratoře i do terénu dichotomie:. Pokusech zjišťování a sociálních experimentů experimenty průzkumu jsou experimenty využívající infrastrukturu stávajících zjišťování a porovnat odpovědi na alternativních verzích stejné otázky (některé experimenty průzkumu jsou uvedeny v kapitole 3); Pro více informací o experimentech průzkumu viz Mutz (2011) . Sociální experimenty jsou experimenty, kdy léčba je nějaký sociální politika, která může být provedena pouze vládou. Sociální experimenty jsou úzce spojeny s programovat hodnocení. Pro více informací o experimentech politiky, viz Orr (1998) , Glennerster and Takavarasha (2013) , a Heckman and Smith (1995) .
Několik dokumentů mají ve srovnání laboratorních a terénních experimentů v abstraktním (Falk and Heckman 2009; Cialdini 2009) a co se týče výsledků konkrétních experimentů v politologii (Coppock and Green 2015) , ekonomika (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) a psychologie (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) nabízí příjemné výzkumný design pro porovnání výsledků z laboratorních a polních experimentů.
Obavy z účastníků změní své chování, protože vědí, že jsou pečlivě sledovány, pokud se někdy nazývají efekty poptávka, a byly studovány v psychologii (Orne 1962) a ekonomie (Zizzo 2009) . Ačkoli většinou spojeno s laboratorních experimentů, mohou tyto stejné problémy způsobit problémy u polních pokusů stejně. Ve skutečnosti, účinky poptávka jsou také někdy nazýván Hawthorne účinek, což je termín, který pochází z polního pokusu, konkrétně slavné osvětlení experimenty, které začaly v roce 1924 na Hawthorne Works západní Electric Company (Adair 1984; Levitt and List 2011) . Oba efekty poptávka a účinky hlohu jsou úzce souvisí s myšlenkou reaktivní měření popsána v kapitole 2 (viz také Webb et al. (1966) ).
Historie polních pokusů byl popsán v oboru ekonomie (Levitt and List 2009) , politologie (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psychologie (Shadish 2002) , a veřejného pořádku (Shadish and Cook 2009) . Jednou z oblastí společenských věd, kde polní pokusy rychle se stal prominentní je mezinárodní vývoj. V případě kladného hodnocení této práce v ekonomii vidět Banerjee and Duflo (2009) , a kritickým zhodnocením viz Deaton (2010) . Pro přehled této práce v politické vědě viz Humphreys and Weinstein (2009) . Konečně, etické výzvy, které se zabývají polních pokusů byly zkoumány v oboru politologie (Humphreys 2015; Desposato 2016b) a rozvojové ekonomiky (Baele 2013) .
V kapitole, navrhl jsem, že informace předběžné zpracování může být použita pro zlepšení přesnosti odhadu účinků léčby, ale tam je nějaká diskuse o tomto přístupu: Freedman (2008) , Lin (2013) , a Berk et al. (2013) ; viz Bloniarz et al. (2016) pro více informací.
Zvolil jsem se soustředit na tři koncepty: Platnost, různorodosti léčebných účinků a mechanismů. Tyto pojmy mají různá jména v různých oblastech. Například psychologové inklinují přejít od jednoduchých experimentů se zaměřením na mediátory a moderátorů (Baron and Kenny 1986) . Myšlenka mediátorů je zajat, čemu říkám mechanismy, a představa moderátorů je zajat, čemu říkám externí platnosti (např by výsledky experimentu jinak, pokud by byl spuštěn v různých situacích) a heterogenita účinků léčby ( například, jsou účinky větší pro některé lidi, než ostatní lidé).
Experiment Schultz et al. (2007) ukazuje, jak sociální teorie mohou být použity pro návrh účinné intervence. Ohledně obecnějšího argumentu o úloze teorie v přípravě účinných intervencí, viz Walton (2014) .
Pojmy vnitřní a vnější platnosti se poprvé objevily v Campbell (1957) . Viz Shadish, Cook, and Campbell (2001) pro detailnější historii a pečlivé zpracování statistických závěr platnosti, vnitřní platnosti, konstruovat platnost a externí platnost.
Pro lepší přehled o otázkách týkajících se statistické závěr platnosti při experimentech vidět Gerber and Green (2012) (pro pohledu společenských věd) a Imbens and Rubin (2015) (pro statistické výhledu). Některé problémy statistické závěr platnosti, které vznikají zejména v on-line polní pokusy zahrnovat otázky, jako je výpočetně efektivních metod pro tvorbu intervaly spolehlivosti u závislých dat (Bakshy and Eckles 2013) .
Vnitřní platnost může být obtížné zajistit, ve složitých polní pokusy. Viz, například, Gerber and Green (2000) , Imai (2005) a Gerber and Green (2005) pro diskusi o realizaci komplexního polního pokusu o hlasování. Kohavi et al. (2012) a Kohavi et al. (2013) poskytují úvod do výzvy intervalu platnosti v online experimentů v terénu.
Jednou z hlavních starostí s interním platností jsou problémy s randomizaci. Jeden způsob, jak potenciálně odhalit problémy s randomization je porovnat experimentálních a kontrolních skupin na pozorovatelných rysů. Tento druh srovnání se nazývá kontrola rovnováha. Viz Hansen and Bowers (2008) pro statistického přístupu k vyvážení kontrol, a uvidíte Mutz and Pemantle (2015) k obavám kontroly rovnováhy. Například pomocí rovnováhy zjistit Allcott (2011) zjistili, že existují určité důkazy, že randomizace nebyla správně provedena ve třech experimentech v některých experimentech OPower (viz tabulka 2, stránky 2, 6, a 8). U ostatních přístupů, viz Imbens and Rubin (2015) , kapitola 21.
Mezi další významné obavy týkající se vnitřního platnosti jsou: 1) jednostranný neshodu, kde ne všichni ve skupině léčebné skutečně podstoupila léčbu, 2) dva oboustranné neshodu, kde ne všichni ve skupině léčebné obdrží léčbu a některá lidí v kontrolní skupině za účelem léčení, 3), proti oděru, pokud jsou výsledky nejsou měřeny u některých účastníků, a 4) rušení, kde léčba přelévá z lidí ve stavu, při léčení lidí v kontrolní skupině. Viz Gerber and Green (2012) kapitoly 5, 6, 7 a 8 pro více informací o každém z těchto otázek.
Pro více informací o konstruktové platnosti, viz Westen and Rosenthal (2003) , a pro více informací o konstruktové platnosti ve velkých datových zdrojích, Lazer (2015) a kapitoly 2 této knihy.
Jedním z aspektů vnější platnosti je nastavení, kde se zkouší zásah. Allcott (2015) poskytuje pečlivé teoretické a empirické léčby výběru místa zaujatost. Tato problematika je rovněž diskutována v Deaton (2010) . Kromě toho, že replikovány v mnoha místech, Home Energy Report zásah byl rovněž nezávisle studována několika výzkumných skupin (např Ayres, Raseman, and Shih (2013) ).
Za vynikající přehled o různorodosti léčebných účinků v polních pokusů, viz kapitola 12 Gerber and Green (2012) . Pro úvody k různorodosti léčebných účinků v lékařských studiích, viz Kent and Hayward (2007) , Longford (1999) , a Kravitz, Duan, and Braslow (2004) . Heterogenita účinků léčby obecně se zaměří na rozdíly založené na vlastnostech před zahájením léčby. Máte-li zájem o heterogenitu založené na výsledcích po ukončení léčby, pak složitější blíží svým Je zapotřebí, jako hlavní stratifikace (Frangakis and Rubin 2002) ; viz Page et al. (2015) o přezkoumání.
Mnoho výzkumníci odhadují nesourodost účinků léčby pomocí lineární regrese, ale novější metody spoléhat na strojové učení, například Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , a Athey and Imbens (2016a) .
Tam je nějaká skepse o zjištění heterogenity účinků z důvodu mnoha problémů srovnání a "rybaření". Existuje celá řada statistických přístupů, které mohou pomoci obavy z vícenásobného srovnání (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Jeden přístup k obavám z "lovu" je předregistrace, která se stává stále běžnější v psychologii (Nosek and Lakens 2014) , politické vědy (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) a ekonomie (Olken 2015) .
Ve studii Costa and Kahn (2013) jen asi polovina domácností v experimentu byli schopni být spojena s demografické údaje. Čtenáři, kteří mají zájem o podrobnosti a případné problémy s touto analýzou by měl odkazovat na originální papír.
Mechanismy jsou nesmírně důležitá, ale ukáže být velmi obtížné studovat. Výzkum o mechanismech úzce souvisí se studiem mediátorů v psychologii (viz ale také VanderWeele (2009) pro přesné srovnání mezi těmito dvěma myšlenkami). Statistické přístupy k nalezení mechanismů, jako je například přístup vyvinuté v Baron and Kenny (1986) , jsou poměrně časté. Bohužel se ukázalo, že tyto postupy jsou závislé na některých silných předpokladů (Bullock, Green, and Ha 2010) a trpět, pokud existuje několik mechanismů, jak by se dalo očekávat, že v mnoha situacích (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) a Imai and Yamamoto (2013) nabízejí některé zlepšené statistických metod. Dále VanderWeele (2015) nabízí léčbu knihu-délkový s řadou významných výsledků, včetně komplexního přístupu k analýze citlivosti.
Samostatnou přístup se zaměřuje na experimenty, které se pokoušejí manipulovat mechanismu přímo (např, dává námořníci vitamin C). Bohužel, v mnoha nastaveními společenské vědy často existují rozmanité mechanismy a je těžké navrhnout léčbu, která změnit jednu beze změny ostatních. Některé přístupy k experimentálně úpravách mechanismy jsou popsány v Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , a Pirlott and MacKinnon (2016) .
A konečně mechanismy mají také dlouhou historii ve filozofii vědy, jak je popsáno Hedström and Ylikoski (2010) .
Pro více informací o používání korespondenčních studií a auditu studie pro měření diskriminaci vidět Pager (2007) .
Nejběžnější způsob, jak získávat účastníkům experimentů, které si budovat je Amazon Mechanical Turk (MTurk). Vzhledem k tomu, MTurk napodobuje aspekty tradičních laboratorních experimentů platící lidi k plnění úkolů, že nebudou dělat pro volně mnoho výzkumníků již začaly používat Turkers (zaměstnance na MTurk) jako účastníci v lidských subjektech pokusech za následek rychlejší a levnější sběru dat než tradiční na půdě univerzit laboratorní experimenty (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Největší síla experimentů s účastníky z řad MTurk jsou logistické: umožňují výzkumníkům rychle a podle potřeby najímat účastníků. Zatímco laboratorní experimenty mohou trvat týdny běžet a polní pokusy může trvat měsíce, aby set-up, experimenty s účastníky z řad MTurk lze spustit ve dnech. Například Berinsky, Huber, and Lenz (2012) byly schopny přijmout 400 předmětů v jednom dni k účasti na 8 minut pokusu. Dále, tito účastníci mohou být přijati pro prakticky jakýkoli účel (včetně průzkumů a masové spolupráce, jak je popsáno v kapitolách 3 a 5). Tato snadnost náboru znamená, že vědci mohou spouštět sekvence souvisejících experimentů v rychlém sledu.
Před nábor účastníků z MTurk pro vlastní experimenty, existují čtyři důležité věci, které byste měli vědět. Za prvé, mnozí badatelé mají nespecifickou skepsi pokusů s Turkers. Protože tento skepticismus není specifický, je těžko bojuje s důkazy. Nicméně, po několika letech studií s použitím Turkers, nyní můžeme konstatovat, že tento skepticismus není nijak zvlášť nutné. Tam bylo mnoho studie porovnávající demografie Turkers pro jiné populace a mnoho studií, které porovnávaly výsledky experimentů s Turkers s výsledky z jiných populací. Vzhledem k tomu, všechny tyto práce, myslím, že nejlepší způsob, jak přemýšlet o tom, že Turkers jsou přiměřené pohodlí vzorek, stejně jako studenty, ale o něco rozmanitější (Berinsky, Huber, and Lenz 2012) . Tedy, stejně jako studenti jsou rozumná populace pro některé, ale ne všechny experimentální výzkum, Turkers jsou rozumná populace pro některé, ale ne všechny výzkumy. Pokud se chystáte pracovat s Turkers, pak má smysl číst mnoho z těchto srovnávacích studií a pochopit jejich nuance.
Za druhé, vědci vyvinuli osvědčené postupy pro zvýšení vnitřní platnost Turk pokusů, a měli byste se naučit ovládat a řídit tyto osvědčené postupy (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Například výzkumníci používají Turkers jsou vedeni k používání třídiče k odstranění nepozorný účastníky (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (viz ale také DJ Hauser and Schwarz (2015b) a DJ Hauser and Schwarz (2015a) ). Pokud nechcete odstranit nepozorný účastníky, pak nějaký účinek léčby může být vymývány hlukem dováženého ze nepozorného účastníků, av praxi se počet účastníků nepozorného mohou být značné. V experimentu Huber a jeho kolegové (2012) asi 30% účastníků selhala základní pozornost třídiče. Dalším problémem společného s Turkers je non-naivní účastníků (Chandler et al. 2015) .
Za třetí, ve srovnání s některými jinými formami digitálních experimentů, MTurk experimenty nemohou měřítku; Stewart et al. (2015) odhaduje, že v daném okamžiku existuje jen asi 7000 lidí na MTurk.
A konečně, měli byste vědět, že MTurk je společenství s vlastními pravidly a normami (Mason and Suri 2012) . Stejným způsobem, že byste se pokusit zjistit o kultuře země, kde jste se bude spouštět experimenty, měli byste se pokusit zjistit více o kultuře a normami Turkers (Salehi et al. 2015) . A měli byste vědět, že Turkers bude hovořit o svém experimentu, pokud děláte něco nevhodného nebo neetického (Gray et al. 2016) .
MTurk je neuvěřitelně pohodlný způsob, jak rekrutovat účastníky ke svým experimentům, zda se jedná o laboratorní podobně, jako Huber, Hill, and Lenz (2012) , nebo další pole-podobně, jako Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , a Mao et al. (2016) .
Pokud uvažujete, že se snaží vytvořit svůj vlastní produkt, doporučuji, abyste si přečetli rady nabízené skupinou MovieLens v Harper and Konstan (2015) . Klíčovou myšlenkou z jejich zkušeností je, že pro každý úspěšný projekt existuje mnoho, mnoho poruch. Například skupina MovieLens zahájila další výrobky, jako GopherAnswers, které byly úplné selhání (Harper and Konstan 2015) . Dalším příkladem výzkumník selhávajícího při pokusu o sestavení produktu je Edward Castronova pokus vytvořit on-line hru s názvem Arden. Přes $ 250000 v financi, projekt byl propadnout (Baker 2008) . Projekty jako GopherAnswers a Arden jsou bohužel mnohem častější než projekty, jako MovieLens. Nakonec, když jsem řekl, že jsem nevěděl o žádných dalších výzkumných pracovníků, který se úspěšně postavené produkty pro opakované pokusy tady jsou moje kritéria: 1) účastníci výrobek používat, protože to, co se jim to umožňuje (např nejsou placené a nejsou dobrovolníci pomáhají vědu) a 2) výrobek byl použit pro více než jeden jediný experiment (tedy nikoli stejný experiment vícekrát s různými účastníků bazény). Pokud víte o dalších příkladů, dejte mi prosím vědět.
Slyšel jsem představu Pasteurova kvadrantu diskutovalo často u tech firem, a to pomáhá organizovat výzkumné úsilí na Googlu (Spector, Norvig, and Petrov 2012) .
Bond a studie kolegů, (2012) také se pokusí rozpoznat účinek těchto úprav na přátele těch, kteří je obdrželi. Z důvodu návrhu experimentu, jsou tyto přelévání je obtížné odhalit čistě; zájemci měli vidět Bond et al. (2012) pro více důkladnou diskuzi. Tento experiment je součástí dlouhé tradice experimentů v politické vědě o úsilí na podporu hlasování (Green and Gerber 2015) . Tyto get-out-the-vote pokusy jsou časté částečně proto, že jsou v Pasteurova kvadrantu. To znamená, že existuje mnoho lidí, kteří jsou motivováni ke zvýšení hlasování a hlasování může být zajímavé chování testovat obecnější teorie o změně chování a společenského vlivu.
Jiní vědci poskytovala poradenství o běh polní pokusy s partnerskými organizacemi, jako jsou politické strany, nevládní organizace a podniky (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Jiní nabízejí radu o tom, jak partnerství s organizacemi, které mohou mít vliv výzkumné návrhy (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerství může také vést k etickým otázkám (Humphreys 2015; Nickerson and Hyde 2016) .
Pokud se chystáte vytvořit plán pro analýzu před spuštěním svůj experiment, navrhuji, abyste začali číst pokyny pro podávání zpráv. Choť (Konsolidovaný Standardní zprávy o zkouškách) Pokyny byly vyvinuty v medicíně (Schulz et al. 2010) a upravený pro sociální výzkum (Mayo-Wilson et al. 2013) . S tím souvisí i soubor pokynů byla vyvinuta redakcí časopisu Journal of Experimental politologie (Gerber et al. 2014) (viz také Mutz and Pemantle (2015) a Gerber et al. (2015) ). A konečně, podávání zpráv obecné zásady byly vypracovány v psychologii (Group 2008) a viz také Simmons, Nelson, and Simonsohn (2011) .
Pokud vytvoříte plán analýzy byste měli zvážit předběžné registraci, protože předregistrace zvýší jistotu, že ostatní mají ve svých výsledcích. Dále, pokud pracujete s partnerem, bude to omezí schopnost vašeho partnera ke změně analýzy poté, co viděl výsledky. Předběžná registrace je čím dál tím běžnější v psychologii (Nosek and Lakens 2014) , politické vědy (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) a ekonomie (Olken 2015) .
Při vytváření plánu pre-analýzy byste měli být vědomi toho, že někteří výzkumníci také pomocí regrese a souvisejících přístupů ke zlepšení přesnosti odhadovaného účinku léčby, a tam je nějaká debata o tomto přístupu: Freedman (2008) , Lin (2013) , a Berk et al. (2013) ; viz Bloniarz et al. (2016) pro více informací.
Design poradenství speciálně pro online experimentů v terénu je rovněž uvedeno v Konstan and Chen (2007) a Chen and Konstan (2015) .
Pro více informací o experimentech MusicLab viz Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , a Salganik (2007) . Pro více informací o vítěz bere na všech trzích, viz Frank and Cook (1996) . Pro více informací o rozmotání štěstí a dovednosti obecněji viz Mauboussin (2012) , Watts (2012) a Frank (2016) .
Tam je jiný přístup k odstranění plateb účastníka, že výzkumní pracovníci by měli používat opatrně: odvod. V mnoha online experimentů v terénu jsou účastníci v podstatě odveden do experimentů a ničím jiným nahradit. Příklady tohoto přístupu zahrnují Restivo a Van de Rijt je (2012) experiment na odměny ve Wikipedii a Bond a kolegy (2012) pokus o povzbuzovat lidi, aby hlasovali. Tyto experimenty ve skutečnosti nemají nulové variabilní náklady, mají nulové variabilní náklady pro výzkumné pracovníky. I přesto, že náklady na mnoho z těchto pokusů je velmi malá, aby každý účastník, malé náklady uložena obrovský počet účastníků lze přidat až rychle. Výzkumníci běží masivní online experimenty často ospravedlňují význam malých odhadované účinky léčby tím, že tyto malé účinky mohou být důležité při použití pro mnoho lidí. Přesně stejný myšlení se týká nákladů, které vědci kladou na účastníky. Pokud vaše pokusy způsobuje jeden milion lidí ztrácet jednu minutu, experiment není na žádnou konkrétní osobu velmi škodlivé, ale v souhrnu to zbytečný téměř dva roky času.
Jiným přístupem k tvorbě nulové variabilní platbu nákladů účastníkům je použít loterii, což je přístup, který byl také použit ve výzkumu šetření (Halpern et al. 2011) . A konečně, pro další informace o navrhování příjemné uživatelských zkušeností viz Toomim et al. (2011) .
Zde jsou původní definice tří R, od Russell and Burch (1959) :
"Náhrada znamená substituci vědomí živých vyšších živočichů neživý materiál. Snížení znamená snížení počtu zvířat použitých za účelem získání informací o daném množství a přesnosti. Zjemnění rozumí jakýkoli pokles výskytu nebo závažnosti nelidských postupů uplatňovaných na těch zvířat, která ještě musí být použit. "
Tři R je, že navrhuji nepotlačí etické principy popsané v kapitole 6. Poněkud, oni jsou propracovanější verzi jednou z těchto zásad-dobročinnost specificky pro stanovení lidských experimentů.
Při zvažování Emoční nákaza existují tři non-etické otázky, které je třeba mít na paměti při interpretaci tento experiment. Za prvé, není jasné, jak skutečné údaje o pokusu připojit k teoretickým nároků; Jinými slovy, existují otázky týkající se konstruktu platnosti. To není jasné, že pozitivní a negativní počítá slova jsou skutečně dobrým ukazatelem emocionálního stavu účastníků, neboť 1) není jasné, že slova, která lidé post jsou dobrým indikátorem své emoce a 2), že není jasné, zda konkrétní analýza sentimentu technika, která použili vědci je schopen spolehlivě odvodit emoce (Beasley and Mason 2015; Panger 2016) . Jinými slovy, mohlo by být špatný měřítkem jednostranný signálu. Za druhé, návrh a analýza experimentu nevypovídá nic o tom, kdo byl největší vliv (tj, nebyla provedena žádná analýza heterogenity účinků léčby), a to, co by mohlo být mechanismus. V tomto případě se vědci měli spoustu informací o účastnících, ale oni byli v podstatě zacházeno jako widgety v analýze. Za třetí, velikost účinku v tomto experimentu byl velmi malý; rozdíl mezi léčenou a kontrolní podmínek je asi 1 do 1000 slov. Ve svém příspěvku, Kramer a jeho kolegové, aby případ, že se účinek této velikosti je důležité, protože stovky milionů lidí přístup k jejich News Feed každý den. Jinými slovy, oni tvrdí, že i efekty, které jsou malé pro každou osobu, které jsou velké jako celek. Dokonce i když jste byli na tento argument přijmout, je to stále není jasné, zda účinek této velikosti je důležité, pokud jde o obecnější vědeckou otázku o citové nákazy. Pro více informací na situace, kdy jsou důležité malé účinky viz Prentice and Miller (1992) .
Co se týče prvního R (nahrazení), ve srovnání emoční nákazy experiment (Kramer, Guillory, and Hancock 2014) a emocionální nákazy přirozený experiment (Coviello et al. 2014) nabízí některé obecné ponaučení o kompromisy, které se zabývají pohybující se od pokusy fyzickým experimenty (a jinými přístupy, jako je odpovídající, že pokus o sbližování experimenty v non-experimentálních dat, viz kapitola 2). Kromě etických dávky, přepínání z experimentálních non-experimentální studie také umožňuje výzkumníkům studovat ošetření, že jsou schopny logisticky k nasazení. Tyto etické a logistické výhody něco stojí, nicméně. S přírodními experimentech vědci mají menší kontrolu nad věcmi, jako je nábor účastníků, randomizace, a povahu léčby. Například jeden omezení srážek jako léčba je, že jak se zvyšuje a snižuje pozitivity negativity. V experimentální studii však Kramer a jeho kolegové byli schopni nastavit pozitivitu a negativitu nezávisle na sobě.
Konkrétní postup použitý Coviello et al. (2014) byl dále zpracován v Coviello, Fowler, and Franceschetti (2014) . Pro úvod k instrumentálních proměnných viz Angrist and Pischke (2009) (méně formální) nebo Angrist, Imbens, and Rubin (1996) (více formální). Pro skeptický zhodnocení instrumentálních proměnných viz Deaton (2010) , a na úvod do instrumentálních proměnných se slabými nástroji (déšť je slabý nástroj), viz Murray (2006) .
Obecněji řečeno, dobrý úvod do přírodních experimentů je Dunning (2012) , a Rosenbaum (2002) , Rosenbaum (2009) , a Shadish, Cook, and Campbell (2001) nabízejí dobré nápady týkající se odhadu kauzální efekty bez experimentů.
Co se týče druhého R (refinement), existují vědecké a logistické kompromisy při zvažování změně designu emocionální Nákaza blokování příspěvky k posílení pracovních míst. Například, může být v případě, že technická realizace médiích Krmivo je, že je v podstatě jednodušší provést experiment s blokováním míst, spíše než k experimentu posílení příspěvky (všimněte si, že experiment s blokováním míst by mohl být realizován jako vrstva na horní část News Feed systému, aniž by bylo zapotřebí změny podkladového systému). Vědecky, avšak teorie řeší experimentu nebyly jasně naznačují, jeden návrh se má použít.
Bohužel, nejsem si vědom značného předchozího výzkumu o relativních přednostech blokování a zvýšení obsahu v News Feed. Také jsem neviděl tolik výzkumů rafinaci ošetření, aby je bylo méně škodlivá; Jedinou výjimkou je Jones and Feamster (2015) , který se domnívá, že případ měření cenzuru internetu (téma jsem diskutovat v 6. kapitole ve vztahu ke studiu Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Pokud jde o třetí R (Reduction), dobrý úvod k tradiční analýzu výkonu je Cohen (1988) . kovariáty předběžné úpravy mohou být zahrnuty ve fázi návrhu a fázi analýzy pokusů; Kapitola 4 Gerber and Green (2012) poskytuje dobrý úvod do obou přístupů a Casella (2008) poskytuje ošetření více do hloubky. Techniky, které používají tento předčištění informace v randomization jsou obvykle nazývají buď zablokovány experimentů a rozvrstvené experimentální designy (terminologie není používán konzistentně komunity); Tyto techniky jsou hluboce souvisí s rozvrstveným vzorkovacích technik popsaných v kapitole 3. Viz Higgins, Sävje, and Sekhon (2016) pro více informací o používání těchto vzorů v masivních experimentů. Kovariáty předběžné úpravy mohou být zahrnuty i ve fázi analýzy. McKenzie (2012) zkoumá přístup rozdíl-in-rozdíly k analýze polní pokusy ve větším detailu. Viz Carneiro, Lee, and Wilhelm (2016) pro více informací o kompromisy mezi různými přístupy ke zvýšení přesnost v odhadu léčebných účinků. Konečně, při rozhodování o tom, zda se pokusit zařadit kovariát pre-ošetření při projektování nebo analýzy scény (nebo obojí), existuje několik faktorů, aby zvážila. V prostředí, kde vědci chtějí ukázat, že oni nejsou "rybaření" (Humphreys, Sierra, and Windt 2013) , s použitím pre-ošetření kovariát ve fázi návrhu mohou být užitečné (Higgins, Sävje, and Sekhon 2016) . V situacích, kdy účastníci přicházejí postupně, a to zejména on-line polní pokusy s využitím informací předběžného ošetření v fázi návrhu může být obtížné logisticky, viz například Xie and Aurisset (2016) .
Je třeba dodat trochu intuice o tom, proč rozdíl-in-rozdíly mohou být mnohem účinnější než rozdíl-in-prostředky. Mnoho online výsledky mají velmi vysokou variabilitu (viz např Lewis and Rao (2015) a Lamb et al. (2015) ) a jsou relativně stabilní v čase. V tomto případě se změna skóre bude mít podstatně menší rozptyl, což zvyšuje sílu statistického testu. Jedním z důvodů tohoto přiblížil se nepoužívá častěji, je to, že před digitálním věku to nebylo běžné, že výsledky předběžného ošetření. Konkrétnější způsob, jak přemýšlet o tom, je představit experiment změřit, zda konkrétní cvičením způsobuje úbytek na váze. Pokud nemáte přístup rozdíl-in-prostředky, váš odhad bude muset variabilitu, která přichází z variability o hmotnostech v populaci. Pokud si přístup rozdíl-in-rozdíl, nicméně, že přirozeně se vyskytující rozdíly v hmotnosti dostane odstraněny a lze snadněji zjistit odchylku způsobenou léčbu.
Jeden důležitý způsob, jak snížit počet účastníků experimentu je provést analýzu síly, což Kramer a spol mohla provést na základě velikosti účinku pozorovaného z přirozeného experimentu Coviello et al. (2014) nebo dříve než experimentální výzkum Kramer (2012) (ve skutečnosti se jedná o aktivity na konci této kapitoly). Všimněte si, že toto použití analýzy výkonu je trochu jiný než typický. V analogovém věku, vědci obecně udělal analýzu výkonu, aby se ujistil, že jejich studie byla příliš malá (tj, v souladu s napájením). Nyní však vědci měli udělat analýzu výkonu, aby se ujistil, že jejich studie není příliš velká (tj přes napájený).
Nakonec jsem se domníval, přidáním čtvrtiny R: Opakovaně. To znamená, že pokud výzkumníci se ocitnou s více experimentálními daty, než potřebují řešit své původní výzkumnou otázku, měli by opakovaně využít data klást nové otázky. Například si představte, že Kramer a jeho kolegové použili odhad rozdíl-in-rozdíly a ocitly se více dat, než je potřeba řešit jejich výzkumné otázky. Spíše než ne pomocí údajů v plném rozsahu, mohli studovali velikost účinku v závislosti na úroveň před léčbou emocionální výraz. Stejně jako Schultz et al. (2007) zjistili, že účinek léčby byl různý pro lehké a těžké uživatelů, možná účinky News Feed byly různé pro lidi, kteří již tendenci post šťastné (nebo smutný) zprávy. Změně použití by mohlo vést k "lovu" (Humphreys, Sierra, and Windt 2013) a "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , ale ty jsou do značné míry adresovat s kombinací čestného zpráv (Simmons, Nelson, and Simonsohn 2011) , předregistrace (Humphreys, Sierra, and Windt 2013) , a metod strojového učení, které se snaží, aby se zabránilo nadměrnému montáž.