Táto časť je určená na použitie ako referenčný, skôr než aby sa čítať ako príbeh.
Otázky týkajúce sa príčinnej súvislosti v sociálnej oblasti výskumu sú často zložité a spletité. Pre prazákladní prístupu ku kauzalite založené na kauzálne grafov, pozri Pearl (2009) , a na prazákladní prístupu založeného na potenciálne výsledky, pozri Imbens and Rubin (2015) (a technickú prílohu v tejto kapitole). Pre porovnanie medzi týmito dvoma prístupmi, pozri Morgan and Winship (2014) . K formálnemu prístupu k vymedzeniu mätúce faktor, pozri VanderWeele and Shpitser (2013) .
V kapitole som vytvoril, čo vyzeralo ako jasná čiara medzi našej schopnosti robiť príčinnej odhady z experimentálnych a non-experimentálnych dát. V skutočnosti si myslím, že rozdiel je rozmazanějším. Napríklad, každý pripúšťa, že fajčenie spôsobuje rakovinu, aj keď nikdy sme urobili náhodnou kontrolný experiment, ktorý núti ľudí, aby fajčiť. Za vynikajúce kniha dĺžka liečby na to, aby príčinnej odhadov od non-experimentálnych dát pozri Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , a Dunning (2012) .
Kapitoly 1 a 2 Freedman, Pisani, and Purves (2007) poskytujú jasný úvod do rozdieloch medzi pokusmi, riadených experimentov a randomizovanej kontrolovanej experimenty.
Manzi (2012) ponúka fascinujúci a čitateľný úvod do filozofických a štatistických opôr randomizovanej kontrolovanej experimentov. Poskytuje tiež zaujímavé príklady z reálneho sveta o sile experimentovanie v podnikaní.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) poskytujú dobré úvody k štatistickej aspekty pre experimentálny dizajn a analýzu. Ďalej sú tu výborné ošetrenie využitie experimentov v mnohých rôznych oblastiach: ekonomika (Bardsley et al. 2009) , Sociológia (Willer and Walker 2007; Jackson and Cox 2013) , psychológia (Aronson et al. 1989) , politológia (Morton and Williams 2010) a sociálna politika (Glennerster and Takavarasha 2013) .
Význam Účastník nábor (napr vzorkovanie) je často nedocenená v experimentálnom výskume. Avšak, ak účinok liečby je heterogénne populácii, potom vzorkovanie je kritická. Longford (1999) robí tento bod jasne, keď sa zasadzuje pre výskumníkov uvažujú o experimentov ako výberové populácie s náhodná vzorkovania.
Dichotómia, že som prezentoval medzi laboratórnych a poľných pokusov je trochu zjednodušený. V skutočnosti, iní výskumníci navrhli podrobnejšie typológie, najmä tých, ktoré oddeľujú rôzne formy poľných pokusov (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Ďalej existujú ďalšie dva typy experimentov vykonaných sociológmi, ktoré sa nezmestia úhľadne do laboratória i do terénu dichotómia :. pokuse zisťovanie a sociálnych experimentov experimenty prieskumu sú experimenty využívajúce infraštruktúru súčasných zisťovaní a porovnať odpovede na alternatívnych verziách rovnaké otázky (niektoré experimenty prieskumu sú uvedené v kapitole 3); Pre viac informácií o experimentoch prieskumu pozri Mutz (2011) . Sociálne experimenty sú experimenty, kedy liečba je nejaký sociálna politika, ktorá môže byť vykonaná iba vládou. Sociálne experimenty sú úzko spojené s programovať hodnotenie. Pre viac informácií o experimentoch politiky, pozri Orr (1998) , Glennerster and Takavarasha (2013) , a Heckman and Smith (1995) .
Niekoľko dokumentov majú v porovnaní laboratórnych a terénnych experimentov v abstraktnom (Falk and Heckman 2009; Cialdini 2009) a čo sa týka výsledkov konkrétnych experimentov v politológiu (Coppock and Green 2015) , ekonomika (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) a psychológie (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ponúka príjemné výskumný dizajn pre porovnanie výsledkov z laboratórnych a poľných experimentov.
Obavy z účastníkov zmenia svoje správanie, pretože vedia, že sú starostlivo sledované, ak sa niekedy nazývajú efekty dopyt, a boli študované v psychológii (Orne 1962) a ekonómie (Zizzo 2009) . Hoci väčšinou spojené s laboratórnych experimentov, môžu tieto rovnaké problémy spôsobiť problémy u poľných pokusov rovnako. V skutočnosti, účinky dopyt sú tiež niekedy nazývaný Hawthorne účinok, čo je termín, ktorý pochádza z poľného pokusu, konkrétne slávnej osvetlenie experimenty, ktoré začali v roku 1924 na Hawthorne Works západnej Electric Company (Adair 1984; Levitt and List 2011) . Obaja efekty dopyt a účinky hlohu sú úzko súvisí s myšlienkou reaktívne merania opísaná v kapitole 2 (pozri aj Webb et al. (1966) ).
História poľných pokusov bol opísaný v odbore ekonómia (Levitt and List 2009) , politológie (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psychológia (Shadish 2002) , a verejného poriadku (Shadish and Cook 2009) . Jednou z oblastí spoločenských vied, kde poľné pokusy rýchlo sa stal prominentný je medzinárodný vývoj. V prípade kladného hodnotenia tejto práce v ekonómii vidieť Banerjee and Duflo (2009) , a kritické vyhodnotenie pozri Deaton (2010) . Pre prehľad tejto práce v politickej vede pozri Humphreys and Weinstein (2009) . Napokon, etické výzvy, ktoré sa zaoberajú poľných pokusov boli skúmané v odbore politológia (Humphreys 2015; Desposato 2016b) a rozvojové ekonomiky (Baele 2013) .
V kapitole, navrhol som, že informácie predbežné spracovanie môže byť použitá pre zlepšenie presnosti odhadu účinkov liečby, ale tam je nejaká diskusia o tomto prístupe: Freedman (2008) , Lin (2013) , a Berk et al. (2013) ; pozri Bloniarz et al. (2016) pre viac informácií.
Zvolil som sa sústrediť na tri koncepty: Platnosť, rôznorodosti liečebných účinkov a mechanizmov. Tieto pojmy majú rôzne mená v rôznych oblastiach. Napríklad psychológovia inklinujú prejsť od jednoduchých experimentov so zameraním na mediátorov a moderátorov (Baron and Kenny 1986) . Myšlienka mediátorov je zajatý, čomu hovorím mechanizmy, a predstava moderátorov je zajatý, čomu hovorím externé platnosti (napr by výsledky experimentu inak, ak by bol spustený v rôznych situáciách) a heterogenita účinkov liečby ( napríklad, sú účinky väčšie pre niektorých ľudí, než ostatní ľudia).
Experiment Schultz et al. (2007) ukazuje, ako sociálna teória môžu byť použité pre návrh účinnej intervencie. Ohľadom všeobecnejšieho argumentu o úlohe teórie v príprave účinných intervencií, pozri Walton (2014) .
Pojmy vnútorné a vonkajšie platnosti sa prvýkrát objavili v Campbell (1957) . Pozri Shadish, Cook, and Campbell (2001) pre detailnejšie históriu a starostlivé spracovanie štatistických záver platnosti, vnútorné platnosti, konštruovať platnosť a externé platnosť.
Pre lepší prehľad o otázkach týkajúcich sa štatistickej záver platnosti pri experimentoch vidieť Gerber and Green (2012) (pre pohľadu spoločenských vied) a Imbens and Rubin (2015) (pre štatistické výhľadu). Niektoré problémy štatistické záver platnosti, ktoré vznikajú najmä v on-line poľné pokusy zahŕňať otázky, ako je výpočtovo efektívnych metód pre tvorbu intervaly spoľahlivosti u závislých dát (Bakshy and Eckles 2013) .
Vnútorné platnosť môže byť ťažké zabezpečiť, v zložitých poľné pokusy. Pozri, napríklad, Gerber and Green (2000) , Imai (2005) a Gerber and Green (2005) pre diskusiu o realizáciu komplexného poľného pokusu o hlasovaní. Kohavi et al. (2012) a Kohavi et al. (2013) poskytujú úvod do výzvy intervalu platnosti v online experimentov v teréne.
Jednou z hlavných starostí s interným platnosťou sú problémy s randomizácii. Jeden spôsob, ako potenciálne odhaliť problémy s randomization je porovnať testovaných skupín na pozorovateľných rysov. Tento druh porovnaní sa nazýva kontrola rovnováha. Pozri Hansen and Bowers (2008) pre štatistického prístupu k vyváženie kontrol, a uvidíte Mutz and Pemantle (2015) na obavy kontroly rovnováhy. Napríklad pomocou rovnováhy zistiť Allcott (2011) zistili, že existujú určité dôkazy, že náhodnosti nebola správne vykonaná v troch experimentoch v niektorých experimentoch OPower (pozri tabuľku 2, stránky 2, 6, a 8). Pri ostatných prístupov, pozri Imbens and Rubin (2015) , kapitola 21.
Medzi ďalšie dôležité požiadavky týkajúce sa vnútorného platnosti sú: 1) jednostranný nezhodu, kde nie všetci v skupine liečebné skutočne podstúpila liečbu, 2) dva obojstranné nezhodu, kde nie všetci v skupine liečebné dostane liečbu a niektoré ľudí v kontrolnej skupine na zdravotnícke účely, 3), proti oderu, ak sú výsledky nie sú merané u niektorých účastníkov, a 4) rušenie, kde liečba prelieva z ľudí v stave, pri liečení ľudí v kontrolnej skupine. Pozri Gerber and Green (2012) kapitoly 5, 6, 7 a 8 pre viac informácií o každom z týchto otázok.
Pre viac informácií o konstruktové platnosti, pozri Westen and Rosenthal (2003) , a pre viac informácií o konstruktové platnosti vo veľkých dátových zdrojoch, Lazer (2015) a kapitoly 2 tejto knihy.
Jedným z aspektov vonkajšej platnosti je nastavenie, kde sa skúša zásah. Allcott (2015) poskytuje starostlivé teoretické a empirické liečby výbere miesta zaujatosť. Táto problematika je takisto diskutovaná v Deaton (2010) . Okrem toho, že replikované v mnohých miestach, Home Energy Report zásah bol rovnako nezávisle študovaná niekoľkých výskumných skupín (napr Ayres, Raseman, and Shih (2013) ).
Za vynikajúci prehľad o rôznorodosti liečebných účinkov v poľných pokusov, viď kapitola 12 Gerber and Green (2012) . Pre úvody k rôznorodosti liečebných účinkov v lekárskych štúdiách, pozri Kent and Hayward (2007) , Longford (1999) , a Kravitz, Duan, and Braslow (2004) . Heterogenita účinkov liečby všeobecne sa zameria na rozdiely založené na vlastnostiach pred začatím liečby. Ak máte záujem o heterogénnosť založené na výsledkoch po ukončení liečby, potom zložitejšie blíži svojim Je potrebné, ako hlavný stratifikácia (Frangakis and Rubin 2002) ; viď Page et al. (2015) o preskúmanie.
Mnoho výskumníci odhadujú nesúrodosť účinkov liečby pomocou lineárnej regresie, ale novšie metódy spoliehať na strojové učenie, napríklad Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , a Athey and Imbens (2016a) .
Tam je nejaká skepsa o zistenie heterogenity účinkov z dôvodu mnohých problémov porovnanie a "rybárčenie". Existuje celý rad štatistických prístupov, ktoré môžu pomôcť obavy z viacnásobného porovnania (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Jeden prístup k obavám z "lovu" je predregistrácia, ktorá sa stáva čoraz bežnejšie v psychológii (Nosek and Lakens 2014) , politické vedy (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) a ekonómie (Olken 2015) .
V štúdii Costa and Kahn (2013) len asi polovica domácností v experimente boli schopní byť spojená s demografické údaje. Čitatelia, ktorí majú záujem o podrobnosti a prípadné problémy s touto analýzou by mal odkazovať na originálny papier.
Mechanizmy sú nesmierne dôležitá, ale ukáže byť veľmi ťažké študovať. Výskum o mechanizmoch úzko súvisí so štúdiom mediátorov v psychológii (pozri ale tiež VanderWeele (2009) pre presné porovnanie medzi týmito dvoma myšlienkami). Štatistické prístupy k nájdeniu mechanizmov, ako je napríklad prístup vyvinuté v Baron and Kenny (1986) , sú pomerne časté. Bohužiaľ sa ukázalo, že tieto postupy sú závislé na niektorých silných predpokladov (Bullock, Green, and Ha 2010) a trpieť, ak existuje niekoľko mechanizmov, ako by sa dalo očakávať, že v mnohých situáciách (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) a Imai and Yamamoto (2013) ponúkajú niektoré zlepšené štatistických metód. Ďalej VanderWeele (2015) ponúka liečbu knihu-dĺžkový s radom významných výsledkov, vrátane komplexného prístupu k analýze citlivosti.
Samostatnou prístup sa zameriava na experimenty, ktoré sa pokúšajú manipulovať mechanizmu priamo (napr, dáva námorníci vitamín C). Bohužiaľ, v mnohých nastaveniami spoločenské vedy často existujú rozmanité mechanizmy a je ťažké navrhnúť liečbu, ktorá zmeniť jednu bez zmeny ostatných. Niektoré prístupy k experimentálne úpravách mechanizmy sú opísané v Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , a Pirlott and MacKinnon (2016) .
A konečne mechanizmy majú tiež dlhú históriu vo filozofii vedy, ako je popísané Hedström and Ylikoski (2010) .
Pre viac informácií o používaní korešpondenčných štúdií a auditu štúdie na meranie diskrimináciu vidieť Pager (2007) .
Najbežnejší spôsob, ako získavať účastníkom experimentov, ktoré si budovať je Amazon Mechanical Turk (MTurk). Vzhľadom k tomu, MTurk napodobňuje aspekty tradičných laboratórnych experimentov platiaci ľudí k plneniu úloh, že nebudú robiť pre voľne mnoho výskumníkov už začali používať Turkers (zamestnanca na MTurk) ako účastníci v ľudských subjektoch pokusoch za následok rýchlejšie a lacnejšie zberu dát ako tradičné na pôde univerzít laboratórne experimenty (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Najväčšia sila experimentov s účastníkmi z radov MTurk sú logistické: umožňujú výskumníkom rýchlo a podľa potreby najímať účastníkov. Kým laboratórne experimenty môžu trvať týždne bežať a poľné pokusy môže trvať mesiace, aby set-up, experimenty s účastníkmi z radov MTurk možno spustiť v dňoch. Napríklad Berinsky, Huber, and Lenz (2012) boli schopné prijať 400 predmetov v jednom dni k účasti na 8 minút pokusu. Ďalej, títo účastníci môžu byť prijatí pre prakticky akýkoľvek účel (vrátane prieskumov a masovej spolupráce, ako je opísané v kapitolách 3 a 5). Táto jednoduchosť náboru znamená, že vedci môžu spúšťať sekvencie súvisiacich experimentov v rýchlom slede.
Pred nábor účastníkov z MTurk pre vlastné experimenty, existujú štyri dôležité veci, ktoré by ste mali vedieť. Po prvé, mnohí bádatelia majú nešpecifickú skepsu pokusov s Turkers. Pretože tento skepticizmus nie je špecifický, je ťažko bojuje s dôkazmi. Avšak, po niekoľkých rokoch štúdií s použitím Turkers, teraz môžeme konštatovať, že tento skepticizmus nie je nijako zvlášť nutné. Tam bolo veľa štúdie porovnávajúce demografie Turkers pre iné zásoby a veľa štúdií, ktoré porovnávali výsledky experimentov s Turkers s výsledkami z iných populácií. Vzhľadom k tomu, všetky tieto práce, myslím, že najlepší spôsob, ako premýšľať o tom, že Turkers sú primerané pohodlie vzorku, rovnako ako študentov, ale o niečo rozmanitejšie (Berinsky, Huber, and Lenz 2012) . Teda, rovnako ako študenti sú rozumná populácie pre niektoré, ale nie všetky experimentálny výskum, Turkers sú rozumné populácie pre niektoré, ale nie všetky výskumy. Ak sa chystáte pracovať s Turkers, potom má zmysel čítať mnoho z týchto porovnávacích štúdií a pochopiť ich nuansy.
Po druhé, vedci vyvinuli osvedčené postupy pre zvýšenie vnútornej platnosť Turk pokusov, a mali by ste sa naučiť ovládať a riadiť tieto osvedčené postupy (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Napríklad výskumníci používajú Turkers sú vedení k používaniu triedičky na odstránenie nepozorný účastníkmi (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (pozri ale aj DJ Hauser and Schwarz (2015b) a DJ Hauser and Schwarz (2015a) ). Ak nechcete odstrániť nepozorný účastníkmi, potom nejaký účinok liečby môže byť vymývanie hlukom dovážaného z nepozorného účastníkov, av praxi sa počet účastníkov nepozorného môžu byť značné. V experimente Huber a jeho kolegovia (2012) asi 30% účastníkov zlyhala základná pozornosť triediče. Ďalším problémom spoločného s Turkers je non-naivný účastníkov (Chandler et al. 2015) .
Po tretie, v porovnaní s niektorými inými formami digitálnych experimentov, MTurk experimenty nemôžu meradle; Stewart et al. (2015) odhaduje, že v danom momente existuje len asi 7000 ľudí na MTurk.
A konečne, mali by ste vedieť, že MTurk je spoločenstvo s vlastnými pravidlami a normami (Mason and Suri 2012) . Rovnakým spôsobom, že by ste sa pokúsiť zistiť o kultúre krajiny, kde ste sa bude spúšťať experimenty, mali by ste sa pokúsiť zistiť viac o kultúre a normami Turkers (Salehi et al. 2015) . A mali by ste vedieť, že Turkers bude hovoriť o svojom experimente, ak robíte niečo nevhodné alebo neetické (Gray et al. 2016) .
MTurk je neuveriteľne pohodlný spôsob, ako regrutovať účastníkov k svojim experimentom, či sa jedná o laboratórne podobne, ako Huber, Hill, and Lenz (2012) , alebo ďalšie pole-podobne, ako Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , a Mao et al. (2016) .
Ak uvažujete, že sa snaží vytvoriť svoj vlastný produkt, odporúčam, aby ste si prečítali rady ponúkané skupinou MovieLens v Harper and Konstan (2015) . Kľúčovou myšlienkou z ich skúseností je, že pre každý úspešný projekt existuje mnoho, mnoho porúch. Napríklad skupina MovieLens začala ďalšie výrobky, ako GopherAnswers, ktoré boli úplné zlyhanie (Harper and Konstan 2015) . Ďalším príkladom výskumník zlyhávajúceho pri pokuse o zostavenie produktu je Edward Castronova pokus vytvoriť on-line hru s názvom Arden. Cez $ 250000 v financii, projekt bol prepadnúť (Baker 2008) . Projekty ako GopherAnswers a Arden sú bohužiaľ oveľa častejšie než projekty, ako MovieLens. Nakoniec, keď som povedal, že som nevedel o žiadnych ďalších výskumných pracovníkov, ktorý sa úspešne postavené produkty pre opakované pokusy tu sú moje kritériá: 1) účastníci výrobok používať, pretože to, čo sa im to umožňuje (napr nie sú platené a nie sú dobrovoľníci pomáhajú vedu) a 2) výrobok bol použitý pre viac ako jeden jediný experiment (teda nie rovnaký experiment viackrát s rôznymi účastníkov bazény). Ak viete o ďalších príkladov, dajte mi prosím vedieť.
Počul som predstavu Pasteurova kvadrante diskutovalo často u tech firiem, a to pomáha organizovať výskumné úsilie na Googlu (Spector, Norvig, and Petrov 2012) .
Bond a štúdie kolegov, (2012) tiež sa pokúsi rozpoznať účinok týchto úprav na priateľov tých, ktorí ich dostali. Z dôvodu návrhu experimentu, sú tieto prelievanie je ťažké odhaliť čisto; záujemcovia mali vidieť Bond et al. (2012) pre viac dôkladnú diskusiu. Tento experiment je súčasťou dlhej tradície experimentov v politickej vede o úsilí na podporu hlasovania (Green and Gerber 2015) . Tieto get-out-the-vote pokusy sú časté čiastočne preto, že sú v Pasteurova kvadrante. To znamená, že existuje veľa ľudí, ktorí sú motivovaní k zvýšeniu hlasovanie a hlasovanie môže byť zaujímavé správanie testovať všeobecnejšej teórie o zmene správania a spoločenského vplyvu.
Iní vedci poskytovala poradenstvo o beh poľné pokusy s partnerskými organizáciami, ako sú politické strany, mimovládne organizácie a podniky (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Iní ponúkajú radu o tom, ako partnerstvo s organizáciami, ktoré môžu mať vplyv návrhov na výskum (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerstvo môže tiež viesť k etickým otázkam (Humphreys 2015; Nickerson and Hyde 2016) .
Ak sa chystáte vytvoriť plán pre analýzu pred spustením svoj experiment, navrhujem, aby ste začali čítať pokyny pre podávanie správ. Choť (Konsolidovaný Štandardné správy o skúškach) Pokyny boli vyvinuté v medicíne (Schulz et al. 2010) a upravený pre sociálny výskum (Mayo-Wilson et al. 2013) . S tým súvisí aj súbor pokynov bola vyvinutá redakciou časopisu Journal of Experimental politológie (Gerber et al. 2014) (pozri aj Mutz and Pemantle (2015) a Gerber et al. (2015) ). A konečne, podávanie správ usmernenia boli vypracované v psychológii (Group 2008) a pozri tiež Simmons, Nelson, and Simonsohn (2011) .
Ak vytvoríte plán analýzy by ste mali zvážiť predregistráciu, pretože predregistrácia zvýši istotu, že ostatní majú vo svojich výsledkoch. Ďalej, ak pracujete s partnerom, bude to obmedzí schopnosť vášho partnera k zmene analýzy potom, čo videl výsledky. Predbežná registrácia je čím ďalej tým bežnejšie v psychológii (Nosek and Lakens 2014) , politické vedy (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) a ekonómie (Olken 2015) .
Pri vytváraní plánu pre-analýzy by ste mali byť vedomí toho, že niektorí výskumníci aj pomocou regresie a súvisiacich prístupov k zlepšeniu presnosti odhadovaného účinku liečby, a tam je nejaká debata o tomto prístupe: Freedman (2008) , Lin (2013) , a Berk et al. (2013) ; pozri Bloniarz et al. (2016) pre viac informácií.
Design poradenstvo špeciálne pre online experimentov v teréne je taktiež uvedené v Konstan and Chen (2007) a Chen and Konstan (2015) .
Pre viac informácií o experimentoch MusicLab pozri Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , a Salganik (2007) . Pre viac informácií o víťaz berie na všetkých trhoch, pozri Frank and Cook (1996) . Pre viac informácií o rozmotaní šťastie a zručnosti všeobecnejšie pozri Mauboussin (2012) , Watts (2012) a Frank (2016) .
Tam je iný prístup k odstráneniu platieb účastníka, že výskumní pracovníci by mali používať opatrne: odvod. V mnohých online experimentov v teréne sú účastníci v podstate odvedený do experimentov a ničím iným nahradiť. Príklady tohto prístupu zahŕňajú Restivo a Van de Rijt je (2012) experiment na odmeny vo Wikipédii a Bond a kolegami (2012) pokus o povzbudzovať ľudí, aby hlasovali. Tieto experimenty v skutočnosti nemajú nulové variabilné náklady, majú nulové variabilné náklady pre výskumných pracovníkov. Aj napriek tomu, že náklady na mnoho z týchto pokusov je veľmi malá, aby každý účastník, malé náklady uložená obrovský počet účastníkov možno pridať až rýchlo. Výskumníci beží masívne online experimenty často ospravedlňujú význam malých odhadované účinky liečby tým, že tieto malé účinky môžu byť dôležité pri použití pre mnoho ľudí. Presne rovnaký myslenie sa týka nákladov, ktoré vedci kladú na účastníkov. Ak vaše pokusy spôsobuje jeden milión ľudí strácať jednu minútu, experiment nie je na žiadnu konkrétnu osobu veľmi škodlivé, ale v súhrne to zbytočný takmer dva roky času.
Iným prístupom k tvorbe nulovej variabilný platbu nákladov účastníkov je použiť lotérii, čo je prístup, ktorý bol tiež použitý vo výskume šetrenia (Halpern et al. 2011) . A konečne, pre ďalšie informácie o navrhovaní príjemné používateľských skúseností pozri Toomim et al. (2011) .
Tu sú pôvodné definície troch R, od Russell and Burch (1959) :
"Náhrada znamená substitúciu vedomie živých vyšších živočíchov neživý materiál. Zníženie znamená zníženie počtu zvierat použitých na účely získania informácií o danom množstve a presnosti. Zjemnenie rozumie akýkoľvek pokles výskytu alebo závažnosti neľudských postupov uplatňovaných na tých zvierat, ktoré ešte musí byť použitý. "
Tri R je, že navrhujem nepotlačí etické princípy popísané v kapitole 6. Trochu, oni sú prepracovanejšie verziu jednou z týchto zásad-dobročinnosť špecificky pre stanovenie ľudských experimentov.
Pri zvažovaní Emočné nákaza existujú tri non-etické otázky, ktoré treba mať na pamäti pri interpretácii tento experiment. Po prvé, nie je jasné, ako skutočné údaje o pokuse pripojiť k teoretickým nárokov; Inými slovami, existujú otázky týkajúce sa konštruktu platnosti. To nie je jasné, že pozitívne a negatívne počíta slová sú skutočne dobrým ukazovateľom emocionálneho stavu účastníkov, pretože 1) nie je jasné, že slová, ktoré ľudia post sú dobrým indikátorom svoje emócie a 2), že nie je jasné, či konkrétne analýza sentimentu technika, ktorá použili vedci je schopný spoľahlivo odvodiť emócie (Beasley and Mason 2015; Panger 2016) . Inými slovami, mohlo by byť zlý meradlom jednostranný signálu. Po druhé, návrh a analýza experimentu nevypovedá nič o tom, kto bol najväčší vplyv (tj, nebola vykonaná žiadna analýza heterogenity účinkov liečby), a to, čo by mohlo byť mechanizmus. V tomto prípade sa vedci mali veľa informácií o účastníkoch, ale oni boli v podstate zaobchádzať ako widgety v analýze. Po tretie, veľkosť účinku v tomto experimente bol veľmi malý; rozdiel medzi liečenou a kontrolnou podmienok je asi 1 do 1000 slov. Vo svojom príspevku, Kramer a jeho kolegovia, aby prípad, že sa účinok tejto veľkosti je dôležité, pretože stovky miliónov ľudí prístup k ich News Feed každý deň. Inými slovami, oni tvrdia, že aj efekty, ktoré sú malé pre každú osobu, ktoré sú veľké ako celok. Dokonca aj keď ste boli na tento argument prijať, je to stále nie je jasné, či účinok tejto veľkosti je dôležité, pokiaľ ide o všeobecnejšiu vedeckú otázku o citovej nákazy. Pre viac informácií na situácie, keď sú dôležité malé účinky pozri Prentice and Miller (1992) .
Čo sa týka prvého R (nahradenie), v porovnaní emočná nákazy experiment (Kramer, Guillory, and Hancock 2014) a emocionálne nákazy prirodzený experiment (Coviello et al. 2014) ponúka niektoré všeobecné ponaučenie o kompromisy, ktoré sa zaoberajú pohybujúce sa od pokusy fyzickým experimenty (a inými prístupmi, ako je zodpovedajúca, že pokus o aproximácii experimenty v non-experimentálnych dát, pozri kapitolu 2). Okrem etických dávky, prepínanie z experimentálnych non-experimentálne štúdie tiež umožňuje výskumníkom študovať ošetrenie, že sú schopné logisticky na nasadenie. Tieto etické a logistické výhody niečo stojí, však. S prírodnými experimentoch vedci majú menšiu kontrolu nad vecami, ako je nábor účastníkov, náhodnosti, a povahu liečby. Napríklad jeden obmedzenie zrážok ako liečba je, že ako sa zvyšuje a znižuje pozitivity negativity. V experimentálnej štúdii však Kramer a jeho kolegovia boli schopní nastaviť pozitivitu a negativitu nezávisle na sebe.
Konkrétny postup použitý Coviello et al. (2014) bol ďalej spracovaný v Coviello, Fowler, and Franceschetti (2014) . Pre úvod k inštrumentálnych premenných pozri Angrist and Pischke (2009) (menej formálne) alebo Angrist, Imbens, and Rubin (1996) (viac formálne). Pre skeptický zhodnotenie inštrumentálnych premenných pozri Deaton (2010) , a na úvod do inštrumentálnych premenných so slabými nástrojmi (dážď je slabý nástroj), pozri Murray (2006) .
Všeobecnejšie povedané, dobrý úvod do prírodných experimentov je Dunning (2012) , a Rosenbaum (2002) , Rosenbaum (2009) , a Shadish, Cook, and Campbell (2001) ponúkajú dobré nápady týkajúce sa odhadu kauzálny efekty bez experimentov.
Čo sa týka druhého R (Refinement), existujú vedecké a logistické kompromisy pri zvažovaní zmene dizajnu emocionálne Nákaza blokovanie príspevky k posilneniu pracovných miest. Napríklad, môže byť v prípade, že technická realizácia médiách Krmivo je, že je v podstate jednoduchšie vykonať experiment s blokovaním miest, skôr než k experimentu posilneniu príspevky (všimnite si, že experiment s blokovaním miest by mohol byť realizovaný ako vrstva na horná časť News Feed systému, bez potreby zmeny podkladového systému). Vedecky, avšak teórie rieši experimente neboli jasne naznačujú, jeden návrh sa má použiť.
Bohužiaľ, nie som si vedomý značného predchádzajúceho výskumu o relatívnych prednostiach blokovanie a zvýšenie obsahu v News Feed. Tiež som nevidel toľko výskumov rafináciu ošetrenie, aby ich bolo menej škodlivá; Jedinou výnimkou je Jones and Feamster (2015) , ktorý sa domnieva, že prípad meranie cenzúru internetu (tému som diskutovať v 6. kapitole vo vzťahu k štúdiu Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Pokiaľ ide o tretí R (Reduction), dobrý úvod k tradičnej analýzu výkonu je Cohen (1988) . kovariátov predbežnej úpravy môžu byť zahrnuté vo fáze návrhu a fáze analýzy pokusov; Kapitola 4 Gerber and Green (2012) poskytuje dobrý úvod do oboch prístupov a Casella (2008) poskytuje ošetrenie viac do hĺbky. Techniky, ktoré používajú tento predčistenia informácie v randomization sú obvykle nazývajú buď zablokované experimentov a rozvrstvené experimentálne dizajny (terminológia nie je používaný konzistentne komunity); Tieto techniky sú hlboko súvisí s rozvrstveným vzorkovacích techník opísaných v kapitole 3. Pozri Higgins, Sävje, and Sekhon (2016) pre viac informácií o používaní týchto vzorov v masívnych experimentov. Kovariátov predbežnej úpravy môžu byť zahrnuté aj vo fáze analýzy. McKenzie (2012) skúma prístup rozdiel-in-rozdiely k analýze poľné pokusy vo väčšom detaile. Pozri Carneiro, Lee, and Wilhelm (2016) pre viac informácií o kompromisy medzi rôznymi prístupmi k zvýšeniu presnosť v odhade liečebných účinkov. Napokon, pri rozhodovaní o tom, či sa pokúsiť zaradiť kovariátov pre-ošetrenie pri projektovaní alebo analýzy scény (alebo oboje), existuje niekoľko faktorov, aby zvážila. V prostredí, kde vedci chcú ukázať, že oni nie sú "rybárčenie" (Humphreys, Sierra, and Windt 2013) , s použitím pre-ošetrenie kovariátov vo fáze návrhu môžu byť užitočné (Higgins, Sävje, and Sekhon 2016) . V situáciách, kedy účastníci prichádzajú postupne, a to najmä on-line poľné pokusy s využitím informácií predbežného ošetrenia v štádiu návrhu môže byť ťažké logisticky, pozri napríklad Xie and Aurisset (2016) .
Treba dodať trochu intuície o tom, prečo rozdiel-in-rozdiely môžu byť oveľa účinnejšie ako rozdiel-in-prostriedkami. Mnoho online výsledky majú veľmi vysokú variabilitu (pozri napr Lewis and Rao (2015) a Lamb et al. (2015) ) a sú relatívne stabilné v čase. V tomto prípade sa zmena skóre bude mať podstatne menší rozptyl, čo zvyšuje silu štatistického testu. Jedným z dôvodov tohto priblížil sa nepoužíva častejšie, je to, že pred digitálnom veku to nebolo bežné, že výsledky predbežného ošetrenia. Konkrétnejšie spôsob, ako premýšľať o tom, je predstaviť experiment zmerať, či konkrétny cvičením spôsobuje úbytok na váhe. Ak nemáte prístup rozdiel-in-prostriedky, váš odhad bude musieť variabilitu, ktorá prichádza z variability o hmotnostiach v populácii. Pokiaľ si prístup rozdiel-in-rozdiel, však, že prirodzene sa vyskytujúce rozdiely v hmotnosti dostane odstránené a možno ľahšie zistiť odchýlku spôsobenú liečbu.
Jedným z dôležitých spôsobov, ako znížiť počet účastníkov experimentu je vykonať analýzu sily, čo Kramer a jeho kolegovia mohla vykonávať na základe veľkosti účinkom pozorovaným z prirodzeného experimentu Coviello et al. (2014) alebo skôr ako experimentálny výskum Kramer (2012) (v skutočnosti sa jedná o aktivity na konci tejto kapitoly). Všimnite si, že toto použitie analýzy výkonu je trochu iný ako typický. V analógovom veku, vedci všeobecne urobil analýzu výkonu, aby sa ubezpečil, že ich štúdia bola príliš malá (tj, v súlade s napájaním). Teraz však vedci mali urobiť analýzu výkonu, aby sa ubezpečil, že ich štúdia nie je príliš veľká (tj cez napájaný).
Nakoniec som sa domnieval, pridaním štvrtiny R: Opakovane. To znamená, že ak výskumníci sa ocitnú s viac experimentálnymi dátami, než potrebujú riešiť svoje pôvodné výskumnú otázku, mali by opakovane využiť dáta klásť nové otázky. Napríklad si predstavte, že Kramer a jeho kolegovia použili odhad rozdiel-in-rozdiely a ocitli sa viac dát, než je potrebné riešiť ich výskumné otázky. Skôr ako ne pomocou údajov v plnom rozsahu, mohli študovali veľkosť účinku podľa úroveň pred liečbou emocionálne výraz. Rovnako ako Schultz et al. (2007) zistili, že účinok liečby bol rôzny pre ľahké a ťažké užívateľov, možno účinky News Feed boli rôzne pre ľudí, ktorí už tendenciu post šťastnej (alebo smutný) správy. Zmene použitie by mohlo viesť k "lovu" (Humphreys, Sierra, and Windt 2013) a "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , ale tie sú do značnej miery adresovať s kombináciou čestného správ (Simmons, Nelson, and Simonsohn 2011) , predregistrácia (Humphreys, Sierra, and Windt 2013) , a metód strojového učenia, ktoré sa snažia, aby sa zabránilo nadmernému montáž.