Otázky týkajúce sa kauzality v sociálnom výskume sú často zložité a zložité. Pre základný prístup k príčinnosti na základe kauzálnych grafov pozri Pearl (2009) a pre základný prístup založený na potenciálnych výsledkoch pozri Imbens and Rubin (2015) . Na porovnanie týchto dvoch prístupov pozri Morgan and Winship (2014) . O formálnom prístupe k definovaniu VanderWeele and Shpitser (2013) pozri VanderWeele and Shpitser (2013) .
V tejto kapitole som vytvoril to, čo sa zdalo ako jasná čiara medzi našou schopnosťou robiť kauzálne odhady z experimentálnych a nepeňažných údajov. Myslím si však, že rozdiel je v skutočnosti viac rozmazaný. Napríklad každý uznáva, že fajčenie spôsobuje rakovinu, hoci nikdy nebol vykonaný žiadny randomizovaný kontrolovaný experiment, ktorý núti ľudí k fajčeniu. Za vynikajúce kniha-dĺžka liečby na výrobu kauzálne odhady z non-experimentálnych dát pozri Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , a Dunning (2012) .
Kapitoly 1 a 2 Freedman, Pisani, and Purves (2007) ponúkajú jasný úvod do rozdielov medzi experimentmi, kontrolovanými experimentmi a randomizovanými kontrolovanými experimentmi.
Manzi (2012) poskytuje fascinujúci a čitateľný úvod do filozofických a štatistických podkladov randomizovaných kontrolovaných experimentov. Poskytuje tiež zaujímavé reálne príklady sily experimentovania v podnikaní. Issenberg (2012) poskytuje fascinujúci úvod do používania pokusov v politických kampaniach.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 a Athey and Imbens (2016b) poskytujú dobré predstavy o štatistických aspektoch experimentálneho návrhu a analýzy. Ďalej sú tu výborné ošetrenia využitia experimentov v mnohých rôznych oblastiach: ekonomika (Bardsley et al. 2009) , Sociológia (Willer and Walker 2007; Jackson and Cox 2013) , psychológia (Aronson et al. 1989) , politológie (Morton and Williams 2010) a sociálna politika (Glennerster and Takavarasha 2013) .
Význam prijímania účastníkov (napr. Odber vzoriek) je v experimentálnom výskume často nedostatočne hodnotený. Ak je však účinok liečby heterogénny v populácii, potom je odber vzoriek rozhodujúci. Longford (1999) jasne poukazuje na to, keď obhajuje výskumníkov, ktorí považujú experimenty za prieskum obyvateľstva s náhodným výberom.
Navrhla som, že existuje kontinuum medzi laboratórnymi a terénnymi experimentmi a ďalší výskumníci navrhli podrobnejšie typológie, najmä tie, ktoré oddeľujú rôzne formy terénnych experimentov (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Množstvo článkov porovnalo abstraktné laboratórne a terénne experimenty (Falk and Heckman 2009; Cialdini 2009) a z hľadiska výsledkov špecifických experimentov v politických vedách (Coppock and Green 2015) , ekonómie (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) a psychológiu (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ponúkajú pekný výskumný projekt na porovnanie výsledkov laboratórnych a terénnych experimentov. Parigi, Santana, and Cook (2017) opisujú, ako môžu on-line experimenty v teréne kombinovať niektoré charakteristiky laboratórnych a terénnych experimentov.
Obavy z toho, že účastníci menia svoje správanie, pretože vedia, že sú pozorne sledovaní, sa niekedy označujú ako dopytové efekty a študovali sa v psychológii (Orne 1962) a ekonomike (Zizzo 2010) . Hoci sa väčšinou spájajú s laboratórnymi experimentami, tieto rovnaké problémy môžu spôsobiť problémy aj pri terénnych experimentoch. Účinky dopytu sa niekedy nazývajú aj účinky Hawthorne , čo je termín, ktorý odvodzuje slávne osvetľovacie experimenty, ktoré začali v roku 1924 v diele Hawthorne Works spoločnosti Western Electric (Adair 1984; Levitt and List 2011) . Oba dopytové efekty a účinky Hawthorne sú úzko spojené s myšlienkou reaktívneho merania, o ktorej hovoríme v kapitole 2 (pozri tiež Webb et al. (1966) ).
Terénne experimenty majú dlhú históriu v ekonómii (Levitt and List 2009) , politické vedy (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psychológia (Shadish 2002) a verejná politika (Shadish and Cook 2009) , Jedna oblasť spoločenských vied, v ktorej sa rýchlo objavili terénne experimenty, je medzinárodný rozvoj. Pre pozitívny prehľad tejto práce v ekonomike pozri Banerjee and Duflo (2009) a pre kritické hodnotenie pozri Deaton (2010) . Na preskúmanie tejto práce v politických vedách pozri Humphreys and Weinstein (2009) . Nakoniec boli preskúmané etické výzvy vyplývajúce z terénnych experimentov v kontexte politológie (Humphreys 2015; Desposato 2016b) a vývojovej ekonómie (Baele 2013) .
V tejto časti som navrhol, aby informácie o predbežnej liečbe mohli byť použité na zlepšenie presnosti odhadovaných účinkov liečby, ale o tomto prístupe sa diskutuje. pozri Freedman (2008) , W. Lin (2013) , Berk et al. (2013) a Bloniarz et al. (2016) pre viac informácií.
Nakoniec existujú dva ďalšie typy experimentov vykonávaných spoločenskými vedcami, ktoré sa nehodia úhľadne v rámci dimenzie laboratória: experimenty s prieskumom a sociálne experimenty. Experimenty prieskumu sú experimenty využívajúce infraštruktúru existujúcich prieskumov a porovnanie odpovedí na alternatívne verzie tých istých otázok (niektoré experimenty z prieskumov sú uvedené v kapitole 3); viac o prieskumných experimentoch pozri Mutz (2011) . Sociálne experimenty sú experimenty, pri ktorých je liečba určitou sociálnou politikou, ktorú môže implementovať iba vláda. Sociálne experimenty sú úzko spojené s hodnotením programu. Viac o politických experimentoch nájdete v Heckman and Smith (1995) , Orr (1998) a @ glennerster_running_2013.
Rozhodol som sa zamerať sa na tri koncepty: platnosť, heterogenita účinkov liečby a mechanizmy. Tieto pojmy majú rôzne názvy v rôznych oblastiach. Napríklad psychológovia majú sklon prejsť za jednoduché experimenty tým, že sa zameriavajú na mediátorov a moderátorov (Baron and Kenny 1986) . Myšlienka mediátorov je zachytená tým, čo nazývam mechanizmami, a myšlienka moderátorov je zachytená tým, čo nazývam externú platnosť (napr. Výsledky experimentu by boli odlišné, ak by to bolo v rôznych situáciách) a heterogenita účinkov liečby ( napr. sú účinky pre niektorých ľudí väčšie ako pre ostatných).
Experiment podľa Schultz et al. (2007) ukazuje, ako môžu byť sociálne teórie použité pri navrhovaní účinných zásahov. Pre všeobecnejší argument o úlohe teórie pri navrhovaní účinných zásahov pozri Walton (2014) .
Pojmy vnútornej a vonkajšej platnosti boli prvýkrát predstavené Campbell (1957) . Pozrite si Shadish, Cook, and Campbell (2001) pre podrobnejšiu históriu a dôkladné spracovanie platnosti štatistického záveru, vnútornej platnosti, konštrukčnej platnosti a vonkajšej platnosti.
Prehľad otázok súvisiacich s Imbens and Rubin (2015) štatistických záverov v experimentoch pozri Gerber and Green (2012) (zo sociálnej vedy) a Imbens and Rubin (2015) (zo štatistického hľadiska). Niektoré problémy s (Bakshy and Eckles 2013) štatistického záveru, ktoré vznikajú špecificky v on-line pokusoch na poli, zahŕňajú také otázky, ako sú výpočtovo efektívne metódy na vytváranie intervalov spoľahlivosti so závislými údajmi (Bakshy and Eckles 2013) .
V komplexných terénnych experimentoch je ťažké zabezpečiť vnútornú platnosť. Pozri napríklad Gerber and Green (2000) , Imai (2005) a Gerber and Green (2005) na diskusiu o implementácii komplexného terénneho experimentu o hlasovaní. Kohavi et al. (2012) a Kohavi et al. (2013) poskytujú úvod do výziev platnosti intervalu v online pokusoch na poli.
Jednou z hlavných hrozieb pre internú platnosť je možnosť neúspešnej randomizácie. Jedným z možných spôsobov zisťovania problémov s randomizáciou je porovnanie liečebných a kontrolných skupín s pozorovateľnými vlastnosťami. Tento druh porovnania sa nazýva bilančná kontrola . Pozri Hansen and Bowers (2008) o štatistickom prístupe k vyrovnaniu kontrol a Mutz and Pemantle (2015) o obavy z kontrol bilancie. Napríklad pri použití bilančnej kontroly Allcott (2011) zistil, že randomizácia nebola vykonaná správne v troch experimentoch spoločnosti Opower (pozri tabuľku 2, stránky 2, 6 a 8). Ďalšie prístupy nájdete v kapitole 21 Imbens and Rubin (2015) .
Ďalšie hlavné obavy súvisiace s vnútornou platnosťou sú: (1) jednostranná neplnenie, kde nie všetci v liečebnej skupine skutočne dostali liečbu, (2) dvojstranný nesúlad, kde nie všetci v liečebnej skupine dostávajú liečbu a niektorí ľudia kontrolná skupina dostane ošetrenie, (3) úbytok, pri ktorom nie sú výsledky pre niektorých účastníkov merané, a (4) interferencia, pri ktorej sa liečba prelieva od ľudí v liečebnom stave k ľuďom v kontrolnom stave. Pozrite si kapitoly 5, 6, 7 a 8 od Gerber and Green (2012) kde nájdete viac informácií o každej z týchto otázok.
Viac o konštrukčnej platnosti pozri Westen and Rosenthal (2003) a viac o konštrukcii platnosti vo veľkých zdrojoch údajov, Lazer (2015) a kapitole 2 tejto knihy.
Jedným aspektom vonkajšej platnosti je nastavenie, v ktorom sa testuje intervencia. Allcott (2015) poskytuje dôkladnú teoretickú a empirickú starostlivosť o zaujatosť výberu lokality. Túto otázku diskutuje aj Deaton (2010) . Ďalším aspektom vonkajšej platnosti je, či alternatívne operácie s rovnakým zásahom budú mať podobné účinky. V tomto prípade porovnanie medzi Schultz et al. (2007) a Allcott (2011) ukazuje, že experimenty Opower mali menší odhadovaný ošetrovaný účinok než pôvodné experimenty od Schultza a kolegov (1,7% oproti 5%). Allcott (2011) špekuloval, že následné experimenty mali menší účinok kvôli spôsobu, akým sa liečba líšila: rukou písaný emotikon ako súčasť štúdie sponzorovanej univerzitou v porovnaní s vytlačeným emotikonom ako súčasťou masovo vyrábaného správa od energetickej spoločnosti.
Pre vynikajúci prehľad o heterogenite účinkov liečby v terénnych experimentoch pozri kapitolu 12 od Gerber and Green (2012) . Na predstavenie heterogenity účinkov liečby v lekárskych štúdiách pozri Kent and Hayward (2007) , Longford (1999) a Kravitz, Duan, and Braslow (2004) . Úvahy o heterogenite účinkov liečby sa vo všeobecnosti zameriavajú na rozdiely založené na charakteristikách pred liečbou. Ak máte záujem o heterogenitu založenú na výsledkoch po liečbe, potom sú potrebné komplexnejšie prístupy, ako je hlavná stratifikácia (Frangakis and Rubin 2002) ; pozri Page et al. (2015) na preskúmanie.
Mnoho výskumníkov odhaduje heterogenitu liečby pomocou lineárnej regresie, no nové metódy sa spoliehajú na strojové učenie; pozri napríklad Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) a Athey and Imbens (2016a) .
Existuje niekoľko skepticizmov o zisteniach rôznorodosti účinkov z dôvodu viacerých problémov s porovnávaním a "rybolovu". Existuje celý rad štatistických prístupov, ktoré môžu pomôcť riešiť obavy z viacnásobného porovnania (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Jedným z prístupov k obavám z "rybolovu" je predregistrácia, ktorá sa čoraz častejšie vyskytuje v psychológii (Nosek and Lakens 2014) , politológia (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , a ekonomika (Olken 2015) .
V štúdii Costa and Kahn (2013) by mohla byť približne polovica domácností experimentu spojená s demografickými informáciami. Čitatelia, ktorí majú záujem o tieto podrobnosti, by sa mali odvolávať na pôvodný dokument.
Mechanizmy sú neuveriteľne dôležité, ale ukázali sa byť veľmi ťažké študovať. Výskum o mechanizmoch úzko súvisí so štúdiom mediátorov v psychológii (ale pozri aj VanderWeele (2009) na presné porovnanie oboch myšlienok). Štatistické prístupy k hľadaniu mechanizmov, ako je prístup vyvinutý v Baron and Kenny (1986) , sú celkom bežné. Bohužiaľ sa ukázalo, že tieto postupy závisia od niektorých silných predpokladov (Bullock, Green, and Ha 2010) a trpia, keď existuje viacero mechanizmov, ako by sa dalo očakávať v mnohých situáciách (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) a Imai and Yamamoto (2013) ponúkajú niektoré zlepšené štatistické metódy. Ďalej VanderWeele (2015) ponúka knihársku liečbu s množstvom dôležitých výsledkov, vrátane komplexného prístupu k analýze citlivosti.
Samostatný prístup sa zameriava na experimenty, ktoré sa pokúšajú priamo manipulovať s mechanizmom (napr. Poskytovanie námorníkov vitamínu C). Bohužiaľ, v mnohých spoločenských vedeckých prostrediach existuje často niekoľko mechanizmov a je ťažké navrhnúť liečby, ktoré zmenia jeden, bez zmeny ostatných. Niektoré prístupy k experimentálnym mechanizmom popisujú Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) a Pirlott and MacKinnon (2016) .
Výskumníci, ktorí pracujú s plnohodnotnými faktormi, budú musieť byť znepokojení testovaním viacerých hypotéz; pozri Fink, McConnell, and Vollmer (2014) a List, Shaikh, and Xu (2016) pre viac informácií.
Mechanizmy majú tiež dlhú históriu vo filozofii vedy, ako to opísali Hedström and Ylikoski (2010) .
Viac informácií o používaní korešpondenčných štúdií a štúdií auditu na meranie diskriminácie nájdete v článku Pager (2007) .
Najbežnejší spôsob, ako získať účastníkov na experimenty, ktoré vytvoríte, je Amazon Mechanical Turk (MTurk). Pretože MTurk napodobňuje aspekty tradičných laboratórnych experimentov - platia ľudí na plnenie úloh, ktoré nebudú robiť zadarmo - mnohí vedci už začali používať Turkčania (pracovníci na MTurku) ako experimentálni účastníci, čo viedlo k rýchlejšiemu a lacnejšiemu zberu údajov, než sa dá dosiahnuť (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Všeobecne platí, že najväčšie výhody používania účastníkov získaných z MTurk sú logistické. Zatiaľ čo laboratórne experimenty môžu trvať týždne na spustenie a poľné pokusy môžu trvať mesiace na nastavenie, experimenty s účastníkmi prijatými z MTurk môžu bežať v dňoch. Napríklad Berinsky, Huber, and Lenz (2012) dokázali prijať 400 jedincov za jediný deň, aby sa zúčastnili 8-minútového experimentu. Ďalej môžu byť títo účastníci prijatí na prakticky akýkoľvek účel (vrátane prieskumov a masovej spolupráce, ako sa uvádza v kapitolách 3 a 5). Táto jednoduchosť náboru znamená, že výskumníci môžu v rýchlej postupnosti spustiť sekvencie súvisiacich experimentov.
Pred náborom účastníkov z MTurk pre vaše vlastné experimenty existujú štyri dôležité veci, ktoré potrebujete vedieť. Po prvé, mnohí výskumníci majú nešpecifický skepticizmus pokusov týkajúcich sa Turkménov. Pretože tento skepticizmus nie je špecifický, je ťažké čeliť dôkazom. Avšak po niekoľkých rokoch štúdií, ktoré používajú Turkmérov, môžeme teraz konštatovať, že tento skepticizmus nie je osobitne opodstatnený. Existuje veľa štúdií porovnávajúcich demografiu Turkménov s populáciami iných populácií a mnohé štúdie porovnávajúce výsledky pokusov s Turkménmi s tými, ktorí boli z iných populácií. Vzhľadom na túto prácu si myslím, že najlepší spôsob, ako si na to premyslieť, je, že Turkméni sú primeranou vzorkou pohodlia, podobne ako študenti, ale trochu rozmanitejšie (Berinsky, Huber, and Lenz 2012) . Preto, rovnako ako študenti sú primeranou populáciou pre niektoré, ale nie pre všetky, výskum, Turkméni sú rozumné populácie pre niektoré, ale nie všetky, výskumu. Ak budete pracovať s tureckými, potom má zmysel čítať mnohé z týchto porovnávacích štúdií a pochopiť ich nuansy.
Po druhé, vedci vyvinuli osvedčené postupy na zvýšenie internej platnosti experimentov MTurk a mali by ste sa dozvedieť a dodržiavať tieto osvedčené postupy (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Napríklad výskumní pracovníci, ktorí používajú Turkmén, sú vyzývaní, aby používali triediče na odstránenie neprítomných účastníkov (Berinsky, Margolis, and Sances 2014, 2016) (pozri tiež DJ Hauser and Schwarz (2015b) a DJ Hauser and Schwarz (2015a) ). Ak neodstránite neprítomných účastníkov, potom môže byť akýkoľvek účinok liečby vyčistený hlukom, ktorý zavádzajú, a v praxi môže byť počet neprítomných účastníkov značný. V experimente Huber a kolegov (2012) približne 30% účastníkov neuspelo na základné vyšetrenia. Ďalšie problémy, ktoré bežne vznikajú pri používaní Turkménov, sú ne-naivní účastníci (Chandler et al. 2015) a opotrebenie (Zhou and Fishbach 2016) .
Po tretie, v porovnaní s niektorými inými formami digitálnych experimentov nemôžu experimenty MTurk stupnicu; Stewart et al. (2015) odhadujú, že v danom čase je na MTurku iba asi 7 000 ľudí.
Nakoniec by ste mali vedieť, že MTurk je spoločenstvo s vlastnými pravidlami a normami (Mason and Suri 2012) . Rovnakým spôsobom, ako by ste sa pokúsili zistiť kultúru krajiny, v ktorej ste mali experimentovať, mali by ste sa pokúsiť zistiť viac o kultúre a normách Turkménov (Salehi et al. 2015) . A mali by ste vedieť, že turkári budú hovoriť o vašom experimente, ak urobíte niečo nevhodné alebo neetické (Gray et al. 2016) .
MTurk je neuveriteľne pohodlný spôsob prijímania účastníkov do vašich experimentov, či už sú laboratórne, napríklad Huber, Hill, and Lenz (2012) , alebo viac podobných polí ako Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) a Mao et al. (2016) .
Ak uvažujete o tom, že sa pokúsite vytvoriť svoj vlastný produkt, odporúčam vám, aby ste si prečítali rady, ktoré ponúkla skupina MovieLens v Harper and Konstan (2015) . Kľúčovým pohľadom z ich skúseností je, že pre každý úspešný projekt existuje veľa, veľa neúspechov. Napríklad skupina MovieLens spustila iné produkty, ako napríklad GopherAnswers, ktoré boli úplné zlyhania (Harper and Konstan 2015) . Ďalším príkladom neúspešného výskumného pracovníka pri pokuse o vytvorenie produktu je snaha Edwarda Castronovej vybudovať online hru s názvom Arden. Navzdory financovaniu vo výške 250 000 USD bol projekt flopom (Baker 2008) . Projekty ako GopherAnswers a Arden sú bohužiaľ oveľa častejšie ako projekty ako MovieLens.
Počul som, že myšlienka Pasteurovho kvadrantu často prebieha v technologických spoločnostiach a pomáha organizovať výskumné úsilie v spoločnosti Google (Spector, Norvig, and Petrov 2012) .
Spoločnosť Bond a kolegovia (2012) tiež pokúšajú odhaliť účinok týchto liečby na priateľov tých, ktorí ich dostali. Vzhľadom na konštrukciu experimentu je ťažko zistiteľné ich rozptyľovanie; záujemcovia by mali vidieť Bond et al. (2012) pre dôkladnejšiu diskusiu. Jones a kolegovia (2017) tiež viedli veľmi podobný experiment počas volieb v roku 2012. Tieto experimenty sú súčasťou dlhej tradície pokusov v politických vedách o úsilí o podporu hlasovania (Green and Gerber 2015) . Tieto experimenty "get-out-the-vote" sú bežné, čiastočne preto, lebo sú v Pasteurovom kvadrante. To znamená, že existuje veľa ľudí, ktorí sú motivovaní zvýšiť hlasovanie a hlasovanie môže byť zaujímavé správanie na testovanie všeobecnejších teórií o zmene správania a sociálnom vplyve.
Ak chcete Loewen, Rubenson, and Wantchekon (2010) rady o bežných experimentoch s partnerskými organizáciami, ako sú politické strany, mimovládne organizácie a podniky, navštívte Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) a Gueron (2002) . Pre úvahy o tom, ako môžu partnerské vzťahy s organizáciami ovplyvniť návrhy výskumu, pozri King et al. (2007) a Green, Calfano, and Aronow (2014) . Partnerstvo môže viesť aj k etickým otázkam, ako to diskutovali Humphreys (2015) a Nickerson and Hyde (2016) .
Ak chcete pred spustením experimentu vytvoriť plán analýzy, odporúčam vám začať čítaním pokynov na vytváranie prehľadov. V medicíne boli vyvinuté usmernenia CONSORT (Consolidated Standard Reporting of Trials) (Schulz et al. 2010) a upravené pre sociálny výskum (Mayo-Wilson et al. 2013) . Súvisiaci súbor usmernení vypracoval redaktor časopisu Experimental Political Science (Gerber et al. 2014) (pozri tiež Mutz and Pemantle (2015) a Gerber et al. (2015) ). Nakoniec boli vypracované usmernenia pre podávanie správ v oblasti psychológie (APA Working Group 2008) a tiež pozri Simmons, Nelson, and Simonsohn (2011) .
Ak vytvoríte plán analýzy, mali by ste zvážiť jeho predregistráciu, pretože predbežná registrácia zvýši dôveru, ktorú ostatní majú vo vašich výsledkoch. Ďalej, ak pracujete s partnerom, obmedzí sa schopnosť vášho partnera zmeniť analýzu po tom, ako sa zobrazí výsledky. Predregistrácia sa stáva čoraz (Nosek and Lakens 2014) v psychológii (Nosek and Lakens 2014) , politické vedy (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) a ekonomika (Olken 2015) .
Konštrukčné rady špecifické pre on-line experimenty v teréne sú uvedené aj v Konstan and Chen (2007) a Chen and Konstan (2015) .
To, čo som nazval stratégia armády, sa niekedy nazýva programový výskum . pozri Wilson, Aronson, and Carlsmith (2010) .
Ďalšie informácie o experimentoch MusicLab nájdete v sekcii Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) a Salganik (2007) . Viac informácií o trhoch s víťazmi na všetkých trhoch nájdete na adrese Frank and Cook (1996) . Viac informácií o rozvíjaní šťastia a zručností všeobecnejšie nájdete v článku Mauboussin (2012) , Watts (2012) a Frank (2016) .
Existuje ďalší prístup k eliminácii platieb účastníkov, ktoré by výskumníci mali používať s opatrnosťou: odvod. V mnohých on-line experimentoch v teréne sa účastníci prakticky pripravujú na experimenty a nikdy sa nekompenzujú. Medzi príklady tohto prístupu patria experimenty Restivo a van de Rijt (2012) o odmeňovaní v experimente Wikipedia a Bond a jeho kolegy (2012) o povzbudzovaní ľudí, aby volili. Tieto experimenty nemajú skutočne nulové premenlivé náklady - skôr majú pre výskumníkov nulové premenlivé náklady. Pri takýchto pokusoch, aj keď náklady pre každého účastníka sú veľmi malé, celkové náklady môžu byť dosť veľké. Výskumníci, ktorí vedú masívne on-line experimenty, často odôvodňujú dôležitosť malých odhadovaných účinkov liečby tým, že hovoria, že tieto malé účinky môžu byť dôležité, keď sa uplatňujú na mnohých ľudí. Presné rovnaké myslenie sa vzťahuje na náklady, ktoré výskumní pracovníci kladú na účastníkov. Ak váš experiment spôsobí, že jeden milión ľudí stratí jednu minútu, experiment nie je veľmi škodlivý pre žiadnu konkrétnu osobu, ale celkovo to zbytočne spôsobilo skoro dva roky.
Ďalším prístupom k vytvoreniu nulových platieb premenných nákladov pre účastníkov je použitie lotérie, prístupu, ktorý sa použil aj pri výskume prieskumu (Halpern et al. 2011) . Viac informácií o navrhovaní príjemných používateľských zážitkov nájdete v Toomim et al. (2011) . Viac informácií o používaní robotov na vytvorenie nulových experimentov s premenlivými nákladmi nájdete v ( ??? ) .
Tri triedy R, ako pôvodne navrhli Russell and Burch (1959) sú nasledovné:
"Náhrada znamená substitúciu vedomie živých vyšších živočíchov neživý materiál. Zníženie znamená zníženie počtu zvierat použitých na účely získania informácií o danom množstve a presnosti. Zjemnenie rozumie akýkoľvek pokles výskytu alebo závažnosti neľudských postupov uplatňovaných na tých zvierat, ktoré ešte musí byť použitý. "
Tie R, ktoré navrhujem, neprerušujú etické princípy opísané v kapitole 6. Skôr sú oveľa prepracovanejšou verziou jeden z týchto princípov - beneventa - konkrétne pri stanovovaní ľudských experimentov.
Pokiaľ ide o prvú R ("náhrada"), porovnanie experimentu s emocionálnymi nákazami (Kramer, Guillory, and Hancock 2014) a prirodzený experiment s emocionálnymi nákazami (Lorenzo Coviello et al. 2014) ponúka niekoľko všeobecných ponaučení o príslušných kompromisoch pri prechode z experimentov na prirodzené experimenty (a iných prístupov, ako sú porovnávanie, ktoré sa pokúšajú aproximovať experimenty v nepoporávateľných údajoch, pozri kapitolu 2). Okrem etických výhod prechod z experimentálnych na nepermanentné štúdie tiež umožňuje výskumníkom študovať liečebné postupy, ktoré nie sú logicky schopné nasadiť. Tieto etické a logistické výhody sú však spojené s nákladmi. Prirodzené experimenty vedci majú menšiu kontrolu nad vecami ako nábor účastníkov, randomizácia a povaha liečby. Napríklad jedno obmedzenie zrážok ako liečba spočíva v tom, že zvyšuje pozitívnosť a znižuje negativitu. V experimentálnej štúdii však Kramer a kolegovia dokázali nezávisle prispôsobiť pozitívnosť a negatívnosť. Osobitný prístup, ktorý používajú Lorenzo Coviello et al. (2014) ďalej rozpracovali L. Coviello, Fowler, and Franceschetti (2014) . Pre úvod do inštrumentálnych premenných, čo je prístup, ktorý používajú Lorenzo Coviello et al. (2014) , pozri Angrist and Pischke (2009) (menej formálne) alebo Angrist, Imbens, and Rubin (1996) (viac formálne). Pokiaľ ide o skeptickú analýzu inštrumentálnych premenných, pozri Deaton (2010) a pre úvod do inštrumentálnych premenných so slabými nástrojmi (dážď je slabým nástrojom), pozri Murray (2006) . Všeobecnejšie povedané, dobrý úvod do prírodných pokusov je daný Dunning (2012) , zatiaľ čo Rosenbaum (2002) , ( ??? ) , a Shadish, Cook, and Campbell (2001) ponúkajú dobré predstavy o odhade kauzálny efekty bez experimentov.
Pokiaľ ide o druhú R ("rafinovanosť"), existujú vedecké a logistické kompromisy, keď sa zvažuje zmena koncepcie emočnej nákazy z blokovania príspevkov na posilnenie pozícií. Napríklad, môže to byť prípad, že technická implementácia News Feedu spôsobí, že je podstatne jednoduchšie uskutočniť experiment, v ktorom sú blokované príspevky, a nie jeden, v ktorom sú podporované (poznamenajme, že by sa mohol implementovať experiment zahŕňajúci blokovanie príspevkov ako vrstva na vrchole systému News Feed bez toho, aby bola potrebná zmena základného systému). Zo vedeckého hľadiska však teória, na ktorú sa experiment zameriava, jednoznačne nenaznačuje jeden dizajn nad druhým. Nanešťastie si neuvedomujem podstatný predchádzajúci výskum o relatívnych výhodách blokovania a zvyšovania obsahu v krmivách pre novinky. Tiež som neviděl veľa výskumu o ošetrení rafinácie, aby boli menej škodlivé; jedinou výnimkou sú B. Jones and Feamster (2015) , ktoré sa zaoberajú prípadom merania internetovej cenzúry (téma, o ktorej hovorím v kapitole 6 vo vzťahu k štúdii Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Pokiaľ ide o tretie R ("redukcia"), dobré predstavy o tradičnej analýze moci uvádzajú Cohen (1988) (kniha) a Cohen (1992) (článok), zatiaľ čo Gelman and Carlin (2014) ponúkajú mierne odlišnú perspektívu. Kovariáty pred liečbou môžu byť zahrnuté do konštrukčného a analytického štádia pokusov; kapitola 4 Gerber and Green (2012) poskytuje dobrý prístup k obom prístupom a Casella (2008) poskytuje hlbšie zaobchádzanie. Techniky, ktoré používajú túto informáciu o predbežnej liečbe v randomizácii, sa zvyčajne nazývajú buď blokované experimentálne návrhy, alebo stratifikované experimentálne návrhy (terminológia sa nepoužíva dôsledne medzi komunitami); tieto techniky sú úzko spojené s stratifikovanými technikami odoberania vzoriek, ktoré sú uvedené v kapitole 3. Pozri Higgins, Sävje, and Sekhon (2016) o tom, ako tieto návrhy používať v masívnych experimentoch. Kovariáty pred liečbou môžu byť zahrnuté aj do štádia analýzy. McKenzie (2012) skúma rozdiel v rozdieloch pri analýze terénnych experimentov podrobnejšie. Pozri Carneiro, Lee, and Wilhelm (2016) o viac o kompromisoch medzi rôznymi prístupmi na zvýšenie presnosti odhadov účinkov liečby. Nakoniec, pri rozhodovaní o tom, či sa má pokúsiť o zahrnutie konverzných údajov pred spracovaním do štádia návrhu alebo analýzy (alebo oboch), existuje niekoľko faktorov, ktoré je potrebné zvážiť. V prostredí, kde výskumníci chcú preukázať, že nie sú "rybárskymi" (Humphreys, Sierra, and Windt 2013) , môže byť užitočné používať (Humphreys, Sierra, and Windt 2013) pred liečbou v štádiu návrhu (Higgins, Sävje, and Sekhon 2016) . V situáciách, keď účastníci prichádzajú postupne, najmä on-line experimenty v teréne, môže byť použitie informácií o predbežnej liečbe v etape návrhu ťažké logisticky; pozri napríklad Xie and Aurisset (2016) .
Stojí za to pridať trochu intuície o tom, prečo môže byť prístup rozdielov v rozdieloch oveľa účinnejší ako prístup rozdielu v prostriedku. Mnohé online výsledky majú veľmi veľké rozdiely (pozri napríklad RA Lewis and Rao (2015) a Lamb et al. (2015) ) a sú pomerne stabilné v priebehu času. V tomto prípade bude mať zmena skóre podstatne menší rozdiel, čím sa zvýši výkon štatistického testu. Jedným z dôvodov, prečo sa tento prístup nepoužíva častejšie, je to, že pred digitálnym vekom nebolo bežné mať výsledky pred liečbou. Konkrétnejším spôsobom, ako zamyslieť sa nad tým, je predstaviť si experiment, ktorý by zistil, či rutinné cvičenie spôsobuje stratu hmotnosti. Ak použijete prístup rozdiel v prostriedkoch, váš odhad bude mať variabilitu vyplývajúcu z variability váh v populácii. Ak použijete prístup založený na rozdieloch v rozdieloch, odstráni sa prirodzene sa vyskytujúce odchýlky hmotnosti a môžete ľahšie zistiť rozdiel spôsobený liečbou.
Napokon som zvažoval pridanie štvrtej R: "repurpose". To znamená, že ak sa výskumní pracovníci ocitnú s experimentálnymi údajmi, ako potrebujú na riešenie svojej pôvodnej výskumnej otázky, mali by opätovne použiť údaje, aby položili nové otázky. Predstavte si napríklad, že Kramer a kolegovia použili odhad rozdielov v rozdieloch a našli sa s väčším počtom údajov, než potrebovali na riešenie svojej výskumnej otázky. Namiesto toho, aby údaje v plnej miere využívali, mohli študovať veľkosť účinku ako funkciu emočného výrazu pred liečbou. Rovnako ako Schultz et al. (2007) zistili, že účinok liečby bol pre ľahkých a ťažkých používateľov odlišný, pravdepodobne účinky správy krmív boli odlišné pre ľudí, ktorí už majú tendenciu publikovať šťastné (alebo smutné) správy. Repropos by mohlo viesť k "rybolovu" (Humphreys, Sierra, and Windt 2013) a "p-hackingu" (Simmons, Nelson, and Simonsohn 2011) , ale tieto sú z veľkej časti adresovateľné kombináciou čestných správ (Simmons, Nelson, and Simonsohn 2011) , predregistráciu (Humphreys, Sierra, and Windt 2013) a metódy strojového učenia, ktoré sa snažia vyhnúť nadmernej montáži.