Pitanja o kauzalnosti u društvenim istraživanjima često su složena i zamršena. Za temeljni pristup kauzalnosti utemeljenoj na kauzalnim grafikonima, vidi Pearl (2009) , te za temeljni pristup utemeljen na potencijalnim rezultatima, pogledajte Imbens and Rubin (2015) . Za usporedbu između ova dva pristupa, pogledajte Morgan and Winship (2014) . Za formalni pristup definiranju VanderWeele and Shpitser (2013) vidi VanderWeele and Shpitser (2013) .
U ovom poglavlju izradio sam ono što je izgledalo poput sjajne linije između naše sposobnosti da damo kauzalne procjene iz eksperimentalnih i ne-eksperimentalnih podataka. Međutim, mislim da je, u stvarnosti, razlika nejasna. Na primjer, svatko prihvaća da pušenje uzrokuje rak, iako nikakav randomizirani kontrolirani eksperiment koji tjera ljude da puše nikad nije bio učinjen. Za odlične knjige duljine tretmana na izradi uzročne procjene iz ne-eksperimentalnih podataka vidi Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , i Dunning (2012) .
Poglavlja 1. i 2. Freedman, Pisani, and Purves (2007) nude jasan uvod u razlike između eksperimenata, kontroliranih pokusa i randomiziranih kontroliranih eksperimenata.
Manzi (2012) pruža fascinantan i čitljiv uvod u filozofske i statističke podloge randomiziranih kontroliranih eksperimenata. Također pruža zanimljive primjere u stvarnom svijetu moći eksperimentiranja u poslovanju. Issenberg (2012) pruža fascinantan uvod u korištenje eksperimentiranja u političkim kampanjama.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, te Athey and Imbens (2016b) daju dobre uvode u statističke aspekte eksperimentalnog dizajna i analize. Nadalje, postoje izvrsni tretmani korištenje eksperimenata u mnogim različitim područjima: ekonomija (Bardsley et al. 2009) , Sociologija (Willer and Walker 2007; Jackson and Cox 2013) , psihologije (Aronson et al. 1989) , Politologija (Morton and Williams 2010) i socijalne politike (Glennerster and Takavarasha 2013) .
Važnost regrutiranja sudionika (npr. Uzorkovanje) često je podcijenjena u eksperimentalnim istraživanjima. Međutim, ako je učinak liječenja heterogen u populaciji, onda je uzorkovanje kritično. Longford (1999) jasno Longford (1999) ovu točku kada se zalaže za istraživače koji razmišljaju o pokusima kao anketu stanovništva sa slučajnim uzorkovanjem.
Predložio sam da postoji kontinuitet između laboratorijskih i terenskih eksperimenata, a drugi istraživači predložili su detaljnije tipologije, posebice one koje odvajaju različite oblike eksperimenata na terenu (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Brojni su radovi uspoređivali laboratorijske i terenske eksperimente u sažetku (Falk and Heckman 2009; Cialdini 2009) te u smislu ishoda specifičnih eksperimenata u politologiji (Coppock and Green 2015) , ekonomije (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) i psihologiju (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) nude lijepo istraživanje za usporedbu rezultata laboratorijskih i terenskih eksperimenata. Parigi, Santana, and Cook (2017) opisuju kako eksperimenti na terenu mogu kombinirati neke od karakteristika laboratorijskih i terenskih eksperimenata.
Zabrinutosti o sudionicima koji mijenjaju svoje ponašanje, jer znaju da ih se pomno promatraju ponekad se nazivaju učincima potražnje , a studiraju ih u psihologiji (Orne 1962) i ekonomiji (Zizzo 2010) . Iako se uglavnom povezuju s laboratorijskim eksperimentima, ti isti problemi mogu uzrokovati probleme za eksperimente na terenu. U stvari, učinci potražnje ponekad se nazivaju Hawthorne učinci , pojam koji proizlazi iz poznatih eksperimenata osvjetljenja započeto 1924. godine na Hawthorne Works of Western Electric Company (Adair 1984; Levitt and List 2011) . Oba učinka potražnje i Hawthorne efekti usko su povezani s idejom reaktivnog mjerenja raspravljenom u poglavlju 2 (vidi također Webb et al. (1966) ).
Poljski eksperimenti imaju dugu povijest u ekonomiji (Levitt and List 2009) , politologija (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psihologija (Shadish 2002) i javne politike (Shadish and Cook 2009) , Jedno područje društvene znanosti u kojoj su eksperimenti na terenu brzo postali istaknuti je međunarodni razvoj. Za pozitivan pregled tog posla unutar ekonomije vidi Banerjee and Duflo (2009) , a za kritičku procjenu vidi Deaton (2010) . Za pregled ovog rada u političkoj znanosti pogledajte Humphreys and Weinstein (2009) . Konačno, etički izazovi koji proizlaze iz eksperimenata na terenu istraženi su u kontekstu političke znanosti (Humphreys 2015; Desposato 2016b) i razvojne ekonomije (Baele 2013) .
U ovom poglavlju sugerirao sam da se informacije o pretkripciji mogu koristiti za poboljšanje preciznosti procijenjenih učinaka liječenja, ali postoji rasprava o tom pristupu; vidi Freedman (2008) , W. Lin (2013) , Berk et al. (2013) i Bloniarz et al. (2016) za više informacija.
Konačno, postoje još dvije vrste eksperimenata koje izvode društveno-znanstvenici koji se ne prilično uklapaju u dimenziju laboratorija: eksperimente i društvene eksperimente. Pokusni pokusi su eksperimenti koji koriste infrastrukturu postojećih istraživanja i uspoređuju odgovore na alternativne verzije istih pitanja (neki eksperimenti su prikazani u poglavlju 3); za više o pokusima istraživanja pogledajte Mutz (2011) . Socijalni pokusi su pokusi u kojima je liječenje neka socijalna politika koju može provesti samo vlada. Društveni pokusi usko su povezani s procjenom programa. Više o eksperimentima s politikama potražite u Heckman and Smith (1995) , Orr (1998) i @ glennerster_running_2013.
Odlučio sam se usredotočiti na tri pojma: valjanost, heterogenost učinaka liječenja i mehanizme. Ovi pojmovi imaju različita imena u različitim područjima. Na primjer, psiholozi imaju tendenciju da se presele iznad jednostavnih eksperimenata usredotočujući se na posrednike i moderatore (Baron and Kenny 1986) . Ideja medijatora zarobljena je onim što nazivam mehanizmima, a ideja moderatora zarobljena je onim što nazivam vanjska valjanost (npr. Bi li rezultati eksperimenta bili različiti ako bi se vodili u različitim situacijama) i heterogenost učinaka liječenja ( npr., efekti su veći za neke ljude nego za druge).
Eksperiment Schultz et al. (2007) pokazuje kako se društvene teorije mogu koristiti za izradu učinkovitih intervencija. Za općenitije rasprave o ulozi teorije u oblikovanju djelotvornih intervencija, pogledajte Walton (2014) .
Koncepti unutarnje i vanjske valjanosti prvo su uveli Campbell (1957) . Vidi Shadish, Cook, and Campbell (2001) za detaljniju povijest i pažljivu obradu valjanosti statusa, unutarnje valjanosti, konstruiranja valjanosti i vanjske valjanosti.
Za pregled pitanja vezanih uz statističke zaključke u eksperimentima pogledajte Gerber and Green (2012) (iz perspektive društvenih znanosti) i Imbens and Rubin (2015) (iz statističke perspektive). Neka pitanja o statističkom zaključivanju valjanosti koja se pojavljuju posebno u online eksperimentima na terenu uključuju pitanja poput računalno učinkovitih metoda za stvaranje intervala pouzdanosti s ovisnim podacima (Bakshy and Eckles 2013) .
Unutarnja valjanost može biti teško osigurati u složenim eksperimentima na terenu. Vidi, na primjer, Gerber and Green (2000) , Imai (2005) i Gerber and Green (2005) za raspravu o provedbi složenog eksperimenta na polju o glasovanju. Kohavi et al. (2012) i Kohavi et al. (2013) pružaju uvod u izazove valjanosti intervala u mrežnim eksperimentima na terenu.
Jedna od glavnih prijetnji unutarnjoj valjanosti je mogućnost neuspjelog slučajnog odabira. Jedan potencijalni način za otkrivanje problema s randomizacijom je usporediti tretman i kontrolne skupine na vidljivim osobinama. Ova vrsta usporedbe naziva se provjerom ravnoteže . Vidi Hansen and Bowers (2008) za statistički pristup uravnoteženju provjera i Mutz and Pemantle (2015) zbog zabrinutosti vezane uz kontrolu ravnoteže. Na primjer, koristeći provjeru bilance, Allcott (2011) pronašao je neke dokaze da se randomizacija nije provodila ispravno u tri pokusa Opower (vidi tablicu 2, stranice 2, 6 i 8). Za ostale pristupe, pogledajte poglavlje 21 Imbens and Rubin (2015) .
Druge važne zabrinutosti vezane uz unutarnju valjanost jesu: (1) jednostrana nesukladnost, gdje nisu svi liječnici primali terapiju, (2) dvostrano nepridržavanje, gdje se svi u liječenju ne dobivaju liječenje, a neki ljudi u kontrolna skupina prima tretman, (3) odstranjivanje, gdje se ishodi ne mjere za neke sudionike, i (4) smetnje, gdje liječenje proliše ljudi u stanju liječenja ljudima u kontrolnom stanju. Vidjeti poglavlja 5, 6, 7 i 8 Gerber and Green (2012) za više o svakom od ovih pitanja.
Više o konstrukcijskoj valjanosti vidi Westen and Rosenthal (2003) , a više o konstrukcijskoj valjanosti u velikim izvorima podataka, Lazer (2015) i poglavlje 2 ove knjige.
Jedan aspekt vanjske valjanosti jest postavka u kojoj se ispituje intervencija. Allcott (2015) pruža pažljivu teorijsku i empirijsku obradu pristranosti odabira mjesta. Taj se problem također raspravlja o Deaton (2010) . Drugi aspekt vanjske valjanosti jeste hoće li alternativne operacije iste intervencije imati slične učinke. U ovom slučaju, usporedba između Schultz et al. (2007) i Allcott (2011) pokazuju da su Opower eksperimenti imali manji procijenjeni tretirani učinak nego izvorni eksperimenti Schultz i suradnici (1,7% u odnosu na 5%). Allcott (2011) nagađao je da su pokusni pokusi imali manji učinak zbog načina na koji se liječenje razlikovalo: rukopisni emoticon kao dio studije sponzoriranog od strane sveučilišta, u usporedbi s tiskanim emoticonom kao dio masovne proizvodnje izvješće iz elektroprivrede.
Za izvrstan pregled heterogenosti učinaka liječenja u eksperimentima na terenu, pogledajte poglavlje 12 Gerber and Green (2012) . Za upoznavanje heterogenosti učinaka liječenja u medicinskim ispitivanjima, vidi Kent and Hayward (2007) , Longford (1999) i Kravitz, Duan, and Braslow (2004) . Razmatranja heterogenosti učinaka liječenja općenito se usredotočuju na razlike koje se temelje na karakteristikama prije liječenja. Ako ste zainteresirani za heterogenost koja se temelji na post-liječenju ishoda, onda su složenije pristupe su potrebne, kao što je glavna stratifikacija (Frangakis and Rubin 2002) ; vidi Page et al. (2015) za pregled.
Mnogi istraživači procjenjuju heterogenost učinaka liječenja koristeći linearnu regresiju, ali novije metode oslanjaju se na strojno učenje; vidi, na primjer, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) i Athey and Imbens (2016a) .
Postoji neki skepticizam o nalazima heterogenosti učinaka zbog višestrukih problema usporedbe i "ribolova". Postoji niz statističkih pristupa koji mogu pomoći u rješavanju pitanja vezanih za višestruku usporedbu (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Jedan pristup zabrinutosti oko "ribolova" je predregistracija, koja postaje sve češća u psihologiji (Nosek and Lakens 2014) , političke znanosti (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , i ekonomije (Olken 2015) .
U studiji Costa and Kahn (2013) samo oko polovice kućanstava u eksperimentu moglo bi biti povezano s demografskim podacima. Čitatelji zainteresirani za ove pojedinosti trebaju se odnositi na izvorni dokument.
Mehanizmi su nevjerojatno važni, ali oni su vrlo teško proučavati. Istraživanje o mehanizmima usko je povezano s proučavanjem medijatora u psihologiji (vidi VanderWeele (2009) za preciznu usporedbu dviju ideja). Statistički pristupi mehanizmima pronalaženja, kao što je pristup razvijen u Baron and Kenny (1986) , vrlo su česti. Nažalost, pokazalo se da ti postupci ovise o nekim jakim pretpostavkama (Bullock, Green, and Ha 2010) i pate kada postoji više mehanizama, kao što se može očekivati u mnogim situacijama (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) i Imai and Yamamoto (2013) nude neke poboljšane statističke metode. Nadalje, VanderWeele (2015) nudi knjigovodstvenu terapiju s nizom važnih rezultata, uključujući sveobuhvatan pristup analizi osjetljivosti.
Zasebni pristup usredotočuje se na pokuse koji pokušavaju izravno manipulirati mehanizmom (npr. Davanje mornarima vitaminom C). Nažalost, u mnogim društvenim znanostima, često postoje višestruki mehanizmi i teško je dizajnirati tretmane koji mijenjaju jedan bez mijenjanja drugih. Neki pristupi eksperimentalno mijenjanju mehanizama opisuju Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , te Pirlott and MacKinnon (2016) .
Istraživači koji izvode potpuno faktorske eksperimente trebaju biti zabrinuti zbog višestrukih testova hipoteze; vidjeti više informacija o Fink, McConnell, and Vollmer (2014) i List, Shaikh, and Xu (2016) .
Konačno, mehanizmi također imaju dugu povijest u filozofiji znanosti kao što su opisali Hedström and Ylikoski (2010) .
Više o korištenju dopisnih studija i revizijskih studija za mjerenje diskriminacije, pogledajte Pager (2007) .
Najčešći način zapošljavanja sudionika eksperimentima koje gradite je Amazon Mechanical Turk (MTurk). Budući da MTurk oponaša aspekte tradicionalnih laboratorijskih eksperimenata - plaćanje ljudi za obavljanje zadataka koje ne bi imali besplatno - mnogi su istraživači već počeli koristiti Turkers (radnike na MTurku) kao eksperimentalne sudionike, što rezultira bržim i jeftinijim prikupljanjem podataka nego što se može postići u tradicionalnim laboratorijskim eksperimentima (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Općenito, najveće prednosti korištenja sudionika regrutiranih od MTurka su logistički. Dok se laboratorijski pokusi mogu potrajati tjednima, a eksperimenti na terenu mogu potrajati nekoliko mjeseci za postavljanje, eksperimenti sa sudionicima koji su angažirani iz MTurka mogu se izvoditi u nekoliko dana. Na primjer, Berinsky, Huber, and Lenz (2012) su mogli zaposliti 400 ispitanika u jednom danu kako bi sudjelovali u eksperimentu od 8 minuta. Nadalje, ovi se sudionici mogu regrutirati za gotovo bilo koju svrhu (uključujući ankete i masovnu suradnju, kao što je opisano u poglavljima 3 i 5). Ta jednostavnost zapošljavanja znači da istraživači mogu brzo slijediti sekvence povezanih eksperimenata.
Prije zapošljavanja sudionika iz MTurka za vlastite eksperimente, postoje četiri važne stvari koje trebate znati. Prvo, mnogi istraživači imaju nespecifični skepticizam eksperimenata koji uključuju Turkers. Budući da taj skepticizam nije specifičan, teško je proturječiti dokazima. Međutim, nakon nekoliko godina studija koje koriste Turkers, možemo zaključiti da ovaj skepticizam nije osobito opravdan. Bilo je mnogo studija koje su uspoređivale demografiju Turkera s onima drugih populacija i mnoge studije koje su uspoređivale rezultate eksperimenata s Turkerima s onima iz drugih populacija. S obzirom na sve ovo djelo, mislim da je najbolji način da razmišljate o tome da su Turkers razumljivi uzorak praktičnosti, slično studentima, ali malo raznolikijim (Berinsky, Huber, and Lenz 2012) . Dakle, baš kao i učenici razumna populacija za neka, ali ne i sva istraživanja, Turkeri su razumna populacija za neka, ali ne i sva istraživanja. Ako ćete raditi s Turkerima, onda ima smisla pročitati mnoga od ovih usporednih studija i razumjeti njihove nijanse.
Drugo, istraživači su razvili najbolje prakse za povećanje unutarnje valjanosti MTurk eksperimenata, a trebali biste saznati i slijediti ove najbolje prakse (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Na primjer, istraživači koji koriste Turkera potiču se da koriste screenere kako bi uklonili nepredvidive sudionike (Berinsky, Margolis, and Sances 2014, 2016) (ali pogledajte i DJ Hauser and Schwarz (2015b) i DJ Hauser and Schwarz (2015a) ). Ako ne uklonite nepažljive sudionike, bilo koji učinak tretmana može se oprati buke koju unose, au praksi broj nepažljivih sudionika može biti značajan. U eksperimentu Hubera i kolegama (2012) , oko 30% sudionika nije uspjelo osnovne pažnje. Drugi problemi koji se javljaju kada se koriste Turkeri su ne-naivni sudionici (Chandler et al. 2015) i iscrpljivanje (Zhou and Fishbach 2016) .
Treće, u odnosu na neke druge oblike digitalnih eksperimenata, eksperimenti MTurka ne mogu se mjeriti; Stewart et al. (2015) procjenjuju da u MTurku u bilo kojem trenutku postoji samo oko 7.000 osoba.
Konačno, trebali biste znati da je MTurk zajednica sa svojim vlastitim pravilima i normama (Mason and Suri 2012) . Na isti način na koji biste pokušali saznati o kulturi zemlje u kojoj biste trebali voditi svoje eksperimente, pokušajte saznati više o kulturi i normama Turkera (Salehi et al. 2015) . I trebali biste znati da će Turkers govoriti o vašem eksperimentu ako nešto učinite neprikladnim ili neetičnim (Gray et al. 2016) .
MTurk je nevjerojatno prikladan način za regrutiranje sudionika vaših eksperimenata, bez obzira na to jesu li laboratorijski slični, kao što su Huber, Hill, and Lenz (2012) , ili više sličnih onima poput Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , i Mao et al. (2016) .
Ako razmišljate o pokušaju stvaranja vlastitog proizvoda, preporučujem vam da pročitate savjete koje nudi skupina MovieLens u tvrtki Harper and Konstan (2015) . Ključni uvid u njihovo iskustvo je da za svaki uspješan projekt postoji mnogo, mnogo neuspjeha. Na primjer, skupina MovieLens pokrenula je druge proizvode, poput GopherAnswers, koji su bili potpuni kvarovi (Harper and Konstan 2015) . Drugi primjer istraživača koji nije uspio pokušati izgraditi proizvod bio je pokušaj Edwarda Castronove da izgradi online igru Arden. Unatoč financiranju od 250.000 dolara, projekt je bio neuspjeh (Baker 2008) . Projekti poput GopherAnswers i Arden nažalost su mnogo češći od projekata poput MovieLens.
Čuo sam da se ideja o Pasteurovom kvadrantu često raspravlja u tehničkim tvrtkama i pomaže organizirati napore za istraživanje na Googleu (Spector, Norvig, and Petrov 2012) .
Studija Bond i kolege (2012) pokušavaju otkriti učinak ovih tretmana na prijatelje onih koji su ih primili. Zbog dizajna eksperimenta, te prelijevanja teško je detektirati čisto; zainteresirani čitatelji bi trebali vidjeti Bond et al. (2012) za temeljitu raspravu. Jones i njegovi kolege (2017) također su proveli vrlo sličan eksperiment tijekom izbora 2012. godine. Ovi eksperimenti dio su dugogodišnje tradicije eksperimenata u političkoj znanosti o nastojanjima poticanja glasovanja (Green and Gerber 2015) . Ovi eksperimenti s izlazom na izbore su česti, dijelom zato što se nalaze u Pasteurovom kvadrantu. To jest, postoji mnogo ljudi koji su motivirani povećati glasovanje i glasovanje može biti zanimljivo ponašanje za testiranje općenitije teorije o promjeni ponašanja i društvenom utjecaju.
Za savjete o pokretanju eksperimenata s partnerskim organizacijama kao što su političke stranke, nevladine organizacije i tvrtke, pogledajte Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) i Gueron (2002) . Za misli o tome kako partnerstva s organizacijama mogu utjecati na istraživačke projekte, vidi King et al. (2007) i Green, Calfano, and Aronow (2014) . Partnerstvo također može dovesti do etičkih pitanja, kako su raspravljali Humphreys (2015) i Nickerson and Hyde (2016) .
Ako izradite plan analize prije pokretanja eksperimenta, predlažem da počnete čitati smjernice za izvješćivanje. Smjernice CONSORT (Consolidated Standard Reporting of Trials) razvijene su u medicini (Schulz et al. 2010) i modificirane za društvena istraživanja (Mayo-Wilson et al. 2013) . Određeni niz smjernica razvili su urednici časopisa Journal of Experimental Political Science (Gerber et al. 2014) (vidi također Mutz and Pemantle (2015) i Gerber et al. (2015) ). Konačno, smjernice za izvještavanje razvijene su u psihologiji (APA Working Group 2008) , a također se vidi i za Simmons, Nelson, and Simonsohn (2011) .
Ako izradite plan analize, razmislite o predbilježbi jer će predbilježba povećati povjerenje koje drugi imaju u rezultatima. Nadalje, ako surađujete s partnerom, ograničit će vašu sposobnost partnera da promijeni analizu nakon što dođe do rezultata. (Nosek and Lakens 2014) postaje sve češća u psihologiji (Nosek and Lakens 2014) , politologiji (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) i ekonomiju (Olken 2015) .
Konstruktivni savjeti posebno za online eksperimente na terenu također su predstavljeni u Konstan and Chen (2007) i Chen and Konstan (2015) .
Ono što sam nazvao strategijom armade ponekad se zove programska istraživanja ; vidi Wilson, Aronson, and Carlsmith (2010) .
Za više informacija o eksperimentima MusicLab pogledajte Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) i Salganik (2007) . Za više informacija o tržištima pobjednika, pogledajte Frank and Cook (1996) . Za više informacija o opterećenju sreće i vještine, pogledajte Mauboussin (2012) , Watts (2012) i Frank (2016) .
Postoji još jedan pristup uklanjanju isplata sudionika koje bi istraživači trebali koristiti s oprezom: obveze. U mnogim pokusima na terenu na terenu sudionici su u osnovi sastavljeni u pokuse i nikada nisu nadoknađeni. Primjeri takvog pristupa uključuju eksperiment Restivo i van de Rijt (2012) o nagradama u Wikipediji i Bondu i kolegi (2012) na poticanje ljudi da glasaju. Ti eksperimenti zapravo nemaju nula varijabilnih troškova, umjesto toga imaju nula varijabilnih troškova za istraživače . U takvim eksperimentima, čak i ako je trošak za svakog sudionika izuzetno mali, ukupni trošak može biti prilično velik. Istraživači koji izvode masovne online eksperimente često opravdavaju važnost malih procijenjenih učinaka liječenja rekavši da ti mali učinci mogu postati važni kada se primjenjuju na mnoge ljude. Točno isto mišljenje odnosi se na troškove koje istraživači nametnu sudionicima. Ako vaš eksperiment uzrokuje milijun ljudi da otpadnu jednu minutu, eksperiment nije jako štetan za bilo koju osobu, ali u skupini je izgubio gotovo dvije godine.
Drugi pristup stvaranju nulte varijabilne isplate sudionicima je korištenje lutrije, pristup koji je također korišten u istraživanju (Halpern et al. 2011) . Više o izradi Toomim et al. (2011) korisničkih iskustava potražite u Toomim et al. (2011) . Više o korištenju botova za izradu nula varijabilnih eksperimenata troškova potražite ( ??? ) .
Tri R-a, kako su izvorno predložili Russell and Burch (1959) su kako slijedi:
"Zamjena znači ulazak za svjesnih živih viših životinja neosjetljivog materijala. Smanjenje znači smanjenje broja životinja koje se koriste za dobivanje informacija o određenom količinom i preciznošću. Profinjenost znači bilo smanjenje učestalosti ili ozbiljnosti nehumanih postupaka koji se primjenjuju na one životinje koje još treba koristiti. "
Tri R koja predlažem ne nadjačavaju etička načela opisana u 6. poglavlju. Umjesto toga, oni su više razrađena verzija jedne od tih načela - dobročinstvo - posebno u postavljanju ljudskih pokusa.
Što se tiče prve R ("zamjene"), uspoređujući eksperiment emocionalne zaraze (Kramer, Guillory, and Hancock 2014) i emocionalni zarazni prirodni eksperiment (Lorenzo Coviello et al. 2014) nudi neke opće pouke o uključenim kompromisima pri kretanju od eksperimenata do prirodnih pokusa (i drugih pristupa kao što je podudaranje s tim pokušajem približavanja eksperimenata u ne-eksperimentalnim podacima, vidi poglavlje 2). Osim etičkih prednosti, prelazak s eksperimentalnih u ne-eksperimentalne studije također omogućuje istraživačima da proučavaju tretmane koji su logistički nesposobni za implementaciju. Međutim, ove etičke i logističke koristi dolaze po trošku. S prirodnim eksperimentima istraživači imaju manje kontrolu nad stvarima poput regrutiranja sudionika, randomizacije i prirode liječenja. Na primjer, jedna ograničenja oborina kao tretman je da ona i povećava pozitivnost i smanjuje negativnost. U eksperimentalnoj studiji, međutim, Kramer i njegovi kolege bili su u stanju samostalno prilagoditi pozitivnost i negativnost. Određeni pristup koji koriste Lorenzo Coviello et al. (2014) dalje su razradili L. Coviello, Fowler, and Franceschetti (2014) . Za uvod u instrumentalne varijable, što je pristup koji koriste Lorenzo Coviello et al. (2014) , vidi Angrist and Pischke (2009) (manje formalno) ili Angrist, Imbens, and Rubin (1996) (više formalni). Za skeptičnu procjenu instrumentalnih varijabli vidi Deaton (2010) i za uvod u instrumentalne varijable s slabim instrumentima (kiša je slab instrument), vidi Murray (2006) . Općenitije, dobar uvod u prirodne pokuse daje Dunning (2012) , dok Rosenbaum (2002) , ( ??? ) i Shadish, Cook, and Campbell (2001) nude dobre ideje o procjeni kauzalnih učinaka bez eksperimenata.
Što se tiče drugog R ("preciziranja"), postoje znanstvene i logističke kompromise pri razmatranju promjena dizajna Emotional Contagion od blokiranja postova na pojačavanje postova. Na primjer, može biti slučaj da je tehnička implementacija feeda vijesti znatno jednostavnija za napraviti eksperiment u kojem su postovi blokirani, a ne onaj u kojem se potiče (napominjemo da se može provesti eksperiment koji uključuje blokiranje postova kao sloj na vrhu sustava News Feed bez potrebe za promjenama temeljnog sustava). Znanstveno, međutim, teorija koja se obratila eksperimentom nije jasno ukazivala na jedan dizajn nad drugom. Nažalost, nisam svjestan znatnih prethodnih istraživanja o relativnim zaslugama blokiranja i povećanja sadržaja u News Feedu. Također, nisam vidio mnogo istraživanja o tretmanima rafiniranja da bi ih manje štetno; Jedna od iznimaka je B. Jones and Feamster (2015) , koji uzima u obzir slučaj mjerenja internetske cenzure (tema koju raspravljam u 6. poglavlju u vezi s Encore studijom (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
U pogledu trećeg R ("redukcija"), dobro upoznavanje s tradicionalnom analizom snage daje Cohen (1988) (knjiga) i Cohen (1992) (članak), dok Gelman and Carlin (2014) nude malo drugačiju perspektivu. Preduvjetni covariati mogu biti uključeni u fazi izrade i analize eksperimenata; Četvrto poglavlje Gerber and Green (2012) pruža dobar uvod u oba pristupa, a Casella (2008) pruža dublji tretman. Tehnike koje koriste ovu informaciju o pretkripciji u randomizaciji obično se nazivaju ili blokiranim eksperimentalnim dizajnom ili slojevitim eksperimentalnim dizajnom (terminologija se ne koristi dosljedno u svim zajednicama); te tehnike usko su povezane s stratificiranim tehnikama uzorkovanja koje su raspravljene u poglavlju 3. Vidi Higgins, Sävje, and Sekhon (2016) za više o korištenju ovih nacrta u masivnim eksperimentima. U fazi analize mogu se uključiti i pretvornici. McKenzie (2012) istražuje razliku u različitim pristupima analizi terenskih eksperimenata u više detalja. Vidi Carneiro, Lee, and Wilhelm (2016) za više o kompromisima između različitih pristupa za povećanje preciznosti u procjenama učinaka liječenja. Konačno, pri odlučivanju hoće li pokušati uključiti pretvorbene kovarijate u fazi izrade ili analize (ili oboje), postoji nekoliko čimbenika koje treba razmotriti. U situaciji u kojoj istraživači žele pokazati da nisu "ribolov" (Humphreys, Sierra, and Windt 2013) mogu biti korisni (Higgins, Sävje, and Sekhon 2016) kovarijati u fazi projektiranja (Higgins, Sävje, and Sekhon 2016) . U situacijama u kojima sudionici dolaze sekvencijalno, posebno on-line eksperimente na terenu, korištenje informacija o pretkripciji u fazi projektiranja može biti logistički teško; vidi, na primjer, Xie and Aurisset (2016) .
Vrijedno je dodati malo intuicije o tome zašto pristup različitosti u različitostima može biti toliko učinkovitiji od razlike u sredini. Mnogi rezultati na mreži imaju vrlo visoku varijaciju (vidi npr. RA Lewis and Rao (2015) i Lamb et al. (2015) ) i relativno su stabilni tijekom vremena. U ovom slučaju, rezultat promjene će imati znatno manju varijancu, povećavajući snagu statističkog testa. Jedan od razloga zašto se ovaj pristup ne koristi češće je da prije digitalnog doba nije bilo česte imati ishode prije liječenja. Više konkretan način razmišljanja o tome je zamisliti eksperiment kojim se mjeri određena rutinska vježba uzrokuje gubitak težine. Ako prihvatite razliku u sredstvu, procjena će imati varijabilnost koja proizlazi iz varijabilnosti utega u populaciji. Ako, međutim, učinite razliku u različitim pristupima, uklanja se prirodna varijacija težina, a lakše ćete otkriti razliku uzrokovanu tretmanom.
Konačno, razmotrio sam dodavanje četvrte R: "repurpose". To jest, ako se znanstvenici nađu s više eksperimentalnih podataka nego što trebaju odgovoriti na svoje izvorno istraživanje, trebali bi ponovno razmotriti podatke kako bi postavili nova pitanja. Na primjer, zamislite da su Kramer i njegovi kolege koristili razliku u različitim procjeniteljima i našli se s više podataka nego što su trebali da se bave njihovim istraživačkim pitanjem. Umjesto da ne koriste podatke u najvećoj mjeri, mogli su proučavati veličinu učinka kao funkciju emocionalnog izražavanja prije tretmana. Kao i Schultz et al. (2007) utvrdili su da je učinak liječenja bio drugačiji za lake i teške korisnike, možda su učinci Feedova vijesti bili različiti za ljude koji su već željeli objaviti sretne (ili tužne) poruke. (Humphreys, Sierra, and Windt 2013) može dovesti do "ribolova" (Humphreys, Sierra, and Windt 2013) i "p-sjeckanje" (Simmons, Nelson, and Simonsohn 2011) , ali se uglavnom mogu adresirati kombinacijom iskrenog izvješćivanja (Simmons, Nelson, and Simonsohn 2011) , pred-registraciju (Humphreys, Sierra, and Windt 2013) i metode strojnog učenja koje pokušavaju izbjeći prekomjernu opremu.