Pitanja o uzročnosti u društvenom istraživanju su često složena i složena. Za temeljni pristup kauzalnosti zasnovanoj na uzročnim grafikonima, pogledajte Pearl (2009) , i za temeljni pristup zasnovan na potencijalnim ishodima, pogledajte Imbens and Rubin (2015) . Za upoređivanje ova dva pristupa pogledajte Morgan and Winship (2014) . Za formalni pristup definisanju konfiguratora, pogledajte VanderWeele and Shpitser (2013) .
U ovom poglavlju, stvorio sam ono što je izgledalo kao sjajna linija između naše sposobnosti da napravimo uzročne procjene iz eksperimentalnih i ne-eksperimentalnih podataka. Međutim, mislim da je u stvarnosti razlika jasnija. Na primjer, svako prihvata da pušenje uzrokuje rak, iako nije slučajno kontrolisano eksperimentisanje kojim se prisiljavaju ljudi da puše. Za odlične tretmane dužine knjige u vezi sa izradom uzročnih procjena iz neeksperimentalnih podataka vidi Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) i Dunning (2012) .
Poglavlja 1 i 2 Freedman, Pisani, and Purves (2007) nude jasan uvod u razlike između eksperimenata, kontrolisanih eksperimenata i randomizovanih kontrolisanih eksperimenata.
Manzi (2012) pruža fascinantan i čitljiv uvod u filozofske i statističke podloge randomiziranih kontrolisanih eksperimenata. Takođe pruža zanimljive primere iz prakse eksperimentisanja u poslovanju. Issenberg (2012) daje fascinantan uvod u upotrebu eksperimenata u političkim kampanjama.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, i Athey and Imbens (2016b) pružaju dobar uvod u statističke aspekte eksperimentalnog dizajna i analize. Osim toga, postoje odlični tretmani upotrebe eksperimenata u raznim područjima: ekonomija (Bardsley et al. 2009) , Sociologije (Willer and Walker 2007; Jackson and Cox 2013) , psihologije (Aronson et al. 1989) , Političke nauke (Morton and Williams 2010) i socijalna politika (Glennerster and Takavarasha 2013) .
Važnost angažovanja učesnika (npr. Uzimanje uzoraka) često se ne vrednuje u eksperimentalnom istraživanju. Međutim, ako je efekat lečenja heterogen u populaciji, onda je uzorkovanje kritično. Longford (1999) jasno govori o tome kada se zalaže za istraživače koji razmišljaju o eksperimentima kao istraživanje populacije sa slučajnim uzorkovanjem.
Predložio sam da postoji kontinuitet između laboratorijskih i terenskih eksperimenata, a ostali istraživači su predložili detaljnije tipologije, posebno one koje razdvajaju različite oblike terenskih eksperimenata (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Brojni članovi su upoređivali laboratorijske i terenske eksperimente u izvještaju (Falk and Heckman 2009; Cialdini 2009) i u smislu ishoda specifičnih eksperimenata u političkim naukama (Coppock and Green 2015) , ekonomije (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) i psihologija (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) nude lep dizajn istraživanja za upoređivanje rezultata laboratorijskih i terenskih eksperimenata. Parigi, Santana, and Cook (2017) opisuju kako eksperimenti na mreži mogu da kombinuju neke od karakteristika laboratorijskih i terenskih eksperimenata.
Zabrinutost o učesnicima koji menjaju svoje ponašanje jer znaju da ih pažljivo posmatraju ponekad se zovu efekti potražnje , a studirali su ih u psihologiji (Orne 1962) i ekonomiji (Zizzo 2010) . Iako su uglavnom povezani sa laboratorijskim eksperimentima, ova ista pitanja mogu prouzrokovati probleme i za terenske eksperimente. U stvari, efekti potražnje se ponekad nazivaju i efekti Hawthorne , izraz koji potiče od poznatih eksperimenata osvetljenja koji su započeti 1924. godine u Hawthorne Works of Western Electric Company (Adair 1984; Levitt and List 2011) . I efekti potražnje i efekti Hawthorne su blisko povezani sa idejom reaktivnog merenja o kojima se govori u poglavlju 2 (vidi takođe Webb et al. (1966) ).
Terenski eksperimenti imaju dugu istoriju u ekonomiji (Levitt and List 2009) , političke nauke (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psihologija (Shadish 2002) i javna politika (Shadish and Cook 2009) . Jedna oblast društvenih nauka gde su eksperimenti na terenu brzo postali istaknuti je međunarodni razvoj. Za pozitivan pregled tog rada u ekonomiji vidi Banerjee and Duflo (2009) , a za kritičnu procenu pogledajte Deaton (2010) . Za pregled ovog rada u političkim naukama pogledajte Humphreys and Weinstein (2009) . Konačno, etički izazovi koji proizilaze iz terenskih eksperimenata istraženi su u kontekstu političkih nauka (Humphreys 2015; Desposato 2016b) i razvojne ekonomije (Baele 2013) .
U ovom odeljku, predložio sam da se informacije o prethodnom tretiranju mogu koristiti za poboljšanje preciznosti procijenjenih efekata tretmana, ali postoji određena debata o ovom pristupu; vidi Freedman (2008) , W. Lin (2013) , Berk et al. (2013) i Bloniarz et al. (2016) za više informacija.
Konačno, postoje još dve vrste eksperimenata koje su izvodili sociologi koji se ne uklapaju dobro u laboratorijskoj dimenziji: istraživački eksperimenti i socijalni eksperimenti. Eksperimenti istraživanja su eksperimenti koristeći infrastrukturu postojećih istraživanja i upoređivanje odgovora na alternativne verzije istih pitanja (neki eksperimenti istraživanja su prikazani u poglavlju 3); za više o eksperimentima istraživanja pogledajte Mutz (2011) . Socijalni eksperimenti su eksperimenti u kojima tretman predstavlja neku socijalnu politiku koju vlada može izvršiti samo. Socijalni eksperimenti su blisko povezani sa evaluacijom programa. Više o političkim eksperimentima vidi Heckman and Smith (1995) , Orr (1998) i @ glennerster_running_2013.
Odlučio sam da se fokusiram na tri koncepta: validnost, heterogenost efekata tretmana i mehanizmi. Ovi koncepti imaju različita imena u različitim oblastima. Na primer, psiholozi teže da pređu sa jednostavnih eksperimenata fokusirajući se na medijatore i moderatore (Baron and Kenny 1986) . Ideja o medijatorima zahvaćena je onim što ja nazivam mehanizmima, a ideja moderatora je obuhvaćena onim što ja nazivam vanjskom validnošću (npr. Da li bi rezultati eksperimenta bili različiti ako su se odvijali u različitim situacijama) i heterogenost efekata tretmana ( npr. efekti veći za neke ljude nego za druge).
Eksperiment Schultz et al. (2007) pokazuje kako se socijalne teorije mogu koristiti za dizajniranje efikasnih intervencija. Za opštije argumente o ulozi teorije u dizajniranju efikasnih intervencija, pogledajte Walton (2014) .
Koncepte interne i vanjske važnosti prvi put je uveden u Campbell (1957) . Pogledajte Shadish, Cook, and Campbell (2001) za detaljniju istoriju i pažljivu razradu statističke validnosti, interne validnosti, konstruktivne valjanosti i vanjske važnosti.
Za pregled pitanja vezanih za statističku validnost u eksperimentima vidi Gerber and Green (2012) (iz perspektive društvenih nauka) i Imbens and Rubin (2015) (iz statističke perspektive). Neka pitanja statističke validnosti zaključaka koja se posebno pojavljuju u online eksperimentima na terenu uključuju pitanja kao što su računarski efikasne metode za stvaranje intervala povjerenja sa zavisnim podacima (Bakshy and Eckles 2013) .
Interna validnost može biti teško osigurati u kompleksnim eksperimentima na terenu. Vidjeti, na primjer, Gerber and Green (2000) , Imai (2005) , i Gerber and Green (2005) za raspravu o provedbi složenog terenskog eksperimenta o glasanju. Kohavi et al. (2012) i Kohavi et al. (2013) pružaju uvod u izazove intervalne validnosti u onlajn eksperimentima na terenu.
Jedna od glavnih pretnji internoj validnosti je mogućnost neuspješne randomizacije. Jedan od potencijalnih načina otkrivanja problema sa randomizacijom je upoređivanje grupa tretmana i kontrolnih grupa na vidljive osobine. Ova vrsta poređenja naziva se provera ravnoteže . Pogledajte Hansen and Bowers (2008) za statistički pristup balansnim proverama i Mutz and Pemantle (2015) zbog brige o proverama ravnoteže. Na primjer, korištenjem kontrole ravnoteže, Allcott (2011) našao neke dokaze da se randomizacija nije ispravno primijenila u tri eksperimenta Opower (vidi tabelu 2, stranice 2, 6 i 8). Za druge pristupe, pogledajte poglavlje 21 Imbens and Rubin (2015) .
Druge glavne zabrinutosti u vezi sa internim validnošću su: (1) jednostrano nepoštovanje, gde nisu svi u terapijskoj grupi zapravo primili lečenje, (2) dvostranu neusklađenost, gde ne svi u grupi za lečenje primaju lečenje, a neki ljudi u kontrolna grupa primi lečenje, (3) iscrpljivanje, pri čemu se rezultati ne mere za neke učesnike, i (4) smetnje, u kojima se tretman prelazi sa ljudima u uslovima liječenja na ljude u kontrolnom stanju. Pogledajte poglavlja 5, 6, 7 i 8 iz Gerber and Green (2012) za više o svakom od ovih problema.
Za više o konstruisanju validnosti pogledajte Westen and Rosenthal (2003) , a za više o izgradnji važnosti u velikim izvorima podataka Lazer (2015) i poglavlje 2 ove knjige.
Jedan aspekt vanjske važnosti je postavka u kojoj se testira intervencija. Allcott (2015) pruža pažljiv teorijski i empirijski tretman pristranosti izbora lokacije. O ovom pitanju razmatra i Deaton (2010) . Drugi aspekt spoljne validnosti jeste da li će alternativne operacije u istoj intervenciji imati slične efekte. U ovom slučaju, poređenje između Schultz et al. (2007) i Allcott (2011) pokazuju da eksperimenti Opower imaju manji procenjeni tretirani efekat od originalnih eksperimenata Schultza i kolega (1,7% nasuprot 5%). Allcott (2011) pretpostavio da su eksperimenti koji su usledili nakon toga imali manji efekat zbog načina na koji se tretman razlikuje: rukopisni emotikon kao dio studije sponzoriranog od strane univerziteta, u poređenju sa štampanim emotikonom kao deo masovne proizvodnje izveštaj iz elektroprivrede.
Za odličan pregled heterogenosti efekata tretmana u terenskim eksperimentima, pogledajte poglavlje 12 Gerber and Green (2012) . Za uvođenje heterogenosti efekata lečenja u medicinske pretrage, pogledajte Kent and Hayward (2007) , Longford (1999) , i Kravitz, Duan, and Braslow (2004) . Razmatranja heterogenosti efekata tretmana uglavnom se fokusiraju na razlike zasnovane na karakteristikama pred tretmanom. Ako ste zainteresovani za heterogenost zasnovan na ishodima nakon tretmana, onda su potrebni složeniji pristupi, kao što su glavna stratifikacija (Frangakis and Rubin 2002) ; vidi Page et al. (2015) za pregled.
Mnogi istraživači procenjuju heterogenost efekata lečenja koristeći linearnu regresiju, ali nove metode se oslanjaju na mašinsko učenje; vidi, na primjer, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) i Athey and Imbens (2016a) .
Postoji određeni skepticizam o nalazima heterogenosti efekata zbog višestrukih problema poređenja i "ribolova". Postoje različiti statistički pristupi koji mogu pomoći u rješavanju zabrinutosti o višestrukom poređenju (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Jedan pristup zabrinutosti o "ribolovu" je pre-registracija, koja postaje sve češća u psihologiji (Nosek and Lakens 2014) , političke nauke (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , i ekonomije (Olken 2015) .
U studiji Costa and Kahn (2013) samo oko polovine domaćinstava u eksperimentu mogla se povezati sa demografskim informacijama. Čitači zainteresovani za ove detalje treba da se odnose na originalni rad.
Mehanizmi su neverovatno važni, ali se ispostavilo da je veoma teško proučavati. Istraživanje mehanizama je usko povezano sa proučavanjem medijatora u psihologiji (ali vidi i VanderWeele (2009) za precizno poređenje ove dvije ideje). Statistički pristupi pronalaženju mehanizama, kao što je pristup razvijen u Baron and Kenny (1986) , su prilično česti. Nažalost, ispada da te procedure zavise od nekih jakih pretpostavki (Bullock, Green, and Ha 2010) i patiti kada postoji više mehanizama, kako bi se moglo očekivati u mnogim situacijama (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) i Imai and Yamamoto (2013) nude neke poboljšane statističke metode. Dalje, VanderWeele (2015) nudi tretman dužine knjige sa nizom važnih rezultata, uključujući sveobuhvatan pristup analizi osjetljivosti.
Poseban pristup fokusira se na eksperimente koji pokušavaju direktno manipulirati mehanizmom (npr. Davanje mornara vitaminu C). Nažalost, u mnogim postavkama društvene nauke, često postoje višestruki mehanizmi i teško je dizajnirati tretmane koji menjaju jednu bez promjene drugih. Neke pristupe eksperimentalnoj izmeni mehanizama opisuju Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , i Pirlott and MacKinnon (2016) .
Istraživači koji su u potpunosti proveli faktorske eksperimente će morati biti zabrinuti zbog višestrukih testova hipoteza; pogledajte Fink, McConnell, and Vollmer (2014) i List, Shaikh, and Xu (2016) za više informacija.
Konačno, mehanizmi imaju i dugu istoriju u filozofiji nauke, koju su opisali Hedström and Ylikoski (2010) .
Za više informacija o korišćenju studija dopisivanja i studija revizije za merenje diskriminacije pogledajte Pager (2007) .
Najčešći način da regrutujete učesnike na eksperimente koje gradite je Amazon Mechanical Turk (MTurk). Zato što MTurk asimiluje aspekte tradicionalnih laboratorijskih eksperimenata - plaćajući ljude da završe zadatke koje ne bi mogli učiniti besplatno - mnogi istraživači već su počeli da koriste Turkers (radnike na MTurk) kao eksperimentalne učesnike, što rezultira bržim i jeftinijim prikupljanjem podataka nego što se može postići u tradicionalnim laboratorijskim laboratorijskim eksperimentima (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Generalno, najveće prednosti korištenja učesnika regrutovanih od MTurk-a su logističke. Dok laboratorijski eksperimenti mogu trajati nekoliko nedelja i eksperimenti na terenu mogu trajati meseci za podešavanje, eksperimenti sa učesnicima regrutovanim iz MTurk-a mogu se pokrenuti za nekoliko dana. Na primer, Berinsky, Huber, and Lenz (2012) uspjeli su regrutovati 400 predmeta u jednom danu da bi učestvovali u 8-minutnom eksperimentu. Osim toga, ovi učesnici mogu biti regrutovani za gotovo svaku svrhu (uključujući ankete i masovnu saradnju, kako je navedeno u poglavljima 3 i 5). Ova lakoća zapošljavanja znači da istraživači mogu započeti sekvence srodnih eksperimenata u brzom sukcesiji.
Pre regrutovanja učesnika iz MTurk-a za sopstvene eksperimente, postoje četiri važne stvari koje trebate znati. Prvo, mnogi istraživači imaju nespecifičan skepticizam eksperimenata koji uključuju Turkers. Pošto taj skepticizam nije specifičan, teško se suprotstaviti dokazima. Međutim, nakon nekoliko godina studija koje koriste Turkers, sada možemo zaključiti da taj skepticizam nije posebno opravdan. Bilo je puno studija koje su upoređivale demografske podatke Turkera sa onima drugih populacija i mnoge studije upoređuju rezultate eksperimenata sa Turkersima sa onima iz drugih populacija. S obzirom na sav ovaj rad, mislim da je najbolji način da razmislite o tome da su Turkeri razumni uzorak uzorka, slično studentima, ali nešto raznovrsniji (Berinsky, Huber, and Lenz 2012) . Stoga, baš kao što su studenti razumno stanovništvo za neke, ali ne i sve, istraživanja, Turkeri su razumna populacija za neke, ali ne sve, istraživanja. Ako radite sa Turkersom, onda je logično čitati mnoge od ovih komparativnih studija i razumjeti njihove nijanse.
Drugo, istraživači su razvili najbolje prakse za povećanje interne validnosti MTurk eksperimenata i trebali biste naučiti i pratiti ove najbolje prakse (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Na primjer, istraživači koji koriste Turkers su ohrabreni da koriste sita za uklanjanje (Berinsky, Margolis, and Sances 2014, 2016) učesnika (Berinsky, Margolis, and Sances 2014, 2016) (ali vidjeti i DJ Hauser and Schwarz (2015b) i DJ Hauser and Schwarz (2015a) ). Ako ne uklonite nečuvene učesnike, onda bilo koji efekat lečenja može biti izbačen od strane buke koju uvede, au praksi broj nezainteresovanih učesnika može biti značajan. U eksperimentu Huber-a i njegovih kolega (2012) oko 30% učesnika nije uspelo osnovnim istraživačima. Drugi problemi koji najčešće nastaju kada se koriste Turkeri su ne-naivni učesnici (Chandler et al. 2015) i iscrpljivost (Zhou and Fishbach 2016) .
Treće, u odnosu na neke druge oblike digitalnih eksperimenata, eksperimenti MTurk ne mogu da skali; Stewart et al. (2015) procenjuju da u bilo kom trenutku postoji samo oko 7.000 ljudi na MTurk-u.
Konačno, trebali biste znati da je MTurk zajednica s vlastitim pravilima i normama (Mason and Suri 2012) . Na isti način na koji biste pokušali da saznate kulturu zemlje u kojoj biste vodili svoje eksperimente, pokušajte da saznate više o kulturi i normama Turkera (Salehi et al. 2015) . I trebali biste znati da će Turkeri govoriti o vašem eksperimentu ako učinite nešto neprimjereno ili neetično (Gray et al. 2016) .
MTurk je neverovatno zgodan način da regrutujete učesnike u svoje eksperimente, bez obzira da li su labslike, poput onih iz Huber, Hill, and Lenz (2012) ili više polja, kao što su Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) i Mao et al. (2016) .
Ako razmišljate o pokušaju da napravite svoj proizvod, preporučujem da pročitate savjete koje nudi grupa MovieLens u Harper and Konstan (2015) . Ključni uvid iz njihovog iskustva je da za svaki uspešan projekat ima mnogo, mnogo neuspjeha. Na primjer, MovieLens grupa je pokrenula druge proizvode, poput GopherAnswers, koji su bili potpuni neuspesi (Harper and Konstan 2015) . Još jedan primjer istraživača koji nije uspio pokušati napraviti proizvod je pokušaj Edwarda Castronove da napravi online igru pod nazivom Arden. Uprkos 250.000 dolara u finansiranju, projekat je bio flop (Baker 2008) . Projekti kao što su GopherAnswers i Arden nažalost su mnogo češći od projekata kao što je MovieLens.
Čuo sam da je Pasteurov kvadrant često razgovarao o tehnološkim kompanijama i pomaže u organizovanju istraživačkih radova na Google-u (Spector, Norvig, and Petrov 2012) .
Studija Bonda i kolega (2012) takođe pokušava da utvrdi uticaj ovih tretmana na prijatelje onih koji su ih primili. Zbog dizajna eksperimenta, ovi prelivači su teško detektovati; zainteresovani čitaoci bi trebali videti Bond et al. (2012) za detaljniju diskusiju. Jones i kolege (2017) takođe su sproveli vrlo sličan eksperiment tokom izbora 2012. godine. Ovi eksperimenti su deo dugogodišnje tradicije eksperimenata u političkim naukama o naporima za podsticanje glasanja (Green and Gerber 2015) . Ovi eksperimenti za izlazak iz glave su česti, delom zato što su u Pasteurovom kvadrantu. To jest, ima mnogo ljudi koji su motivisani da povećaju glasanje i glasanje može biti zanimljivo ponašanje za testiranje općih teorija o promenama ponašanja i društvenom uticaju.
Za savete o eksperimentima sa terenskim eksperimentima sa partnerskim organizacijama, kao što su političke partije, nevladine organizacije i preduzeća, pogledajte Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) i Gueron (2002) . Za razmišljanja o tome kako partnerstva sa organizacijama mogu uticati na dizajn istraživanja, pogledajte King et al. (2007) i Green, Calfano, and Aronow (2014) . Partnerstvo takođe može dovesti do etičkih pitanja, o kojima su govorili Humphreys (2015) i Nickerson and Hyde (2016) .
Ako kreirate plan analize pre pokretanja eksperimenta, predlažem da počnete tako što ćete čitati smernice za izvještavanje. Smjernice CONSORT-a (Consolidated Standard Reporting Trials) su razvijene u medicini (Schulz et al. 2010) i modificirane za društvena istraživanja (Mayo-Wilson et al. 2013) . Srodni set smernica razvili su urednici časopisa eksperimentalnih političkih nauka (Gerber et al. 2014) (videti takođe Mutz and Pemantle (2015) i Gerber et al. (2015) ). Na kraju, smernice za izveštavanje su razvijene u psihologiji (APA Working Group 2008) , a takođe su takođe prikazane Simmons, Nelson, and Simonsohn (2011) .
Ako kreirate plan analize, trebali bi razmisliti o prethodnom registraciji, jer će prije registracija povećati povjerenje koje drugi imaju u svojim rezultatima. Dalje, ako radite sa partnerom, ograničićete sposobnost vašeg partnera da promijeni analizu nakon što vidi rezultate. Pre-registracija postaje sve češća u psihologiji (Nosek and Lakens 2014) , političke nauke (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) i ekonomija (Olken 2015) .
Saveti za dizajn posebno za online terenske eksperimente su takođe predstavljeni u Konstan and Chen (2007) i Chen and Konstan (2015) .
Ono što sam nazvao Armada strategijom ponekad nazivaju programsko istraživanje ; vidi Wilson, Aronson, and Carlsmith (2010) .
Više o eksperimentima MusicLab-a vidi Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) i Salganik (2007) . Za više na tržištu pobednika, pogledajte Frank and Cook (1996) . Za više informacija o općenitoj sreći i veštini, pogledajte Mauboussin (2012) , Watts (2012) i Frank (2016) .
Postoji još jedan pristup eliminisanju uplata učesnika koji istraživači treba koristiti oprezno: regrutovanje. U mnogim eksperimentima na terenu, učesnici su u osnovi napravljeni u eksperimentima i nikada nisu kompenzovani. Primeri ovog pristupa uključuju eksperimente Restivo i van de Rijt (2012) o nagradama na eksperimentu Vikipedije i Bonda i kolege (2012) o podsticanju ljudi da glasaju. Ovi eksperimenti zaista nemaju nultu cenu varijabli, već imaju nultu varijabilnu cenu za istraživače . U takvim eksperimentima, iako je trošak za svakog učesnika izuzetno mali, ukupni trošak može biti prilično veliki. Istraživači koji koriste velike online eksperimente često opravdavaju važnost malih procenjenih efekata lečenja rekavši da ovi mali efekti mogu postati važni kada se primenjuju na mnoge ljude. Tačno isto razmišljanje odnosi se na troškove koje istraživači nameću učesnicima. Ako vaš eksperiment uzrokuje milion ljudi da unište jedan minut, eksperiment nije veoma štetan za bilo koju osobu, ali u zbiru je potrošio skoro dve godine.
Drugi pristup kreiranju nulte varijabilne troškova učesnicima je korištenje lutrije, pristup koji se također koristi u istraživanju (Halpern et al. 2011) . Za više informacija o dizajniranju prijatnih korisničkih iskustava, pogledajte Toomim et al. (2011) . Za više informacija o korišćenju bota za kreiranje eksperimenata niza promenljivih troškova pogledajte ( ??? ) .
Tri R-a kao što su prvobitno predložili Russell and Burch (1959) su sledeći:
"Zamjena znači zamjena za svesno živi veći životinje bez moći opažanja materijala. Smanjenje znači smanjenje broja životinja koje se koriste za dobivanje informacija o datom i preciznosti. Usavršavanje znači bilo smanjenje u učestalosti ili ozbiljnosti nehumanim postupcima primjenjuje na one životinje koje tek treba da se koristi. "
Tri R-a koja ja predlažem ne nadmašuju etičke principe opisane u poglavlju 6. Oni su više razrađena verzija jedan od onih principa - beneficija - posebno u postavljanju ljudskih eksperimenata.
U pogledu prve R ("zamene"), upoređivanje eksperimenta emocionalne zaraze (Kramer, Guillory, and Hancock 2014) i prirodni eksperiment emocionalne zaraze (Lorenzo Coviello et al. 2014) nudi neke opće lekcije o uključenim kompenzacijama pri prelasku sa eksperimenata na prirodne eksperimente (i druge pristupe kao što su usklađivanje koje pokušavaju da aproksimiraju eksperimente u neeksperimentalnim podacima, vidi poglavlje 2). Pored etičkih koristi, prelazak sa eksperimentalnih na neeksperimentalne studije takođe omogućava istraživačima da proučavaju tretmane kojima se logistički ne mogu rasporediti. Ove etičke i logističke koristi dolaze po trošku, međutim. Sa prirodnim eksperimentima istraživači imaju manje kontrole nad stvarima poput regrutovanja učesnika, randomizacije i prirode terapije. Na primjer, jedno ograničenje kišnice kao tretman je da oba povećavaju pozitivnost i smanjuju negativnost. U eksperimentalnoj studiji, međutim, Kramer i kolege su uspeli da samostalno prilagođavaju pozitivnost i negativnost. Poseban pristup koji je koristio Lorenzo Coviello et al. (2014) dalje su elaborirali L. Coviello, Fowler, and Franceschetti (2014) . Za uvod u instrumentalne varijable, što je pristup koji koristi Lorenzo Coviello et al. (2014) , vidi Angrist and Pischke (2009) (manje formalan) ili Angrist, Imbens, and Rubin (1996) (formalnije). Za skeptičku procenu instrumentalnih varijabli, pogledajte Deaton (2010) , a za uvod u instrumentalne varijable sa slabim instrumentima (kiša je slab instrument), pogledajte Murray (2006) . Općenito, Dunning (2012) daje dobar uvod u prirodne eksperimente, dok Rosenbaum (2002) , ( ??? ) i Shadish, Cook, and Campbell (2001) nude dobre ideje o procjeni uzročnih efekata bez eksperimenata.
Što se tiče drugog R ("poboljšanja"), postoje naučni i logistički kompromisi kada se razmišlja o promeni dizajna Emotional Contagion-a od blokiranja poruka do pojačavanja postova. Na primjer, možda je slučaj da tehnička implementacija News Feed-a čini znatno lakšim eksperimentom u kojem su postovi blokirani, a ne oni u kojima su podstaknuti (obratite pažnju na to da se eksperiment koji uključuje blokiranje postova može biti implementiran kao sloj koji se nalazi iznad sistema Feed Feed bez ikakvih potreba za izmjenama osnovnog sistema). Naučno, međutim, teorija koju je eksperiment obrađivao nije jasno ukazivala na jedan dizajn nad drugom. Nažalost, nisam upoznat sa značajnim prethodnim istraživanjem o relativnim merama blokiranja i povećanju sadržaja u News Feed-u. Takođe, nisam video mnogo istraživanja o prečišćavanju tretmana kako bi ih učinili manje štetnim; Jedan izuzetak su B. Jones and Feamster (2015) , koji razmatra slučaj mjerenja internet cenzure (tema o kojoj sam razgovarao u poglavlju 6 u vezi s studijom Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
U smislu treće R ("redukcija"), dobar uvod u tradicionalnu analizu moći daje Cohen (1988) (knjiga) i Cohen (1992) (članak), dok Gelman and Carlin (2014) nude nešto drugačiju perspektivu. Kovarijatne predtretmane mogu se uključiti u fazu projektovanja i analize eksperimenata; poglavlje 4 Gerber and Green (2012) pruža dobar uvod u oba pristupa, a Casella (2008) pruža detaljniji tretman. Tehnike koje koriste ove informacije o pretreativanju u randomizaciji obično se nazivaju blokirani eksperimentalni dizajni ili stratifikovani eksperimentalni dizajn (terminologija se ne koristi konzistentno u zajednicama); ove tehnike su blisko povezane sa tehnikama stratifikovanog uzorkovanja o kojima se govori u poglavlju 3. Vidi Higgins, Sävje, and Sekhon (2016) za više o korišćenju ovih dizajna u masivnim eksperimentima. Kovarijatne predtretmane takođe mogu biti uključene u fazu analize. McKenzie (2012) istražuje pristup različitih razlika u analizi eksperimenata na terenu detaljnije. Pogledajte Carneiro, Lee, and Wilhelm (2016) za više o kompromisima između različitih pristupa u cilju povećanja preciznosti u procjenama efekata liječenja. Konačno, kada odlučite da li želite pokušati da uključite pretvaranje kovarijata u fazi projektovanja ili analize (ili oba), potrebno je razmotriti nekoliko faktora. U okruženju gde istraživači žele da pokažu da nisu "pecanje" (Humphreys, Sierra, and Windt 2013) , pomoću pred-tretmana kovarijata u fazi projektovanja može biti od pomoći (Higgins, Sävje, and Sekhon 2016) . U situacijama kada učesnici stižu sekvencijalno, posebno na terenu eksperimentima na terenu, korištenje informacija o prethodnom tretiranju u fazi projektovanja može biti teško logistički; vidi, na primjer, Xie and Aurisset (2016) .
Vredno je dodati malo intuicije o tome zašto pristup različitim razlikama može biti mnogo efikasniji od razlike u sredstvima. Mnogi online ishodi imaju veoma veliku varijansu (vidi npr. RA Lewis and Rao (2015) i Lamb et al. (2015) ) i relativno su stabilni tokom vremena. U ovom slučaju, promena će imati znatno manju varijansu, povećavajući moć statističkog testa. Jedan razlog zbog kojeg se ovaj pristup ne koristi češće jeste to da pre digitalnog doba nije bilo uobičajeno imati ishodi pred tretmanom. Konkretniji način razmišljanja o tome jeste da zamislite eksperiment da merite da li određena rutinska vežba uzrokuje gubitak težine. Ako usvojite pristup različitim sredstvima, vaša procena će imati varijabilnost koja proizilazi iz varijabilnosti težine u populaciji. Međutim, ako napravite pristup različitim razlikama, uklanjaju se prirodne varijacije u težinama i lakše možete otkriti razliku uzrokovanu tretmanom.
Na kraju, razmišljam o dodavanju četvrtog R: "popraviti". To jest, ako se istraživačima pronađe više eksperimentalnih podataka nego što je potrebno da se bave svojim prvobitnim istraživačkim pitanjem, oni bi trebali ponovo upućivati podatke da postavljaju nova pitanja. Na primjer, zamislite da su Kramer i njegove kolege koristili procjenu razlika u razlikama i našli se više podataka nego što je potrebno za rješavanje njihovog istraživačkog pitanja. Umesto da ne koriste podatke u najvećoj mjeri, mogli su proučiti veličinu efekta kao funkciju emocionalnog izraza prije lečenja. Baš kao i Schultz et al. (2007) utvrdio da je efekat lečenja bio drugačiji za lakše i teške korisnike, možda su efekti News Feed-a različiti za ljude koji su već imali tendenciju objavljivanja sretnih (ili tužnih) poruka. Repurposiranje može dovesti do "pecanja" (Humphreys, Sierra, and Windt 2013) i "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , ali se to uglavnom može adresirati kombinacijom poštenog izvještavanja (Simmons, Nelson, and Simonsohn 2011) , pre-registraciju (Humphreys, Sierra, and Windt 2013) i metode mašinskog učenja koje pokušavaju da izbegnu prekomerno prilagođavanje.