Daljnji komentar

Ovaj dio je osmišljen kako bi se koristiti kao referenca, a ne da se čitati kao priče.

  • Uvod (odjeljak 4.1)

Pitanja o uzročnosti u društvenim istraživanjima često su složeni i zamršeni. Za temeljni pristup uzročnosti temelji na kauzalnim grafova, pogledajte Pearl (2009) , a za temeljni pristup temelji na potencijalne ishode, vidi Imbens and Rubin (2015) (i tehnički dodatak u ovom poglavlju). Za usporedbu između ova dva pristupa, vidi Morgan and Winship (2014) . Za formalni pristup definiranju confounder, vidi VanderWeele and Shpitser (2013) .

U poglavlju, stvorio sam što se činilo kao svijetle linije između naše sposobnosti da bi uzročne procjene iz eksperimentalnih i ne-eksperimentalnim podacima. U stvarnosti, mislim da je razlika je blurrier. Na primjer, svatko prihvaća da pušenje uzrokuje rak, iako mi nikada učinio je kontrolirana eksperiment koji prisiljava ljude da puše. Za odlične duljine knjiga tretmana na stvaranje uzročne procjene iz ne-eksperimentalnih podataka vidi Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , i Dunning (2012) .

Poglavlja 1. i 2. Freedman, Pisani, and Purves (2007) nude jasan uvod u razlikama između eksperimenata, kontroliranih eksperimenata i randomiziranih kontroliranih pokusa.

Manzi (2012) pruža fascinantan i čitljiv uvod u filozofskim i statističkih temeljima randomiziranih kontroliranih pokusa. Ona također pruža zanimljive stvarne primjere snagom eksperimentiranja u poslovanju.

  • Što su eksperimenti? (Odjeljak 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) pružaju dobre uvod u statističkim aspektima eksperimentalnog dizajna i analize. Nadalje, postoje izvrsni tretmani korištenje eksperimenata u mnogim različitim područjima: ekonomija (Bardsley et al. 2009) , Sociologija (Willer and Walker 2007; Jackson and Cox 2013) , psihologije (Aronson et al. 1989) , Politologija (Morton and Williams 2010) , a socijalna politika (Glennerster and Takavarasha 2013) .

Važnost sudionika zapošljavanja (npr uzorkovanja) često je nedovoljno cijenjen u eksperimentalnim istraživanjima. Međutim, ako je učinak liječenja je heterogena u populaciji, onda uzorkovanja je kritična. Longford (1999) čini ovu točku jasno kad se zalaže za istraživače razmišljate o pokusima kao studije stanovništva s slučajan nalaz.

  • Dvije dimenzije eksperimenata: lab-polje i analogno-digitalni (Poglavlje 4.3)

Dihotomija da sam predstavio između laboratorijskih i terenskih pokusa je malo pojednostavljeno. U stvari, drugi istraživači su predložili detaljnije tipologije, posebno one koje razdvajaju različite oblike poljskim pokusima (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Nadalje, tu su i druge dvije vrste eksperimenata izvedenih od strane društvenih znanstvenika koji se ne može jednostavno smjestiti u laboratoriju i na terenu dihotomije. Eksperimentima istraživanja i socijalnih eksperimenata Ankete eksperimenti su eksperimenti koji koriste infrastrukturu postojećih istraživanja i usporedite odgovore na alternativne verzije ista pitanja (neki eksperimenti istraživanja prikazani su u poglavlju 3.); Za više informacija o eksperimentima ankete vidi Mutz (2011) . Društvena eksperimenti su eksperimenti, u kojima je liječenje je neka socijalna politika koja se može provoditi samo vlada. Socijalne eksperimenti su usko vezane za program evaluacije. Za više informacija o eksperimentima politike, vidi Orr (1998) , Glennerster and Takavarasha (2013) , te Heckman and Smith (1995) .

Niz radova su u odnosu laboratorijske i terenske pokuse u sažetku (Falk and Heckman 2009; Cialdini 2009) te u pogledu ishoda pojedinih eksperimenata u političkoj znanosti (Coppock and Green 2015) , ekonomije (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) i psihologije (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) nudi lijep istraživački projekt za uspoređivanje rezultata laboratorijskih i terenskih pokusa.

Zabrinutost sudionici mijenjaju svoje ponašanje, jer znaju da su se pomno pratiti ponekad se nazivaju potražnja efekti, i oni su studirali u psihologiji (Orne 1962) i ekonomija (Zizzo 2009) . Iako je uglavnom povezana s laboratorijskim pokusima, ova ista pitanja može uzrokovati probleme za poljskih pokusa, kao dobro. U stvari, potražnja efekti su također ponekad naziva Hawthorne efekte, pojam koji proizlazi iz terenskih pokusa, posebno poznate osvjetljenje eksperimente koje su započele 1924. godine na Hawthorne djela Western Electric Company (Adair 1984; Levitt and List 2011) . Oba potražnja efekte i Glog efekti su usko povezana s idejom jalove mjerenje objašnjeno u poglavlju 2 (vidi također Webb et al. (1966) ).

Povijest poljskih pokusa opisano je u ekonomiji (Levitt and List 2009) , političke znanosti (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psihologije (Shadish 2002) , a javna politika (Shadish and Cook 2009) . Jedno od područja društvenih znanosti gdje pokusima brzo postao poznat je međunarodni razvoj. Za pozitivnu ocjenu tog rada u ekonomiji vidi Banerjee and Duflo (2009) , a za kritičku procjenu vidjeti Deaton (2010) . Za pregled ovog rada u političkoj znanosti vidjeti Humphreys and Weinstein (2009) . Konačno, etički izazovi koji su uključeni u poljskim pokusima su istraženi u političke znanosti (Humphreys 2015; Desposato 2016b) i razvoja ekonomije (Baele 2013) .

U poglavlju, predložio sam da se informacije pre-tretman se može koristiti za poboljšanje preciznosti procijenjenih učinaka liječenja, ali ima nekih rasprava o ovom pristupu: Freedman (2008) , Lin (2013) , a Berk et al. (2013) ; vidi Bloniarz et al. (2016) za više informacija.

  • Kreće izvan jednostavnih pokusa (Odjeljak 4.4)

Ja sam izabrao da se usredotočiti na tri koncepta: valjanost, heterogenosti učinaka liječenja i mehanizmi. Ti pojmovi imaju različita imena u različitim područjima. Na primjer, psiholozi imaju tendenciju da se presele izvan jednostavnih eksperimenata s naglaskom na medijatora i moderatora (Baron and Kenny 1986) . Ideja medijatora je zarobljen od onoga što ja nazivam mehanizme, a ideja moderatora je zarobljen od onoga što ja nazivam vanjska valjanost (npr bi rezultati eksperimenta biti drugačiji ako je izvoditi u različitim situacijama) i heterogenost učinaka tretmana ( npr, su učinci veći za neke ljude od drugih ljudi).

Eksperiment od Schultz et al. (2007) pokazuje kako društvene teorije mogu se koristiti za izradu učinkovite intervencije. Za općenitije argument o ulozi teorije u projektiranju učinkovite intervencije, vidi Walton (2014) .

  • Valjanost (točka 4.4.1)

Pojmovi unutarnje i vanjske valjanosti prvi uveo u Campbell (1957) . Pogledajte Shadish, Cook, and Campbell (2001) za detaljniju povijest i pažljive izrade statističke valjanosti zaključka, unutarnje valjanosti, izgraditi vjerodostojnost i vanjsku valjanost.

Za pregled pitanja koja se odnose na statističke valjanosti zaključka u eksperimentima vidi Gerber and Green (2012) (za perspektivu društvene znanosti) i Imbens and Rubin (2015) (za statističke perspektive). Neka pitanja statističke valjanosti zaključka da se javljaju posebno u online pokusima na terenu obuhvaćaju pitanja kao što su računalno učinkovitih metoda za stvaranje intervala pouzdanosti s ovisnih podataka (Bakshy and Eckles 2013) .

Unutarnja valjanost može biti teško osigurati u kompleksnim pokusima na terenu. Vidi, na primjer, Gerber and Green (2000) , Imai (2005) , te Gerber and Green (2005) za raspravu o implementaciji kompleksnih terenskih pokusa oko glasovanja. Kohavi et al. (2012) i Kohavi et al. (2013) kao osnova za daljnje izazove interval valjanosti u eksperimentima online terenu.

Jedan od glavnih briga s unutarnje valjanosti je problema s randomizacije. Jedan od načina da se potencijalno otkrivanje problema s randomizacije je usporediti liječenje i kontrolne grupe na vidljivim osobinama. Ova vrsta usporedbe se zove ček ravnotežu. Pogledajte Hansen and Bowers (2008) za statističku pristup za ravnotežu provjere, i vidjeti Mutz and Pemantle (2015) za zabrinutost oko saldo provjere. Na primjer, pomoću vage provjerite Allcott (2011) je utvrdio da postoje neki dokazi da je randomizacije nije pravilno proveden u tri pokusa u nekim od OPower pokusima (vidi tablicu 2, stranice 2, 6, i 8). Za druge pristupe, vide Imbens and Rubin (2015) , poglavlje 21.

Ostali glavni problemi koji se odnose na unutarnje valjanosti su: 1) one-sided nesukladnosti, gdje nisu svi u liječenoj skupini zapravo primila tretman, 2) Dvostrani nesukladnosti, gdje nisu svi u liječenoj skupini prima terapiju i neke ljudi u kontrolnoj skupini primiti tretman, 3) atricija, gdje rezultati nisu mjereni za neke sudionike, i 4) smetnji, gdje je liječenje prelijeva od ljudi u stanju liječenja za osobe u kontrolnoj stanju. Pogledajte Gerber and Green (2012) Poglavlja 5, 6, 7 i 8 za više informacija o svakom od ovih pitanja.

Za više informacija o valjanosti konstrukta, vidi Westen and Rosenthal (2003) , a za više valjanosti konstrukta u velikim izvorima podataka, Lazer (2015) i Poglavlja 2. ove knjige.

Jedan aspekt vanjske valjanosti je postavka u kojoj se ispituje intervencija. Allcott (2015) pruža pažljivo teorijska i empirijska liječenje pristranosti odabira stranica. Ovo pitanje je također objašnjeno u Deaton (2010) . Osim što replicirati u mnogim mjestima, Home Energy Report intervencija je također bio samostalno proučavao je više istraživačkih skupina (npr Ayres, Raseman, and Shih (2013) ).

  • Heterogenost efekta tretmana (Poglavlje 4.4.2)

Za izvrstan pregled heterogenosti utjecaja liječenja u poljskim pokusima, vidi poglavlje 12 Gerber and Green (2012) . Za uvod u heterogenosti učinaka liječenja u zdravstvenim ispitivanjima, vidi Kent and Hayward (2007) , Longford (1999) , i Kravitz, Duan, and Braslow (2004) . Heterogenost efekta tretmana uglavnom fokusirati na razlike na temelju karakteristika prethodne obrade. Ako ste zainteresirani za heterogenosti na temelju rezultata nakon liječenja, a zatim složenije pristupima su potrebni, kao što su glavni stratifikacije (Frangakis and Rubin 2002) ; vidi Page et al. (2015) za pregled.

Mnogi znanstvenici procjenjuju na heterogenost učinaka liječenja pomoću linearne regresije, ali novije metode oslanjaju se na strojno učenje, na primjer Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , a Athey and Imbens (2016a) .

Tu je neki skepticizam o nalazima heterogenosti utjecaja zbog višestruke usporedbe problema i "ribolov". Postoji niz statističkih pristupa koji mogu pomoći adresa zabrinutost zbog višestruke usporedbe (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Jedan od pristupa zabrinutosti oko "ribolov" je pre-registracija, koji je sve češći u psihologiji (Nosek and Lakens 2014) , političke znanosti (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) i ekonomije (Olken 2015) .

U studiji Costa and Kahn (2013) samo oko polovica kućanstava u eksperimentu su mogli biti povezani s demografskim podacima. Čitatelji zainteresirani za detalje i moguće probleme s ovom analizom treba odnositi na izvornom papiru.

  • Mehanizmi (točka 4.4.3)

Mehanizmi su nevjerojatno važni, ali oni ispasti da se jako teško učiti. Istraživanje o mehanizmima usko vezane za proučavanje posrednika u psihologiji (ali vidi i VanderWeele (2009) za preciznu usporedbu između dvije ideje). Statističke pristupi pronalaženju mehanizama, kao što je pristup razvijen u Baron and Kenny (1986) , vrlo su česte. Nažalost, ispada da su ti postupci ovise o nekim jakim pretpostavkama (Bullock, Green, and Ha 2010) i pate kad postoji više mehanizama, kao što se može očekivati ​​u mnogim situacijama (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) i Imai and Yamamoto (2013) ponuditi neke poboljšane statističke metode. Nadalje, VanderWeele (2015) nudi tretman knjiga duljine s nizom značajnih rezultata, uključujući sveobuhvatan pristup analizi osjetljivosti.

Poseban pristup usredotočen je na pokusima koji pokušavaju manipulirati mehanizam izravne (npr davanje mornari vitamina C). Na žalost, u mnogim postavkama društvenih znanosti često postoje brojni mehanizmi i teško je dizajnirati tretmane koji mijenjaju jedno bez promjene ostalih. Neki pristupi za eksperimentalno koji mijenjaju mehanizmi su opisani u Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , te Pirlott and MacKinnon (2016) .

Konačno, mehanizmi također imaju dugu povijest u filozofiji znanosti kao što je opisano od strane Hedström and Ylikoski (2010) .

  • Korištenje postojećih okruženja (Odjeljak 4.5.1.1)

Za više informacija o korištenju dopisne studije i revizije studije za mjerenje diskriminacije vidi Pager (2007) .

  • Izgradite svoj ​​vlastiti eksperiment (Odjeljak 4.5.1.2)

Najčešći način regrutirati sudionike da pokusa da grade je Amazon Mechanical Turk (MTurk). Zbog MTurk oponaša aspekte tradicionalne laboratorijskih eksperimenata plaćati ljude za dovršenje zadataka da neće učiniti besplatno-mnogih istraživača su već počeli koristiti Turkers (radnici na MTurk) kao sudionika u ljudskim subjektima eksperimentima što rezultira bržim i jeftinijim prikupljanja podataka od tradicionalnih na kampusu laboratorijski eksperimenti (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Najveća snaga eksperimenata sa sudionicima odabiraju MTurk su logističku: oni dopuštaju istraživačima regrutirati sudionike brzo i prema potrebi. Dok laboratorijski eksperimenti može potrajati tjednima za pokretanje i pokusima može trajati mjesecima, do set-up, eksperimenti sa sudionicima odabiraju MTurk mogu se izvoditi u danima. Na primjer, Berinsky, Huber, and Lenz (2012) bili u mogućnosti zaposliti 400 predmeta u jednom danu za sudjelovanje u 8 minuta eksperimenta. Nadalje, ti sudionici mogu biti regrutirani za gotovo bilo koju svrhu (uključujući anketama i masovne suradnje, kao što je objašnjeno u poglavljima 3 i 5). Ova jednostavnost zapošljavanja znači da znanstvenici mogu izvoditi nizove povezanih eksperimenata u brzom slijedu.

Prije zapošljavanje sudionika iz MTurk za vlastite eksperimente, postoje četiri važne stvari koje treba znati. Prvo, mnogi znanstvenici imaju nespecifičan skepticizam eksperimenata koji uključuju Turkers. Budući da je ovaj skepticizam nije specifičan, to je teško suprotstaviti s dokazima. Međutim, nakon nekoliko godina istraživanja koriste Turkers, sada možemo zaključiti da je ovaj skepticizam nije posebno potrebno. Bilo je mnogo studija koje uspoređuju demografiju Turkers drugim populacijama i brojnim studijama, uspoređujući rezultate eksperimenata s Turkers na rezultate iz drugih populacija. S obzirom na sve to raditi, mislim da je najbolji način za vas da mislite o tome da je Turkers su razumna praktičnost uzorak, poput studenata, ali malo više raznolik (Berinsky, Huber, and Lenz 2012) . Dakle, kao što su učenici razumno stanovništvo za neke, ali ne sve eksperimentalna istraživanja, Turkers su razumna populacija za neke, ali ne sve istraživanja. Ako ćete raditi s Turkers, onda ima smisla za čitanje mnoge od tih komparativnih studija i razumjeti njihove nijanse.

Drugo, znanstvenici su razvili najbolje prakse za povećanje interne valjanosti turskih eksperimenata, i te bi trebao naučiti i slijediti ove najbolje prakse (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Na primjer, istraživači koriste Turkers se potiče na korištenje sita za uklanjanje nepažljiv sudionika (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (ali vidi i DJ Hauser and Schwarz (2015b) i DJ Hauser and Schwarz (2015a) ). Ako ne uklonite nepažljiv sudionika, a zatim bilo koji učinak liječenja može se ispiru buke uveden od nepažljiv sudionika, au praksi je broj nepažljiv sudionika može biti bitan. U eksperimentu Huber i kolege (2012) oko 30% ispitanika nije osnovna sita pozornost. Još jedan zajednički problem s Turkers je ne-naivni sudionika (Chandler et al. 2015) .

Treće, u odnosu na neke druge oblike digitalnih eksperimenata, MTurk eksperimenti ne mogu skalirati, Stewart et al. (2015) procjenjuje da u svakom trenutku ima tek nešto više od 7000 ljudi na MTurk.

Konačno, trebali biste znati da MTurk je zajednica s vlastitim pravilima i normama (Mason and Suri 2012) . Na isti način na koji biste pokušati saznati o kulturi zemlje u kojoj ste bili će se izvoditi eksperimente, trebali biste pokušati saznati više o kulturi i normama Turkers (Salehi et al. 2015) . A, ti bi trebao znati da su Turkers će se govoriti o svom eksperimentu ako nešto neprimjereno ili neetičko (Gray et al. 2016) .

MTurk je nevjerojatno zgodan način da se regrutirati sudionike da svoje eksperimente, bilo da su laboratorijske slično, kao što je Huber, Hill, and Lenz (2012) , ili više područja kao što su, kao što je Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , a Mao et al. (2016) .

  • Izgradite svoj ​​vlastiti proizvod (točka 4.5.1.3)

Ako ste mislili da pokušava stvoriti svoj ​​vlastiti proizvod, preporučujem da pročitate savjete ponudio grupe MovieLens u Harper and Konstan (2015) . Ključni uvid iz njihovog iskustva je da je za svaki uspješan projekt postoji mnogo, mnogo neuspjeha. Na primjer, MovieLens grupa pokrenula i druge proizvode kao što su GopherAnswers koji su bili potpuni neuspjeh (Harper and Konstan 2015) . Drugi primjer istraživač nedostatku dok je pokušavao izgraditi proizvod je Edwarda Castronova pokušaj izgraditi online igra zove Arden. Unatoč 250.000 $ u financiranju, projekt je bio neuspjeh (Baker 2008) . Projekti poput GopherAnswers i Arden nažalost puno više zajedničkog nego projekte kao što MovieLens. Na kraju, kada sam rekao da nije znao za bilo koji drugi istraživači koji su uspješno izgradili proizvoda za višekratnu eksperimentiranja evo moje kriterije: 1) Sudionici koristiti proizvod zbog onoga što im pruža (npr, oni nisu plaćeni i nisu volonteri pomažu znanost) i 2) je proizvod koristiti za više od jednog posebnog pokusa (tj nije isti eksperiment više puta s različitim sudionicima bazenima). Ako znate za druge primjere, molim javite mi.

  • Partner moćnijeg (točka 4.5.2)

Čuo sam ideju Pasteurovog kvadrant često raspravljalo na tech tvrtki, a to pomaže organizirati istraživačke napore na Googleu (Spector, Norvig, and Petrov 2012) .

Bond i kolega studija (2012) također pokušava otkriti učinak tih tretmana na prijatelje onih koji su ih primili. Zbog dizajnu eksperimenta, te prelijevanja se teško otkriva čisto; zainteresirani čitatelji trebali vidjeti Bond et al. (2012) za temeljitije rasprave. Ovaj eksperiment je dio duge tradicije eksperimenata u političkoj znanosti o naporima za poticanje glasovanje (Green and Gerber 2015) . Ove get-out-the-glas eksperimenti su uobičajene dijelom i zbog toga što su u Pasteurovog kvadrant. To jest, postoji mnogo ljudi koji su motivirani za povećanje glasovanje i glasovanje mogu biti zanimljivo ponašanje za testiranje općenitije teorije o promjeni ponašanja i društvenog utjecaja.

Drugi istraživači su dali savjete o pokretanju pokusima s partnerskim organizacijama kao što su političke stranke, nevladine organizacije i poduzeća (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Drugi su ponudili savjete o tome kako partnerstva s organizacijama može utjecati istraživačke projekte (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerstvo također može dovesti do etičkih pitanja (Humphreys 2015; Nickerson and Hyde 2016) .

  • Dizajn savjet (Poglavlje 4.6)

Ako ćete stvoriti analizu plana prije nego što se izvodi eksperiment, predlažem da počnete čitajući smjernice za izvješćivanje. Ortak (Konsolidirani Standardna Iskazivanje suđenja) smjernice razvijene su u medicini (Schulz et al. 2010) i modificirani za društvena istraživanja (Mayo-Wilson et al. 2013) . Slična set smjernica je razvijen od strane urednika časopisa Journal of Experimental političkih znanosti (Gerber et al. 2014) (vidi također Mutz and Pemantle (2015) i Gerber et al. (2015) ). Konačno, Smjernice za izvještavanje o razvili su se u psihologiji (Group 2008) , a vidi i Simmons, Nelson, and Simonsohn (2011) .

Ako izradite plan analize razmislite o tome da prije registracije, jer pre-registracija će povećati povjerenje da i drugi imaju u vašim rezultatima. Nadalje, ako rade s partnerom, to će ograničiti partnerovu sposobnost za promjenu analizu nakon što je vidio rezultate. Registracija je sve češći u psihologiji (Nosek and Lakens 2014) , političke znanosti (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , i ekonomija (Olken 2015) .

Tijekom izrade pre-analize plana trebali biti svjesni da neki istraživači koriste regresije i srodne pristupe za poboljšanje preciznost u procjeni učinka liječenja, a tu je neki rasprava o ovom pristupu: Freedman (2008) , Lin (2013) , te Berk et al. (2013) ; vidi Bloniarz et al. (2016) za više informacija.

Dizajn savjet posebno za online pokusima na terenu također je prikazan u Konstan and Chen (2007) i Chen and Konstan (2015) .

  • Stvaranje nula varijabilnih podataka o troškovima (točka 4.6.1)

Za više informacija o eksperimentima MusicLab, vidi Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , a Salganik (2007) . Za više informacija o pobjednika-take-svim tržištima, vidi Frank and Cook (1996) . Za više informacija o untangling sreće i vještine općenito, vidi Mauboussin (2012) , Watts (2012) i Frank (2016) .

Postoji još jedan pristup za otklanjanje uplate sudionika koji istraživači trebaju koristiti s oprezom: novačenje. U mnogim online pokusima sudionici u osnovi se izrađuju u eksperimentima i nikad nadoknaditi. Primjeri ovog pristupa su Restivo i van de Rijtkroz-a (2012) eksperiment na nagradama u Wikipediji i Bond i kolege (2012) eksperimentu na poticanje ljudi da glasaju. Ovi eksperimenti ne stvarno imati nultu varijabilni trošak, oni su nula varijabilni trošak za istraživača. Iako je cijena mnogi od tih eksperimenata je vrlo mala svakom sudioniku, mali troškovi nametnuti ogroman broj sudionika mogu se brzo dodati. Istraživači sa sustavom masivne online eksperimente često opravdava važnost malih procijenjenih učinaka liječenja tvrdnjom da su ti mali efekti mogu postati važno kada se primjenjuju na mnoge ljude. Isti razmišljanje vrijedi i za troškove koje su istraživači nameću sudionika. Ako vaši eksperimenti uzrokuje milijun ljudi gubiti jednu minutu, eksperiment nije vrlo štetan za bilo koju određenu osobu, ali sveukupno je izgubljeno gotovo dvije godine vremena.

Drugi pristup stvaranju nula promjenjive plaćanje troškova sudionicima je koristiti lutrija, pristup koji je također bio korišten u anketama (Halpern et al. 2011) . Konačno, za više o projektiranju ugodne korisnik-iskustvo vidjeti Toomim et al. (2011) .

  • Zamijeni, poboljšati, i smanjiti (odjeljak 4.6.2)

Ovdje su originalni definicije tri R, od Russell and Burch (1959) :

"Zamjena znači ulazak za svjesnih živih viših životinja neosjetljivog materijala. Smanjenje znači smanjenje broja životinja koje se koriste za dobivanje informacija o određenom količinom i preciznošću. Profinjenost znači bilo smanjenje učestalosti ili ozbiljnosti nehumanih postupaka koji se primjenjuju na one životinje koje još treba koristiti. "

Tri R koji predlažem ne poništavaju etičkih načela opisanih u poglavlju 6. Umjesto toga, oni su više razrađen verzija jednog od onih načela-dobrotvornost-posebno za postavljanje ljudskih eksperimenata.

Kada se s obzirom emocionalne zaraze, postoje tri ne-etička pitanja treba imati na umu prilikom tumačenja ovog eksperimenta. Prvo, nije jasno kako je stvarni detalji pokusa povezati s teorijskim zahtjevima; Drugim riječima, postoje pitanja o valjanosti konstrukta. Nije jasno je da su pozitivni i negativni riječ broji zapravo dobar pokazatelj emocionalno stanje sudionika, jer 1) nije jasno da su riječi koje ljudi post su dobar pokazatelj njihove emocije i 2) nije jasno da određeni sentiment analiza tehnika koja znanstvenici su koristili može pouzdano zaključiti emocije (Beasley and Mason 2015; Panger 2016) . Drugim riječima, da bi moglo biti loše mjerilo pristran signala. Drugo, dizajn i analiza pokusa govori nam ništa o tome tko je najviše utjecao (tj ne postoji analiza heterogenosti učinaka liječenja), a što je mehanizam može biti. U ovom slučaju, znanstvenici su imali puno informacija o sudionicima, ali oni su u biti tretirani kao clanak u analizi. Treće, veličina učinka u ovom eksperimentu bio je vrlo malen; razlika između uvjeta liječenja i kontrole je oko 1 na 1000 riječi. U svom radu, Kramer i kolege bi slučaju da je učinak ove veličine je važno, jer stotine milijuna ljudi pristupati im News Feed svaki dan. Drugim riječima, oni tvrde da čak i efekte koji su mali za svaku osobu su oni veliki u agregatu. Čak i ako ste bili prihvatiti ovaj argument, to još uvijek nije jasno da li je učinak ove veličine je važno s obzirom na još široj znanstvenoj pitanje o emocionalnom zaraze. Za više informacija o situacijama u kojima mali efekti su važni vidjeti Prentice and Miller (1992) .

Što se tiče prvog R (zamjena), uspoređujući Emocionalna zaraza eksperiment (Kramer, Guillory, and Hancock 2014) i emocionalne zaraze prirodni eksperiment (Coviello et al. 2014) nudi neke opće pouke o ustupke koji su uključeni u kreće od pokusi na prirodne pokusa (i drugim pristupima kao što podudaranje taj pokušaj ujednačavanja eksperimente u ne-eksperimentalnih podataka, vidi poglavlje 2). Osim etičkih prednosti, prebacivanje iz eksperimentalnih ne-eksperimentalnim studijama također omogućuje istraživačima da proučavaju tretmane koji su se logistički ne mogu rasporediti. Ove etičkih i logističke prednosti dolaze po cijeni, no. S prirodnim eksperimentima znanstvenici imaju manje kontrole nad stvarima kao što su pronalazak sudionika, randomizacije, i vrstu liječenja. Na primjer, jedan nedostatak je kiše kao tretman je da se i povećava pozitivnosti i negativnosti smanjuje. U eksperimentalnom istraživanju, međutim, Kramer i kolege bili su u mogućnosti prilagoditi pozitivnosti i negativnosti samostalno.

Posebno pristup koristi Coviello et al. (2014) dodatno je razrađen u Coviello, Fowler, and Franceschetti (2014) . Za uvod u instrumentalnih varijabli vidi Angrist and Pischke (2009) (manje formalna) ili Angrist, Imbens, and Rubin (1996) (više formalno). Za skeptičan ocjenu instrumentalnih varijabli vidi Deaton (2010) , a za uvod u instrumentalnih varijabli sa slabim instrumentima (kiša je slab instrument), vidi Murray (2006) .

Općenitije, dobar uvod u prirodnim eksperimentima je Dunning (2012) , a Rosenbaum (2002) , Rosenbaum (2009) , a Shadish, Cook, and Campbell (2001) daju dobre ideje o procjeni uzročno-posljedične učinke bez eksperimenata.

Što se tiče drugog R (Refinement), postoje znanstveni i logističke ustupke kada je s obzirom na promjenu dizajna emocionalne zaraze od blokiranja postove na jačanje postove. Na primjer, to može biti slučaj da je tehnička provedba News Feed čini da je znatno lakše učiniti eksperiment s blokiranjem postova, a ne eksperiment s poticanjem postove (imajte na umu da je eksperiment s blokiranjem postove mogao biti proveden kao sloj na vrh News Feed sustava bez potrebe za izmjenama temeljnog sustava). Znanstveno je, međutim, teorija obratili eksperimenta nije jasno ukazuju na jedan dizajn nad drugim.

Nažalost, ja nisam svjestan značajnog prethodnog istraživanja o relativnim zaslugama blokiranje i jačanje sadržaj u News Feed. Isto tako, nisam vidio mnogo istraživanja o pročišćavanju tretmane kako bi ih manje štetna; Jedini izuzetak je Jones and Feamster (2015) , koji smatra da je slučaj mjerenje internet cenzure (temu sam raspravljati u poglavlju 6 u odnosu na studiju Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Što se tiče trećeg R (smanjenje), dobar uvod u tradicionalnoj analizi snage je Cohen (1988) . kovarijable predobrade može biti uključen u fazi projektiranja i fazi analize eksperimenata; Poglavlje 4. Gerber and Green (2012) daje dobar uvod u oba pristupa i Casella (2008) pruža više in-dubina tretman. Tehnike koje koriste ove informacije prije tretmana u randomizacije obično nazivaju bilo blokirano eksperimentalne dizajne ili slojevitih eksperimentalne dizajne (terminologija ne koristi dosljedno u cijeloj zajednici); ove tehnike su duboko povezani s stratificiranom tehnike uzorkovanja je objašnjeno u poglavlju 3. Vidi Higgins, Sävje, and Sekhon (2016) Za više informacija o korištenju tih dizajna u masivnim eksperimentima. Kovarijable Pre-tretman također mogu biti uključeni u fazi analize. McKenzie (2012) istražuje razlike-u-razlika pristup analizi pokusa na terenu detaljnije. Pogledajte Carneiro, Lee, and Wilhelm (2016) više na kompromise između različitih pristupa za povećanje preciznosti u procjenama učinaka liječenja. Na kraju, kada se odlučuje hoće li se pokušati uključiti kovarijable prethodno liječenje u dizajnu ili fazi analize (ili oboje), postoji nekoliko čimbenika kako bi uzeti u obzir. U okruženju u kojem su istraživači žele pokazati da oni nisu "ribolov" (Humphreys, Sierra, and Windt 2013) , koristeći kovarijable pre-tretman u fazi projektiranja može biti korisno (Higgins, Sävje, and Sekhon 2016) . U situacijama u kojima sudionici dolaze u nizu, pogotovo online pokusima, koristeći podatke prije liječenja u fazi projektiranja može biti teško logistički, vidi na primjer Xie and Aurisset (2016) .

Dodajmo malo intuicije o tome zašto je razlika-u-razlika može biti toliko puno učinkovitiji od razlika-u-sredstvima. Mnogi online rezultati imaju vrlo visoke varijanca (vidi npr Lewis and Rao (2015) i Lamb et al. (2015) ) i relativno su stabilni tijekom vremena. U tom slučaju, rezultat promjena će imati znatno manje varijance, povećavajući snagu statističkog testa. Jedan od razloga to približio se ne koristi češće je da je prije digitalnog doba nije bilo uobičajeno da imaju rezultate prethodnog tretmana. Više konkretan način razmišljati o tome je zamisliti eksperiment za mjerenje li određeni vježbe rutinu uzrokuje gubitak težine. Ako to ne učinite pristup razlika-u-sredstvima, vaša procjena će imati varijabilnost koja dolazi iz varijabilnosti težine u populaciji. Ako to ne učinite pristup razlika-u-razlike, međutim, da je prirodno pojavljuje razlika u težinama dobiva uklonjen i možete lakše detektirati razliku uzrokovane liječenje.

Jedan važan način da se smanji broj sudionika u eksperimentu je provesti analizu snaga, koja Kramer i kolege mogao učiniti na temelju veličine učinak opažen od prirodnog eksperimenta by Coviello et al. (2014) ili ranije ne-eksperimentalni istraživački by Kramer (2012) (u stvari to su aktivnosti na kraju ovog poglavlja). Primijetite da je ova upotreba analize snage je malo drugačija od tipično. U analognom dobu, znanstvenici su uglavnom radili analizu snage kako bi bili sigurni da je njihova studija nije bila premala (tj pod-pogon). Sada, međutim, znanstvenici bi trebali napraviti analizu snage kako bi bili sigurni da je njihova studija nije prevelika (tj, više-pogon).

Naposljetku, smatrao sam dodao četvrtine R: prenamjena. To jest, ako znanstvenici nađu s više eksperimentalnih podataka nego što je potrebno za rješavanje njihov izvorni znanstveni pitanje, oni bi trebali prenamijeniti podatke postavljati nova pitanja. Na primjer, zamislite da Kramer i njegovi kolege koristili razlika-u-razlika za procjenu i našao se s više podataka nego što je potrebno za rješavanje njihovo pitanje istraživanja. Umjesto da se ne koristi podatke u najvećoj mjeri, mogli su proučavali veličinu učinka u funkciji do predobrade izražavanje emocija. Jednako Schultz et al. (2007) je utvrdio da je učinak liječenja bio je različit za lake i teške korisnika, možda učinci News Feed bili različiti za ljude koji su već skloni da objavite sretne (ili tužna) poruke. Izmjena svrhe može dovesti do "ribolov" (Humphreys, Sierra, and Windt 2013) i "p-sjeckanje" (Simmons, Nelson, and Simonsohn 2011) , ali to su uglavnom adresabilni s kombinacijom pošten izvještavanja (Simmons, Nelson, and Simonsohn 2011) , pre-registracija (Humphreys, Sierra, and Windt 2013) , te metode strojnog učenja koji pokušavaju da se izbjegne prekomjerno dolikuje.