dalje komentar

Ovaj dio je dizajniran da se koristi kao referenca, a ne da se čita kao narativ.

  • Uvod (Sekcija 4.1)

Pitanja o uzročnosti u društvenim istraživanjima su često složene i zamršene. Za temeljni pristup uzročnosti na osnovu uzročne grafikona, pogledajte Pearl (2009) , kao i za temeljni pristup zasnovan na potencijalne ishode, pogledajte Imbens and Rubin (2015) (i tehnički dodatak u ovom poglavlju). Za usporedbu između ova dva pristupa, pogledajte Morgan and Winship (2014) . Za formalni pristup definisanje confounder, pogledajte VanderWeele and Shpitser (2013) .

U poglavlju, stvorio sam ono što se činilo kao svijetle linije između našu sposobnost da kauzalne procjene iz eksperimentalnih i ne-eksperiment podataka. U stvarnosti, mislim da je razlika je blurrier. Na primjer, svi prihvataju da pušenje uzrokuje rak, iako nikada nismo uradili randomizovanih eksperiment koji prisiljava ljude da puše. Za odličan dužina knjiga tretmane na izradi procjene uzročna od ne-eksperimentalni podaci vidjeti Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , i Dunning (2012) .

Poglavlja 1 i 2 Freedman, Pisani, and Purves (2007) nude jasan uvod u razlike između eksperimenata, kontrolisanih eksperimenata, i randomizirane kontrolirane eksperimente.

Manzi (2012) daje fascinantan i čitljiv uvod u filozofsko i statističke osnove randomiziranih eksperimenata. Ona također pruža zanimljiv primjera iz stvarnog svijeta moći eksperimentisanja u poslovanju.

  • Šta su eksperimenti? (Odjeljak 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) pružaju dobar uvod u statističke aspekte eksperimentalnog dizajna i analize. Nadalje, postoje odlični tretmani upotrebe eksperimenata u mnogim različitim područjima: ekonomija (Bardsley et al. 2009) , Sociologije (Willer and Walker 2007; Jackson and Cox 2013) , psihologije (Aronson et al. 1989) , Političkih znanosti (Morton and Williams 2010) , i socijalne politike (Glennerster and Takavarasha 2013) .

Značaj zapošljavanja učesnika (npr uzorkovanje) je često nedovoljno cijenjen u eksperimentalnim istraživanjima. Međutim, ako je heterogena u populaciji efekat tretmana, onda uzorkovanje je kritična. Longford (1999) jasno daje ovom trenutku kada je on zalaže za istraživače razmišljanja eksperimenata kao anketa stanovništva nasumična uzorkovanja.

  • Dvije dimenzije eksperimenata: Lab-polje i analogno-digitalni (Sekcija 4.3)

Dihotomija koje sam predstavio između laboratoriju i na terenu eksperimente je malo pojednostavljena. U stvari, drugi istraživači su predložili detaljnije tipologije, posebno one koje razdvajaju različite oblike eksperimenata na terenu (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Nadalje, postoje i druge dvije vrste eksperimenata obavlja sociolozi koji se uredno ne uklapaju u laboratoriju i na terenu dihotomije:. Eksperimenti istraživanje i socijalne eksperimenti eksperimenti Ankete su eksperimenti koriste infrastrukturu postojećih istraživanja i usporedite odgovore na alternativne verzije ista pitanja (neki eksperimenti istraživanja predstavljeni su u poglavlju 3); Za više informacija o eksperimentima ankete vidjeti Mutz (2011) . Društveni eksperimenti su eksperimenti u kojima je tretman nekih socijalnih politika koje se mogu provesti samo od strane vlade. Društveni eksperimenti su usko vezani za programiranje evaluacije. Za više informacija o eksperimentima politike, pogledajte Orr (1998) , Glennerster and Takavarasha (2013) , i Heckman and Smith (1995) .

A broj radova su u odnosu laboratoriju i na terenu eksperimente u apstraktnom (Falk and Heckman 2009; Cialdini 2009) i u pogledu ishoda određenih eksperimenata političkih nauka (Coppock and Green 2015) , ekonomija (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) i psihologije (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) nudi lijep dizajn istraživanja za poređenje rezultata iz laboratorija i polje eksperimente.

Zabrinutost zbog učesnika mijenjaju svoje ponašanje, jer znaju da se pažljivo pratiti se ponekad nazivaju efekti potražnje, a oni su studirali u psihologiji (Orne 1962) i ekonomija (Zizzo 2009) . Iako je uglavnom povezana sa Lab eksperimentima, te ista pitanja može uzrokovati probleme za eksperimente na terenu, kao i. U stvari, efekti potražnja se također ponekad naziva Hawthorne efekte, termin koji potiče iz oblasti eksperimenta, posebno poznati osvjetljenje eksperimenata koji je počeo 1924. godine u Hawthorne Radovi Western Electric Company (Adair 1984; Levitt and List 2011) . Oba efekta potražnje i glog efekti su usko povezani sa idejom reaktivne mjerenja raspravlja u poglavlju 2 (vidi također Webb et al. (1966) ).

Istorija eksperimenata polje je opisan u ekonomiji (Levitt and List 2009) , političkih znanosti (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psihologije (Shadish 2002) , i javne politike (Shadish and Cook 2009) . Jedno područje društvenih znanosti, gdje eksperimenti na terenu vrlo brzo postao ugledni je međunarodni razvoj. Za pozitivnu reviziju tog rada u ekonomiji vide Banerjee and Duflo (2009) , kao i za kritičku procjenu vidjeti Deaton (2010) . Za pregled ovog rada u političke nauke vidjeti Humphreys and Weinstein (2009) . Konačno, etički izazovi su uključeni s eksperimentima na terenu su istraženi u političke nauke (Humphreys 2015; Desposato 2016b) i razvoj ekonomije (Baele 2013) .

U poglavlju, predložio sam da se informacije pre-tretman se može koristiti za poboljšanje preciznosti procjenjuje efekte tretmana, ali postoji neka rasprava o ovom pristupu: Freedman (2008) , Lin (2013) , i Berk et al. (2013) ; vidi Bloniarz et al. (2016) za više informacija.

  • Moving izvan jednostavnih eksperimenata (Sekcija 4.4)

Ja sam izabrao da se fokusira na tri koncepta: validnost, heterogenost efekata tretmana, i mehanizama. Ovi koncepti imaju različita imena u različitim oblastima. Na primjer, psiholozi imaju tendenciju da prevaziđe jednostavnih eksperimenata fokusiranjem na medijatora i moderatora (Baron and Kenny 1986) . Ideja medijatora je zarobljen od strane ono što ja zovem mehanizme, a ideja moderatora je zarobljen od strane ono što ja zovem vanjski valjanost (npr, da li bi rezultati eksperimenta biti drugačija ako je rade u različitim situacijama) i heterogenost efekata tretmana ( npr, su efekti veći za neke ljude od drugih ljudi).

Eksperiment od Schultz et al. (2007) pokazuje kako društvene teorije mogu se koristiti za izradu efikasne intervencije. Za više opšti argument o ulozi teorije u dizajniranju efikasne intervencije, pogledajte Walton (2014) .

  • Valjanost (Poglavlje 4.4.1)

Koncepti internih i eksternih valjanost su prvi put uvedeni u Campbell (1957) . Vidi Shadish, Cook, and Campbell (2001) za detaljniju povijest i pažljivo izradu statističkih valjanosti zaključka, interne valjanosti, izgraditi valjanost, i vanjski valjanost.

Za pregled pitanja koja se odnose na statističke valjanosti zaključka u eksperimentima vidi Gerber and Green (2012) (za perspektive društvenih nauka) i Imbens and Rubin (2015) (za statističke perspektive). Neka pitanja statističkih valjanosti zaključka da se javljaju posebno u oblasti eksperimentima online uključuju pitanja kao što su računski efikasne metode za stvaranje intervala pouzdanosti sa maloljetnom podataka (Bakshy and Eckles 2013) .

Interna važenja može biti teško osigurati u složenim eksperimentima na terenu. Vidi, na primjer, Gerber and Green (2000) , Imai (2005) , i Gerber and Green (2005) za raspravu o implementaciji kompleksnog polja eksperiment o glasanju. Kohavi et al. (2012) i Kohavi et al. (2013) daju uvod u izazovima važenja intervala u polju eksperimentima online.

Jedna od glavnih briga s unutrašnjim važnosti je problema sa randomizacije. Jedan od načina da potencijalno otkriti probleme sa randomizacije je da se uporedi grupe tretman i kontrolu na vidljivih osobina. Ova vrsta poređenja se zove ček ravnotežu. Vidi Hansen and Bowers (2008) za statistički pristup da uravnoteži provjere, i vidjeti Mutz and Pemantle (2015) za zabrinutost zbog ravnoteže provjere. Na primjer, koristeći ravnotežu provjeriti Allcott (2011) je utvrdio da postoje neki dokazi da je randomizacije nije pravilno implementiran u tri eksperimenta u nekim eksperimentima OPower (vidi tabelu 2; stranicama 2, 6, i 8). Za drugi pristupi, pogledajte Imbens and Rubin (2015) , poglavlje 21.

Ostali glavni problemi koji se odnose na interne valjanosti su: 1) jednostrano nepoštivanja, gdje nisu svi u grupi tretman zapravo dobila tretman, 2) dvostrani neusklađenosti, gdje nisu svi u grupi tretman prima tretman, a neki ljudi u kontrolnoj grupi primiti tretman, 3) trenje, gdje se rezultati ne mjeri za neke učesnike, i 4) smetnje, gdje je tretman preliva od ljudi u stanju tretman ljudi u kontroli stanju. Vidi Gerber and Green (2012) Poglavlja 5, 6, 7, i 8 za više informacija o svakom od ovih pitanja.

Za više informacija o valjanosti konstrukta, pogledajte Westen and Rosenthal (2003) , a za više informacija o valjanosti konstrukta u velikim izvorima podataka, Lazer (2015) i Poglavlje 2 ove knjige.

Jedan aspekt vanjske valjanosti je postavka na kojoj je testiran intervencija. Allcott (2015) pruža pažljivo teorijskih i empirijskih tretman odabir lokacije pristrasnosti. Ovo pitanje se raspravlja u Deaton (2010) . Pored toga što je replicirati u mnogim lokacijama, u Početna Prijavite energije intervencija je također samostalno proučavali više istraživačkih grupa (npr Ayres, Raseman, and Shih (2013) ).

  • Heterogenost terapijskog efekta (Odjeljak 4.4.2)

Za odličan pregled heterogenosti efekata tretmana u eksperimentima na terenu, pogledajte Poglavlje 12 Gerber and Green (2012) . Za uvod u heterogenosti efekata tretmana u medicinskim ispitivanjima, pogledajte Kent and Hayward (2007) , Longford (1999) , i Kravitz, Duan, and Braslow (2004) . Heterogenost efekata tretmana uglavnom se fokusiraju na razlike na osnovu karakteristika predtretman. Ako ste zainteresirani za heterogenost na osnovu rezultata nakon liječenja, a zatim složenije approachs su potrebni, kao što su glavni stratifikacija (Frangakis and Rubin 2002) ; vidi Page et al. (2015) za pregled.

Mnogi istraživači procjenjuju heterogenost efekata tretmana pomoću linearne regresije, ali novija metoda se oslanja na učenje stroj, na primjer Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , i Athey and Imbens (2016a) .

Postoji neka skepticizam o nalazima heterogenosti efekata zbog više problema nego i "ribolov." Postoji niz statističkih pristupa koji mogu pomoći adresa zabrinutost zbog višestrukih odnosu (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Jedan pristup zabrinutost zbog "ribolov" je pre-registracija, koji je sve češća pojava u psihologiji (Nosek and Lakens 2014) , političkih znanosti (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) i ekonomija (Olken 2015) .

U studiji Costa and Kahn (2013) samo oko polovine domaćinstava u eksperimentu su mogli da budu povezani sa demografske informacije. Čitaoci interesuju detalji i moguće probleme sa ove analize bi trebalo da pogledaju originalni papir.

  • Mehanizmi (Poglavlje 4.4.3)

Mehanizmi su izuzetno važni, ali oni se ispostaviti da vrlo teško za proučavanje. Istraživanje o mehanizmima usko vezana za proučavanje posrednika u psihologiji (ali vidi i VanderWeele (2009) za precizno poređenje između dvije ideje). Statistički pristupa pronalaženju mehanizama, kao što je pristup razvijen u Baron and Kenny (1986) , su prilično uobičajene. Nažalost, ispostavilo se da su ti postupci ovise o nekim jakim pretpostavkama (Bullock, Green, and Ha 2010) i pate kada postoji više mehanizama, kao što bi se moglo očekivati ​​u mnogim situacijama (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) i Imai and Yamamoto (2013) nude neke poboljšane statističke metode. Nadalje, VanderWeele (2015) nudi tretman knjigu dužine s niz važnih rezultata, uključujući i sveobuhvatan pristup analizi osjetljivosti.

Poseban pristup se fokusira na eksperimente koji pokušavaju da manipulišu mehanizam direktno (npr davanje mornara vitamin C). Na žalost, u mnogim sredinama društvenih nauka često postoje višestruke mehanizme i teško je dizajnirati tretmana koji promijeniti jedan bez promjene drugih. Neki pristupi eksperimentalno izmjenu mehanizmi su opisani u Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , i Pirlott and MacKinnon (2016) .

Konačno, mehanizmi također imaju dugu povijest u filozofiji znanosti kao što je opisano od strane Hedström and Ylikoski (2010) .

  • Korištenje postojećih okruženja (Odjeljak 4.5.1.1)

Za više informacija o upotrebi korespondencije studije i studije revizije za mjerenje diskriminacije vidjeti Pager (2007) .

  • Izgradite svoj ​​eksperiment (Odjeljak 4.5.1.2)

Najčešći način da zaposli učesnici eksperimenata koje gradimo je Amazon Mechanical Turk (MTurk). Jer MTurk oponaša aspekte tradicionalne Lab eksperimenata plaćaju ljude da završe zadatke koje oni ne bi uradili za slobodne mnogi istraživači su već počeli da koriste Turkers (radnici na MTurk) kao učesnici u ljudskim subjektima eksperimentima je rezultiralo brže i jeftinije prikupljanje podataka od tradicionalnih laboratorijskim eksperimentima na kampusu (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Najveći snagu eksperimenata sa učesnicima regrutirao iz MTurk su logističke: oni omogućiti istraživačima da brzo i po potrebi zaposliti učesnika. Dok Lab eksperimenti mogu uzeti tjedna pokrenuti i eksperimente na terenu može potrajati mjeseci do set-up, eksperimente sa učesnicima regrutirao iz MTurk može raditi u danima. Na primjer, Berinsky, Huber, and Lenz (2012) bili u mogućnosti da zaposli 400 predmeta u jednom danu da učestvuju u 8 minuta eksperiment. Nadalje, ovi učesnici mogu biti zaposleni za gotovo bilo koju svrhu (uključujući istraživanja i masovne suradnje, kao što je objašnjeno u poglavljima 3 i 5). Ova jednostavnost zapošljavanja znači da istraživači mogu pokrenuti sekvenci srodnih eksperimenata u brzom slijedu.

Prije regrutovanje učesnika iz MTurk za svoje eksperimente, postoje četiri važne stvari koje treba znati. Prvo, mnogi istraživači imaju nespecifičnog skepticizam eksperimenata koji uključuju Turkers. Jer ovo skepticizam nije specifičan, teško je da se suprotstavi sa dokazima. Međutim, nakon nekoliko godina studija koristeći Turkers, sada možemo zaključiti da je ovaj skepticizam nije posebno potrebno. Bilo je mnogo studija u odnosu na demografiju Turkers drugim populacijama i mnoge studije poređenje rezultata eksperimenata sa Turkers rezultatima iz drugih populacija. S obzirom na sve to posao, mislim da je najbolji način za vas da razmislite o tome da Turkers su razumni pogodnost uzorak, baš kao studenti, ali malo više raznolik (Berinsky, Huber, and Lenz 2012) . Stoga, kao što su učenici razuman stanovništva za neke, ali ne sve eksperimentalnih istraživanja, Turkers su razumno stanovništvo za neke, ali ne i sva istraživanja. Ako se ide na posao sa Turkers, onda ima smisla za čitanje mnoge od tih komparativnih studija i razumiju njihove nijanse.

Drugo, istraživači su razvili najbolje prakse za povećanje interne valjanosti Turk eksperimenata, i trebalo bi da se upoznaju i slijedite ove najbolje prakse (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Na primjer, istraživači koristeći Turkers se preporučuje da koriste sita za uklanjanje nepažljiv učesnika (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (ali vidi i DJ Hauser and Schwarz (2015b) i DJ Hauser and Schwarz (2015a) ). Ako ne uklonite nepažljiv učesnika, onda nikakvog efekta tretmana može se oprati od buke uveden od nepažljiv učesnika, au praksi je broj nepažljiv učesnika može biti značajan. U eksperiment Huber i kolege (2012) oko 30% ispitanika nije osnovnih pažnju sita. Drugi problem zajedno sa Turkers je non-naivna učesnika (Chandler et al. 2015) .

Treće, u odnosu na neke druge oblike digitalnih eksperimenata, MTurk eksperimenti ne mogu skalirati; Stewart et al. (2015) procjenjuje da u svakom trenutku ima samo oko 7.000 ljudi na MTurk.

Na kraju, treba da znate da MTurk je zajednica sa svojim pravilima i normama (Mason and Suri 2012) . Na isti način na koji bi pokušali da saznaju o kulturi zemlje u kojoj ste bili će pokrenuti svoj ​​eksperimente, trebalo bi da pokušaju da saznaju više o kulturi i normama Turkers (Salehi et al. 2015) . I, treba da znate da će Turkers govoriti o svom eksperimentu, ako radite nešto neprikladno ili nemoralno (Gray et al. 2016) .

MTurk je izuzetno zgodan način da zaposli učesnicima na eksperimente, da li su Lab-poput, kao što je Huber, Hill, and Lenz (2012) , ili više na terenu kao što je, kao što je Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , i Mao et al. (2016) .

  • Izgradite svoj ​​vlastiti proizvod (Odjeljak 4.5.1.3)

Ako razmišljate o pokušavaju stvoriti svoj ​​vlastiti proizvod, preporučujem da pročitate savjete koje nudi grupa MovieLens u Harper and Konstan (2015) . Ključni uvid iz svog iskustva je da je za svaki uspješan projekt ima mnogo, mnogo kvarova. Na primjer, MovieLens grupa pokrenula druge proizvode kao što su GopherAnswers koje su bile potpune kvarova (Harper and Konstan 2015) . Drugi primjer je istraživač koji ne dok je pokušavao da napravi proizvod je pokušaj Edward Kastronova da izgradi online igra pod nazivom Arden. Uprkos $ 250.000 sredstava, projekt je bio flop (Baker 2008) . Projekti poput GopherAnswers i Arden su, nažalost, mnogo više zajedničkog nego projekata poput MovieLens. Na kraju, kad sam rekao da nije znao za bilo koji drugi istraživači koji je uspješno izgradio proizvoda za ponovljene eksperimente ovdje su moji kriteriji: 1) učesnici koriste proizvod zbog onoga što im pruža (npr, nisu plaćeni i nisu volonteri pomažući nauka) i 2) proizvod se koristi za više od jedne različita eksperimenta (tj, nije isto eksperiment više puta sa različitim učesnik bazena). Ako znate za druge primjere, molim vas javite mi.

  • Partner sa snažnim (Odjeljak 4.5.2)

Čuo sam ideju Pasteur je kvadrantu raspravlja često na tehnološke kompanije, i to pomaže organizirati istraživačke napore u Googleu (Spector, Norvig, and Petrov 2012) .

Studija kolega Bond i (2012) i pokušava da otkrije efekat ovih tretmana na prijatelje onih koji su ih primili. Zbog dizajna eksperimenta, te prelivanja je teško otkriti čisto; zainteresovani čitaoci treba vidjeti Bond et al. (2012) za detaljniju raspravu. Ovaj eksperiment je dio duge tradicije eksperimenata u političke nauke na napore da podstakne glasanje (Green and Gerber 2015) . Ovi eksperimenti get-out-the-glasanje su uobičajene u dijelu, jer su u Pasteur je kvadrantu. To je, ima mnogo ljudi koji su motivirani da se poveća glasanja i glasanje mogu biti zanimljiva ponašanje testirati više općih teorija o promjeni ponašanja i društveni uticaj.

Ostali istraživači su pružili savjete o vođenju eksperimenata na terenu sa partnerskim organizacijama, kao što su političke stranke, nevladine organizacije, i biznisa (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Drugi su ponudili savjete o tome kako partnerstva s organizacijama mogu utjecati istraživanja dizajna (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerstvo također može dovesti do etičkih pitanja (Humphreys 2015; Nickerson and Hyde 2016) .

  • Dizajn savjet (Sekcija 4.6)

Ako će stvoriti plan analizu prije pokretanja eksperiment, predlažem da počnete čitajući smjernice izvještavanja. The CONSORT (Konsolidovani Standarda izvještavanja suđenja) smjernice su razvijene u medicini (Schulz et al. 2010) i modifikovani za društvena istraživanja (Mayo-Wilson et al. 2013) . Srodno set smjernica je razvijen od strane urednika časopisa Journal of Experimental političkih nauka (Gerber et al. 2014) (vidi također Mutz and Pemantle (2015) i Gerber et al. (2015) ). Na kraju, smjernice izvještavanja su razvijeni u psihologiji (Group 2008) , a vidi i Simmons, Nelson, and Simonsohn (2011) .

Ako napravite plan analize trebalo bi da razmislite pre-registraciju, jer će pred-registraciju povećati povjerenje koje drugi imaju u svojim rezultatima. Osim toga, ako radite sa partnerom, to će ograničiti sposobnost vašeg partnera da promeni analizu nakon što je vidio rezultate. Pre-registracija je sve češća pojava u psihologiji (Nosek and Lakens 2014) , političkih znanosti (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , i ekonomija (Olken 2015) .

Dok kreiranje plan pred-analiza trebalo bi biti svjesni da neki istraživači koriste i regresije i srodnih pristupa za poboljšanje preciznosti procjenjuje učinak tretmana, a tu je i nekoliko rasprava o ovom pristupu: Freedman (2008) , Lin (2013) , i Berk et al. (2013) ; vidi Bloniarz et al. (2016) za više informacija.

Dizajn savjete posebno za polje eksperimente online je predstavljena u Konstan and Chen (2007) i Chen and Konstan (2015) .

  • Napravite nula varijabilni podaci o troškovima (Odjeljak 4.6.1)

Za više informacija o eksperimentima MusicLab, pogledajte Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , i Salganik (2007) . Za više informacija o pobednik nosi sve tržištima, pogledajte Frank and Cook (1996) . Za više informacija o rasplet, sreće i vještina općenito, pogledajte Mauboussin (2012) , Watts (2012) , i Frank (2016) .

Postoji još jedan pristup eliminacije plaćanja učesnik koji istraživači treba koristiti s oprezom: regrutaciju. U mnogim online polje eksperimenti učesnici su u osnovi izrađeni u eksperimentima i nikada nadoknaditi. Primjeri ovog pristupa uključuju Restivo i van de Rijt a (2012) eksperiment na nagrade u Wikipediji i Bond i kolege (2012) eksperiment na podsticanje ljudi da glasaju. Ovi eksperimenti stvarno ne imati nula varijabilnih troškova, oni imaju nula varijabilnih troškova za istraživače. Iako je trošak mnoge od ovih eksperimenata je izuzetno mali za svakog učesnika, mali troškovi nametnuti ogroman broj učesnika može dodati brzo. Istraživači radi masivne online eksperimenti često opravdavaju važnost malih efekata procijenjene tretman govoreći da su ovi mali efekti mogu postati važno kada se primjenjuju na mnoge ljude. U isto razmišljanje se odnosi na troškove koji istraživači nameću učesnika. Ako vaš eksperimenata izaziva milion ljudi za gubljenje jedne minute, eksperiment nije baš štetan za neku posebnu osobu, ali u ukupnom je propao skoro dvije godine vremena.

Drugi pristup stvaranju nula varijabilni plaćanje troškova učesnicima je koristiti lutriji, pristup koji je također koristi u istraživanju (Halpern et al. 2011) . Konačno, za više o dizajniranju ugodnijim korisnički iskustva vidi Toomim et al. (2011) .

  • Zamijenite, Detaljnija, i ​​smanjiti (Odjeljak 4.6.2)

Evo originalne definicije tri R, iz Russell and Burch (1959) :

"Zamjena znači zamjena za svesno živi veći životinje bez moći opažanja materijala. Smanjenje znači smanjenje broja životinja koje se koriste za dobivanje informacija o datom i preciznosti. Usavršavanje znači bilo smanjenje u učestalosti ili ozbiljnosti nehumanim postupcima primjenjuje na one životinje koje tek treba da se koristi. "

Tri R koji predlažem ne nadjačati etičkih principa opisanih u Poglavlju 6. Umjesto toga, oni su detaljniji verziju jednog od tih principa-dobročinstvo-posebno za postavljanje ljudskog eksperimenata.

Prilikom razmatranja Emotional Contagion, postoje tri ne-etička pitanja treba imati na umu kada se tumače ovaj eksperiment. Prvo, nije jasno kako je stvarni detalje eksperimenta povezivanje na teorijske tvrdnje; Drugim riječima, postoje pitanja o valjanosti konstrukta. Nije jasno da su pozitivne i negativne riječi broji zapravo dobar pokazatelj emocionalno stanje učesnika, jer 1) nije jasno da je činjenica da su ljudi postaviti dobar pokazatelj svoje emocije i 2) nije jasno da određeni sentiment analiza tehnike koje istraživači su koristili je u stanju da pouzdano zaključiti emocije (Beasley and Mason 2015; Panger 2016) . Drugim riječima, možda postoji loš mjera pristrasan signala. Drugo, dizajn i analizu eksperimenta nam ništa o tome ko je najviše uticala (tj, ne postoji analiza heterogenosti efekata tretmana) i ono što bi mogao biti mehanizam govori. U ovom slučaju, istraživači su imali dosta informacija o učesnicima, ali su u suštini tretiraju kao widgeta u analizi. Treće, veličine efekta u ovom eksperimentu je vrlo mala; razlika između uvjeta tretmana i kontrole je oko 1 u 1.000 riječi. U svom radu, Kramer i kolege da slučaj da je učinak ove veličine je važno jer stotine miliona ljudi da pristupe svojim Novosti svaki dan. Drugim riječima, oni tvrde da čak i efekti koji su mali za svaku osobu su velike agregatne. Čak i ako ste bili prihvatiti ovaj argument, još uvijek nije jasno da li je važan efekat ove veličine u vezi s više opšte naučno pitanje o emocionalnom zaraze. Za više informacija o situacijama u kojima su mali efekti važno vidjeti Prentice and Miller (1992) .

Što se tiče prvog R (zamjena), u odnosu na Emotional Contagion eksperiment (Kramer, Guillory, and Hancock 2014) i emocionalne zaraze prirodni eksperiment (Coviello et al. 2014) nudi neke opšte lekcije o kompromisima uključeni kreće od eksperimenti prirodnim eksperimentima (i drugi pristupi poput odgovaraju da pokušaj da se približi eksperimenata u ne-eksperimentalnih podataka, vidi Poglavlje 2). Osim etičkih koristi, prebacivanje iz eksperimentalnih do neeksperimentalne studije također omogućava istraživačima da proučavaju tretmana koji su logistički mogućnosti za postavljanje. Ove etičke i logističke prednosti dolaze po cijeni, međutim. Sa prirodnim eksperimentima istraživači imaju manje kontrole nad stvarima kao što su zapošljavanje učesnika, randomizacije, i priroda liječenja. Na primjer, jedan ograničenje padavina kao tretman je u tome što i povećava pozitivnost i smanjuje negativnosti. U eksperimentalnoj studiji, međutim, Kramer i kolege su bili u mogućnosti da se prilagodi pozitivnosti i negativnosti samostalno.

Poseban pristup koriste Coviello et al. (2014) je razrađen u Coviello, Fowler, and Franceschetti (2014) . Za uvod u instrumentalnih varijabli vidjeti Angrist and Pischke (2009) (manje formalan) ili Angrist, Imbens, and Rubin (1996) (još formalno). Za skeptični procjena instrumentalnih varijabli vidi Deaton (2010) , a za uvod u instrumentalnih varijabli sa slabim instrumentima (kiša je slab instrument), pogledajte Murray (2006) .

Više općenito, dobar uvod u prirodnim eksperimentima je Dunning (2012) , i Rosenbaum (2002) , Rosenbaum (2009) , i Shadish, Cook, and Campbell (2001) pružaju dobre ideje o procjeni uzročna efekte bez eksperimenata.

Što se tiče drugog R (Poboljšanja), postoje i naučni i logističku kompromise kada se razmatra mijenja dizajn Emotional Contagion blokiraju poruke na povećanje poruke. Na primjer, to može biti slučaj da je tehnička implementacija News Feed čini znatno lakše učiniti eksperiment s blokiranjem poruke, a ne eksperiment s jačanju poruke (imajte na umu da je eksperiment s blokiranjem poruke mogu se implementirati kao sloj na vrhu News Feed sistema, bez ikakve potrebe za izmjene osnovnog sistema). Naučno, međutim, teorija obratio eksperiment nije jasno ukazuju na jedan dizajn u odnosu na druge.

Nažalost, ja nisam svjestan značajne prethodnog istraživanja o relativnim zaslugama blokiranja i povećanje sadržaja u News Feed. Isto tako, nisam vidio mnogo istraživanja o usavršavanju tretmanima kako bi ih manje štetna; jedan izuzetak je Jones and Feamster (2015) , koji smatra da je slučaj mjerenja Internet cenzure (tema mi raspravljati u Poglavlju 6 u odnosu na studiju Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Što se tiče trećeg R (smanjenje), dobar uvod u tradicionalnu analizu snaga je Cohen (1988) . Kovarijate Pre-tretman može biti uključen u fazi dizajna i fazu analize eksperimenata; Poglavlje 4 od Gerber and Green (2012) daje dobar uvod u oba pristupa, i Casella (2008) daje tretman detaljnije. Tehnike koje koriste ove informacije predtretman u randomizacije se obično naziva ili blokiran eksperimentalni dizajn ili slojevitog eksperimentalni dizajn (terminologija ne koristi dosljedno preko zajednice); ove tehnike su duboko odnose na stratifikovanog tehnike uzorkovanja u Poglavlju 3. V. Higgins, Sävje, and Sekhon (2016) za više o korištenju tih dizajna u masivnim eksperimentima. Kovarijate Pre-tretman se može uključiti u fazi analize. McKenzie (2012) istražuje pristup razlika-u-razlike u odnosu na analizu eksperimenata polje podrobnije. Vidi Carneiro, Lee, and Wilhelm (2016) za više na kompromise između različitih pristupa da se poveća preciznost u procjeni efekata tretmana. Na kraju, kada se odlučuje da li će pokušati uključiti kovarijate predtretman na dizajn ili analize fazi (ili oboje), postoji nekoliko faktora uzeti u obzir. U okruženju gdje istraživači žele da pokažu da nisu "ribolov" (Humphreys, Sierra, and Windt 2013) , koristeći kovarijeteti predtretman u fazi dizajn može biti od pomoći (Higgins, Sävje, and Sekhon 2016) . U situacijama u kojima učesnici stižu redom, eksperimente posebno online polje, koristeći informacije predtretman u fazi dizajna može biti teško logistički, pogledajte na primjer Xie and Aurisset (2016) .

Dodajmo malo intuicije o tome zašto razlika-u-razlike mogu biti mnogo efikasniji od razlika-u-sredstva. Mnogi online ishodi imaju veoma visoko varijacije (vidi npr, Lewis and Rao (2015) i Lamb et al. (2015) ) i da su relativno stabilni tokom vremena. U ovom slučaju, rezultat je promjena će imati znatno manje varijacije, povećavajući snagu statističkog testa. Jedan od razloga ovog prišao se ne koristi češće je da je prije digitalnog doba nije bilo uobičajeno da imaju ishode predtretman. Konkretniji način razmišljanja o tome je zamisliti eksperiment za mjerenje li određeni vježba rutinu uzrokuje gubitak težine. Ako radite pristup razlika-u-sredstvima, vaša procjena će imati varijabilnost koja dolazi iz varijabilnosti u težine u populaciji. Ako radite pristup razlika-u-razlika, međutim, da se prirodno varijacija u težinama dobiva uklonjena i možete lakše otkriti razlika uzrokovana tretman.

Jedan važan način da se smanji broj učesnika u eksperimentu je provesti analizu snaga, koji Kramer i kolege mogli da urade na osnovu veličine efekta posmatrano iz prirodnih eksperiment Coviello et al. (2014) ili ranije nisu eksperimentalno istraživanje Kramer (2012) (u stvari, to su aktivnosti na kraju ovog poglavlja). Imajte na umu da ova upotreba analize snage je malo drugačiji od tipičnih. U analognom dobu, istraživači su uglavnom radili analizu snaga kako bi bili sigurni da njihova studija nije bila mala (tj, pod-pogon). Sada, međutim, istraživači treba da uradi analizu snaga kako bi bili sigurni da njihova studija nije prevelika (tj, preko pogon).

Na kraju, smatrao sam dodajući četvrti R: prenamjena. To je, ako istraživači našli s više eksperimentalnih podataka nego što im je potrebno za rješavanje njihova originalna istraživanja pitanje, treba da prenamjena podatke da postavljaju nova pitanja. Na primjer, zamislite da Kramer i kolege su koristili procjenitelj razlika-u-razlike i našli sa više podataka nego što je potrebno za rješavanje svojih istraživanja pitanje. Umjesto da ne koristite podatke u najvećoj mogućoj mjeri, mogli su proučavali veličinu efekta kao funkciju predtretman emocionalni izraz. Baš kao što Schultz et al. (2007) je utvrdio da je učinak tretmana bio drugačiji za lake i teške korisnika, možda efekte News Feed bili različiti za ljude koji već liječi pisati sretni (ili sad) poruka. Prenamene bi moglo dovesti do "ribolov" (Humphreys, Sierra, and Windt 2013) i "P-hacking" (Simmons, Nelson, and Simonsohn 2011) , ali oni su uglavnom adresabilni sa kombinacijom poštenog izvještavanja (Simmons, Nelson, and Simonsohn 2011) , pred-registracija (Humphreys, Sierra, and Windt 2013) , i metode učenja stroj koji pokušavaju da izbegnu preko pripijene.