Ta del je namenjen za uporabo kot referenca, namesto da se glasi pripoved.
Vprašanja o vzročnosti v družbenem raziskave so pogosto kompleksna in zapletena. Za temeljno pristop k vzročnosti, ki temelji na vzročno grafov, glej Pearl (2009) , in za temeljno pristop, ki temelji na možnih izidov, glej Imbens and Rubin (2015) (in tehnično prilogo v tem poglavju). Za primerjavo med tema dvema pristopoma, glej Morgan and Winship (2014) . Za formalnega pristopa k opredelitvi confounder glej VanderWeele and Shpitser (2013) .
V poglavju, sem ustvaril kar se je zdelo kot svetlo črto med naše sposobnosti, da bi vzročnih ocen iz eksperimentalnih in ne-eksperimentalnih podatkov. V resnici, mislim, da je razlikovanje blurrier. Na primer, vsakdo priznava, da kajenje povzroča raka, čeprav še nismo opravili randomizirano kontrolirano poskus, zaradi katerega ljudje kadijo. Za odlične dolžine knjiga zdravljenja za izdelavo ocene vzročnih iz ne-eksperimentalnih podatkov glej Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , in Dunning (2012) .
Poglavja 1 in 2 Freedman, Pisani, and Purves (2007) ponujajo jasen uvod v razlike med poskusi, nadzorovanih poskusov in naključno nadzorovanih poskusov.
Manzi (2012) ponuja zanimiv in berljiv uvod v filozofskih in statističnimi temeljev randomiziranih kontroliranih poskusov. Prav tako zagotavlja zanimive realnem svetu primere moči eksperimentiranja v poslovanju.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) so dobri vnose za statistične vidike eksperimentalne zasnove in analize. Poleg tega so odlične zdravljenja z uporabo poskusov na različnih področjih: ekonomika (Bardsley et al. 2009) , Sociologija (Willer and Walker 2007; Jackson and Cox 2013) , psihologija (Aronson et al. 1989) , Politične vede (Morton and Williams 2010) , socialna politika (Glennerster and Takavarasha 2013) .
Pomen udeleženca zaposlovanja (npr vzorčenja) je pogosto premalo cenjena v eksperimentalne raziskave. Vendar, če je učinek zdravljenja heterogeni populaciji, potem vzorčenje je ključnega pomena. Longford (1999) naredi to jasno, ko se zavzema za raziskovalce razmišljajo poskusov kot raziskavo prebivalstva z negotov vzorčenja.
Nasprotje, da sem predstavila med laboratorijskih in terenskih poskusov je malo poenostavljena. V resnici so drugi raziskovalci predlagala podrobnejše tipe, še posebej tiste, ki ločujejo različne oblike poljskih poskusih (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Poleg tega sta še dva druga vrsti poskusov, ki jih družboslovci opravljenih ki se ne prilegajo lepo v laboratoriju in na terenu dihotomiji:. Ankete eksperimentov in socialnih eksperimentov ankete poskusi poskuse z infrastrukturo obstoječih raziskav in primerjati odzive na alternativnih različic ista vprašanja (nekatere raziskave poskusi so predstavljeni v poglavju 3); Za več informacij o raziskavi poskuse glej Mutz (2011) . Socialni poskusi so poskusi, kjer je zdravljenje nekaterih socialno politiko, ki se lahko izvaja le s strani vlade. Socialni eksperimenti so tesno povezani, da program vrednotenja. Za več informacij o političnih eksperimentov, glej Orr (1998) , Glennerster and Takavarasha (2013) , in Heckman and Smith (1995) .
Število dokumentov so v primerjavi laboratorijske in terenske poskuse abstraktno (Falk and Heckman 2009; Cialdini 2009) in v smislu rezultatov posameznih poskusov v politologije (Coppock and Green 2015) , ekonomije (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) in psihologija (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ponuja lepo raziskovalni načrt za primerjavo rezultatov iz laboratorijskih in poljskih poskusih.
Zaskrbljenost glede udeležencev spreminjajoče se njihovo obnašanje, ker so vedeli, da se pozorno opazovati se včasih imenujejo učinki povpraševanja, in so proučevali v psihologiji (Orne 1962) in ekonomije (Zizzo 2009) . Čeprav so večinoma povezana z laboratorijskimi poskusi, lahko te iste zadeve povzročajo težave poljskih poskusih kot dobro. Dejstvo je, učinki povpraševanja, ki jih včasih imenujemo Hawthorne učinke, izraz, ki izhaja iz terenskega poskusa, natančneje znane osvetlitev eksperimentov, ki se je začelo leta 1924 na Hawthorne del zahodne Electric Company (Adair 1984; Levitt and List 2011) . Oba učinka povpraševanja in učinki glog so tesno povezana z idejo reaktivnega merjenja razpravljali v poglavju 2 (glej tudi Webb et al. (1966) ).
Zgodovina poljskih poskusih je bil opisan v ekonomiji (Levitt and List 2009) , politologije (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psihologija (Shadish 2002) in javnega reda (Shadish and Cook 2009) . Eno od področij družbenih ved, kjer na terenu poskusi hitro postal pomemben je mednarodni razvoj. Za pozitivno oceno tega dela v ekonomiji glej Banerjee and Duflo (2009) , in za kritično oceno glej Deaton (2010) . Za pregled tega dela v politologije glej Humphreys and Weinstein (2009) . Nazadnje so bile etične izzive, ki se ukvarjajo z poljskih poskusih raziskati politologije (Humphreys 2015; Desposato 2016b) in razvojne ekonomije (Baele 2013) .
V poglavju, sem predlagal, da se informacije predobdelava lahko uporablja za izboljšanje natančnosti ocenjenih učinkov zdravljenja, vendar pa obstaja nekaj razprave o tem pristopu: Freedman (2008) , Lin (2013) , in Berk et al. (2013) ; glej Bloniarz et al. (2016) za več informacij.
Izbral sem, da se osredotoči na tri koncepte: veljavnost, heterogenosti učinkov zdravljenja, in mehanizmov. Ti pojmi imajo različna imena v različnih področjih. Na primer, psihologi ponavadi preseči preprostimi eksperimenti z osredotočanjem na mediatorjev in moderatorjev (Baron and Kenny 1986) . Ideja mediatorjev je zajeto tisto, kar sem klic mehanizmov, in ideja moderatorjev je zajeto tisto, kar sem klic zunanja veljavnost (npr, bi se rezultati poskusa drugačen, če bi ga izvajali v različnih situacijah) in heterogenost učinkov zdravljenja ( na primer, so učinki večji za nekatere ljudi od drugih ljudi).
Poskus Schultz et al. (2007) prikazuje, kako socialne teorije lahko uporabimo za oblikovanje učinkovitih posegov. Za bolj splošno trditev o vlogi teorije pri oblikovanju učinkovitih posegov, glej Walton (2014) .
Pojma notranje in zunanje veljavnosti bila prvič uvedena leta Campbell (1957) . Glej Shadish, Cook, and Campbell (2001) za podrobnejšo zgodovino in skrbno izdelavo veljavnosti statističnih sklenitev, notranja veljavnost, gradnjo veljavnost in zunanjo veljavnost.
Za pregled vprašanj, povezanih z veljavnostjo statistične sklenitev pri poskusih glej Gerber and Green (2012) (za vidika družbenih ved) in Imbens and Rubin (2015) (za statistično perspektive). Nekatera vprašanja veljavnosti statistični sklep, da se pojavljajo zlasti v spletnih poskusih na terenu vključuje vprašanja, kot so računsko učinkovitih metod za ustvarjanje intervali zaupanja pri vzdrževanih podatkov (Bakshy and Eckles 2013) .
Notranja veljavnost je lahko težko zagotoviti v zahtevnih terenskih poskusih. Glej, na primer, Gerber and Green (2000) , Imai (2005) , in Gerber and Green (2005) za razpravo o izvajanju zapletenega terenskega eksperimenta o glasovanju. Kohavi et al. (2012) in Kohavi et al. (2013) so predstavljene v izzive intervala veljavnosti na spletnih poskusov na terenu.
Ena glavnih skrbi z notranjo veljavnost je težave z naključnega. Eden od načinov, da lahko zaznajo težave z naključnih je primerjati skupine glede obdelave in nadzora na zaznavnih lastnosti. Ta vrsta primerjave se imenuje preverjanje ravnotežje. Glej Hansen and Bowers (2008) za statistični pristop za uravnoteženje preglede, in videli Mutz and Pemantle (2015) za zaskrbljenost glede preverjanja bilanc. Na primer, z ravnotežjem preveriti Allcott (2011) je ugotovila, da obstajajo dokazi, da je naključnost ni pravilno v treh poskusih izvaja v nekaterih poskusih OPower (glej tabelo 2; mesta, 2, 6 in 8). Za druge pristope, glej Imbens and Rubin (2015) , poglavje 21.
Drugi večji pomisleki v zvezi z notranjo veljavnost, so: 1) enostranska neskladnost, kjer niso vsi v terapevtski skupini dejansko prejela zdravljenje, 2) dvostranski neskladnost, kjer niso vsi v terapevtski skupini prejme zdravljenje in nekatera ljudje v kontrolni skupini prejela zdravljenje, 3) neuspeha, če se rezultati ne merijo za nekatere udeležence, in 4) motnje, kjer je zdravljenje razlije od ljudi v stanju zdravljenja za ljudi v stanju nadzora. Glej Gerber and Green (2012) Poglavja 5, 6, 7 in 8 za več informacij o vsakem od teh vprašanj.
Za več informacij o veljavnosti konstrukta, glej Westen and Rosenthal (2003) , in za več informacij o veljavnosti konstrukta v velikih podatkovnih virov, Lazer (2015) in 2. poglavju te knjige.
En vidik zunanje veljavnosti je okolje, kjer se testira intervencija. Allcott (2015) zagotavlja natančno teoretično in empirično zdravljenje izbora lokacije pristranskosti. To vprašanje je obravnavano tudi v Deaton (2010) . Poleg tega, da jih je mogoče ponoviti v številnih mestih, Home Energy Poročilo intervencija je bila prav tako samostojno preučevali več raziskovalnih skupin (npr Ayres, Raseman, and Shih (2013) ).
Za odličen pregled heterogenosti učinkov zdravljenja v poljskih poskusih, glejte Poglavje 12 Gerber and Green (2012) . Za uvod k heterogenosti učinkov zdravljenja v zdravstvenih raziskavah glej Kent and Hayward (2007) , Longford (1999) , in Kravitz, Duan, and Braslow (2004) . Heterogenost neželenih učinkov na splošno osredotočiti na razlike, ki temeljijo na značilnostih pred zdravljenjem. Če vas zanima heterogenosti, ki temelji na rezultatih po zdravljenju, nato pa so bolj zapletene approachs potrebna kot glavni stratifikacije (Frangakis and Rubin 2002) ; glej Page et al. (2015) za pregled.
Mnogi raziskovalci ocenjujejo, heterogenost učinkov zdravljenja z uporabo linearne regresije, vendar novejših metod zanašajo na strojnega učenja, na primer Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , in Athey and Imbens (2016a) .
Obstaja nekaj dvom ugotovitve heterogenosti učinkov zaradi številnih težav, primerjave in "ribolov." Obstajajo različne statistične pristope, ki lahko pomagajo obravnavati vprašanja glede multiple primerjave (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Eden od pristopov za zaskrbljenost glede "ribolov" je predhodno registracijo, ki je vse bolj pogosta pri psihologiji (Nosek and Lakens 2014) , politične vede (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) in ekonomija (Olken 2015) .
V študiji Costa and Kahn (2013) je bilo le približno polovica gospodinjstev v poskusu lahko povezana z demografskimi podatki. Bralci, ki jih zanimajo podrobnosti in morebitne težave s to analizo, se morajo nanašati na prvotni papir.
Mehanizmi so zelo pomembni, vendar se izkaže, da je zelo težko raziskovati. Raziskave o mehanizmih tesno povezana s študijo mediatorjev v psihologiji (vendar glej tudi VanderWeele (2009) za natančno primerjavo med idejami). Statistični pristopi k iskanju mehanizmov, kot je pristop, razvit v Baron and Kenny (1986) , so precej pogoste. Žal pa se izkaže, da so ti postopki so odvisni od nekaterih močnih predpostavk (Bullock, Green, and Ha 2010) in trpi, ko obstaja več mehanizmov, kot bi lahko pričakovali v mnogih situacijah (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) in Imai and Yamamoto (2013) ponudi nekaj izboljšanih statističnih metod. Poleg tega VanderWeele (2015) ponuja obravnavo knjige dolžino pri številnih pomembnih rezultatov, vključno s celovitim pristopom k analizi občutljivosti.
Poseben pristop se osredotoča na poskuse, ki poskušajo manipulirati mehanizem neposredno (npr, iz katerih mornarji vitamin C). Na žalost, v mnogih okoljih družboslovnih pogosto obstajajo več mehanizmov in je težko oblikovati zdravljenja, ki spreminjajo eno brez spreminjanja drugih. Nekateri pristopi za eksperimentalno so spreminjanju mehanizmi opisani v Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , in Pirlott and MacKinnon (2016) .
Končno, mehanizmi imajo dolgo zgodovino v filozofiji znanosti, kot ga je opisano Hedström and Ylikoski (2010) .
Za več informacij o uporabi dopisne študije in revizije študij za merjenje diskriminacije glej Pager (2007) .
Najpogostejši način, da se zaposlijo udeležence poskusov, ki jih gradijo, je Amazon Mechanical Turk (MTurk). Ker MTurk posnema vidike tradicionalnih laboratorijskih eksperimentov-plačuje ljudi, da izpolni naloge, ki jih ne bi naredil za prosto mnogi raziskovalci so se že začele uporabljati Turkers (delavcev na MTurk) kot udeleženci v ljudeh eksperimentov, ki so posledica hitrejše in cenejše zbiranje podatkov kot tradicionalna na kampusu laboratorijski poskusi (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Največja moč poskusov z udeleženci zaposlene iz MTurk so logistični: omogočajo raziskovalcem, da hitro in, kot je potrebno zaposliti udeležencev. Ker lahko laboratorijske poskuse traja tedne, da delujejo in na terenu poskusi lahko traja mesece, da set-up, lahko poskusi z udeleženci zaposlene iz MTurk se vodijo v dnevih. Na primer Berinsky, Huber, and Lenz (2012) so se lahko zaposlili 400 predmetov v enem dnevu, da sodelujejo v 8. minuti poskusa. Poleg tega lahko ti udeleženci lahko zaposli za skoraj kateri koli namen (vključno z raziskavami in množično sodelovanje, kot je opisano v poglavjih 3 in 5). Ta enostavnost zaposlovanja pomeni, da lahko raziskovalci vodijo zaporedja povezanih poskusov v hitrem zaporedju.
Pred zaposlitvijo udeležencev iz MTurk za svoje poskuse, obstajajo štiri pomembne stvari vedeti. Prvič, mnogi raziskovalci imajo nespecifično skepticizem poskusov, ki vključujejo Turkers. Ker je ta skepticizem ni določena, je težko za boj z dokazi. Vendar pa je po nekaj letih študija z uporabo Turkers, sedaj lahko sklepamo, da je ta skepticizem ni posebej potrebno. Obstajajo številne študije, ki primerjajo demografiji Turkers na druge populacije in številnih raziskav primerjave rezultatov poskusov z Turkers na rezultate iz drugih populacij. Glede na vse to delo, mislim, da je najboljši način za vas, da razmišljajo o tem, da so Turkers razumno udobje vzorec, podobno kot študenti, vendar nekoliko bolj raznoliki (Berinsky, Huber, and Lenz 2012) . Tako je, prav tako kot so študenti razumno prebivalstvo za nekatere, vendar ne vse eksperimentalne raziskave, Turkers so razumna prebivalstva za nekatere, vendar ne vse raziskave. Če bo šlo s Turkers, potem je smiselno, da se glasi veliko teh primerjalnih študij in razumevanje njihovih odtenkov.
Drugič, so raziskovalci razvili najboljših praks za večjo notranjo veljavnost Turk eksperimentov, zato bi morali spoznati in slediti teh najboljših praks (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Na primer, raziskovalci uporabljajo Turkers spodbujati k uporabi sita za odstranjevanje nepremišljeni udeležencev (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (vendar glej tudi DJ Hauser and Schwarz (2015b) in DJ Hauser and Schwarz (2015a) ). Če ne odstranite nepremišljeni udeležencev, potem lahko vsak učinek zdravljenja se izpirajo s hrupom uvedene nepazljivega udeležencev, v praksi pa se lahko število nepozorno udeležencev precejšen. V eksperimentu Huber in sodelavci (2012) okoli 30% udeležencev ni osnovna pozornost sita. Drug problem skupnega z Turkers je non-naivni udeleženci (Chandler et al. 2015) .
Tretjič, v primerjavi z nekaterimi drugimi oblikami digitalnih eksperimentov MTurk poskusi ne more merilu; Stewart et al. (2015) ocenjuje, da je v danem trenutku le okoli 7.000 ljudi na MTurk.
Končno, bi morali vedeti, da je MTurk skupnost s svojimi pravili in normami (Mason and Suri 2012) . Na enak način, da bi poskušali izvedeti o kulturi v državi, v kateri ste bili namenjeni za izvajanje preizkusov, morate poskusiti, da več o kulturi in normah Turkers izvedeli (Salehi et al. 2015) . In, morate vedeti, da bodo Turkers govorimo o preizkusu, če vam kaj neprimerno in neetično (Gray et al. 2016) .
MTurk je izjemno priročen način, da se zaposlijo udeležence na vaše poskuse, ali so lab, kot so, na primer Huber, Hill, and Lenz (2012) , ali več področja, kot so, na primer Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , in Mao et al. (2016) .
Če ste mislili, da poskuša ustvariti svoj izdelek, priporočam, da si preberete nasvete, ki jih je skupina MovieLens v ponujene Harper and Konstan (2015) . Ključni vpogled iz njihovih izkušenj je, da so za vsak uspešen projekt veliko, veliko napak. Na primer, skupina MovieLens začela druge izdelke, kot so GopherAnswers, ki so popolne okvare (Harper and Konstan 2015) . Drug primer raziskovalca ne uspe, hkrati pa skuša zgraditi izdelek je Edward Castronova je sprožil zgraditi spletno igro imenovano Arden. Kljub $ 250.000 sredstev, je bil projekt flop (Baker 2008) . Projekti, kot GopherAnswers in Arden so na žalost veliko bolj pogosti kot projekte, kot MovieLens. Nazadnje, ko sem rekel, da nisem vedel, o vseh drugih raziskovalcev, ki so uspešno zgradili izdelkov za večkratno eksperimentiranje tukaj so moja merila: 1) Udeleženci uporabljajo proizvod zaradi tega, kar jim omogoča (na primer, niso plačani in niso prostovoljci pomagajo znanosti) in 2) izdelek je bil v uporabi več kot en poseben eksperiment (tj, ne pa enaki poskusa večkrat z različnimi udeležencev bazeni). Če veste, za druge primere, prosim povej mi.
Slišal sem idejo Quadrant Pasteurjevo pogosto razpravljalo na tehnoloških podjetij, in pomaga organizirati raziskovalna prizadevanja na Googlu (Spector, Norvig, and Petrov 2012) .
Bond in študij kolegov " (2012) prav tako poskuša zaznati učinek teh zdravljenj na prijatelje tistih, ki jih je prejel. Zaradi zasnove poskusa ti prelivanja težko odkriti čisto; zainteresirani bralci morali videti Bond et al. (2012) za bolj temeljito razpravo. Ta poskus je del dolge tradicije poskusov v politologije o prizadevanjih za spodbujanje glasovanja (Green and Gerber 2015) . Te get-out-the-glasovanje poskusi so pri delu, ker so v Pasteurjevo kvadrantu. To pomeni, da obstaja veliko ljudi, ki so motivirani za povečanje glasovanje in glasovanje je lahko zanimivo obnašanje preizkusiti bolj splošne teorije o spremembah vedenja in družbenega vpliva.
Drugi raziskovalci so svetovali o teče terenskih poskusov s partnerskimi organizacijami, kot so politične stranke, nevladnimi organizacijami in podjetji (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Drugi so ponudili nasvete o tem, kako lahko partnerstva z organizacijami vplivajo raziskovalnih modelov (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerstvo lahko privede tudi do etičnih vprašanj (Humphreys 2015; Nickerson and Hyde 2016) .
Če boste ustvarili načrt analize pred vožnjo preizkus, predlagam, da začnete z branjem smernice poročanja. Soproge (Prečiščeno Standardna Poročanje o preskusih) smernice so bile razvite v medicini (Schulz et al. 2010) in prirejena za socialno raziskav (Mayo-Wilson et al. 2013) . Sorodna niz smernic je bil razvit s strani urednikov revije Journal of Experimental politologijo (Gerber et al. 2014) (glej tudi Mutz and Pemantle (2015) in Gerber et al. (2015) ). Na koncu so bile smernice poročanja razvit v psihologiji (Group 2008) , in glej tudi Simmons, Nelson, and Simonsohn (2011) .
Če ustvarite načrt analize bi morali razmisliti ga predhodni registraciji, saj bo predhodna registracija poveča zaupanje, ki ga imajo drugi v vaših rezultatih. Poleg tega, če delate s partnerjem, bo omejil sposobnosti svojega partnerja, da spremeni analizo, ko sem videl rezultate. Predhodna registracija je vse bolj pogosta pri psihologiji (Nosek and Lakens 2014) , politične vede (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) in ekonomije (Olken 2015) .
Med ustvarjanjem svoj načrt pre-analize se morate zavedati, da so nekateri raziskovalci uporabljajo tudi nazadovanje in z njim povezane pristope za izboljšanje natančnosti ocenjenega učinka zdravljenja, in obstaja nekaj razprave o tem pristopu: Freedman (2008) , Lin (2013) , in Berk et al. (2013) ; glej Bloniarz et al. (2016) za več informacij.
Posvetovalne posebej za spletne poskuse na terenu, je predstavljen tudi v Konstan and Chen (2007) in Chen and Konstan (2015) .
Za več o MusicLab poskusov, glej Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , in Salganik (2007) . Za več informacij o zmagovalnih-take-vseh trgih, glej Frank and Cook (1996) . Za več informacij o razmotavanja sreče in spretnosti na splošno, glej Mauboussin (2012) , Watts (2012) , in Frank (2016) .
Obstaja pa še ena pristop k odpravljanju plačil udeleženca, da bi morali raziskovalci uporabljajo previdno: nabora. V mnogih spletnih poskusih na terenu so udeleženci v osnovi zasnovan na poskusih in nikoli nadomestiti. Primeri tega pristopa so Restivo in van de Rijt je (2012) poskus na nagrade v Wikipediji in Bond in kolega (2012) poskusa o spodbujanju ljudi, da glasujejo. Ti poskusi dejansko nimajo nič variabilne stroške, ki so jih nič variabilne stroške za raziskovalce. Čeprav je strošek mnogi od teh poskusov izredno majhna za vsakega udeleženca, majhni stroški naložijo ogromno število udeležencev lahko dodate do hitro. Raziskovalci teče velike spletne poskuse pogosto upravičuje pomen malih ocenjenih učinkov zdravljenja z besedami, da lahko ti majhni učinki postalo pomembno, kadar se uporabljajo za veliko ljudi. Točno isto razmišljanje velja za stroške, ki jih raziskovalci postavljajo na udeležence. Če je vaš poskusi povzroča milijon ljudi z odpadki eno minuto, poskus ni zelo škodljiva za vsako posamezno osebo, vendar v seštevku je zapravil skoraj dve leti časa.
Drug pristop k ustvarjanju nič spremenljivo plačilo stroškov za udeležence je uporaba loterijo, pristop, ki je bil uporabljen tudi v anketne raziskave (Halpern et al. 2011) . Končno, za več informacij o oblikovanju prijetne uporabniku izkušnje glej Toomim et al. (2011) .
Tu so izvirne definicije treh R, od Russell and Burch (1959) :
"Nadomestni pomeni zapušča za zavestnih živijo višjih živali insentient materiala. Zmanjšanje pomeni zmanjšanje števila živali, ki se uporabljajo za pridobivanje informacij o določenem znesku in natančnosti. Prefinjenost pomeni vsako zmanjšanje pojavnosti ali resnosti nehumanih postopkov sklepanja navedenih živali, ki jih je treba še uporabljajo. "
Treh R-jev, ki predlagam niso pomembnejši od etičnih načel, opisanih v poglavju 6. Namesto, da so bolj izoblikovan različica eden tistih načelih dobrodelnost, posebej za določanje človeških poskusov.
Pri obravnavi Emotional škodljiv vpliv, obstajajo trije non-etična vprašanja, ki vodijo v mislih pri razlagi tega poskusa. Prvič, ni jasno, kako dejanski podatki poskusa povezati s teoretičnimi zahtevkov; z drugimi besedami, da so vprašanja o veljavnosti konstrukta. Ni jasno, da so pozitivne in negativne beseda šteje dejansko dober pokazatelj čustvenega stanja udeležencev, saj 1) ni jasno, da so besede, ki jih ljudje dodajati dober pokazatelj njihovih čustev in 2) ni jasno, da je posebna analiza sentiment tehnika, ki se uporablja raziskovalci lahko zanesljivo sklepati čustva (Beasley and Mason 2015; Panger 2016) . Z drugimi besedami, lahko pride slab ukrep pristranskega signala. Drugič, oblikovanje in analiza poskusa nam ne pove ničesar o tem, kdo je najbolj vplival (tj, ni analiza heterogenosti učinkov zdravljenja) in kaj bi lahko mehanizem biti. V tem primeru so imeli raziskovalci veliko informacij o sodelujočih, vendar so bili v bistvu obravnavajo kot pripomočki v analizi. Tretji je velikost učinka v tem poskusu je bila zelo majhna; razlika med pogoji zdravljenja in nadzora je približno 1 na 1000 besed. V svojem prispevku, Kramer in kolegi, da zadevo, da je učinek te velikosti pomembna, saj na stotine milijonov ljudi, dostop do njihovih News Feed vsak dan. Z drugimi besedami, trdijo, da so tudi učinke, ki so majhne za vsako osebo, ki so se velik kot celota. Tudi če ste bili sprejeti tega argumenta, še vedno ni jasno, ali je učinek te velikosti pomembna v zvezi z bolj splošno znanstveno vprašanje o čustveni okužbe. Za več informacij o primerih, ko so majhni učinki pomembni glej Prentice and Miller (1992) .
V zvezi s prvim R (zamenjava), primerjavo čustveno škodljiv vpliv poskusa (Kramer, Guillory, and Hancock 2014) in čustveno negativnega naravnega eksperimenta (Coviello et al. 2014) ponuja nekaj splošnih lekcij o kompromise, ki sodelujejo pri prehodu iz poskusi naravnih poskusov (in drugih pristopov, kot ujemanje, da je poskus, da bi približevanje poskuse non-eksperimentalnih podatkov, glej poglavje 2). Poleg etičnih koristi, preklapljanje od poskusnega ne-eksperimentalnih študij omogoča tudi raziskovalcem, da preučujejo zdravljenja, ki so jih logistično ne morejo razviti. Te etične in logistične prednosti prišel na ceno, vendar. Z naravnimi poskusi raziskovalci imajo manj nadzora nad stvarmi, kot so zaposlovanje udeležencev, naključnih in naravo zdravljenja. Na primer, ena omejitev padavin kot zdravljenja je, da hkrati povečuje pozitivnost in zmanjšuje negativnost. V poskusni študiji, pa so bili Kramer in kolegi sposobni prilagoditi pozitivnost in negativnost samostojno.
Poseben pristop, ki ga uporablja Coviello et al. (2014) so podrobneje opredeljeni v Coviello, Fowler, and Franceschetti (2014) . Za uvod v instrumentalnih spremenljivk glej Angrist and Pischke (2009) (manj formalno) ali Angrist, Imbens, and Rubin (1996) (bolj formalno). Za skeptične ocene instrumentalnih spremenljivk glej Deaton (2010) , in za uvod v instrumentalnih spremenljivk s šibkim instrumentov (dež je šibek instrument), glej Murray (2006) .
Na splošno je dober uvod v naravnih eksperimentov je Dunning (2012) , in Rosenbaum (2002) , Rosenbaum (2009) , in Shadish, Cook, and Campbell (2001) ponujajo dobre ideje o ocenjevanju vzročnih učinkov brez poskusov.
V smislu drugega R (Plemenitenje), obstajajo znanstveni in logistične kompromisov, ko razmišljajo o spreminjanju zasnove čustveno škodljiv vpliv iz blokiranje prispevke k povečanju delovnih mest. Na primer, lahko se zgodi, da tehnična izvedba News Feed omogoča bistveno lažje narediti poskus z blokado prispevke namesto eksperiment s povečanjem delovnih mest (upoštevajte, da lahko poskus z blokado objave izvaja kot sloj na top sistema News Feed brez potrebe po spremembah v osnovni sistem). Znanstveno pa teorija s poskusom naslovljeno ni jasno nakazujejo en model nad drugim.
Na žalost, nisem seznanjen znatne predhodne raziskave o relativnih prednostih blokiranje in povečanje vsebnosti v News Feed. Prav tako še nisem videl veliko raziskav o rafiniranje zdravljenja, da bi jih manj škodljiva; Edina izjema je Jones and Feamster (2015) , ki meni, da je primer merjenje internetne cenzure (temo sem obravnaval v poglavju 6 v odnosu do študija Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
V zvezi s tretjo R (Reduction), je dober uvod v tradicionalni analizi moči je Cohen (1988) . spremenljivki pred zdravljenjem, se lahko vključi v fazi načrtovanja in v fazi analize poskusov; Poglavje 4 Gerber and Green (2012) zagotavlja dober uvod v obeh pristopov in Casella (2008) zagotavlja obravnavo bolj poglobljeno. Tehnike, ki uporabljajo te informacije predobdelavo v naključnih so običajno imenujemo bodisi blokiran eksperimentalnih modelov ali stratifikacije eksperimentalnih modelov (terminologija se ne uporablja dosledno skupnosti); Te tehnike so močno povezane z stratumov tehnik vzorčenja, obravnavana v poglavju 3. Glej Higgins, Sävje, and Sekhon (2016) za več informacij o uporabi teh modelov v masivni poskusih. Spremenljivki pred zdravljenjem se lahko vključijo tudi v fazi analize. McKenzie (2012) raziskuje pristop razlika-v-razlikah za analizo poljske poskuse podrobneje. Glej Carneiro, Lee, and Wilhelm (2016) več o kompromisi med različnimi pristopi za večjo natančnost pri ocenah učinkov zdravljenja. Na koncu, ko se odločajo, ali naj poskušajo vključiti Kovariable predobdelave na načrtovanje in analizo fazi (ali oboje), obstaja nekaj dejavnikov, da razmisli. V okolju, kjer so raziskovalci želeli pokazati, da niso "ribolov" (Humphreys, Sierra, and Windt 2013) , s pomočjo Kovariable pred zdravljenjem v fazi načrtovanja je lahko koristno (Higgins, Sävje, and Sekhon 2016) . V primerih, v katerih udeleženci prihajajo zaporedno, še posebej na spletu poljskih poskusih, ki uporabljajo informacije predobdelavo v fazi projektiranja je lahko težko logistično, glej na primer Xie and Aurisset (2016) .
Vredno je dodal malo intuicije o tem, zakaj se lahko razlika-v-razlikah tako veliko bolj učinkovito kot razlika-v-obliki. Veliko spletnih rezultati imajo zelo visoko varianco (glej npr Lewis and Rao (2015) in Lamb et al. (2015) ) in so relativno stabilne skozi čas. V tem primeru bo rezultat sprememba lahko bistveno manjši variance, povečanjem moči statističnega testa. Eden od razlogov ta približal se ne uporablja bolj pogosto je, da je pred digitalni dobi ni bila skupna imajo rezultatov predobdelave. Bolj konkreten način, da razmišljajo o tem je predstavljati eksperiment za merjenje ali določen izvaja rutinsko povzroča izgubo teže. Če vam pristop razlika-v-obliki, bo vaša ocena imela variabilnost, ki prihaja iz spremenljivosti uteži v populaciji. Če vam pristop razlika-v-razliki pa je, da naravno nihanje v teži, odstranjena in lahko lažje zazna razliko z obdelavo povzročil.
Pomemben način za zmanjšanje števila udeležencev poskusa je opraviti analizo moči, ki bi lahko Kramer in kolegi opravljeno na podlagi velikostih učinek opazili iz naravnega eksperimenta, ki ga Coviello et al. (2014) ali prej non-eksperimentalne raziskave, ki jih Kramer (2012) (v resnici so to dejavnosti na koncu tega poglavja). Opazimo, da je ta uporaba analize moči nekoliko drugačna kot tipična. V analogni dobi, raziskovalci običajno naredil analizo moč zagotoviti, da njihova študija ni bila premajhna (tj pod-pogon). Zdaj pa naj bi raziskovalci narediti analizo moči, da se prepriča, da je njihova študija ni prevelika (to je več kot pogon).
Končno, sem menil, dodal še četrti R: njegov namen. To je, če raziskovalci znajdejo z več eksperimentalnih podatkov, kot jih je treba obravnavati svoj prvotni raziskovalno vprašanje, bi morali znova uporabite podatke, da zahteva nova vprašanja. Recimo, da je Kramer in sodelavci uporablja cenilec razlika-v-razlikah in ugotovili, se z več podatki, kot so potrebni za reševanje svoje raziskovalno vprašanje. Namesto ne uporabljajo podatke v največji možni meri, bi lahko študirali velikost učinka v odvisnosti predobdelave čustveno izražanje. Prav tako Schultz et al. (2007) je ugotovila, da je bil učinek zdravljenja razlikuje za lahke in težke uporabnike, morda so bili učinki News Feed drugačen za ljudi, ki so že urejenimi bi objavili vesel (ali žalostne) sporočil. Repurposing bi lahko privedlo do "ribolov" (Humphreys, Sierra, and Windt 2013) in "p-taksist« (Simmons, Nelson, and Simonsohn 2011) , ki pa so v veliki meri naslovljiva s kombinacijo poštenega poročanja (Simmons, Nelson, and Simonsohn 2011) , pre-registracije (Humphreys, Sierra, and Windt 2013) , in metode strojnega učenja, ki poskušajo preprečiti pretirano opremljanje.