Jautājumi par cēloņsakarību sociālajos pētījumos bieži ir sarežģīti un sarežģīti. Pamatojošu pieeju cēloņsakarībai, kuras pamatā ir cēloņu diagrammas, skatiet Pearl (2009) , un Imbens and Rubin (2015) pieeju, kuras pamatā ir potenciālie rezultāti, skatīt Imbens and Rubin (2015) . Lai salīdzinātu šīs divas pieejas, skatīt Morgan and Winship (2014) . VanderWeele and Shpitser (2013) pieeju VanderWeele and Shpitser (2013) noteikšanai skat. VanderWeele and Shpitser (2013) .
Šajā nodaļā es izveidoju to, kas šķita kā gaiša līnija starp mūsu spēju veikt cēloņu aprēķinus, izmantojot eksperimentālos un neeksperimentālos datus. Tomēr es domāju, ka patiesībā šī atšķirība ir daudz neskaidrāka. Piemēram, ikviens atzīst, ka smēķēšana izraisa vēzi, kaut arī netika veikts neviens randomizēts kontrolēts eksperiments, kas lika cilvēkiem smēķēt. Lai iegūtu lielisku grāmatvedības metodi par cēloņu aprēķiniem no neeksperimentāliem datiem, skatīt Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) un Dunning (2012) .
Freedman, Pisani, and Purves (2007) 1. un 2. nodaļa Freedman, Pisani, and Purves (2007) sniedz skaidru priekšstatu par atšķirībām starp eksperimentiem, kontrolētiem eksperimentiem un randomizētiem kontrolētiem eksperimentiem.
Manzi (2012) sniedz aizraujošu un lasāmu ievadu randomizētu kontrolētu eksperimentu filozofiskajā un statistiskajā pamatā. Tas arī sniedz interesantus reālos piemērus par eksperimentu veiktspēju biznesā. Issenberg (2012) sniedz aizraujošu ievadu par eksperimentu izmantošanu politiskajās kampaņās.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 un Athey and Imbens (2016b) sniedz labu ievadu eksperimentālā projektēšanas un analīzes statistiskajiem aspektiem. Turklāt ir lieliska eksperimentu izmantošana dažādās jomās: ekonomika (Bardsley et al. 2009) , socioloģija (Willer and Walker 2007; Jackson and Cox 2013) , psiholoģija (Aronson et al. 1989) , politoloģija (Morton and Williams 2010) un sociālā politika (Glennerster and Takavarasha 2013) .
Dalībnieku darbā pieņemšanas nozīmīgums (piemēram, paraugu ņemšana) eksperimentālajos pētījumos bieži netiek novērtēts. Tomēr, ja ārstēšanas ietekme iedzīvotāju vidū ir neviendabīga, tad paraugu ņemšana ir kritiska. Longford (1999) skaidri norāda šo jautājumu, ja viņš aizstāv pētniekus, kuri domā par eksperimentiem kā iedzīvotāju aptauju ar nejaušām izlases metodēm.
Esmu ierosinājis, ka starp laboratorijas un lauka eksperimentiem pastāv kontinuitāte, un citi pētnieki ir ierosinājuši sīkāk izstrādātas tipoloģijas, jo īpaši tās, kas nošķir dažādas eksperimentu formas (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Vairākos dokumentos ir salīdzinātas laboratorijas un lauka eksperimentu kopsavilkums (Falk and Heckman 2009; Cialdini 2009) kā arī konkrētu eksperimentu rezultāti politikas zinātnē (Coppock and Green 2015) , ekonomika (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) un psiholoģiju (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) piedāvā labu pētījumu plānu, lai salīdzinātu laboratorijas un lauka eksperimentu rezultātus. Parigi, Santana, and Cook (2017) apraksta, kā tiešsaistes eksperimentu laukos var apvienot dažus laboratorijas un lauka eksperimentu raksturlielumus.
Bažas par dalībniekiem, kuri mainīja savu uzvedību, jo zina, ka viņi tiek stingri ievēroti, dažreiz sauc par pieprasījuma efektu , un tie ir pētīti psiholoģijā (Orne 1962) un ekonomikā (Zizzo 2010) . Lai gan lielākoties tie ir saistīti ar laboratorijas eksperimentiem, šie paši jautājumi var radīt arī problēmas lauka eksperimentos. Patiesībā pieprasījuma efektu dažkārt sauc arī par Hawthorne efektu - terminu, kas iegūst slavenos apgaismošanas eksperimentus, kas sākās 1924. gadā pie Western Electric Company Hawthorne Works (Adair 1984; Levitt and List 2011) . Gan pieprasījuma ietekme, gan Hawthorne efekti ir cieši saistīti ar reaģējošo mērījumu ideju, kas apskatīta 2. nodaļā (skat. Arī Webb et al. (1966) ).
Lauka eksperimentiem ir gara vēsture ekonomikā (Levitt and List 2009) , politikas zinātne (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psiholoģija (Shadish 2002) un sabiedriskā politika (Shadish and Cook 2009) . Viena sociālās zinātnes joma, kurā strauji attīstījās lauku eksperimenti, ir starptautiskā attīstība. Lai pozitīvi pārskatītu šo darbu ekonomikā, skat. Banerjee and Duflo (2009) , un kritisko novērtējumu skatīt Deaton (2010) . Pārskatot šo darbu politikas zinātnē, skatīt Humphreys and Weinstein (2009) . Visbeidzot, ar lauka eksperimentiem saistītās ētiskās problēmas ir izpētītas politikas zinātnes kontekstā (Humphreys 2015; Desposato 2016b) un attīstības ekonomikā (Baele 2013) .
Šajā sadaļā es ierosināju, ka informāciju par pirmapstrādi var izmantot, lai uzlabotu aplēsto ārstēšanas efektu precizitāti, taču par šo pieeju ir dažas debates; skatīt Freedman (2008) , W. Lin (2013) , Berk et al. (2013) un Bloniarz et al. (2016) lai iegūtu vairāk informācijas.
Visbeidzot, sociālie zinātnieki veic divus cita veida eksperimentus, kas neatbilst laboratorijas lauka dimensijai: apsekojumu eksperimenti un sociālie eksperimenti. Aptaujas eksperimenti ir eksperimenti, kuros izmanto esošo apsekojumu infrastruktūru, un salīdzina atbildes uz alternatīvām to pašu jautājumu versijām (daži apsekojumu eksperimenti ir izklāstīti 3. nodaļā); Plašāku informāciju par apsekojumu eksperimentiem skatīt sadaļā Mutz (2011) . Sociālie eksperimenti ir eksperimenti, kuros ārstēšana ir daļa no sociālās politikas, kuru var īstenot tikai valdība. Sociālie eksperimenti ir cieši saistīti ar programmas novērtēšanu. Lai uzzinātu vairāk par politikas eksperimentiem, skatiet Heckman and Smith (1995) , Orr (1998) un @ glennerster_running_2013.
Esmu izvēlējies koncentrēties uz trim jēdzieniem: derīgums, ārstēšanas efektu neviendabīgums un mehānismi. Šajos jēdzienos ir dažādi nosaukumi dažādās jomās. Piemēram, psihologi mēdz pārsniegt vienkāršus eksperimentus, koncentrējoties uz vidutājiem un moderatoriem (Baron and Kenny 1986) . Mediatoru ideja tiek uztverta tā, ko es saucu par mehānismiem, un moderatoru ideju uztver tā, ko es saucu par ārēju derīgumu (piemēram, vai eksperimenta rezultāti atšķirtos, ja tas darbotos dažādās situācijās) un ārstēšanas efektu neviendabīgumu ( Piemēram, dažiem cilvēkiem ietekme ir lielāka nekā citiem).
Schultz et al. (2007) Eksperiments Schultz et al. (2007) parādīts, kā sociālās teorijas var izmantot, lai izstrādātu efektīvas intervences. Vispārīgāku argumentu par teorijas nozīmi efektīvu iejaukšanās veidošanā sk. Walton (2014) .
Iekšējā un ārējā derīguma jēdzienus pirmo reizi ieviesa Campbell (1957) . Skatīt Shadish, Cook, and Campbell (2001) lai iegūtu sīkāku vēsturi un rūpīgu statistikas secinājumu derīguma, iekšējā derīguma, konstruēšanas derīguma un ārējā derīguma izstrādi.
Pārskatu par jautājumiem, kas saistīti ar statistikas noslēguma derīgumu eksperimentos, skatiet Gerber and Green (2012) (no socioloģijas perspektīvas) un Imbens and Rubin (2015) (no statistikas viedokļa). Daži jautājumi par statistikas noslēguma derīgumu, kas īpaši rodas tiešsaistes eksperimentu (Bakshy and Eckles 2013) ietver tādus jautājumus kā skaitliski efektīvas metodes, lai izveidotu ticamības intervālus ar atkarīgiem datiem (Bakshy and Eckles 2013) .
Sarežģītos lauku eksperimentos var būt grūti nodrošināt iekšējo derīgumu. Skatīt, piemēram, Gerber and Green (2000) , Imai (2005) un Gerber and Green (2005) lai debatētu par kompleksā lauka eksperimenta īstenošanu par balsošanu. Kohavi et al. (2012) un Kohavi et al. (2013) sniedz ieskatu intervāla derīguma izaicinājumos tiešsaistes eksperimentu laikā.
Viens no galvenajiem draudiem iekšējai derīgumam ir neveiksmīgu nejaušības iespēju iespējamība. Viens no iespējamajiem risinājumiem ar randomizēšanu ir salīdzināt ārstēšanas un kontroles grupas ar novērojamajām īpašībām. Šāda veida salīdzinājumu sauc par bilances pārbaudi . Skatīt Hansen and Bowers (2008) par statistisko pieeju pārbaužu un Mutz and Pemantle (2015) līdzsvarošanas pārbaudēm. Piemēram, izmantojot bilances pārbaudi, Allcott (2011) atrada dažus pierādījumus tam, ka trijos eksperimentos Opower tika veikta nejaušība pareizi (skat. 2. tabulu; 2., 6. un 8. vietne). Citu pieeju skatīt Imbens and Rubin (2015) 21. nodaļā Imbens and Rubin (2015) .
Citas galvenās problēmas, kas saistītas ar iekšējo derīgumu, ir: (1) vienpusēja neatbilstība, ja ārstēšanas grupā ne visi saņēmēji saņēmuši ārstēšanu; (2) divu pušu neatbilstība, ja ārstēšanas grupā ne visi saņem ārstēšanu, bet daži cilvēki kontroles grupa saņem ārstēšanu, (3) attrition, ja rezultāti dažiem dalībniekiem netiek izmērīti, un (4) traucējumi, kur ārstēšana no cilvēku, kas atrodas ārstēšanas stāvoklī, izplūst no kontroles stāvokļa cilvēkiem. Skatīt Gerber and Green (2012) 5., 6., 7. un 8. nodaļu, lai uzzinātu vairāk par katru no šiem jautājumiem.
Plašāku informāciju par konstrukcijas derīgumu skatiet Westen and Rosenthal (2003) , kā arī plašāk, kā veidot derīgumu lielos datu avotos - Lazer (2015) un šīs grāmatas 2. nodaļā.
Viens ārējās derīguma aspekts ir noteikums, kurā tiek pārbaudīta intervence. Allcott (2015) nodrošina rūpīgu teorētisku un empīrisku izturēšanos pret vietņu izvēli. Šo jautājumu apspriež arī Deaton (2010) . Vēl viens ārējā spēkā esamības aspekts ir tāds, vai vienas un tās pašas intervences alternatīvas ekspluatācijas rezultātā būs līdzīga ietekme. Šajā gadījumā salīdzinājums starp Schultz et al. (2007) un Allcott (2011) parāda, ka Opower eksperimentiem bija mazāka novērtētā apstrādātā iedarbība nekā sākotnējie Schultz un viņa kolēģu eksperimenti (1,7% pret 5%). Allcott (2011) domāja, ka pēcpārbaudes eksperimentiem bija mazāks efekts, jo ārstēšanas veidi atšķirīgi: rokraksta emocijzīme kā daļa no pētījuma, ko sponsorēja universitāte, salīdzinājumā ar drukātu emocijzīmi kā daļu no masveidā ražota ziņojums no elektroenerģijas uzņēmuma.
Lai iegūtu lielisku pārskatu par ārstēšanas efektu neviendabīgumu lauka eksperimentos, skatīt Gerber and Green (2012) 12. nodaļu Gerber and Green (2012) . Lai ieviestu ārstniecības blakusparādību neviendabīgumu medicīniskajos pētījumos, sk. Kent and Hayward (2007) , Longford (1999) un Kravitz, Duan, and Braslow (2004) . Ārstniecības efektu neviendabīguma apsvērumi parasti koncentrējas uz atšķirībām, kas balstītas uz pirmsapstrādes īpašībām. Ja jūs interesē neviendabīgums, kas pamatojas uz pēcapstrādes rezultātiem, tad ir nepieciešamas sarežģītākas pieejas, piemēram, galvenā stratifikācija (Frangakis and Rubin 2002) ; skatīt Page et al. (2015) pārskatīšanai.
Daudzi pētnieki novērtē ārstēšanas efektu neviendabīgumu, izmantojot lineāro regresiju, bet jaunākas metodes balstās uz mašīnu apguvi; skatīt, piemēram, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) Athey and Imbens (2016a) .
Pastāv zināms skepticisms par rezultātu neviendabīguma konstatējumiem, kas radušies vairāku salīdzināšanas problēmu un "zvejas" dēļ. Ir dažādas statistiskās pieejas, kas var palīdzēt atrisināt bažas par vairāku salīdzinājumu (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Viena pieeja bažām par "zveju" ir provizoriskā reģistrācija, kas psiholoģijā kļūst aizvien populārāka (Nosek and Lakens 2014) , politikas zinātnē (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , un ekonomika (Olken 2015) .
Costa and Kahn (2013) pētījumā Costa and Kahn (2013) tikai aptuveni puse eksperimentā esošo mājsaimniecību varētu būt saistīta ar demogrāfisko informāciju. Lasītājiem, kuriem ir interese par šiem datiem, jāattiecas uz oriģinālo dokumentu.
Mehānismi ir neticami svarīgi, taču tie izrādās ļoti grūti mācīties. Pētījumi par mehānismiem ir cieši saistīti ar mediatoru pētījumu psiholoģijā (bet arī skatīt VanderWeele (2009) lai precīzi salīdzinātu šīs divas idejas). Statistikas metodes mehānismu atrašanai, piemēram, Baron and Kenny (1986) izstrādātā pieeja, ir diezgan bieži. Diemžēl izrādās, ka šīs procedūras ir atkarīgas no dažiem spēcīgiem pieņēmumiem (Bullock, Green, and Ha 2010) un cieš, ja ir vairāki mehānismi, kā varētu sagaidīt daudzās situācijās (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) un Imai and Yamamoto (2013) piedāvā dažas uzlabotas statistikas metodes. Bez tam, VanderWeele (2015) piedāvā grāmatas garuma ārstēšanu ar vairākiem svarīgiem rezultātiem, ieskaitot visaptverošu pieeju jutīguma analīzei.
Atsevišķa pieeja koncentrējas uz eksperimentiem, kas mēģina tieši manipulēt ar mehānismu (piemēram, dodot jūrniekiem vitamīnu C). Diemžēl daudzās sociālās zinātnes iestādēs bieži ir vairāki mehānismi, un ir grūti izstrādāt tādas ārstēšanas metodes, kas mainītu vienu, nemainot pārējos. Dažas pieejas mehānismu eksperimentālajai maiņai raksturo Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , un Pirlott and MacKinnon (2016) .
Pētniekiem, kas pilnībā izmanto faktūras eksperimentus, būs jāuztraucas par vairāku hipotēžu testēšanu; Plašāku informāciju skatiet Fink, McConnell, and Vollmer (2014) un List, Shaikh, and Xu (2016) .
Visbeidzot, mehānismiem ir gara vēsture arī zinātnes filozofijā, kā aprakstīts Hedström and Ylikoski (2010) .
Plašāku informāciju par korespondenci un revīzijas pētījumiem, lai novērtētu diskrimināciju, skatiet sadaļā Pager (2007) .
Visizplatītākais veids, kā piesaistīt dalībniekus eksperimentiem, ko veidojat, ir Amazon Mechanical Turk (MTurk). Tā kā MTurk atdarina tradicionālo laboratorijas eksperimentu aspektus, kas liek cilvēkiem pildīt uzdevumus, ko tie nebūtu darījuši bez maksas, daudzi pētnieki jau ir sākuši izmantot turkeru (strādnieku MTurk) kā eksperimentālos dalībniekus, kā rezultātā datu vākšana notiek ātrāk un lētāk, nekā to var panākt (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Parasti lielākās priekšrocības, ko dod MTurk darbā pieņemtie dalībnieki, ir loģistiski. Lai gan laboratorijas eksperimenti var ilgt nedēļas, un eksperimentu veikšana uz lauka var aizņemt mēnešus, eksperimentus ar dalībniekiem, kas pieņemti darbā no MTurk, var darbināt dienās. Piemēram, Berinsky, Huber, and Lenz (2012) varēja pieņemt darbā 400 priekšmetus vienā dienā, lai piedalītos 8 minūšu eksperimentā. Turklāt šos dalībniekus var pieņemt darbā praktiski jebkādiem mērķiem (ieskaitot apsekojumus un masveida sadarbību, kā aprakstīts 3. un 5. nodaļā). Šī darbā pieņemšanas vienkāršība nozīmē, ka pētnieki var ātri izpildīt saistītu eksperimentu secības.
Lai saviem eksperimentiem piesaistītu dalībniekus no MTurk, ir četras svarīgas lietas, kas jums jāzina. Pirmkārt, daudziem pētniekiem ir nespecifisks skepticisms par eksperimentiem, kuros iesaistīti turkeri. Tā kā šis skepticisms nav specifisks, ir grūti pretoties pierādījumiem. Tomēr pēc vairāku gadu pētījumiem, izmantojot Turkers, mēs tagad varam secināt, ka šis skepticisms nav īpaši pamatots. Ir veikti daudzi pētījumi, kuros salīdzina turkeru demogrāfiju ar citu populāciju demogrāfiju un daudzus pētījumus, kuros salīdzināti eksperimentu rezultāti ar turkeriem ar citu populāciju eksperimentiem. Ņemot vērā visu šo darbu, es uzskatu, ka vislabākais veids, kā domāt par to, ir tas, ka turkeri ir samērīgas ērtības paraugs, līdzīgi kā skolēni, bet nedaudz daudzveidīgāki (Berinsky, Huber, and Lenz 2012) . Tādējādi, tāpat kā studenti ir saprātīgi populāri dažiem, bet ne visiem pētījumiem, turkeri ir saprātīga populācija dažiem, bet ne visiem pētījumiem. Ja jūs plānojat strādāt ar Turkers, tad ir jēga lasīt daudzus no šiem salīdzinošajiem pētījumiem un izprast to nianses.
Otrkārt, pētnieki ir izstrādājuši labākās prakses, lai palielinātu MTurk eksperimentu iekšējo derīgumu, un jums vajadzētu uzzināt un ievērot šo labāko praksi (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Piemēram, pētnieki, kas izmanto Turkers, tiek mudināti izmantot (Berinsky, Margolis, and Sances 2014, 2016) lai noņemtu neuzmanīgus dalībniekus (Berinsky, Margolis, and Sances 2014, 2016) (bet arī skat. DJ Hauser and Schwarz (2015b) un DJ Hauser and Schwarz (2015a) ). Ja jūs neizņemat neuzmanīgus dalībniekus, tad jebkuru ārstēšanas efektu var mazināt troksnis, ko tie ievieš, un praksē neuzmanības dalībnieku skaits var būt ievērojams. Hubera un kolēģu eksperimentā (2012) apmēram 30% dalībnieku neatbildēja uzmanību. Citas problēmas, kas parasti rodas, lietojot Turkers, ir ne-naivi dalībnieki (Chandler et al. 2015) un attīrīšanās (Zhou and Fishbach 2016) .
Treškārt, attiecībā uz dažiem citiem digitālo eksperimentu veidiem MTurk eksperimentus nevar mērogot; Stewart et al. (2015) lēsts, ka jebkurā brīdī MTurk ir apmēram 7000 cilvēku.
Visbeidzot, jums vajadzētu zināt, ka MTurk ir kopiena ar saviem noteikumiem un normām (Mason and Suri 2012) . Tādā pašā veidā, kā jūs mēģināt uzzināt par tās valsts kultūru, kurā jūs gatavojaties vadīt savus eksperimentus, jums vajadzētu mēģināt uzzināt vairāk par turku valodu un noriem (Salehi et al. 2015) . Un jums vajadzētu zināt, ka turkeri runā par jūsu eksperimentu, ja jūs darāt kaut ko nepiemērotu vai neētisku (Gray et al. 2016) .
MTurk ir neticami ērts veids, kā piesaistīt dalībniekus savos eksperimentos, neatkarīgi no tā, vai tie ir laboratorijas tipa, piemēram, Huber, Hill, and Lenz (2012) vai vairāk lauka līdzīgi, piemēram, Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) un Mao et al. (2016) .
Ja jūs domājat par mēģinājumu izveidot savu produktu, es iesaku jums izlasīt padomu, ko piedāvā MovieLens grupa Harper and Konstan (2015) . Galvenais priekšstats par viņu pieredzi ir tas, ka katram veiksmīgajam projektam ir daudz, daudz neveiksmju. Piemēram, MovieLens grupa uzsāka citus produktus, piemēram, GopherAnswers, kas bija pilnīgas neveiksmes (Harper and Konstan 2015) . Cits piemērs tam, ka pētnieks mēģina ražot produktu, neizdodas, ir Edvards Kastronova mēģinājums veidot tiešsaistes spēli ar nosaukumu Ardens. Neraugoties uz 250 000 dolāru finansējumu, projekts bija kritiens (Baker 2008) . Diemžēl tādi projekti kā GopherAnswers un Arden ir daudz biežāk nekā projekti, piemēram, MovieLens.
Esmu dzirdējis, ka Pasteur's Quadrant ideja bieži tiek apspriesta tehnoloģiju uzņēmumos un palīdz organizēt pētījumus Google (Spector, Norvig, and Petrov 2012) .
Obligāciju un kolēģu pētījums (2012) arī cenšas noskaidrot šo ārstēšanas efektu to saņēmēju draugiem. Eksperimenta dizaina dēļ šīs izplūdes ir grūti nosakāmas tīri; interesē lasītājiem vajadzētu redzēt Bond et al. (2012) lai veiktu rūpīgāku diskusiju. Jonesa un kolēģi (2017) arī veica ļoti līdzīgu eksperimentu 2012. gada vēlēšanās. Šie eksperimenti ir daļa no ilgām tradīcijām eksperimentos politikas zinātnē par centieniem veicināt balsošanu (Green and Gerber 2015) . Šie iznākšanas balsošanas eksperimenti ir izplatīti, daļēji tāpēc, ka tie atrodas Pastera kvadrantā. Tas nozīmē, ka ir daudz cilvēku, kuri ir motivēti palielināt balsošanu, un balsošana var būt interesanta uzvedība, lai pārbaudītu vispārīgākas teorijas par uzvedības maiņu un sociālo ietekmi.
Lai iegūtu padomu par eksperimentu veikšanu ar partnerorganizācijām, piemēram, politiskajām partijām, NVO un uzņēmumiem, skat. Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) un Gueron (2002) . Lai domātu par to, kā partnerības ar organizācijām var ietekmēt izpētes dizainu, skatiet King et al. (2007) un Green, Calfano, and Aronow (2014) . Partnerība var arī novest pie ētikas jautājumiem, kā to apsprieda Humphreys (2015) un Nickerson and Hyde (2016) .
Pirms eksperimenta uzsākšanas izveidojat analīzes plānu, es iesaku jums sākt, lasot pārskatu sniegšanas vadlīnijas. Konsorti (konsolidētie standartu ziņojumi par izmēģinājumiem) vadlīnijas tika izstrādātas medicīnā (Schulz et al. 2010) un modificēti sociālajiem pētījumiem (Mayo-Wilson et al. 2013) . Eksperimentālo politikas zinātņu žurnāla (Gerber et al. 2014) redaktori ir izstrādājuši attiecīgus pamatnostādņu Mutz and Pemantle (2015) skat. Arī Mutz and Pemantle (2015) un Gerber et al. (2015) ). Visbeidzot, ziņošanas pamatnostādnes ir izstrādātas psiholoģijā (APA Working Group 2008) , un arī Simmons, Nelson, and Simonsohn (2011) .
Ja izveidojat analīzes plānu, jums vajadzētu apsvērt iespēju to iepriekš reģistrēt, jo provizoriskā reģistrācija palielinās uzticību, kāda citiem ir jūsu rezultātos. Turklāt, ja jūs strādājat ar partneri, tas ierobežos jūsu partnera spēju mainīt analīzi pēc rezultātu skatīšanās. (Nosek and Lakens 2014) kļūst aizvien populārāka psiholoģijā (Nosek and Lakens 2014) , politikas zinātnē (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) un ekonomikā (Olken 2015) .
Dizainparaugu ieteikumi, kas īpaši paredzēti tiešsaistes eksperimentu veikšanai tiešsaistē, ir izklāstīti arī Konstan and Chen (2007) un Chen and Konstan (2015) .
To, ko esmu saucis par Armada stratēģiju, dažkārt sauc par programmatūras pētījumu ; skatīt Wilson, Aronson, and Carlsmith (2010) .
Lai iegūtu vairāk par MusicLab eksperimentu, skatiet Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) un Salganik (2007) . Lai uzzinātu vairāk par visiem uzvarētājiem, skat. Frank and Cook (1996) . Lai iegūtu plašāku informāciju par panākumiem un prasmēm plašāk, skatiet Mauboussin (2012) , Watts (2012) un Frank (2016) .
Ir vēl viena pieeja, lai novērstu dalībnieku maksājumus, kurus pētniekiem vajadzētu lietot piesardzīgi: piespiešana. Daudzos tiešsaistes eksperimentos dalībnieki pamatā tiek izstrādāti eksperimentos un nekad nav kompensēti. Šīs pieejas piemēri ir Restivo un van de Rijta (2012) eksperimenta rezultāti par atlīdzību Wikipēdijā un Bond un kolēģa (2012) eksperiments, lai mudinātu cilvēkus balsot. Šiem eksperimentiem patiesībā nav nulles mainīgas izmaksas, drīzāk tiem ir nulle mainīgas izmaksas pētniekiem . Šādos eksperimentos, pat ja izmaksas katram dalībniekam ir ārkārtīgi mazas, kopējās izmaksas var būt diezgan lielas. Pētnieki, kas veic milzīgus tiešsaistes eksperimentus, bieži vien attaisno mazu paredzamo ārstēšanas efektu nozīmību, apgalvojot, ka šie mazie efekti var kļūt svarīgi, ja tos piemēro daudziem cilvēkiem. Precīza domāšana attiecas uz izmaksām, ko pētnieki uzliek dalībniekiem. Ja eksperiments liek vienu miljonu cilvēku vienu minūti attīrīt, eksperiments nav ļoti kaitīgs nevienai konkrētai personai, bet kopumā tas ir izšķērdis gandrīz divus gadus ilgu laiku.
Vēl viena pieeja, lai izveidotu nulles mainīgo izmaksu maksājumu dalībniekiem, ir izmantot loteriju, pieeju, kas arī tika izmantota izpētes pētījumos (Halpern et al. 2011) . Plašāku informāciju par patīkamu lietotāja pieredzes izstrādi skatiet Toomim et al. (2011) . Lai uzzinātu vairāk par robotprogrammu izmantošanu, lai izveidotu nulles mainīgo izmaksu eksperimentus, skatiet ( ??? ) .
Trīs R, kā to sākotnēji ierosināja Russell and Burch (1959) ir šādi:
"Rezerves nozīmē aizstāšanu apzinās dzīvo augstākām dzīvnieku nejutīgs materiālu. Samazināšana nozīmē samazinājumu skaitu, ko izmanto, lai iegūtu informāciju par konkrētu summu un precizitāti dzīvniekiem. Trokšņu nozīmē jebkuru samazinājumu biežuma vai smaguma necilvēcīgo procedūrām, ko piemēro tiem dzīvniekiem, kuriem vēl ir jāizmanto. "
Trīs R, ko es ierosinu, nepārsniedz 6. nodaļā aprakstītos ētikas principus. Drīzāk tie ir vairāk izstrādāta versija, kas ir viens no šiem principiem - labdarība, it īpaši cilvēku eksperimentu noteikšanā.
Runājot par pirmo R ("nomaiņa"), salīdzinot emocionālo izplatīšanās eksperimentu (Kramer, Guillory, and Hancock 2014) un emocionālā dabiskā eksperimenta eksperimentu (Lorenzo Coviello et al. 2014) ir (Lorenzo Coviello et al. 2014) vispārēja pieredze par iesaistītajiem kompromisiem pārejot no eksperimentiem uz dabiskiem eksperimentiem (un citas pieejas, piemēram, saskaņošana, mēģinot tuvināt eksperimentus ar neeksperimentāliem datiem, sk. 2. nodaļu). Papildus ētiskiem ieguvumiem, pāreja no eksperimentāliem uz neeksperimentāliem pētījumiem arī ļauj pētniekiem pētīt ārstēšanu, ko viņi loģistiski nevar izmantot. Tomēr šie ētikas un loģistikas ieguvumi ir izdevīgi. Ar dabas eksperimentiem pētnieki ir mazāk kontrolējuši lietas, piemēram, dalībnieku pieņemšanu darbā, randomizāciju un ārstēšanas veidu. Piemēram, viens lietus apstrādes ierobežojums ir tas, ka tas gan palielina pozitīvību, gan samazina negatīvību. Tomēr eksperimentālajā pētījumā Kramer un viņa kolēģi spēja patstāvīgi koriģēt pozitīvitāti un negatīvību. Lorenzo Coviello et al. (2014) pieeja, ko izmanto Lorenzo Coviello et al. (2014) turpināja izstrādāt L. Coviello, Fowler, and Franceschetti (2014) . Ievads instrumentālajos mainīgajos lielumos, kas ir pieeja, ko izmanto Lorenzo Coviello et al. (2014) , sk. Angrist and Pischke (2009) (mazāk formāla) vai Angrist, Imbens, and Rubin (1996) (formālāka). Skeptiski novērtējot instrumentālos mainīgos lielumus, skatiet Deaton (2010) un Deaton (2010) instrumentālos mainīgos ar vājiem instrumentiem (lietus ir vājš instruments), skatīt Murray (2006) . Kopumā labu ievadu dabiskiem eksperimentiem sniedz Dunning (2012) , bet Rosenbaum (2002) , ( ??? ) un Shadish, Cook, and Campbell (2001) piedāvā labas idejas par cēloņsakarību novērtēšanu bez eksperimentiem.
Runājot par otro R ("uzlabošana"), tiek apspriesti zinātniski un loģistiski kompromisi, apsverot emocionālās saslimšanas koncepcijas maiņu, no amata vietu bloķēšanas līdz amata palielināšanai. Piemēram, var gadīties, ka ziņu plūsmas tehniskā ieviešana ļauj ievērojami atvieglot eksperimentu, kurā tiek bloķēti ziņojumi, nevis tos, uz kuriem tie tiek palielināti (ņemiet vērā, ka eksperimentu ar amatu bloķēšanu varētu īstenot kā slāni, kas atrodas "News Feed" sistēmas augšpusē, bez nepieciešamības mainīt pamata sistēmu). Zinātniski tomēr teorija, uz kuru vērsta eksperiments, skaidri nenorādīja nevienu dizainu par otru. Diemžēl es nezināju par ievērojamu iepriekšēju izpēti par relatīvo bloķēšanu un satura palielināšanu ziņu plūsmā. Arī es neesmu redzējis daudz pētījumu par ārstēšanas uzlabošanu, lai tos padarītu mazāk kaitīgus; Viens izņēmums ir B. Jones and Feamster (2015) , kurā tiek apspriests interneta cenzūras novērtējums (tēma, kuru es apspriež 6. nodaļā saistībā ar Encore pētījumu (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Runājot par trešo R ("samazināšana"), labu ievadu tradicionālajai jaudas analīzei sniedz Cohen (1988) (grāmata) un Cohen (1992) (raksts), bet Gelman and Carlin (2014) piedāvā nedaudz atšķirīgu perspektīvu. Eksperimentu izstrādes un analīzes posmā var iekļaut pirmapstrādes kovariātus; Gerber and Green (2012) 4. nodaļa sniedz labu priekšstatu par abām pieejām, un Casella (2008) sniedz padziļinātu izpēti. Metodes, kas izmanto šo informāciju par iepriekšēju ārstēšanu randomizācijā, parasti sauc par vai nu bloķētiem eksperimentāliem dizainiem, vai stratificētus eksperimentālos modeļus (terminoloģija netiek konsekventi lietota kopienās); šīs metodes ir cieši saistītas ar stratificētajiem paraugu ņemšanas paņēmieniem, kas aprakstīti 3. nodaļā. Sk. Higgins, Sävje, and Sekhon (2016) lai uzzinātu vairāk par šo dizainparaugu izmantošanu masveida eksperimentos. Analīzes stadijā var iekļaut arī pirmsterapijas kovariācijas. McKenzie (2012) detalizētāk analizē dažādu atšķirību pieeju lauka eksperimentu analīzei. Skatīt Carneiro, Lee, and Wilhelm (2016) vairāk par kompromisu starp dažādām metodēm, lai palielinātu precizitāti ārstēšanas efektu novērtējumos. Visbeidzot, lemjot, vai projektēšanas vai analīzes stadijā (vai abos gadījumos) mēģināt iekļaut pirmapstrādes kovariātus, ir jāapsver daži faktori. (Humphreys, Sierra, and Windt 2013) kurā pētnieki vēlas parādīt, ka viņi nav "zvejnieki" (Humphreys, Sierra, and Windt 2013) , var būt lietderīgi izmantot priekšattīrīšanas kovariācijas projektēšanas stadijā (Higgins, Sävje, and Sekhon 2016) . Situācijās, kad dalībnieki nonāk secīgi, it īpaši tiešsaistes eksperimentu laikā, projektēšanas stadijā informāciju par iepriekšēju apstrādi var būt loģiski grūti; skatīt, piemēram, Xie and Aurisset (2016) .
Ir vērts pievienot mazliet intuīciju par to, kā atšķirību starpība pieeja var būt tik daudz efektīvāka kā starpība starp līdzekļiem. Daudzi tiešsaistes rezultāti ir ļoti atšķirīgi (skat., Piemēram, RA Lewis and Rao (2015) un Lamb et al. (2015) ), un laika gaitā tie ir relatīvi stabili. Šajā gadījumā izmaiņu rezultātam būs ievērojami mazāka dispersija, kas palielinās statistiskās pārbaudes jaudu. Viens no iemesliem, kāpēc šī pieeja netiek izmantota biežāk, ir tas, ka pirms digitālā laikmeta nebija parasts iegūt rezultātus pirms ārstēšanas. Konkrētāks veids, kā domāt par to, ir iedomāties eksperimentu, lai noteiktu, vai īpaša izmantotā kārtība izraisa svara zudumu. Ja jūs izmantosiet atšķirīgu pieeju, jūsu aplēses mainīsies, ņemot vērā iedzīvotāju skaita mainīgumu. Tomēr, ja jūs veicat atšķirību atšķirības pieeju, tomēr dabiskās atšķirības svars tiek noņemts, un jūs varat vieglāk noteikt atšķirību, ko izraisa ārstēšana.
Visbeidzot, es uzskatu, ka jāpievieno ceturtais R: "pārveidot". Tas ir, ja pētnieki nonāk ar vairāk eksperimentāliem datiem, nekā tiem ir nepieciešams, lai risinātu viņu sākotnējo pētījumu jautājumu, viņiem vajadzētu pārveidot datus, lai uzdotu jaunus jautājumus. Piemēram, iedomājieties, ka Kramer un kolēģi ir izmantojuši atšķirību starpības novērtēšanas rīku un ir ieguvuši vairāk datu, nekā vajadzīgs, lai risinātu viņu pētījumu jautājumus. Tā vietā, lai pilnībā neizmantotu datus, viņi varēja pētīt iedarbības lielumu kā emocionālās izteiksmes pirms ārstēšanas funkciju. Tāpat kā Schultz et al. (2007) atklāja, ka vieglo un smago lietotāju ārstēšanas ietekme bija atšķirīga, iespējams, ka ziņu plūsmas ietekme bija atšķirīga tiem cilvēkiem, kuri jau bija publicējuši laimīgus (vai bēdīgus) ziņojumus. Repurposing varētu izraisīt "zveju" (Humphreys, Sierra, and Windt 2013) un "p-hakeru" (Simmons, Nelson, and Simonsohn 2011) , taču tos lielākoties var (Simmons, Nelson, and Simonsohn 2011) , izmantojot godīgu pārskatu (Simmons, Nelson, and Simonsohn 2011) , provizoriskā reģistrācija (Humphreys, Sierra, and Windt 2013) , kā arī mašīntulkošanas metodes, kuru mērķis ir izvairīties no pārmērīgas (Humphreys, Sierra, and Windt 2013) .