Les preguntes sobre la causalitat en la investigació social sovint són complexes i complexes. Per obtenir un enfocament fundacional de la causalitat basat en gràfics causals, vegeu Pearl (2009) i un enfocament fundacional basat en possibles resultats, vegeu Imbens and Rubin (2015) . Per a una comparació entre aquests dos enfocaments, vegeu Morgan and Winship (2014) . Per obtenir un enfocament formal per definir un VanderWeele and Shpitser (2013) , vegeu VanderWeele and Shpitser (2013) .
En aquest capítol, he creat el que semblava una línia brillant entre la nostra capacitat de fer estimacions causals a partir de dades experimentals i no experimentals. Tanmateix, crec que, en realitat, la distinció és més borrosa. Per exemple, tothom accepta que fumar causa càncer, tot i que mai s'ha realitzat cap experiment controlat aleatori que obliga a fumar a les persones. Per obtenir excel·lents tractaments de llibres per fer estimacions causals de dades no experimentals, vegeu Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) i Dunning (2012) .
Els capítols 1 i 2 de Freedman, Pisani, and Purves (2007) ofereixen una clara introducció a les diferències entre experiments, experiments controlats i experiments controlats aleatoris.
Manzi (2012) proporciona una introducció fascinant i llegible als fonaments filosòfics i estadístics dels experiments controlats aleatoris. També ofereix exemples interessants del món real del poder de l'experimentació en els negocis. Issenberg (2012) proporciona una fascinant introducció a l'ús de l'experimentació en campanyes polítiques.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 i Athey and Imbens (2016b) proporcionen bones introduccions als aspectes estadístics del disseny i anàlisi experimentals. A més, hi ha excel·lents tractaments sobre l'ús d'experiments en diversos camps: economia (Bardsley et al. 2009) , sociologia (Willer and Walker 2007; Jackson and Cox 2013) , psicologia (Aronson et al. 1989) , ciències polítiques (Morton and Williams 2010) i política social (Glennerster and Takavarasha 2013) .
La importància del reclutament participatiu (per exemple, el mostreig) sovint és poc valorat en la investigació experimental. Tanmateix, si l'efecte del tractament és heterogeni en la població, el mostreig és crític. Longford (1999) posa de manifest aquest punt quan defensa que els investigadors pensin en els experiments com a enquesta de població amb mostreig fortuït.
He suggerit que hi ha un continu entre experiments de laboratori i camp, i altres investigadors han proposat tipologies més detallades, en particular les que separen les diferents formes d'experiments en camp (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Diversos articles han comparat els experiments de laboratori i camp en abstracte (Falk and Heckman 2009; Cialdini 2009) i en termes de resultats d'experiments específics en ciències polítiques (Coppock and Green 2015) , economia (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , i psicologia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ofereixen un bon disseny de recerca per comparar resultats d'experiments de laboratori i camp. Parigi, Santana, and Cook (2017) descriuen com els experiments en camp en línia poden combinar algunes de les característiques dels experiments de laboratori i de camp.
Les preocupacions sobre els participants que canvien el seu comportament perquè saben que s'estan observant de prop són de vegades anomenats efectes de la demanda , i s'han estudiat en psicologia (Orne 1962) i economia (Zizzo 2010) . Encara que principalment s'associa amb experiments de laboratori, aquests mateixos problemes també poden causar problemes en els experiments de camp. De fet, els efectes de la demanda també es denominen de vegades efectes d'Hawthorne , un terme que deriva dels famosos experiments d'il·luminació que es van iniciar el 1924 a l'Hawthorne Works of the Western Electric Company (Adair 1984; Levitt and List 2011) . Els dos efectes de la demanda i els efectes d' Hawthorne estan estretament relacionats amb la idea de mesura reactiva que es va tractar al capítol 2 (vegeu també Webb et al. (1966) ).
Els experiments en camp tenen una llarga història en economia (Levitt and List 2009) , ciències polítiques (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psicologia (Shadish 2002) i polítiques públiques (Shadish and Cook 2009) . Una àrea de les ciències socials on els experiments sobre el terreny ràpidament es van fer més destacats és el desenvolupament internacional. Per a una revisió positiva d'aquest treball dins de l'economia vegeu Banerjee and Duflo (2009) , i per a una avaluació crítica vegeu Deaton (2010) . Per a una revisió d'aquest treball en ciències polítiques, vegeu Humphreys and Weinstein (2009) . Finalment, els desafiaments ètics derivats dels experiments de camp s'han explorat en el context de la ciència política (Humphreys 2015; Desposato 2016b) i l'economia del desenvolupament (Baele 2013) .
En aquesta secció, he suggerit que la informació de pretractament es pot utilitzar per millorar la precisió dels efectes estimats del tractament, però hi ha un cert debat sobre aquest enfocament; vegeu Freedman (2008) , W. Lin (2013) , Berk et al. (2013) i Bloniarz et al. (2016) per obtenir més informació.
Finalment, hi ha altres dos tipus d'experiments duts a terme per científics socials que no encaixen perfectament al llarg de la dimensió del laboratori: enquestar experiments i experiments socials. Els experiments d'enquesta són experiments utilitzant la infraestructura d'enquestes existents i comparem respostes a versions alternatives de les mateixes preguntes (alguns experiments d'enquesta es presenten al capítol 3); Per obtenir més informació sobre experiments d'enquesta vegeu Mutz (2011) . Els experiments socials són experiments on el tractament és una política social que només pot ser implementada per un govern. Els experiments socials estan estretament relacionats amb l'avaluació del programa. Per obtenir més informació sobre els experiments en polítiques, vegeu Heckman and Smith (1995) , Orr (1998) i @ glennerster_running_2013.
He optat per centrar-me en tres conceptes: la validesa, l'heterogeneïtat dels efectes del tractament i els mecanismes. Aquests conceptes tenen noms diferents en diferents camps. Per exemple, els psicòlegs tendeixen a anar més enllà dels simples experiments centrant-se en mediadors i moderadors (Baron and Kenny 1986) . La idea dels mediadors és capturat pel que jo anomeno mecanismes, i la idea dels moderadors és capturat pel que anomeno validesa externa (per exemple, els resultats de l'experiment seran diferents si s'executen en diferents situacions) i l'heterogeneïtat dels efectes del tractament ( Per exemple, els efectes són més grans per a algunes persones que per altres).
L'experiment de Schultz et al. (2007) mostra com es poden utilitzar les teories socials per dissenyar intervencions efectives. Per obtenir un argument més general sobre el paper de la teoria en el disseny d'intervencions efectives, vegeu Walton (2014) .
Els conceptes de validesa interna i externa van ser introduïts per primera vegada per Campbell (1957) . Vegeu Shadish, Cook, and Campbell (2001) per obtenir una història més detallada i una acurada elaboració de validesa de conclusió estadística, validesa interna, validesa de constructe i validesa externa.
Per obtenir una visió general dels problemes relacionats amb la validesa de la conclusió estadística en experiments, vegeu Gerber and Green (2012) (des d'una perspectiva de les ciències socials) i Imbens and Rubin (2015) (des d'una perspectiva estadística). Alguns problemes de validesa de conclusió estadística que sorgeixen específicament en experiments en camp en línia inclouen problemes com mètodes computacionalment eficients per crear intervals de confiança amb dades dependents (Bakshy and Eckles 2013) .
La validesa interna pot ser difícil d'assegurar en experiments de camp complexos. Vegeu, per exemple, Gerber and Green (2000) , Imai (2005) i Gerber and Green (2005) per debatre sobre la implementació d'un experiment de camp complex sobre la votació. Kohavi et al. (2012) i Kohavi et al. (2013) proporcionen una introducció als reptes de la validesa de l'interval en experiments en camp en línia.
Una de les principals amenaces per a la validesa interna és la possibilitat d'una fallida aleatorització. Una forma potencial de detectar problemes amb l'aleatorització és comparar els grups de tractament i control en trets observables. Aquest tipus de comparació s'anomena control de saldo . Vegeu Hansen and Bowers (2008) per obtenir un enfocament estadístic dels controls de saldo i Mutz and Pemantle (2015) per les preocupacions sobre els controls de saldo. Per exemple, utilitzant un balanç, Allcott (2011) trobar algunes proves que l'aleatorització no es va implementar correctament en tres dels experiments d'Opower (vegeu la taula 2, els llocs 2, 6 i 8). Per a altres enfocaments, vegeu el capítol 21 d' Imbens and Rubin (2015) .
Altres consideracions importants relacionades amb la validesa interna són: (1) incompliment unilateral, on no tots els participants en el grup de tractament reben el tractament, (2) incompliments a dues cares, on no tothom en el grup de tractament rep el tractament i algunes persones en el grup de control rep el tractament, (3) desgast, on els resultats no es mesuren per a alguns participants, i (4) interferències, on el tractament es vessa de les persones que pateixen la condició de tractament a les persones que es troben en la condició de control. Vegeu els capítols 5, 6, 7 i 8 de Gerber and Green (2012) per obtenir més informació sobre cadascun d'aquests temes.
Per obtenir més informació sobre la validesa de la construcció, vegeu Westen and Rosenthal (2003) , i per obtenir més informació sobre la validesa de les grans fonts de dades, Lazer (2015) i el capítol 2 d'aquest llibre.
Un aspecte de la validesa externa és la configuració en què es prova una intervenció. Allcott (2015) proporciona un acurat tractament teòric i empíric del biaix de selecció del lloc. Aquest tema també és discutit per Deaton (2010) . Un altre aspecte de la validesa externa és si les operacions alternatives d'una mateixa intervenció tindran efectes similars. En aquest cas, una comparació entre Schultz et al. (2007) i Allcott (2011) mostra que els experiments d'Opower tenien un efecte tractat estimat més petit que els experiments originals de Schultz i col·legues (1.7% vs. 5%). Allcott (2011) especular que els experiments de seguiment van tenir un efecte menor a causa de les maneres en què el tractament era diferent: una emoticona escrit a mà com a part d'un estudi patrocinat per una universitat, en comparació amb un emoticon imprès com a part d'una producció massiva informe d'una empresa elèctrica.
Per obtenir una excel·lent visió general de l'heterogeneïtat dels efectes del tractament en els experiments sobre el terreny, vegeu el capítol 12 de Gerber and Green (2012) . Per a les introduccions a l'heterogeneïtat dels efectes del tractament en els assajos mèdics, vegeu Kent and Hayward (2007) , Longford (1999) i Kravitz, Duan, and Braslow (2004) . Les consideracions sobre l'heterogeneïtat dels efectes del tractament generalment se centren en les diferències basades en les característiques del tractament previ. Si està interessat en l'heterogeneïtat basada en els resultats posttractament, es necessiten enfocaments més complexos, com l'estratificació principal (Frangakis and Rubin 2002) ; vegeu Page et al. (2015) per a una revisió.
Molts investigadors estimen l'heterogeneïtat dels efectes del tractament mitjançant la regressió lineal, però els mètodes més nous es basen en l'aprenentatge automàtic; vegeu, per exemple, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) i Athey and Imbens (2016a) .
Hi ha cert escepticisme sobre els resultats d'heterogeneïtat dels efectes a causa de problemes de comparació múltiple i "pesca". Hi ha una varietat d'enfocaments estadístics que poden ajudar a abordar les preocupacions sobre la comparació múltiple (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Una aproximació a les preocupacions sobre "la pesca" és la preinscripció, que cada vegada és més freqüent en psicologia (Nosek and Lakens 2014) , ciències polítiques (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , i economia (Olken 2015) .
En l'estudi de Costa and Kahn (2013) només la meitat de les llars de l'experiment podrien enllaçar-se a la informació demogràfica. Els lectors interessats en aquestes dades haurien de fer referència al document original.
Els mecanismes són increïblement importants, però resulten molt difícils d'estudiar. La investigació sobre els mecanismes està estretament relacionada amb l'estudi dels mediadors en psicologia (però vegeu també VanderWeele (2009) per a una comparació precisa entre les dues idees). Els enfocaments estadístics per trobar mecanismes, com l'enfocament desenvolupat a Baron and Kenny (1986) , són bastant comuns. Malauradament, resulta que aquests procediments depenen d'uns suposats ferms (Bullock, Green, and Ha 2010) i pateixen quan hi ha múltiples mecanismes, com es podria esperar en moltes situacions (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) i Imai and Yamamoto (2013) ofereixen mètodes estadístics millorats. A més, VanderWeele (2015) ofereix un tractament de longitud de llibres amb diversos resultats importants, incloent un enfocament integral de l'anàlisi de sensibilitat.
Un enfocament separat se centra en experiments que intenten manipular el mecanisme directament (per exemple, donar als mariners vitamina C). Malauradament, en moltes configuracions de ciències socials, sovint hi ha múltiples mecanismes i és difícil dissenyar tractaments que canvien un sense canviar els altres. Alguns enfocaments sobre els mecanismes d'alteració experimentals són descrits per Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , i Pirlott and MacKinnon (2016) .
Els investigadors que realitzin experiments factorials completes hauran de preocupar-se per la prova d'hipòtesis múltiples; vegeu Fink, McConnell, and Vollmer (2014) i List, Shaikh, and Xu (2016) per obtenir més informació.
Finalment, els mecanismes també tenen una llarga història en la filosofia de la ciència tal com ho descriu Hedström and Ylikoski (2010) .
Per obtenir més informació sobre l'ús d'estudis de correspondència i estudis d'auditoria per mesurar la discriminació, vegeu Pager (2007) .
La forma més habitual de reclutar els participants als experiments que construeixes és Amazon Mechanical Turk (MTurk). Atès que MTurk imita aspectes dels experiments de laboratori tradicionals-pagant a les persones per completar tasques que no farien de forma gratuïta-molts investigadors ja han començat a utilitzar els turcs (els treballadors de MTurk) com a participants experimentals, donant lloc a una recollida de dades més ràpida i econòmica que es pot aconseguir en experiments de laboratori tradicionals al campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
En general, les majors avantatges de l'ús de participants reclutats a MTurk són logístics. Mentre que els experiments de laboratori poden trigar setmanes a córrer i els experiments en camp poden trigar mesos a configurar, els experiments amb els participants reclutats a MTurk es poden executar en dies. Per exemple, Berinsky, Huber, and Lenz (2012) van poder reclutar 400 assignatures en un sol dia per participar en un experiment de 8 minuts. A més, aquests participants poden ser contractats per pràcticament qualsevol propòsit (incloent enquestes i col · laboració massiva, tal com es descriu en els capítols 3 i 5). Aquesta facilitat de captació implica que els investigadors poden executar seqüències d'experiments relacionats en ràpida successió.
Abans de reclutar participants de MTurk per als vostres experiments, hi ha quatre coses importants que necessiteu saber. En primer lloc, molts investigadors tenen un escepticisme inespecífic d'experiments relacionats amb els turcs. Com que aquest escepticisme no és específic, és difícil contrarestar l'evidència. No obstant això, després de diversos anys d'estudis que utilitzen els turcs, ara podem concloure que aquest escepticisme no està especialment justificat. Hi ha hagut molts estudis que comparen la demografia dels turcs amb els d'altres poblacions i molts estudis que comparen els resultats dels experiments amb els turcs amb els d'altres poblacions. Donat tot aquest treball, crec que la millor manera de pensar-hi és que els turcs són una mostra de conveniència raonable, igual que els estudiants, però una mica més diversa (Berinsky, Huber, and Lenz 2012) . Així, igual que els estudiants són una població raonable per a algunes, però no totes, les investigacions, els turcs són una població raonable per a algunes, però no totes, de la recerca. Si va a treballar amb els turcs, llavors té sentit llegir molts d'aquests estudis comparatius i comprendre els seus matisos.
En segon lloc, els investigadors han desenvolupat bones pràctiques per augmentar la validesa interna dels experiments de MTurk i han d'aprendre i seguir aquestes pràctiques recomanades (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Per exemple, els investigadors que utilitzen els turcs s'animen a utilitzar els programadors per eliminar els participants (Berinsky, Margolis, and Sances 2014, 2016) (però vegeu també DJ Hauser and Schwarz (2015b) i DJ Hauser and Schwarz (2015a) ). Si no retireu els participants inútils, qualsevol efecte del tractament pot ser eliminat pel soroll que introdueixen i, en la pràctica, el nombre de participants inatensius pot ser considerable. En l'experiment d'Huber i col·legues (2012) , aproximadament el 30% dels participants van fracassar els espectadors bàsics d'atenció. Altres problemes que normalment sorgeixen quan s'utilitzen els turcs són participants no ingenus (Chandler et al. 2015) i desgast (Zhou and Fishbach 2016) .
Tercer, en relació amb altres formes d'experiments digitals, els experiments de MTurk no poden escalar; Stewart et al. (2015) estimen que en un moment determinat hi ha només unes 7.000 persones en MTurk.
Finalment, haureu de saber que MTurk és una comunitat amb normes i normes pròpies (Mason and Suri 2012) . De la mateixa manera que intentaria conèixer la cultura d'un país on anava a realitzar els seus experiments, hauríeu d'intentar obtenir més informació sobre la cultura i les normes dels turcs (Salehi et al. 2015) . I haureu de saber que els turcs parlaran de la vostra experiència si feu alguna cosa inadequada o no ètica (Gray et al. 2016) .
MTurk és una manera increïblement pràctica de reclutar els participants als vostres experiments, tant si són de laboratori com Huber, Hill, and Lenz (2012) , o més semblants a camps, com els de Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , i Mao et al. (2016) .
Si esteu pensant a intentar crear el vostre propi producte, us recomano que llegiu els consells del grup MovieLens a Harper and Konstan (2015) . Una idea clau de la seva experiència és que per a cada projecte exitós hi ha molts, molts fracassos. Per exemple, el grup MovieLens va llançar altres productes, com GopherAnswers, que eren errors complets (Harper and Konstan 2015) . Un altre exemple d'error d'un investigador al intentar construir un producte és l'intent d'Edward Castronova de construir un joc en línia anomenat Arden. Tot i finançar $ 250,000, el projecte va ser un flop (Baker 2008) . Projectes com GopherAnswers i Arden són malauradament molt més comuns que projectes com MovieLens.
He escoltat la idea del Quadrant de Pasteur que es parla freqüentment a les empreses de tecnologia, i ajuda a organitzar esforços d'investigació a Google (Spector, Norvig, and Petrov 2012) .
L'estudi de Bond and colleagues (2012) també intenta detectar l'efecte d'aquests tractaments en els amics dels que els van rebre. A causa del disseny de l'experiment, aquests vessaments són difícils de detectar de manera neta; els lectors interessats haurien de veure Bond et al. (2012) per a un debat més complet. Jones i col·legues (2017) també van realitzar un experiment molt similar durant les eleccions de 2012. Aquests experiments formen part d'una llarga tradició d'experiments en ciències polítiques sobre els esforços per fomentar el vot (Green and Gerber 2015) . Aquests experiments d'obtenció de vot són comuns, en part perquè estan en el Quadrant de Pasteur. És a dir, hi ha moltes persones que estan motivades per augmentar la votació i la votació poden ser un comportament interessant per provar teories més generals sobre el canvi de comportament i la influència social.
Per obtenir consells sobre experiments de camp amb organitzacions associades, com ara partits polítics, ONG i empreses, vegeu Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) i Gueron (2002) . Per obtenir informació sobre com les associacions amb organitzacions poden afectar els dissenys d'investigació, vegeu King et al. (2007) i Green, Calfano, and Aronow (2014) . La col · laboració també pot conduir a qüestions ètiques, tal com han estat debatuts per Humphreys (2015) i Nickerson and Hyde (2016) .
Si aneu a crear un pla d'anàlisi abans d'executar l'experiment, us suggerim que comenceu llegint les directrius d'informes. Es van desenvolupar les directrius de CONSORT (Standard Consolidated Reporting of Trials) en medicina (Schulz et al. 2010) i modificades per a la investigació social (Mayo-Wilson et al. 2013) . Un conjunt de pautes relacionades han estat desenvolupades pels editors del Journal of Experimental Political Science (Gerber et al. 2014) (vegeu també Mutz and Pemantle (2015) i Gerber et al. (2015) ). Finalment, s'han desenvolupat pautes d'informes en psicologia (APA Working Group 2008) , i vegeu també Simmons, Nelson, and Simonsohn (2011) .
Si creeu un pla d'anàlisi, haureu de considerar el registre prèviament perquè la preinscripció augmentarà la confiança que altres usuaris tenen als vostres resultats. A més, si treballeu amb un soci, limitarà la capacitat del vostre soci per canviar l'anàlisi després de veure els resultats. La preinscripció és cada vegada més freqüent en psicologia (Nosek and Lakens 2014) , ciències polítiques (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) i economia (Olken 2015) .
També es presenta a Konstan and Chen (2007) i Chen and Konstan (2015) assessorament de disseny específic per a experiments en línia.
El que he anomenat estratègia de l'armada de vegades es denomina investigació programàtica ; vegeu Wilson, Aronson, and Carlsmith (2010) .
Per obtenir més informació sobre els experiments de MusicLab, vegeu Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) i Salganik (2007) . Per obtenir més informació sobre els guanyadors, vegeu Frank and Cook (1996) . Per obtenir més informació sobre la sort i el Mauboussin (2012) més general, vegeu Mauboussin (2012) , Watts (2012) i Frank (2016) .
Hi ha un altre enfocament per eliminar els pagaments dels participants que els investigadors han d'utilitzar amb precaució: conscription. En molts experiments en camp en línia, els participants bàsicament es redacten en experiments i mai es compensen. Alguns exemples d'aquest enfocament són l'experiment de Restivo i van de Rijt (2012) sobre recompenses a la Viquipèdia i l'experiència de Bond i col·lega (2012) per animar la gent a votar. Aquests experiments en realitat no tenen un cost variable de zero, sinó que tenen un cost variable per als investigadors . En aquests experiments, fins i tot si el cost de cada participant és extremadament petit, el cost total pot ser bastant gran. Els investigadors que realitzen experiments en línia massius sovint justifiquen la importància dels petits efectes estimats del tractament dient que aquests petits efectes poden esdevenir importants quan s'apliquen a moltes persones. El mateix pensament exacte s'aplica als costos que els investigadors imposen als participants. Si la vostra prova causa que un milió de persones es perdin un minut, l'experiment no és molt perjudicial per a cap persona en particular, però en general ha perdut gairebé dos anys de temps.
Un altre enfocament per crear un pagament de cost variable zero als participants és utilitzar una loteria, un enfocament que també s'ha utilitzat en la investigació d'enquestes (Halpern et al. 2011) . Per obtenir més informació sobre el disseny d'experiències d'usuari agradables, vegeu Toomim et al. (2011) . Per obtenir més informació sobre l'ús de robots per crear experiments de cost variable de zero, consulteu ( ??? ) .
Les tres R's que inicialment van proposar Russell and Burch (1959) són les següents:
"Substitució significa la substitució de consciència que viuen els animals superiors de material insensible. Reducció significa la reducció en el nombre d'animals utilitzats per obtenir informació d'una quantitat determinada i precisió. Refinament significa qualsevol disminució en la incidència o severitat de procediments inhumans aplicats a aquells animals que encara han de ser utilitzats ".
Les tres R que proposo no anul·len els principis ètics descrits al capítol 6. En lloc d'això, són una versió més elaborada d'aquests principis: beneficència, específicament en la configuració d'experiments humans.
En termes de la primera R ("reemplaçament"), comparar l'experiment de contagió emocional (Kramer, Guillory, and Hancock 2014) i l'experiment natural de contagió emocional (Lorenzo Coviello et al. 2014) ofereix algunes lliçons generals sobre les compensacions implicades en passar dels experiments als experiments naturals (i altres enfocaments com la coincidència que intenten aproximar els experiments en dades no experimentals; vegeu el capítol 2). A més dels beneficis ètics, el canvi d'estudis experimentals fins a no experimentals també permet als investigadors estudiar tractaments que no poden implementar logísticament. No obstant això, aquests beneficis ètics i logístics tenen un cost. Amb experiments naturals, els investigadors tenen menys control sobre coses com la contractació de participants, l'aleatorització i la naturalesa del tractament. Per exemple, una limitació de la pluja com a tractament és que augmenta la positivitat i disminueix la negativitat. Tanmateix, en l'estudi experimental, Kramer i els seus companys van poder ajustar la positivitat i la negativitat de forma independent. L'enfocament particular utilitzat per Lorenzo Coviello et al. (2014) va ser elaborat per L. Coviello, Fowler, and Franceschetti (2014) . Per a una introducció a les variables instrumentals, quin és l'enfocament utilitzat per Lorenzo Coviello et al. (2014) , vegeu Angrist and Pischke (2009) (menys formal) o Angrist, Imbens, and Rubin (1996) (més formal). Per a una valoració escèptica de les variables instrumentals, vegeu Deaton (2010) , i per a una introducció a les variables instrumentals amb instruments febles (la pluja és un instrument feble), vegeu Murray (2006) . En general, una bona introducció als experiments naturals és donada per Dunning (2012) , mentre que Rosenbaum (2002) , ( ??? ) i Shadish, Cook, and Campbell (2001) ofereixen bones idees sobre l'estimació d'efectes causals sense experiments.
Pel que fa a la segona R ("refinament"), hi ha compensacions científiques i logístiques quan es considera canviar el disseny del contagi emocional de bloquejar missatges per potenciar publicacions. Per exemple, pot ser que la implementació tècnica de l'alimentació de notícies fa que sigui substancialment més fàcil fer un experiment en què es bloquegen les publicacions en lloc d'una en què es potencien (cal tenir en compte que es podria implementar una prova de bloqueig de publicacions) com una capa al capdamunt del sistema News Feed sense necessitat d'alteracions del sistema subjacent). Científicament, però, la teoria abordada per l'experiment no va suggerir clarament un disseny per sobre de l'altre. Malauradament, no tinc coneixement d'una investigació prèvia substancial sobre els mèrits relatius del bloqueig i la potenciació del contingut al feed de notícies. A més, no he vist molta investigació sobre els tractaments de refinació per fer-los menys nocius; una excepció és B. Jones and Feamster (2015) , que considera el cas de la mesura de la censura a Internet (tema que (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) al capítol 6 en relació amb l'estudi Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
En termes de la tercera R ("reducció"), les bones introduccions a l'anàlisi de potència tradicionals són donades per Cohen (1988) (llibre) i Cohen (1992) (article), mentre que Gelman and Carlin (2014) ofereixen una perspectiva una mica diferent. Les covariables de pretractament es poden incloure en la fase de disseny i anàlisi d'experiments; El capítol 4 de Gerber and Green (2012) proporciona una bona introducció als dos enfocaments, i Casella (2008) proporciona un tractament més profund. Les tècniques que utilitzen aquesta informació de pretractament en l'aleatorització solen anomenar dissenys experimentals bloquejats o dissenys experimentals estratificats (la terminologia no s'utilitza de forma coherent a través de les comunitats); aquestes tècniques estan estretament relacionades amb les tècniques de mostreig estratificat descrits al capítol 3. Vegeu Higgins, Sävje, and Sekhon (2016) per obtenir més informació sobre l'ús d'aquests dissenys en experiments massius. Les covariables de pretractament també es poden incloure en l'etapa d'anàlisi. McKenzie (2012) explora l'enfocament de diferència en diferències per analitzar experiments de camp amb més detall. Vegeu Carneiro, Lee, and Wilhelm (2016) per obtenir més informació sobre les compensacions entre diferents enfocaments per augmentar la precisió en les estimacions dels efectes del tractament. Finalment, al decidir si pretenen incloure covariants de pretractament en la fase de disseny o anàlisi (o ambdós), hi ha alguns factors a considerar. En un entorn on els investigadors volen demostrar que no són "pescadors" (Humphreys, Sierra, and Windt 2013) , l'ús de covariables de pretractament en l'etapa de disseny pot ser útil (Higgins, Sävje, and Sekhon 2016) . En situacions on els participants arriben de forma seqüencial, especialment els experiments en camp en línia, l'ús de la informació de pretractament en l'etapa de disseny pot ser difícil de forma logística; vegeu, per exemple, Xie and Aurisset (2016) .
Val la pena afegir una mica d'intuïció sobre per què un enfocament de diferències en diferències pot ser molt més eficaç que un mitjà de diferència. Molts resultats en línia tenen una variància molt alta (vegeu, per exemple, RA Lewis and Rao (2015) i Lamb et al. (2015) ) i són relativament estables amb el temps. En aquest cas, la puntuació del canvi tindrà una variància substancialment menor, augmentant la potència de la prova estadística. Una de les raons que aquest enfocament no s'utilitza amb més freqüència és que abans de l'era digital, no era habitual tenir resultats de pretractament. Una forma més concreta de pensar en això és imaginar un experiment per mesurar si una rutina específica d'exercici provoca pèrdua de pes. Si adopteu un enfocament de diferència en els mitjans, la vostra estimació tindrà variabilitat derivada de la variabilitat dels pesos de la població. Tanmateix, si es fa un enfocament de diferències en diferències, s'elimina la variació natural dels pesos i es pot detectar més fàcilment la diferència provocada pel tractament.
Finalment, vaig considerar afegir una quarta R: "repurpose". És a dir, si els investigadors es troben amb dades més experimentals del que necessiten per fer front a la seva pregunta de recerca original, haurien de reutilitzar les dades per fer noves preguntes. Per exemple, imagineu que Kramer i els seus col · legues havien utilitzat un estimador de diferències en diferències i es van trobar amb més dades del que necessitaven per fer front a la seva pregunta de recerca. En comptes d'utilitzar les dades en la major mesura, podrien haver estudiat la mida de l'efecte en funció de l'expressió emocional prèvia al tractament. De la mateixa manera que Schultz et al. (2007) trobar que l'efecte del tractament era diferent per als usuaris lleugers i pesats, potser els efectes del Feed de notícies eren diferents per a persones que ja tendien a publicar missatges feliços (o tristos). La repressió podria portar a "pescar" (Humphreys, Sierra, and Windt 2013) i "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , però són (Simmons, Nelson, and Simonsohn 2011) direccionables amb una combinació d'informes honesta (Simmons, Nelson, and Simonsohn 2011) , preinscripció (Humphreys, Sierra, and Windt 2013) , i mètodes d'aprenentatge automàtic que intenten evitar una execució excessiva.