Aquesta secció està dissenyada per a ser utilitzada com una referència, en lloc de ser llegit com un relat.
Les preguntes sobre la causalitat en la investigació social sovint són complexos i intricats. Per a un enfocament fonamental per a la causalitat basat en gràfics causals, consulteu Pearl (2009) , i per un enfocament fonamental sobre la base dels resultats potencials, vegeu Imbens and Rubin (2015) (i l'apèndix tècnic d'aquest capítol). Per a una comparació entre aquests dos enfocaments, vegeu Morgan and Winship (2014) . Per a un enfocament formal per definir un factor de confusió, veure VanderWeele and Shpitser (2013) .
En el capítol, he creat el que semblava ser una línia clara entre la nostra capacitat per fer estimacions causals a partir de dades experimentals i no experimentals. En realitat, crec que la distinció és més borrosa. Per exemple, tothom accepta que el fumar causa càncer tot i que mai hem fet un experiment controlat aleatori que obliga les persones que fumen. Per les seves excel·lents tractaments de longitud llibre sobre la realització d'estimacions causals a partir de dades no experimentals vegeu Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , i Dunning (2012) .
Els capítols 1 i 2 de Freedman, Pisani, and Purves (2007) ofereixen una introducció clara de les diferències entre els experiments, els experiments controlats, aleatoris i experiments controlats.
Manzi (2012) ofereix una fascinant introducció i llegible en les bases filosòfiques i estadístiques d'experiments controlats aleatoris. També proporciona exemples del món real d'interès de la potència de l'experimentació en els negocis.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) proporcionen bones introduccions als aspectes estadístics de disseny i anàlisi experimental. A més, hi ha excel·lents tractaments de la utilització d'experiments en els àmbits més diversos: economia (Bardsley et al. 2009) , sociologia (Willer and Walker 2007; Jackson and Cox 2013) , psicologia (Aronson et al. 1989) , la ciència política (Morton and Williams 2010) , i la política social (Glennerster and Takavarasha 2013) .
La importància de la captació de participants (per exemple, presa de mostres) sovint no s'aprecia en la investigació experimental. No obstant això, si l'efecte del tractament és heterogeni en la població, la mostra és crítica. Longford (1999) fa que aquest punt clarament quan advoca perquè els investigadors pensen en experiments com un estudi de la població amb un mostreig a l'atzar.
La dicotomia que vaig presentar entre els experiments de laboratori i de camp és una mica simplificada. De fet, altres investigadors han proposat tipologies més detallats, en particular, els que separen les diverses formes d'experiments de camp (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . A més, hi ha altres dos tipus d'experiments duts a terme pels científics socials que no encaixen perfectament en el laboratori i de camp: dicotomia. Experiments d'enquestes i experiments socials experiments de l'enquesta es experiments utilitzant la infraestructura de les enquestes existents i comparar les respostes a les versions alternatives de la mateixes preguntes (alguns experiments enquesta es presenten en el capítol 3); per a més informació sobre els experiments de l'enquesta veure Mutz (2011) . Els experiments socials són experiments en els quals el tractament és una mica de la política social que només pot ser implementat per un govern. Els experiments socials estan estretament relacionats amb l'avaluació del programa. Per a més informació sobre els experiments de política, consulteu Orr (1998) , Glennerster and Takavarasha (2013) i Heckman and Smith (1995) .
Diversos treballs han comparat els experiments de laboratori i de camp en el resum (Falk and Heckman 2009; Cialdini 2009) i en termes de resultats d'experiments específics en ciències polítiques (Coppock and Green 2015) , l'economia (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) i la psicologia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ofereix un bon disseny d'investigació per comparar els resultats d'experiments de laboratori i de camp.
La preocupació pels participants canvien el seu comportament, ja que saben que estan sent observats de prop de vegades són anomenats efectes de la demanda, i s'han estudiat en la psicologia (Orne 1962) i l'economia (Zizzo 2009) . Tot i que en la seva majoria associats amb experiments de laboratori, aquests mateixos problemes poden causar problemes per als experiments de camp també. De fet, els efectes de demanda de vegades també s'anomenen efectes d'Hawthorne, un terme que deriva d'un experiment de camp, específicament els famosos experiments d'il·luminació que es va iniciar el 1924 a la fàbrica Hawthorne de la Western Electric Company (Adair 1984; Levitt and List 2011) . Tots dos efectes de la demanda i els efectes de l'arç estan estretament relacionats amb la idea de mesura reactiva discutit en el capítol 2 (vegeu també Webb et al. (1966) ).
La història dels experiments de camp s'ha descrit en l'economia (Levitt and List 2009) , la ciència política (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psicologia (Shadish 2002) , i les polítiques públiques (Shadish and Cook 2009) . Una de les àrees de les ciències socials, on els experiments de camp ràpidament va arribar a ser prominent és el desenvolupament internacional. Per a una revisió positiva que el treball dins de l'economia vegeu Banerjee and Duflo (2009) , i per a una avaluació crítica vegeu Deaton (2010) . Per a una revisió d'aquest treball en la ciència política veure Humphreys and Weinstein (2009) . Finalment, els problemes ètics involucrats en experiments de camp han estat explorats en la ciència política (Humphreys 2015; Desposato 2016b) i l'economia del desenvolupament (Baele 2013) .
En el capítol, he suggerit que la informació pretractament pot ser utilitzat per millorar la precisió dels efectes estimats del tractament, però hi ha cert debat sobre aquest enfocament: Freedman (2008) , Lin (2013) , i Berk et al. (2013) ; veure Bloniarz et al. (2016) per a més informació.
He optat per centrar-se en tres conceptes: la validesa, l'heterogeneïtat dels efectes del tractament, i mecanismes. Aquests conceptes tenen diferents noms en diferents camps. Per exemple, els psicòlegs tendeixen a anar més enllà de simples experiments, centrant-se en els mediadors i moderadors (Baron and Kenny 1986) . La idea dels mediadors és capturat pel que dic mecanismes, i la idea de moderadors es capturat pel que dic la validesa externa (per exemple, serien els resultats de l'experiment diferent si va ser executat en diferents situacions) i l'heterogeneïtat dels efectes del tractament ( per exemple, els efectes són més grans per a algunes persones que altres persones).
L'experiment de Schultz et al. (2007) mostra com les teories socials es pot utilitzar per a dissenyar intervencions efectives. Per a una discussió més general sobre el paper de la teoria en el disseny d'intervencions eficaces, vegeu Walton (2014) .
Els conceptes de validesa interna i externa es van introduir per primera vegada en Campbell (1957) . Veure Shadish, Cook, and Campbell (2001) per a una història més detallada i una acurada elaboració de validesa conclusió estadística, la validesa interna, validesa de constructe i la validesa externa.
Per a una visió general de les qüestions relacionades amb la validesa conclusió estadística en els experiments veure Gerber and Green (2012) (per a una perspectiva de les ciències socials) i Imbens and Rubin (2015) (per al punt de vista estadístic). Algunes qüestions de validesa conclusió estadística que sorgeixen específicament en experiments de camp en línia inclouen qüestions com ara els mètodes computacionalment eficients per a la creació d'intervals de confiança amb les dades dependents (Bakshy and Eckles 2013) .
La validesa interna pot ser difícil de garantir en experiments de camp complexes. Vegeu, per exemple, Gerber and Green (2000) , Imai (2005) , i Gerber and Green (2005) per al debat sobre l'execució d'un experiment de camp complex sobre la votació. Kohavi et al. (2012) i Kohavi et al. (2013) proporcionar una introducció als reptes de la validesa d'interval en experiments de camp en línia.
Una preocupació important amb validesa interna és problemes amb l'assignació a l'atzar. Una manera de detectar potencials problemes amb l'aleatorització és comparar els grups de tractament i control en els trets observables. Aquest tipus de comparació es diu un xec equilibri. Veure Hansen and Bowers (2008) per a un enfocament estadístic per equilibrar els xecs, i veure Mutz and Pemantle (2015) per les preocupacions sobre els controls de balanç. Per exemple, usant una balança de visita Allcott (2011) va trobar que hi ha alguna evidència que l'assignació a l'atzar no s'ha implementat correctament en tres dels experiments en alguns dels experiments Opower (vegeu la Taula 2, els llocs 2, 6, i 8). Per a altres enfocaments, veure Imbens and Rubin (2015) , Capítol 21.
Altres dels principals problemes relacionats amb la validesa interna són: 1) un sol costat incompliment, quan no tots en el grup de tractament va rebre realment el tractament, 2) dues cares incompliment, quan no tots en el grup de tractament rep el tractament i alguns persones en el grup de control reben el tractament, 3) de desgast, on els resultats no es mesuren per a alguns participants, i 4) la interferència, on el tractament es vessa de la gent en la condició de tractament a les persones en el grup de control. Veure Gerber and Green (2012) els capítols 5, 6, 7, i 8 per a més informació sobre cada un d'aquests temes.
Per a més informació sobre la validesa de constructe, vegeu Westen and Rosenthal (2003) , i per a més informació sobre la validesa de constructe de les fonts de dades grans, Lazer (2015) i en el capítol 2 d'aquest llibre.
Un aspecte de la validesa externa és l'entorn en el qual es prova una intervenció. Allcott (2015) ofereix un tractament teòric i empíric cura de biaix de selecció de llocs. Aquest problema també es discuteix en Deaton (2010) . A més de ser replicat en molts llocs, la intervenció Inici Informe de l'Energia també s'ha estudiat de manera independent per diversos grups de recerca (per exemple, Ayres, Raseman, and Shih (2013) ).
Per a una excel·lent revisió de l'heterogeneïtat dels efectes del tractament en els experiments de camp, vegeu el capítol 12 de Gerber and Green (2012) . Per introduccions a l'heterogeneïtat dels efectes del tractament en assaigs clínics, veure Kent and Hayward (2007) , Longford (1999) , i Kravitz, Duan, and Braslow (2004) . L'heterogeneïtat dels efectes del tractament se centren generalment en les diferències basades en les característiques de pretractament. Si vostè està interessat en l'heterogeneïtat basada en els resultats posteriors al tractament, llavors es necessiten abordatge de la més complexes, com ara l'estratificació director (Frangakis and Rubin 2002) ; veure Page et al. (2015) per a una revisió.
Molts investigadors estimen que l'heterogeneïtat dels efectes del tractament mitjançant regressió lineal, però els nous mètodes es basen en l'aprenentatge de màquina, per exemple Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , i Athey and Imbens (2016a) .
Hi ha un cert escepticisme sobre els resultats de l'heterogeneïtat dels efectes a causa de múltiples problemes de comparació i la "pesca". Hi ha una varietat de mètodes estadístics que poden ajudar a solucionar problemes sobre comparació múltiple (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Una aproximació a la preocupació per la "pesca" és pre-registre, que s'està convertint cada vegada més comú en la psicologia (Nosek and Lakens 2014) , la ciència política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) i l'economia (Olken 2015) .
En l'estudi de la Costa and Kahn (2013) només la meitat de les llars en l'experiment van ser capaços d'estar vinculat a la informació demogràfica. Els lectors interessats en els detalls i possibles problemes amb aquesta anàlisi han de consultar el document original.
Els mecanismes són molt importants, però resulten ser molt difícils d'estudiar. La investigació sobre els mecanismes estretament relacionada amb l'estudi dels mediadors en la psicologia (però vegeu també VanderWeele (2009) per a una comparació precisa entre les dues idees). Mètodes estadístics a la recerca de mecanismes, com ara l'enfocament desenvolupat en Baron and Kenny (1986) , són bastant comuns. Per desgràcia, resulta que aquests procediments depenen d'alguns supòsits forts (Bullock, Green, and Ha 2010) i pateixen quan hi ha múltiples mecanismes, com era d'esperar en moltes situacions (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) i Imai and Yamamoto (2013) ofereixen mètodes estadístics millorats. A més, VanderWeele (2015) ofereix un tractament de longitud del llibre amb una sèrie de resultats importants, incloent un enfocament integral per a l'anàlisi de sensibilitat.
Un enfocament separat se centra en experiments que intenten manipular el mecanisme de manera directa (per exemple, donant mariners vitamina C). Malauradament, en molts entorns de les ciències socials sovint hi ha múltiples mecanismes i és difícil dissenyar tractaments que canvien un sense canviar els altres. Alguns enfocaments de forma experimental, es descriuen els mecanismes que alteren en Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , i Pirlott and MacKinnon (2016) .
Finalment, els mecanismes també tenen una llarga història en la filosofia de la ciència com es descriu per Hedström and Ylikoski (2010) .
Per a més informació sobre l'ús d'estudis per correspondència i estudis d'auditoria per mesurar la discriminació veure Pager (2007) .
La forma més comuna de reclutar als participants als experiments que es genera és Amazon Mechanical Turk (MTurk). A causa MTurk imita els aspectes dels experiments de pagament de laboratori tradicionals de persones per realitzar les tasques que no anaven a fer per investigadors lliures molts ja han començat a utilitzar Turkers (els treballadors en MTurk) com a participants en subjectes humans experiments que resulta en més barat de recollida de dades més ràpida i que els tradicionals experiments de laboratori al campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
La major fortalesa d'experiments amb participants reclutats en MTurk són logístic: permeten als investigadors a reclutar als participants de forma ràpida i, segons sigui necessari. Mentre que els experiments de laboratori poden prendre setmanes per córrer i experiments de camp poden trigar mesos a la configuració, els experiments amb participants reclutats en MTurk es poden executar en dies. Per exemple, Berinsky, Huber, and Lenz (2012) van ser capaços de reclutar 400 subjectes en un sol dia per participar en un experiment agost minut. A més, aquests participants poden ser reclutats per virtualment qualsevol propòsit (inclosos els estudis i la col·laboració massiva, com s'explica en els capítols 3 i 5). Aquesta facilitat de reclutament significa que els investigadors poden executar seqüències d'experiments relacionats en ràpida successió.
Abans de reclutar participants de MTurk per als seus propis experiments, hi ha quatre coses importants que ha de saber. En primer lloc, molts investigadors tenen un escepticisme no específica dels experiments que impliquen Turkers. A causa que aquest escepticisme no és específica, és difícil de contrarestar amb proves. No obstant això, després de diversos anys d'estudis que utilitzen Turkers, ara podem concloure que aquest escepticisme no és especialment necessari. Hi ha hagut molts estudis que comparen les dades demogràfiques de Turkers a altres poblacions i molts estudis que comparen els resultats dels experiments amb Turkers als resultats d'altres poblacions. Tenint en compte tota aquesta feina, crec que la millor manera perquè vostè pensa sobre això és que Turkers són una mostra de conveniència raonable, igual que els estudiants, sinó una mica més diversa (Berinsky, Huber, and Lenz 2012) . Per tant, igual que els estudiants són una població raonable per a alguns, però no tota la investigació experimental, Turkers són una població raonable per a alguns, però no totes les investigacions. Si vostè va a treballar amb Turkers, llavors té sentit per a llegir molts d'aquests estudis comparatius i comprendre els seus matisos.
En segon lloc, els investigadors han desenvolupat les millors pràctiques per augmentar la validesa interna dels experiments Turk, i vostè ha de conèixer i seguir aquestes millors pràctiques (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Per exemple, s'anima als investigadors que fan servir Turkers utilitzar garbells per eliminar participants de falta d'atenció (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (però vegeu també el DJ Hauser and Schwarz (2015b) i DJ Hauser and Schwarz (2015a) ). Si no es retiren els participants de falta d'atenció, llavors qualsevol efecte del tractament pot ser rentat pel soroll introduït pels participants de falta d'atenció, i en la pràctica el nombre de participants de manca d'atenció pot ser substancial. En l'experiment de Huber i els seus col·legues (2012) sobre 30% dels participants no cribadores bàsics d'atenció. Un altre problema comú amb Turkers participants no és ingenu (Chandler et al. 2015) .
En tercer lloc, en relació amb algunes altres formes d'experiments digitals, els experiments MTurk poden no escala; Stewart et al. (2015) estimen que en un moment donat només hi ha al voltant de 7.000 persones en MTurk.
Finalment, vostè ha de saber que MTurk és una comunitat amb les seves pròpies regles i normes (Mason and Suri 2012) . De la mateixa manera que ho faria intentar esbrinar sobre la cultura d'un país en el qual es va a executar els seus experiments, vostè ha de tractar d'esbrinar més sobre la cultura i les normes de Turkers (Salehi et al. 2015) . I, vostè ha de saber que els Turkers a estar parlant de la teva experiment si ho fa alguna cosa inadequat o poc ètic (Gray et al. 2016) .
MTurk és una forma molt convenient per reclutar els participants als seus experiments, ja siguin de laboratori similars, com ara Huber, Hill, and Lenz (2012) , o més de camp com, per exemple, Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , i Mao et al. (2016) .
Si vostè està pensant en tractar de crear el seu propi producte, li recomano que llegeixi els consells oferts pel grup MovieLens en Harper and Konstan (2015) . Un element clau de la seva experiència és que per a cada projecte reeixit n'hi ha molts, molts fracassos. Per exemple, el grup va llançar MovieLens altres productes com ara GopherAnswers que estaven complets fracassos (Harper and Konstan 2015) . Un altre exemple d'un investigador si no, mentre que l'intent de construir un producte és l'intent d'Edward Castronova per construir un joc en línia anomenat Arden. Tot i $ 250.000 a el finançament, el projecte va ser un fracàs (Baker 2008) . Projectes com GopherAnswers i Cremen són per desgràcia molt més comú del que projectes com MovieLens. Finalment, quan vaig dir que no sabia de cap altres investigadors que havien construït amb èxit productes per a l'experimentació repetida aquí són les meves criteris: 1) els participants utilitzen el producte a causa del que els proporciona (per exemple, no se'ls paga i no són voluntaris ajudant ciència) i 2) el producte ha estat utilitzat durant més d'un experiment diferent (és a dir, no el mateix experiment diverses vegades amb diferents grups de participants). Si vostè sap d'altres exemples, si us plau m'ho saber.
He escoltat la idea de Quadrant de Pasteur discutit amb freqüència en les empreses de tecnologia, i ajuda a organitzar els esforços d'investigació a Google (Spector, Norvig, and Petrov 2012) .
Bond i col·legues d'estudi (2012) també tracta de detectar l'efecte d'aquests tractaments sobre els amics d'aquells que els van rebre. A causa del disseny de l'experiment, aquests efectes secundaris són difícils de detectar netament; El lector interessat pot veure Bond et al. (2012) per a una discussió més a fons. Aquest experiment és part d'una llarga tradició d'experiments en ciències polítiques en els esforços per promoure el vot (Green and Gerber 2015) . Aquests experiments get-fora-del-vot són comuns, en part, perquè són al Quadrant de Pasteur. És a dir, hi ha moltes persones que estan motivats per estimular el vot i el vot pot ser un comportament interessant per posar a prova les teories més generals sobre el canvi de comportament i la influència social.
Altres investigadors han prestat assessorament sobre l'execució dels experiments de camp amb organitzacions associades com els partits polítics, ONG i empreses (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . D'altres han ofert consells sobre com les associacions amb organitzacions poden impactar els dissenys d'investigació (Green, Calfano, and Aronow 2014; King et al. 2007) . L'associació també pot donar lloc a qüestions ètiques (Humphreys 2015; Nickerson and Hyde 2016) .
Si es va crear un pla d'anàlisi abans d'executar l'experiment, li suggereixo que comenci per llegir directrius. El CONSORT (Consolidated Norma d'Informació d'assajos) directrius van ser desenvolupades en la medicina (Schulz et al. 2010) i modificat per la investigació social (Mayo-Wilson et al. 2013) . Un conjunt relacionat de directrius ha estat desenvolupat pels editors de la revista Journal of Experimental de Ciències Polítiques (Gerber et al. 2014) (vegeu també Mutz and Pemantle (2015) i Gerber et al. (2015) ). Finalment, les directrius de presentació d'informes s'han desenvolupat en la psicologia (Group 2008) , i la consulta Simmons, Nelson, and Simonsohn (2011) .
Si crea un pla d'anàlisi ha de tenir en compte abans de registrar perquè preinscripció augmentarà la confiança que altres tenen en els seus resultats. A més, si s'està treballant amb un soci, que limitarà la capacitat de la seva parella per canviar l'anàlisi després de veure els resultats. La preinscripció s'està convertint cada vegada més comú en la psicologia (Nosek and Lakens 2014) , la ciència política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , i l'economia (Olken 2015) .
Si bé la creació del seu pla de pre-anàlisi ha de tenir en compte que alguns investigadors també utilitzen la regressió i els enfocaments relacionats per millorar la precisió de l'efecte estimat del tractament, i hi ha un cert debat sobre aquest enfocament: Freedman (2008) , Lin (2013) , i Berk et al. (2013) ; veure Bloniarz et al. (2016) per a més informació.
Consells de disseny especialment per a experiments de camp en línia també es presenta en Konstan and Chen (2007) i Chen and Konstan (2015) .
Per a més informació sobre els experiments MusicLab, veure Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , i Salganik (2007) . Per a més informació sobre el guanyador es porta tots els mercats, vegeu Frank and Cook (1996) . Per a més informació sobre la sort de desembolicat i habilitat en termes més generals, veure Mauboussin (2012) , Watts (2012) , i Frank (2016) .
Hi ha un altre mètode per a l'eliminació dels pagaments dels participants que els investigadors han d'utilitzar amb precaució: el servei militar obligatori. En molts experiments de camp en línia participants són, bàsicament, reclutats en els experiments i mai compensat. Els exemples d'aquest enfocament inclouen Restivo i de van de Rijt (2012) experiment sobre recompenses en Wikipedia i Bond i del col·lega (2012) experiment en animar la gent a votar. Aquests experiments en realitat no tenen cost variable zero, que té zero cost variable per als investigadors. Tot i que el cost de molts d'aquests experiments és extremadament petita per a cada participant, petits costos imposen un enorme nombre de participants pot augmentar ràpidament. Els investigadors que executen experiments massius en línia sovint justifiquen la importància dels petits efectes estimats del tractament dient que aquests petits efectes poden arribar a ser important quan s'aplica a moltes persones. El mateix pensament exacte s'aplica als costos que imposen als investigadors participants. Si els seus experiments provoca un milió de persones a perdre un minut, l'experiment no és molt perjudicial per a qualsevol persona en particular, però en conjunt s'ha perdut gairebé dos anys de temps.
Un altre enfocament a la creació de pagament cost variable zero als participants és l'ús d'una loteria, un enfocament que s'ha utilitzat també en la investigació d'enquesta (Halpern et al. 2011) . Finalment, per a més informació sobre el disseny d'usuaris-experiències agradables veure Toomim et al. (2011) .
Aquí hi ha les definicions originals de les tres R, de Russell and Burch (1959) :
"Substitució significa la substitució de consciència que viuen els animals superiors de material insensible. Reducció significa la reducció en el nombre d'animals utilitzats per obtenir informació d'una quantitat determinada i precisió. Refinament significa qualsevol disminució en la incidència o severitat de procediments inhumans aplicats a aquells animals que encara han de ser utilitzats ".
Les tres R que proposo no anul·len els principis ètics descrits en el capítol 6. Per contra, són una versió més elaborada un d'aquests principis, la beneficència, específicament per a l'ajust dels experiments humans.
En considerar el contagi emocional, hi ha tres qüestions no ètics a tenir en compte en la interpretació d'aquest experiment. En primer lloc, no està clar com els detalls reals de l'experiment es connecten a les reivindicacions teòrics; en altres paraules, hi ha dubtes sobre la validesa de constructe. No està clar que les paraules positives i negatives que compta són en realitat un bon indicador de l'estat emocional dels participants, ja que 1) no està clar que les paraules que la gent publica són un bon indicador de les seves emocions i 2) no està clar que la tècnica d'anàlisi de sentiment particular que utilitzen els investigadors és capaç d'inferir amb fiabilitat les emocions (Beasley and Mason 2015; Panger 2016) . En altres paraules, pot haver-hi una mala mesura d'un senyal parcial. En segon lloc, el disseny i l'anàlisi de l'experiment no ens diu res sobre qui estava més afectat (és a dir, no hi ha una anàlisi de l'heterogeneïtat dels efectes del tractament) i el que podria ser el mecanisme. En aquest cas, els investigadors van tenir molta informació sobre els participants, però que van ser tractats essencialment com widgets en l'anàlisi. En tercer lloc, la mida de l'efecte en aquest experiment era molt petita; la diferència entre les condicions de tractament i de control és d'1 en 1.000 paraules. En el seu article, Kramer i els seus col·legues fan el cas que un efecte d'aquesta mida és important, ja que centenars de milions de persones accedir al seu News Feed cada dia. En altres paraules, argumenten que fins i tot els efectes que són petits per a cada persona són grans en el seu conjunt. Fins i tot si s'acceptés aquest argument, encara no està clar si un efecte d'aquesta mida és important pel que fa a la qüestió científica més general sobre el contagi emocional. Per a més informació sobre les situacions en què els petits efectes són importants veure Prentice and Miller (1992) .
Quant a la primera R (reemplaçament), comparant l'experiment emocional contagi (Kramer, Guillory, and Hancock 2014) i l'experiment natural contagi emocional (Coviello et al. 2014) ofereix algunes lliçons generals sobre les compensacions involucrades amb el moviment de experiments a experiments naturals (i altres enfocaments com la recerca de que l'intent d'aproximar els experiments en les dades no experimentals, vegeu el capítol 2). A més dels beneficis ètics, el canvi de experimental per a estudis no experimentals també permet als investigadors estudiar els tractaments que són logísticament incapaç d'implementar. Aquests beneficis ètics i logístics tenen un cost, però. Amb experiments naturals investigadors tenen menys control sobre coses com el reclutament de participants, l'assignació a l'atzar, i la naturalesa del tractament. Per exemple, una limitació de la precipitació com un tractament és que tant augmenta la positivitat i negativitat disminueix. En l'estudi experimental, però, Kramer i els seus col·legues van ser capaços d'ajustar de forma independent positivitat i negativitat.
L'enfocament utilitzat en particular per Coviello et al. (2014) es va desenvolupar més àmpliament en Coviello, Fowler, and Franceschetti (2014) . Per a una introducció a les variables instrumentals veure Angrist and Pischke (2009) (menys formal) o Angrist, Imbens, and Rubin (1996) (més formal). Per a una valoració escèptica de variables instrumentals veure Deaton (2010) , i per a una introducció a les variables instrumentals amb instruments febles (pluja és un instrument feble), veure Murray (2006) .
De manera més general, una bona introducció als experiments naturals és Dunning (2012) , i Rosenbaum (2002) , Rosenbaum (2009) , i Shadish, Cook, and Campbell (2001) ofereixen bones idees sobre l'estimació dels efectes causals sense experiments.
Quant a la segona R (refinament), hi ha compensacions científiques i logístiques en considerar el canvi del disseny del contagi emocional de bloquejar missatges d'impulsar missatges. Per exemple, es pot donar el cas que la implementació tècnica del servidor de notícies fa que sigui substancialment més fàcil de fer un experiment amb el bloqueig de missatges en lloc d'un experiment amb impulsar missatges (tingui en compte que un experiment amb el bloqueig de missatges podria ser implementat com una capa a la part part superior del sistema de Notícies sense necessitat d'alteracions del sistema subjacent). Científicament, però, la teoria tractada per l'experiment no suggereixen clarament un disseny sobre l'altre.
Per desgràcia, no estic al corrent de la investigació prèvia substancial sobre els mèrits relatius de bloqueig i augmentar el contingut en el Servei de Notícies. A més, no he vist molta investigació sobre el perfeccionament dels tractaments perquè siguin menys nocius; una excepció és Jones and Feamster (2015) , que considera el cas del mesurament de la censura d'Internet (un tema discuteixo en el capítol 6 en relació amb l'estudi Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Quant a la tercera R (Reducció), una bona introducció a l'anàlisi del poder tradicional és Cohen (1988) . covariables Pre-tractament poden ser inclosos en l'etapa de disseny i l'etapa d'anàlisi dels experiments; Capítol 4 de Gerber and Green (2012) proporciona una bona introducció a tots dos enfocaments, i Casella (2008) proporciona un tractament més profund. Les tècniques que utilitzen aquesta informació pretractament al aleatorització se sol anomenar, ja sigui bloquejat dissenys experimentals o dissenys experimentals estratificades (la terminologia no s'usa constantment a través de les comunitats); aquestes tècniques estan profundament relacionats amb les tècniques de mostreig estratificat analitzats en el capítol 3. Vegeu Higgins, Sävje, and Sekhon (2016) per a més informació sobre l'ús d'aquests dissenys en els experiments massius. Covariables Pre-tractament també poden ser inclosos en l'etapa d'anàlisi. McKenzie (2012) explora l'enfocament de diferències en diferències per a l'anàlisi dels experiments de camp en major detall. Veure Carneiro, Lee, and Wilhelm (2016) per a més informació sobre les solucions de compromís entre diferents enfocaments per augmentar la precisió en les estimacions dels efectes del tractament. Finalment, l'hora de decidir si intentar incloure covariables prèvies al tractament en fase de disseny o l'anàlisi (o tots dos), hi ha alguns factors a considerar. En un entorn en què els investigadors volen demostrar que no són "pesca" (Humphreys, Sierra, and Windt 2013) , utilitzant covariables prèvies al tractament en l'etapa de disseny pot ser útil (Higgins, Sävje, and Sekhon 2016) . En situacions en què els participants arriben de forma seqüencial, els experiments de camp, especialment en línia, utilitzant la informació de pretractament en l'etapa de disseny pot ser difícil logísticament, vegeu per exemple Xie and Aurisset (2016) .
Val la pena afegir una mica d'intuïció sobre per què la diferència en les diferències pot ser molt més eficaç que la de diferències en els mitjans. Molts resultats en línia tenen molt alta variància (vegeu, per exemple, Lewis and Rao (2015) i Lamb et al. (2015) ) i són relativament estables en el temps. En aquest cas, la puntuació de canvi tindrà variància substancialment més petit, l'augment de la potència de la prova estadística. Una de les raons d'aquest va acostar no s'usa més sovint és que abans de l'era digital no era comú tenir els resultats pretractament. Una forma més concreta a pensar-hi és imaginar un experiment per mesurar si una rutina d'exercici específic provoca la pèrdua de pes. Si ho fa un enfocament de diferències en els mitjans, la seva estimació haurà variabilitat que prové de la variabilitat en els pesos en la població. Si ho fa un mètode de diferència en diferència, però, que la variació natural en pesos es retira i es pot detectar més fàcilment la diferència causada pel tractament.
Una manera important de reduir el nombre de participants en l'experiment és dur a terme una anàlisi de poder, que Kramer i els seus col·legues podrien haver fet en base a les mides dels efectes observats de l'experiment natural per Coviello et al. (2014) o l'anterior investigació no experimental per Kramer (2012) (en realitat es tracta d'activitats al final d'aquest capítol). Observi que aquest ús d'anàlisi de potència és una mica diferent de l'habitual. En l'era analògica, els investigadors van fer una anàlisi general d'alimentació per assegurar-se que el seu estudi no era massa petit (és a dir, un baix poder estadístic). Ara, però, els investigadors han de fer anàlisis de poder per assegurar-se que el seu estudi no és massa gran (és a dir, l'excés de potència).
Finalment, he considerat l'addició d'una quarta R: canviar la finalitat. És a dir, si els investigadors es troben les dades experimentals més del que necessiten per fer front a la pregunta de la investigació original, s'han de reutilitzar les dades per fer noves preguntes. Per exemple, imaginem que Kramer i els seus col·legues havien utilitzat un estimador de diferències en diferències i es van trobar amb més dades de les necessàries per fer front a la pregunta d'investigació. En lloc de no utilitzar les dades en la major mesura, podrien haver estudiat la mida de l'efecte com una funció de pretractament de l'expressió emocional. Així com Schultz et al. (2007) van trobar que l'efecte del tractament va ser diferent per als usuaris lleugers i pesats, potser els efectes del canal d'informació van ser diferents per a les persones que ja tendien a enviar missatges feliços (o trist). La reformulació podria donar lloc a la "pesca" (Humphreys, Sierra, and Windt 2013) i "p-pirateria" (Simmons, Nelson, and Simonsohn 2011) , però aquests són direccionables en gran mesura amb una combinació d'informació honesta (Simmons, Nelson, and Simonsohn 2011) , pre-registre (Humphreys, Sierra, and Windt 2013) , i els mètodes d'aprenentatge automàtic que intenten evitar l'excés d'ajust.