As cuestións sobre a causalidade na investigación social adoitan ser complexas e complexas. Para unha aproximación fundacional á causalidade baseada en gráficos causais, vexa Pearl (2009) e para un enfoque fundacional baseado nos resultados potenciais, vexa Imbens and Rubin (2015) . Para unha comparación entre estes dous enfoques, vexa Morgan and Winship (2014) . Para un enfoque formal para definir un confundor, vexa VanderWeele and Shpitser (2013) .
Neste capítulo, crearei o que parecía unha liña brillante entre a nosa capacidade de facer estimacións causais a partir de datos experimentais e non de experimentos. Con todo, creo que, en realidade, a distinción é máis borrosa. Por exemplo, todos aceptan que o tabaquismo causa cancro, aínda que ningún experimento controlado aleatorizado que forza a fumar nunca se fixo. Para obter excelentes tratamentos de lonxitude de libros para facer estimacións causais a partir de datos non experimentais, vexa Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) e Dunning (2012) .
Os capítulos 1 e 2 de Freedman, Pisani, and Purves (2007) ofrecen unha clara introdución ás diferenzas entre experimentos, experimentos controlados e experimentos controlados aleatorizados.
Manzi (2012) ofrece unha introdución fascinante e lexible aos fundamentos filosóficos e estatísticos dos experimentos controlados aleatorizados. Tamén ofrece exemplos interesantes do mundo real do poder da experimentación nos negocios. Issenberg (2012) ofrece unha fascinante introdución ao uso da experimentación nas campañas políticas.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 e Athey and Imbens (2016b) proporcionan boas introducións aos aspectos estatísticos do deseño e análise experimental. Ademais, hai excelentes tratamentos sobre o uso de experimentos en diversos campos: economía (Bardsley et al. 2009) , socioloxía (Willer and Walker 2007; Jackson and Cox 2013) , psicoloxía (Aronson et al. 1989) , ciencia política (Morton and Williams 2010) e política social (Glennerster and Takavarasha 2013) .
A importancia do reclutamento participante (por exemplo, a mostraxe) adoita ser pouco valorada na investigación experimental. Non obstante, se o efecto do tratamento é heteroxéneo na poboación, a mostraxe é crítica. Longford (1999) fai este punto claramente cando defende aos investigadores que pensan en experimentos como unha enquisa de poboación con mostraxe inapropiada.
Suxerín que hai un continuo entre laboratorio e experimentos de campo, e outros investigadores propuxeron tipoloxías máis detalladas, en particular as que separan as distintas formas de experimentos de campo (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Unha serie de papeis compararon os experimentos de laboratorio e campo en abstracto (Falk and Heckman 2009; Cialdini 2009) e en termos de resultados concretos en experimentos políticos (Coppock and Green 2015) , economía (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , e psicoloxía (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ofrecen un bo deseño de investigación para comparar resultados de laboratorio e experimentos de campo. Parigi, Santana, and Cook (2017) describen como os experimentos de campo en liña poden combinar algunhas das características dos experimentos de laboratorio e campo.
As preocupacións sobre os participantes que cambian o seu comportamento porque saben que están sendo observadas de cerca son ás veces chamadas efectos de demanda e foron estudados en psicoloxía (Orne 1962) e economía (Zizzo 2010) . Aínda que a maioría están asociados a experimentos de laboratorio, estes mesmos problemas poden causar problemas para experimentos de campo tamén. De feito, os efectos da demanda tamén se denominan a miúdo efectos Hawthorne , un termo que deriva dos famosos experimentos de iluminación que comezaron en 1924 na Hawthorne Works of the Western Electric Company (Adair 1984; Levitt and List 2011) . Tanto os efectos de demanda como os efectos de Hawthorne están moi relacionados coa idea de medición reactiva que se discute no capítulo 2 (véxase tamén Webb et al. (1966) ).
Os experimentos de campo teñen unha longa historia en economía (Levitt and List 2009) , ciencia política (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psicoloxía (Shadish 2002) e política pública (Shadish and Cook 2009) . Unha área de ciencias sociais onde os experimentos sobre o terreo rápidamente se fixeron prominentes é o desenvolvemento internacional. Para unha revisión positiva deste traballo dentro da economía ver Banerjee and Duflo (2009) , e para unha avaliación crítica ver Deaton (2010) . Para unha revisión deste traballo na ciencia política ver Humphreys and Weinstein (2009) . Finalmente, os desafíos éticos derivados dos experimentos en campo foron explorados no contexto da ciencia política (Humphreys 2015; Desposato 2016b) e economía de desenvolvemento (Baele 2013) .
Nesta sección, suxeriu que a información de pre-tratamento pode usarse para mellorar a precisión dos efectos estimados do tratamento, pero hai un debate sobre este enfoque; ver Freedman (2008) , W. Lin (2013) , Berk et al. (2013) e Bloniarz et al. (2016) para obter máis información.
Finalmente, hai outros dous tipos de experimentos realizados por científicos sociais que non se axustan perfectamente ao longo da dimensión do laboratorio: experimentos de investigación e experimentos sociais. Os experimentos de enquisas son experimentos utilizando a infraestrutura das enquisas existentes e comparan as respostas a versións alternativas das mesmas preguntas (algúns experimentos de enquisas son presentados no capítulo 3); Para máis información sobre experimentos de investigación, vexa Mutz (2011) . Os experimentos sociais son experimentos onde o tratamento é unha política social que só pode ser implementada por un goberno. Os experimentos sociais están intimamente relacionados coa avaliación do programa. Para obter máis información sobre os experimentos de políticas, consulte Heckman and Smith (1995) , Orr (1998) e @ glennerster_running_2013.
Eu escollín centrarse en tres conceptos: validez, heteroxeneidade dos efectos do tratamento e mecanismos. Estes conceptos teñen diferentes nomes en diferentes campos. Por exemplo, os psicólogos tenden a superar simples experimentos centrándose en mediadores e moderadores (Baron and Kenny 1986) . A idea dos mediadores é capturada polo que chamo mecanismos, e a idea dos moderadores é capturada pola que chamo validez externa (por exemplo, os resultados do experimento serían diferentes se se tratase en situacións diferentes) e a heteroxeneidade dos efectos do tratamento ( por exemplo, os efectos son maiores para algunhas persoas que para outros).
O experimento de Schultz et al. (2007) mostra como se poden usar as teorías sociais para deseñar intervencións efectivas. Para un argumento máis xeral sobre o papel da teoría no deseño de intervencións efectivas, vexa Walton (2014) .
Os conceptos de validez interna e externa foron introducidos por primeira vez por Campbell (1957) . Vexa Shadish, Cook, and Campbell (2001) para unha historia máis detallada e unha elaborada elaboración da validez da conclusión estatística, a validez interna, a validez da compilación e a validez externa.
Para obter unha visión xeral dos problemas relacionados coa validez da conclusión estatística en experimentos, vexa Gerber and Green (2012) (dende unha perspectiva de ciencias sociais) e Imbens and Rubin (2015) (desde unha perspectiva estatística). Algúns problemas de validez de conclusión estatística que xorden específicamente en experimentos de campo en liña inclúen problemas como métodos computacionalmente eficientes para crear intervalos de confianza con datos dependentes (Bakshy and Eckles 2013) .
A validez interna pode ser difícil de garantir en experimentos de campo complexos. Vexa, por exemplo, Gerber and Green (2000) , Imai (2005) e Gerber and Green (2005) para o debate sobre a implementación dun experimento de campo complexo sobre a votación. Kohavi et al. (2012) e Kohavi et al. (2013) proporcionan unha introdución aos retos da validez do intervalo en experimentos de campo en liña.
Unha das principais ameazas á validez interna é a posibilidade dunha aleatorización errada. Unha forma potencial de detectar problemas coa aleatorización é comparar os grupos de tratamento e control sobre trazos observables. Este tipo de comparación denomínase verificación de saldo . Vexa Hansen and Bowers (2008) para un enfoque estatístico dos controis de equilibrio e Mutz and Pemantle (2015) para as preocupacións sobre os controis de saldo. Por exemplo, usando un control de equilibrio, Allcott (2011) atopou algunha evidencia de que a aleatorización non se implementou correctamente en tres dos experimentos de Opower (ver táboa 2; sitios 2, 6 e 8). Para outros enfoques, consulte o capítulo 21 de Imbens and Rubin (2015) .
Outras preocupacións importantes relacionadas coa validez interna son: (1) un incumprimento unilateral, onde non todos os que se atopan no grupo de tratamento recibiron o tratamento, (2) un incumplimiento a dúas caras, onde non todos os que reciben o tratamento reciben o tratamento e algunhas persoas no o grupo de control recibe o tratamento, (3) desgaste, onde os resultados non son medidos para algúns participantes, e (4) interferencias, onde o tratamento se derrama das persoas que están en estado de tratamento para as persoas que se atopan na condición de control. Vexa os capítulos 5, 6, 7 e 8 de Gerber and Green (2012) para obter máis información sobre cada un destes temas.
Para obter máis información sobre a validez da Westen and Rosenthal (2003) , vexa Westen and Rosenthal (2003) , e para obter máis información sobre a validez da construción en grandes fontes de datos, Lazer (2015) e capítulo 2 deste libro.
Un aspecto de validez externa é a configuración na que se proba unha intervención. Allcott (2015) ofrece un tratamento teórico e empírico coidado do sesgo de selección do sitio. Este tema tamén é discutido por Deaton (2010) . Outro aspecto da validez externa é se as operativas alternativas da mesma intervención terán efectos similares. Neste caso, unha comparación entre Schultz et al. (2007) e Allcott (2011) demostran que os experimentos de Opower tiveron un menor efecto estimado tratado que os experimentos orixinais de Schultz e colegas (1,7% versus 5%). Allcott (2011) especulou que os experimentos de seguimento tiveron un efecto menor debido ás formas en que o tratamento difería: un emoticono manuscrito como parte dun estudo patrocinado por unha universidade, en comparación cun emoticono impreso como parte dunha produción en masa informe dunha empresa de enerxía.
Para unha excelente visión xeral da heteroxeneidade dos efectos do tratamento nos experimentos de campo, consulte o capítulo 12 de Gerber and Green (2012) . Para introducións á heteroxeneidade dos efectos do tratamento nos ensaios médicos, consulte Kent and Hayward (2007) , Longford (1999) e Kravitz, Duan, and Braslow (2004) . As consideracións da heteroxeneidade dos efectos do tratamento xeralmente se centran nas diferenzas baseadas nas características do tratamento previo. Se estás interesado na heteroxeneidade baseada nos resultados de post-tratamento, necesítanse enfoques máis complexos, como a estratificación principal (Frangakis and Rubin 2002) ; consulte Page et al. (2015) para unha revisión.
Moitos investigadores estiman a heteroxeneidade dos efectos do tratamento usando regresión lineal, pero os métodos máis recentes dependen da aprendizaxe automática; ver, por exemplo, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) e Athey and Imbens (2016a) .
Hai un pouco de escepticismo sobre os resultados de heteroxeneidade dos efectos debido a problemas de comparación múltiple e "pesca". Hai unha variedade de enfoques estatísticos que poden axudar a resolver as preocupacións sobre a comparación múltiple (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Unha aproximación á preocupación pola "pesca" é a preinscrición, cada vez máis común na psicoloxía (Nosek and Lakens 2014) , a ciencia política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , e economía (Olken 2015) .
No estudo realizado por Costa and Kahn (2013) case a metade dos fogares do experimento poden estar ligados á información demográfica. Os lectores interesados nestes detalles deberían consultar o artigo orixinal.
Os mecanismos son moi importantes, pero resultan moi difíciles de estudar. A investigación sobre os mecanismos está intimamente relacionada co estudo dos mediadores en psicoloxía (pero tamén véxase VanderWeele (2009) para unha comparación precisa entre as dúas ideas). Os enfoques estatísticos para atopar mecanismos, como o enfoque desenvolvido en Baron and Kenny (1986) , son bastante comúns. Desafortunadamente, resulta que estes procedementos dependen de algúns supostos fortes (Bullock, Green, and Ha 2010) e sofren cando hai múltiples mecanismos, como se podería esperar en moitas situacións (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) e Imai and Yamamoto (2013) ofrecen algúns métodos estatísticos mellorados. Ademais, VanderWeele (2015) ofrece un tratamento de lonxitude de libro cunha serie de resultados importantes, incluíndo un enfoque integral da análise de sensibilidade.
Un enfoque separado céntrase en experimentos que intentan manipular o mecanismo directamente (por exemplo, dando aos mariñeiros a vitamina C). Desafortunadamente, en moitos escenarios de ciencias sociais, moitas veces hai múltiples mecanismos e é difícil deseñar tratamentos que cambien un sen cambiar os demais. Algunhas aproximacións a mecanismos de alteración experimental son descritas por Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) e Pirlott and MacKinnon (2016) .
Os investigadores que realicen experimentos completamente factoriais deberán estar preocupados polas probas de hipóteses múltiples; vexa Fink, McConnell, and Vollmer (2014) e List, Shaikh, and Xu (2016) para obter máis información.
Finalmente, os mecanismos tamén teñen unha longa historia na filosofía da ciencia tal como describen Hedström and Ylikoski (2010) .
Para máis información sobre o uso de estudos de correspondencia e auditoría para medir a discriminación, consulte Pager (2007) .
A forma máis común de reclutar os participantes nos experimentos que constrúe é Amazon Mechanical Turk (MTurk). Debido a que MTurk imita aspectos dos experimentos tradicionais de laboratorio: pagar ás persoas para completar tarefas que non farían de forma gratuíta, moitos investigadores xa comezaron a utilizar os turcomanos (os traballadores en MTurk) como participantes experimentais, obtendo unha recollida de datos máis rápida e económica que a que se pode alcanzar en experimentos tradicionais de laboratorio no campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
En xeral, as vantaxes máis importantes de utilizar os participantes contratados por MTurk son loxísticas. Mentres que os experimentos de laboratorio poden tardar semanas en funcionar e os experimentos de campo poden tardar meses en configurarse, os experimentos con participantes contratados por MTurk poden executarse en días. Por exemplo, Berinsky, Huber, and Lenz (2012) puideron reclutar 400 temas nun só día para participar nun experimento de 8 minutos. Ademais, estes participantes poden ser reclutados para practicamente calquera finalidade (incluíndo enquisas e colaboración en masa, como se discute nos capítulos 3 e 5). Esta facilidade de contratación significa que os investigadores poden executar secuencias de experimentos relacionados en rápida sucesión.
Antes de reclutar os participantes de MTurk para os teus propios experimentos, hai catro cousas importantes que debes saber. En primeiro lugar, moitos investigadores teñen un escepticismo inespecífico de experimentos que inclúen a turcos. Porque este escepticismo non é específico, é difícil contrarrestar as probas. Non obstante, tras varios anos de estudos que usan os turcos, agora podemos concluír que este escepticismo non está especialmente xustificado. Houbo moitos estudos que compararon a demografía dos turcos cos de outras poboacións e moitos estudos que compararon os resultados dos experimentos con turcos con outros pobos. Dado todo este traballo, creo que o mellor xeito para que o penses é que os turcomanos son unha mostra de conveniencia razoable, como os estudantes pero un pouco máis diversos (Berinsky, Huber, and Lenz 2012) . Así, como os estudantes son unha poboación razoable para algúns, pero non todos, a investigación, os turcomanos son unha poboación razoable para algúns, pero non todos, a investigación. Se vai traballar cos turcomanos, entón ten sentido ler moitos destes estudos comparativos e comprender os seus matices.
En segundo lugar, os investigadores desenvolveron as mellores prácticas para aumentar a validez interna dos experimentos MTurk e debes aprender e seguir estas mellores prácticas (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Por exemplo, os investigadores que utilizan os turcomanos son alentados a utilizar cribadores para eliminar participantes (Berinsky, Margolis, and Sances 2014, 2016) (pero tamén ver DJ Hauser and Schwarz (2015b) e DJ Hauser and Schwarz (2015a) ). Se non elimina os participantes desatentos, calquera efecto do tratamento pode ser eliminado polo ruído que introducen e na práctica o número de participantes desatendidos pode ser substancial. No experimento de Huber e colegas (2012) , preto do 30% dos participantes fallaron aos cribadores básicos de atención. Outros problemas que xorden comúnmente cando se utilizan os turcomanos son participantes non inxenuos (Chandler et al. 2015) e desgaste (Zhou and Fishbach 2016) .
En terceiro lugar, en relación con outras formas de experimentos dixitais, os experimentos MTurk non poden escalar; Stewart et al. (2015) estiman que en calquera momento só hai preto de 7.000 persoas en MTurk.
Finalmente, debes saber que MTurk é unha comunidade coas súas propias regras e normas (Mason and Suri 2012) . Do mesmo xeito que intentaría coñecer a cultura dun país onde dirixise os seus experimentos, debería tentar coñecer máis sobre a cultura e as normas dos turcos (Salehi et al. 2015) . E debes saber que os turcomanos estarán falando sobre o teu experimento se fai algo inadecuado ou non ético (Gray et al. 2016) .
MTurk é un xeito moi cómodo de reclutar os participantes nos teus experimentos, xa sexan lab-like, como Huber, Hill, and Lenz (2012) ou máis campos como Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) e Mao et al. (2016) .
Se estás a tentar crear o teu propio produto, recoméndoche que lea os consellos ofrecidos polo grupo MovieLens en Harper and Konstan (2015) . Unha idea clave da súa experiencia é que, para cada proxecto exitoso, hai moitos, moitos fallos. Por exemplo, o grupo MovieLens lanzou outros produtos, como GopherAnswers, que foron erros completos (Harper and Konstan 2015) . Outro exemplo de que un investigador falla ao tentar construír un produto é o intento de Edward Castronova de construír un xogo en liña chamado Arden. A pesar de financiar $ 250,000, o proxecto foi un flop (Baker 2008) . Proxectos como GopherAnswers e Arden son por desgraza moito máis comúns que proxectos como MovieLens.
Escoitei a idea do cuadrante de Pasteur discutido frecuentemente en empresas de tecnoloxía, e axuda a organizar os esforzos de investigación en Google (Spector, Norvig, and Petrov 2012) .
O estudo de Bond and colleagues (2012) tamén intenta detectar o efecto destes tratamentos sobre os amigos dos que os recibiron. Debido ao deseño do experimento, estes derrames son difíciles de detectar de forma limpa; os lectores interesados deberían ver a Bond et al. (2012) para un debate máis completo. Jones e colegas (2017) tamén realizaron un experimento moi similar durante as eleccións de 2012. Estes experimentos forman parte dunha longa tradición de experimentos en ciencia política sobre os esforzos para fomentar a votación (Green and Gerber 2015) . Estes experimentos de obtención de voto son comúns, en parte porque están no cuadrante de Pasteur. É dicir, hai moitas persoas que están motivadas a aumentar a votación e a votación pode ser un comportamento interesante para probar teorías máis xerais sobre cambio de comportamento e influencia social.
Para obter consellos sobre a realización de experimentos de campo con organizacións asociadas como partidos políticos, ONG e empresas, vexa Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) e Gueron (2002) . Para os pensamentos sobre como as asociacións con organizacións poden afectar os deseños de investigación, vexa King et al. (2007) e Green, Calfano, and Aronow (2014) . A asociación tamén pode levar a cuestións éticas, como comentan Humphreys (2015) e Nickerson and Hyde (2016) .
Se inicia crear un plan de análise antes de realizar o experimento, suxiro que comece a ler as pautas de informes. As directrices CONSORT (Consolidated Standard Reporting of Trials) foron desenvolvidas en medicina (Schulz et al. 2010) e modificadas para a investigación social (Mayo-Wilson et al. 2013) . Un conxunto de pautas relacionadas foi desenvolvido polos editores do Journal of Experimental Political Science (Gerber et al. 2014) (ver tamén Mutz and Pemantle (2015) e Gerber et al. (2015) ). Finalmente, as directrices informativas foron desenvolvidas en psicoloxía (APA Working Group 2008) , e véxase tamén Simmons, Nelson, and Simonsohn (2011) .
Se creas un plan de análise, debes considerar pre-rexistralo porque a preinscrición aumentará a confianza que teñen os demais nos teus resultados. Ademais, se está a traballar cun compañeiro, limitará a capacidade do seu compañeiro para cambiar a análise despois de ver os resultados. A preinscrición é cada vez máis común en psicoloxía (Nosek and Lakens 2014) , ciencia política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) e economía (Olken 2015) .
O consello de deseño específicamente para experimentos de campo en liña tamén se presenta en Konstan and Chen (2007) e Chen and Konstan (2015) .
O que chamei a estratexia armada ás veces se chama investigación programática ; ver Wilson, Aronson, and Carlsmith (2010) .
Para máis información sobre os experimentos de MusicLab, vexa Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) e Salganik (2007) . Para obter máis información sobre os mercados ganador-take-all, vexa Frank and Cook (1996) . Para obter máis información sobre a sorte e as habilidades máis desenredantes, vexa Mauboussin (2012) , Watts (2012) e Frank (2016) .
Hai outra forma de eliminar os pagamentos dos participantes que os investigadores deberían usar con precaución: conscription. En moitos experimentos de campo en liña os participantes son basicamente redactados en experimentos e nunca compensados. Algúns exemplos desta aproximación inclúen o experimento de Restivo e van de Rijt (2012) sobre recompensas no experimento de Wikipedia e Bond e colega (2012) no que se anima a votar. Estes experimentos non teñen realmente cero custo variable, senón que teñen cero custo variable para os investigadores . Nestes experimentos, aínda que o custo de cada participante sexa extremadamente pequeno, o custo total pode ser bastante grande. Os investigadores que realizan experimentos en liña masivos a miúdo xustifican a importancia dos pequenos efectos do tratamento estimados dicindo que estes pequenos efectos poden chegar a ser importantes cando se aplican a moitas persoas. O mesmo pensamento exacto aplícase aos custos que os investigadores impoñen aos participantes. Se o seu experimento causa que un millón de persoas perdan un minuto, o experimento non é moi prexudicial para ningunha persoa en particular, pero en total, perde case dous anos.
Outro enfoque para a creación de custos de custo variable para os participantes é empregar unha lotería, un enfoque que tamén se usou na investigación de enquisas (Halpern et al. 2011) . Para máis información sobre o deseño de experiencias de usuario agradables, vexa Toomim et al. (2011) . Para máis información sobre o uso de robots para crear cero experimentos de custos variables ver ( ??? ) .
Os tres R's orixinalmente propostos por Russell and Burch (1959) son os seguintes:
"Substitución significa a substitución para viven animais conscientes máis elevados de material insensible. Redución supón unha redución no número de animais utilizados para obter información dun dato valor e precisión. Refinamento significa calquera diminución na incidencia ou severidade dos procedementos inhumanos aplicados a estes animais que teñen aínda que ser usado ".
Os tres R que propoño non anulan os principios éticos descritos no capítulo 6. En vez diso, son unha versión máis elaborada destes principios -beneficio- específicamente na definición de experimentos humanos.
En canto ao primeiro R ("reemplazo"), comparando o experimento de contagio emocional (Kramer, Guillory, and Hancock 2014) eo experimento de contaxio emocional natural (Lorenzo Coviello et al. 2014) ofrece algunhas leccións xerais sobre as compensacións implicadas ao pasar de experimentos a experimentos naturais (e outros enfoques como a correspondencia que intentan aproximar os experimentos en datos non experimentais; ver o capítulo 2). Ademais dos beneficios éticos, o cambio de estudos experimentais ata estudos non experimentais permite aos investigadores estudar tratamentos que non poden implementar logísticamente. Non obstante, estes beneficios éticos e loxísticos teñen un custo elevado. Con experimentos naturais os investigadores teñen menos control sobre as cousas como a contratación de participantes, a aleatorización ea natureza do tratamento. Por exemplo, unha limitación da precipitación como tratamento é que aumenta a positividade e diminúe a negativa. No estudo experimental, con todo, Kramer e os seus colegas puideron axustar positividade e negatividade de forma independente. O enfoque particular usado por Lorenzo Coviello et al. (2014) foi elaborado por L. Coviello, Fowler, and Franceschetti (2014) . Para unha introdución ás variables instrumentais, cal é a aproximación empregada por Lorenzo Coviello et al. (2014) , vexa Angrist and Pischke (2009) (menos formal) ou Angrist, Imbens, and Rubin (1996) (máis formal). Para unha avaliación escéptica das variables instrumentais, vexa Deaton (2010) e para unha introdución ás variables instrumentais con instrumentos débiles (a choiva é un instrumento débil), vexa Murray (2006) . En xeral, unha boa introdución aos experimentos naturais é dada por Dunning (2012) , mentres que Rosenbaum (2002) , ( ??? ) e Shadish, Cook, and Campbell (2001) ofrecen boas ideas sobre a estimación de efectos causais sen experimentos.
En termos do segundo R ("refinamento"), hai compensacións científicas e loxísticas cando se considera cambiar o deseño do contagio emocional de bloquear mensaxes para impulsar publicacións. Por exemplo, pode ser o caso de que a implementación técnica do Feed de noticias fai que sexa moito máis sinxelo facer un experimento no que se bloquearán as mensaxes en lugar dun no que se potencian (observe que podería implementarse un experimento que implique bloqueos de publicacións) como unha capa sobre o sistema News Feed sen necesidade de alteracións do sistema subxacente). Científicamente, con todo, a teoría abordada polo experimento non indicou claramente un deseño sobre o outro. Desafortunadamente, non teño coñecemento de investigacións previas substanciais sobre os méritos relativos de bloquear e aumentar o contido no feed de noticias. Ademais, non vin moita investigación sobre tratamentos de refinación para facelos menos prexudiciais; Unha excepción é a de B. Jones and Feamster (2015) , que considera o caso de medición da censura de Internet (tema que discute no capítulo 6 en relación co estudo Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
En termos da terceira R ("redución"), as boas introducións á análise de poder tradicional son dadas por Cohen (1988) (libro) e Cohen (1992) (artigo), mentres que Gelman and Carlin (2014) ofrecen unha perspectiva un pouco diferente. As covariables de pre-tratamento poden incluírse na fase de deseño e análise de experimentos; O capítulo 4 de Gerber and Green (2012) ofrece unha boa introdución a ambos os enfoques, e Casella (2008) ofrece un tratamento máis profundo. As técnicas que utilizan esta información de tratamento previamente na aleatorización adoitan denominarse debuxos experimentais bloqueados ou deseños experimentais estratificados (a terminoloxía non se usa de forma coherente entre as comunidades); Estas técnicas están estrechamente relacionadas coas técnicas de mostraxe estratificada Higgins, Sävje, and Sekhon (2016) no capítulo 3. Consulte Higgins, Sävje, and Sekhon (2016) para máis información sobre o uso destes deseños en experimentos masivos. As covariables de pretratamento tamén poden incluírse na fase de análise. McKenzie (2012) explora o enfoque de diferenza en diferenzas para analizar os experimentos de campo con maior detalle. Vexa Carneiro, Lee, and Wilhelm (2016) para obter máis información sobre as compensacións entre diferentes enfoques para aumentar a precisión nas estimacións dos efectos do tratamento. Finalmente, ao decidir se pretender incluír as covariables de pretratamento na fase de deseño ou análise (ou ambas), hai algúns factores a ter en conta. Nun contexto onde os investigadores queren demostrar que non son "pescadores" (Humphreys, Sierra, and Windt 2013) , o uso de covariables de pretratamento na fase de deseño pode ser útil (Higgins, Sävje, and Sekhon 2016) . Nas situacións nas que os participantes chegan secuencialmente, especialmente os experimentos de campo en liña, a información de tratamento previo na fase de deseño pode ser difícil de forma logística; ver, por exemplo, Xie and Aurisset (2016) .
Paga a pena engadir un pouco de intuición sobre por que unha aproximación de diferenzas en diferenzas pode ser moito máis efectiva que a diferencia nun medio. Moitos resultados en liña teñen unha varianza moi alta (véxase, por exemplo, RA Lewis and Rao (2015) e Lamb et al. (2015) ) e son relativamente estables ao longo do tempo. Neste caso, a puntuación de cambio terá unha varianza sustancialmente máis pequena, aumentando a potencia da proba estatística. Unha das razóns polas que este enfoque non se usa con maior frecuencia é que antes da era dixital, non era habitual ter resultados de tratamento previo. Unha forma máis concreta de pensar nisto é imaxinar un experimento para medir se unha rutina de exercicios específica causa perda de peso. Se adopta un enfoque de diferenzas en medios, a súa estimación terá variabilidade derivada da variabilidade nos pesos da poboación. Se fai un enfoque de diferenzas en diferenzas, con todo, elimínase a variación natural nos pesos e pode detectar con máis facilidade a diferenza causada polo tratamento.
Finalmente, considerei engadir unha cuarta R: "repurpose". É dicir, se os investigadores se atopan con datos máis experimentais do que necesitan para abordar a súa pregunta de investigación orixinal, deberían reutilizar os datos para facer novas preguntas. Por exemplo, imaxina que Kramer e os seus colegas usaron un estimador de diferenzas en diferenzas e atopáronse con máis datos do que necesitaban para abordar a súa pregunta de investigación. En vez de utilizar os datos na medida do posible, poderían ter estudado o tamaño do efecto en función da expresión emocional previa ao tratamento. Así como Schultz et al. (2007) descubriu que o efecto do tratamento era diferente para os usuarios lixeiros e pesados, quizais os efectos do Feed de noticias eran diferentes para persoas que xa tiñan a tendencia a publicar mensaxes felices (ou tristes). A repurposición podería levar a "pesca" (Humphreys, Sierra, and Windt 2013) e "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , pero estes son en gran medida direccionables cunha combinación de informes honesta (Simmons, Nelson, and Simonsohn 2011) , preinscrición (Humphreys, Sierra, and Windt 2013) e métodos de aprendizaxe automática que intentan evitar a superposición.