Las preguntas sobre la causalidad en la investigación social a menudo son complejas e intrincadas. Para un enfoque fundacional de causalidad basado en gráficos causales, vea Pearl (2009) , y para un enfoque fundacional basado en resultados potenciales, vea Imbens and Rubin (2015) . Para una comparación entre estos dos enfoques, ver Morgan and Winship (2014) . Para un enfoque formal para definir un factor de confusión, vea VanderWeele and Shpitser (2013) .
En este capítulo, he creado lo que parecía una línea brillante entre nuestra capacidad de hacer estimaciones causales a partir de datos experimentales y no experimentales. Sin embargo, creo que, en realidad, la distinción es más borrosa. Por ejemplo, todos aceptan que fumar causa cáncer, aunque nunca se haya realizado un experimento controlado aleatorizado que obligue a las personas a fumar. Para obtener excelentes tratamientos de duración de un libro sobre la realización de estimaciones causales a partir de datos no experimentales, véase Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) y Dunning (2012) .
Los capítulos 1 y 2 de Freedman, Pisani, and Purves (2007) ofrecen una introducción clara a las diferencias entre experimentos, experimentos controlados y experimentos controlados aleatorios.
Manzi (2012) proporciona una introducción fascinante y legible a los fundamentos filosóficos y estadísticos de los experimentos controlados aleatorios. También proporciona interesantes ejemplos reales del poder de la experimentación en los negocios. Issenberg (2012) ofrece una introducción fascinante al uso de la experimentación en campañas políticas.
Box, Hunter, and Hunter (2005) , @casella_statistical_2008 y Athey and Imbens (2016b) brindan una buena introducción a los aspectos estadísticos del diseño y análisis experimental. Además, hay excelentes tratamientos para el uso de experimentos en muchos campos diferentes: economía (Bardsley et al. 2009) , sociología (Willer and Walker 2007; Jackson and Cox 2013) , psicología (Aronson et al. 1989) , ciencia política (Morton and Williams 2010) y la política social (Glennerster and Takavarasha 2013) .
La importancia del reclutamiento de participantes (por ejemplo, el muestreo) a menudo se subestima en la investigación experimental. Sin embargo, si el efecto del tratamiento es heterogéneo en la población, entonces el muestreo es crítico. Longford (1999) aclara este punto cuando aboga por que los investigadores piensen en experimentos como una encuesta poblacional con muestreo aleatorio.
He sugerido que existe un continuo entre los experimentos de laboratorio y de campo, y otros investigadores han propuesto tipologías más detalladas, en particular las que separan las diversas formas de experimentos de campo (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Varios artículos han comparado experimentos de laboratorio y de campo en abstracto (Falk and Heckman 2009; Cialdini 2009) y en términos de resultados de experimentos específicos en ciencias políticas (Coppock and Green 2015) , economía (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) y psicología (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ofrecen un buen diseño de investigación para comparar resultados de experimentos de laboratorio y de campo. Parigi, Santana, and Cook (2017) describen cómo los experimentos de campo en línea pueden combinar algunas de las características de los experimentos de laboratorio y de campo.
Las preocupaciones sobre que los participantes cambien su comportamiento porque saben que están siendo observados de cerca a veces se llaman efectos de demanda , y se han estudiado en psicología (Orne 1962) y economía (Zizzo 2010) . Aunque en su mayoría están asociados con experimentos de laboratorio, estos mismos problemas también pueden causar problemas para los experimentos de campo. De hecho, los efectos de la demanda también se denominan a veces efectos Hawthorne , término que deriva de los famosos experimentos de iluminación que comenzaron en 1924 en Hawthorne Works of the Western Electric Company (Adair 1984; Levitt and List 2011) . Tanto los efectos de la demanda como los efectos de Hawthorne están estrechamente relacionados con la idea de medición reactiva discutida en el capítulo 2 (ver también Webb et al. (1966) ).
Los experimentos de campo tienen una larga historia en economía (Levitt and List 2009) , ciencia política (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psicología (Shadish 2002) y política pública (Shadish and Cook 2009) . Un área de las ciencias sociales donde los experimentos de campo se hicieron rápidamente prominentes es el desarrollo internacional. Para una revisión positiva de ese trabajo dentro de la economía, ver Banerjee and Duflo (2009) , y para una evaluación crítica ver Deaton (2010) . Para una revisión de este trabajo en ciencias políticas, ver Humphreys and Weinstein (2009) . Finalmente, los desafíos éticos derivados de los experimentos de campo se han explorado en el contexto de la ciencia política (Humphreys 2015; Desposato 2016b) y la economía del desarrollo (Baele 2013) .
En esta sección, sugerí que la información previa al tratamiento puede usarse para mejorar la precisión de los efectos estimados del tratamiento, pero existe cierto debate sobre este enfoque; ver Freedman (2008) , W. Lin (2013) , Berk et al. (2013) y Bloniarz et al. (2016) para más información.
Finalmente, hay otros dos tipos de experimentos realizados por científicos sociales que no encajan perfectamente en la dimensión del campo de laboratorio: experimentos de encuestas y experimentos sociales. Los experimentos de encuestas son experimentos que usan la infraestructura de encuestas existentes y comparan las respuestas a versiones alternativas de las mismas preguntas (algunos experimentos de encuestas se presentan en el Capítulo 3); para más información sobre los experimentos de encuestas, ver Mutz (2011) . Los experimentos sociales son experimentos donde el tratamiento es una política social que solo puede ser implementada por un gobierno. Los experimentos sociales están estrechamente relacionados con la evaluación del programa. Para más información sobre experimentos de políticas, ver Heckman and Smith (1995) , Orr (1998) y @ glennerster_running_2013.
Elegí enfocarme en tres conceptos: validez, heterogeneidad de los efectos del tratamiento y mecanismos. Estos conceptos tienen diferentes nombres en diferentes campos. Por ejemplo, los psicólogos tienden a ir más allá de los experimentos simples al centrarse en los mediadores y moderadores (Baron and Kenny 1986) . La idea de los mediadores es capturada por lo que yo llamo mecanismos, y la idea de moderadores es capturada por lo que llamo validez externa (por ejemplo, si los resultados del experimento fueran diferentes si se ejecutaran en diferentes situaciones) y la heterogeneidad de los efectos del tratamiento ( por ejemplo, son los efectos más grandes para algunas personas que para otros).
El experimento de Schultz et al. (2007) muestra cómo las teorías sociales pueden usarse para diseñar intervenciones efectivas. Para un argumento más general sobre el papel de la teoría en el diseño de intervenciones efectivas, ver Walton (2014) .
Los conceptos de validez interna y externa fueron introducidos por primera vez por Campbell (1957) . Ver Shadish, Cook, and Campbell (2001) para una historia más detallada y una elaboración cuidadosa de la validez de la conclusión estadística, la validez interna, la validez de constructo y la validez externa.
Para una descripción general de los problemas relacionados con la validez de las conclusiones estadísticas en experimentos, ver Gerber and Green (2012) (desde una perspectiva de las ciencias sociales) e Imbens and Rubin (2015) (desde una perspectiva estadística). Algunos de los problemas de la validez de la conclusión estadística que surgen específicamente en los experimentos de campo en línea incluyen cuestiones tales como métodos computacionalmente eficientes para crear intervalos de confianza con datos dependientes (Bakshy and Eckles 2013) .
La validez interna puede ser difícil de garantizar en experimentos de campo complejos. Ver, por ejemplo, Gerber and Green (2000) , Imai (2005) , y Gerber and Green (2005) para el debate sobre la implementación de un experimento de campo complejo sobre la votación. Kohavi et al. (2012) y Kohavi et al. (2013) proporcionan una introducción a los desafíos de la validez de intervalo en experimentos de campo en línea.
Una de las principales amenazas a la validez interna es la posibilidad de una aleatorización fallida. Una posible forma de detectar problemas con la aleatorización es comparar los grupos de tratamiento y control en los rasgos observables. Este tipo de comparación se llama verificación de saldo . Ver Hansen and Bowers (2008) para un enfoque estadístico para equilibrar cheques y Mutz and Pemantle (2015) para las inquietudes sobre las verificaciones de saldos. Por ejemplo, utilizando una verificación de saldo, Allcott (2011) encontró alguna evidencia de que la aleatorización no se implementó correctamente en tres de los experimentos de Opower (ver tabla 2, sitios 2, 6 y 8). Para otros enfoques, ver el capítulo 21 de Imbens and Rubin (2015) .
Otras preocupaciones importantes relacionadas con la validez interna son: (1) incumplimiento unilateral, donde no todos en el grupo de tratamiento realmente recibieron el tratamiento, (2) incumplimiento bilateral, donde no todos en el grupo de tratamiento reciben el tratamiento y algunas personas en el grupo de control recibe el tratamiento, (3) desgaste, donde los resultados no se miden para algunos participantes, y (4) interferencia, donde el tratamiento pasa de personas en condición de tratamiento a personas en el control. Consulte los capítulos 5, 6, 7 y 8 de Gerber and Green (2012) para obtener más información sobre cada uno de estos temas.
Para obtener más información sobre la validez de constructo, consulte Westen and Rosenthal (2003) y para obtener más información sobre la validez de constructo en fuentes de big data, Lazer (2015) y el capítulo 2 de este libro.
Un aspecto de la validez externa es el entorno en el que se prueba una intervención. Allcott (2015) proporciona un tratamiento teórico y empírico cuidadoso del sesgo de selección del sitio. Este tema también es discutido por Deaton (2010) . Otro aspecto de la validez externa es si las operacionalizaciones alternativas de la misma intervención tendrán efectos similares. En este caso, una comparación entre Schultz et al. (2007) y Allcott (2011) muestran que los experimentos de Opower tuvieron un menor efecto de estimación estimado que los experimentos originales de Schultz y colegas (1,7% versus 5%). Allcott (2011) especuló que los experimentos de seguimiento tuvieron un efecto menor debido a las formas en que el tratamiento difería: un emoticón manuscrito como parte de un estudio patrocinado por una universidad, en comparación con un emoticón impreso como parte de un producto en masa informe de una compañía de energía.
Para una descripción general excelente de la heterogeneidad de los efectos del tratamiento en experimentos de campo, ver el capítulo 12 de Gerber and Green (2012) . Para las introducciones a la heterogeneidad de los efectos del tratamiento en ensayos médicos, ver Kent and Hayward (2007) , Longford (1999) y Kravitz, Duan, and Braslow (2004) . Las consideraciones sobre la heterogeneidad de los efectos del tratamiento generalmente se centran en las diferencias basadas en las características previas al tratamiento. Si está interesado en la heterogeneidad basada en los resultados posteriores al tratamiento, entonces se necesitan enfoques más complejos, como la estratificación principal (Frangakis and Rubin 2002) ; ver Page et al. (2015) para una revisión.
Muchos investigadores estiman la heterogeneidad de los efectos del tratamiento mediante regresión lineal, pero los métodos más nuevos se basan en el aprendizaje automático; ver, por ejemplo, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) y Athey and Imbens (2016a) .
Existe cierto escepticismo sobre los hallazgos de la heterogeneidad de los efectos debido a los problemas de comparación múltiple y la "pesca". Hay una variedad de enfoques estadísticos que pueden ayudar a abordar las preocupaciones sobre la comparación múltiple (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Un enfoque a las preocupaciones sobre "pesca" es el prerregistro, que cada vez es más común en psicología (Nosek and Lakens 2014) , ciencia política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) y economía (Olken 2015) .
En el estudio de Costa and Kahn (2013) solo alrededor de la mitad de los hogares en el experimento podrían estar vinculados a la información demográfica. Los lectores interesados en estos detalles deben consultar el documento original.
Los mecanismos son increíblemente importantes, pero resultan ser muy difíciles de estudiar. La investigación sobre los mecanismos está estrechamente relacionada con el estudio de los mediadores en psicología (pero véase también VanderWeele (2009) para una comparación precisa entre las dos ideas). Los enfoques estadísticos para encontrar mecanismos, como el enfoque desarrollado en Baron and Kenny (1986) , son bastante comunes. Desafortunadamente, resulta que esos procedimientos dependen de algunas suposiciones fuertes (Bullock, Green, and Ha 2010) y sufren cuando hay múltiples mecanismos, como uno podría esperar en muchas situaciones (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) e Imai and Yamamoto (2013) ofrecen algunos métodos estadísticos mejorados. Además, VanderWeele (2015) ofrece un tratamiento de duración de un libro con varios resultados importantes, incluido un enfoque integral del análisis de sensibilidad.
Un enfoque separado se centra en experimentos que intentan manipular el mecanismo directamente (por ejemplo, dando a los marineros vitamina C). Desafortunadamente, en muchos entornos de ciencias sociales, a menudo existen múltiples mecanismos y es difícil diseñar tratamientos que cambien uno sin cambiar los otros. Algunas aproximaciones a mecanismos de alteración experimental son descritas por Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) y Pirlott and MacKinnon (2016) .
Los investigadores que ejecutan experimentos completamente factoriales deberán preocuparse por las pruebas de hipótesis múltiples; ver Fink, McConnell, and Vollmer (2014) y List, Shaikh, and Xu (2016) para más información.
Finalmente, los mecanismos también tienen una larga historia en la filosofía de la ciencia según lo descrito por Hedström and Ylikoski (2010) .
Para obtener más información sobre el uso de estudios por correspondencia y estudios de auditoría para medir la discriminación, ver Pager (2007) .
La forma más común de reclutar participantes para experimentos que construyes es Amazon Mechanical Turk (MTurk). Debido a que MTurk imita aspectos de experimentos de laboratorio tradicionales -pagar a personas para completar tareas que no harían gratis- muchos investigadores ya han comenzado a usar Turkers (los trabajadores en MTurk) como participantes experimentales, lo que resulta en una recolección de datos más rápida y económica de lo que se puede lograr en experimentos de laboratorio tradicionales en el campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
En general, las mayores ventajas de utilizar participantes reclutados de MTurk son logísticas. Mientras que los experimentos de laboratorio pueden tardar semanas en ejecutarse y los experimentos de campo pueden tardar meses en configurarse, los experimentos con participantes reclutados de MTurk se pueden ejecutar en días. Por ejemplo, Berinsky, Huber, and Lenz (2012) pudieron reclutar 400 sujetos en un solo día para participar en un experimento de 8 minutos. Además, estos participantes pueden ser reclutados para prácticamente cualquier propósito (incluyendo encuestas y colaboración masiva, como se discutió en los capítulos 3 y 5). Esta facilidad de reclutamiento significa que los investigadores pueden ejecutar secuencias de experimentos relacionados en rápida sucesión.
Antes de reclutar participantes de MTurk para sus propios experimentos, hay cuatro cosas importantes que debe saber. Primero, muchos investigadores tienen un escepticismo no específico de los experimentos que involucran a Turkers. Debido a que este escepticismo no es específico, es difícil contrarrestarlo con evidencia. Sin embargo, después de varios años de estudios usando Turkers, ahora podemos concluir que este escepticismo no está particularmente justificado. Se han realizado muchos estudios que comparan la demografía de Turkers con los de otras poblaciones y muchos estudios que comparan los resultados de experimentos con Turkers con los de otras poblaciones. Dado todo este trabajo, creo que la mejor manera de pensarlo es que los Turkers son una muestra de conveniencia razonable, muy parecida a los estudiantes pero un poco más diversa (Berinsky, Huber, and Lenz 2012) . Por lo tanto, así como los estudiantes son una población razonable para algunas, pero no todas, las investigaciones, los Turkers son una población razonable para algunas, pero no para todas, las investigaciones. Si vas a trabajar con Turkers, entonces tiene sentido leer muchos de estos estudios comparativos y comprender sus matices.
En segundo lugar, los investigadores han desarrollado mejores prácticas para aumentar la validez interna de los experimentos de MTurk, y usted debe conocer y seguir estas mejores prácticas (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Por ejemplo, se alienta a los investigadores que usen Turkers a utilizar screeners para eliminar a los participantes desatentos (Berinsky, Margolis, and Sances 2014, 2016) (pero también ver a DJ Hauser and Schwarz (2015b) y DJ Hauser and Schwarz (2015a) ). Si no quita a los participantes desatentos, entonces cualquier efecto del tratamiento puede desaparecer por el ruido que introducen, y en la práctica el número de participantes desatentos puede ser sustancial. En el experimento de Huber y sus colegas (2012) , alrededor del 30% de los participantes fallaron en los controles de atención básica. Otros problemas que surgen comúnmente cuando se usan Turkers son los participantes no ingenuos (Chandler et al. 2015) y la deserción (Zhou and Fishbach 2016) .
En tercer lugar, en relación con algunas otras formas de experimentos digitales, los experimentos de MTurk no pueden escalar; Stewart et al. (2015) estiman que en un momento dado solo hay unas 7.000 personas en MTurk.
Finalmente, debe saber que MTurk es una comunidad con sus propias reglas y normas (Mason and Suri 2012) . De la misma manera que tratarías de averiguar sobre la cultura de un país en el que ibas a realizar tus experimentos, deberías tratar de averiguar más sobre la cultura y las normas de Turkers (Salehi et al. 2015) . Y debe saber que los Turkers hablarán de su experimento si hace algo inapropiado o poco ético (Gray et al. 2016) .
MTurk es una manera increíblemente conveniente de reclutar participantes para sus experimentos, ya sean de laboratorio, como los de Huber, Hill, and Lenz (2012) , o más similares a los de campo, como los de Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , y Mao et al. (2016) .
Si está pensando en crear su propio producto, le recomiendo que lea los consejos ofrecidos por el grupo MovieLens en Harper and Konstan (2015) . Una idea clave de su experiencia es que para cada proyecto exitoso hay muchas, muchas fallas. Por ejemplo, el grupo MovieLens lanzó otros productos, como GopherAnswers, que fueron fracasos completos (Harper and Konstan 2015) . Otro ejemplo de falla de un investigador al intentar construir un producto es el intento de Edward Castronova de construir un juego en línea llamado Arden. A pesar de $ 250,000 en fondos, el proyecto fue un fracaso (Baker 2008) . Los proyectos como GopherAnswers y Arden son, desafortunadamente, mucho más comunes que los proyectos como MovieLens.
He oído hablar frecuentemente de la idea del Cuadrante de Pasteur en empresas de tecnología, y ayuda a organizar los esfuerzos de investigación en Google (Spector, Norvig, and Petrov 2012) .
El estudio de Bond y colegas (2012) también intenta detectar el efecto de estos tratamientos en los amigos de quienes los recibieron. Debido al diseño del experimento, estos derrames son difíciles de detectar limpiamente; los lectores interesados deberían ver a Bond et al. (2012) para una discusión más completa. Jones y sus colegas (2017) también realizaron un experimento muy similar durante las elecciones de 2012. Estos experimentos son parte de una larga tradición de experimentos en ciencias políticas sobre los esfuerzos para fomentar el voto (Green and Gerber 2015) . Estos experimentos para salir a votar son comunes, en parte porque están en el Cuadrante de Pasteur. Es decir, hay muchas personas que están motivadas para aumentar el voto y votar puede ser un comportamiento interesante para probar teorías más generales sobre el cambio de comportamiento y la influencia social.
Para obtener consejos sobre cómo realizar experimentos de campo con organizaciones asociadas, como partidos políticos, ONG y empresas, consulte Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) y Gueron (2002) . Para ideas sobre cómo las asociaciones con organizaciones pueden impactar los diseños de investigación, ver King et al. (2007) y Green, Calfano, and Aronow (2014) . La asociación también puede conducir a cuestiones éticas, como lo mencionan Humphreys (2015) y Nickerson and Hyde (2016) .
Si va a crear un plan de análisis antes de ejecutar su experimento, le sugiero que comience leyendo las pautas para la elaboración de informes. Las pautas CONSORT (Informe Estándar Consolidado de Ensayos) se desarrollaron en medicina (Schulz et al. 2010) y se modificaron para investigación social (Mayo-Wilson et al. 2013) . Un conjunto de directrices relacionadas ha sido desarrollado por los editores de la revista Journal of Experimental Political Science (Gerber et al. 2014) (ver también Mutz and Pemantle (2015) y Gerber et al. (2015) ). Finalmente, se han desarrollado pautas de reporte en psicología (APA Working Group 2008) , y también ver Simmons, Nelson, and Simonsohn (2011) .
Si crea un plan de análisis, debe considerar registrarlo previamente porque la preinscripción aumentará la confianza que otros tienen en sus resultados. Además, si está trabajando con un compañero, limitará la capacidad de su compañero de cambiar el análisis después de ver los resultados. La preinscripción es cada vez más común en psicología (Nosek and Lakens 2014) , ciencias políticas (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) y economía (Olken 2015) .
También se presentan consejos de diseño específicamente para experimentos de campo en línea en Konstan and Chen (2007) y Chen and Konstan (2015) .
Lo que he llamado la estrategia de la armada a veces se llama investigación programática ; ver Wilson, Aronson, and Carlsmith (2010) .
Para más información sobre los experimentos de MusicLab, ver Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , y Salganik (2007) . Para más información sobre los mercados donde el ganador se lleva todo, vea Frank and Cook (1996) . Para obtener más información sobre cómo desentrañar la suerte y la habilidad en general, consulte Mauboussin (2012) , Watts (2012) y Frank (2016) .
Existe otro enfoque para eliminar los pagos de los participantes que los investigadores deben usar con precaución: el servicio militar obligatorio. En muchos experimentos de campo en línea, los participantes son básicamente reclutados en experimentos y nunca compensados. Ejemplos de este enfoque incluyen el experimento de Restivo y van de Rijt (2012) sobre recompensas en Wikipedia y el experimento de Bond y colega (2012) para alentar a las personas a votar. Estos experimentos realmente no tienen un costo variable cero, sino que tienen un costo variable cero para los investigadores . En tales experimentos, incluso si el costo para cada participante es extremadamente pequeño, el costo agregado puede ser bastante grande. Los investigadores que ejecutan experimentos masivos en línea a menudo justifican la importancia de los pequeños efectos de tratamiento estimados al decir que estos pequeños efectos pueden ser importantes cuando se aplican a muchas personas. El mismo pensamiento se aplica a los costos que los investigadores imponen a los participantes. Si su experimento hace que un millón de personas desperdicien un minuto, el experimento no es muy dañino para ninguna persona en particular, pero en conjunto ha desperdiciado casi dos años.
Otro enfoque para crear un pago cero de costo variable para los participantes es utilizar una lotería, un enfoque que también se ha utilizado en la investigación de encuestas (Halpern et al. 2011) . Para obtener más información sobre el diseño de experiencias agradables para el usuario, ver Toomim et al. (2011) . Para obtener más información sobre el uso de bots para crear experimentos con cero costo variable, vea ( ??? ) .
Las tres R como originalmente propuestas por Russell and Burch (1959) son las siguientes:
"Sustitución significa la sustitución de conciencia que viven los animales superiores de material insensible. Reducción significa la reducción en el número de animales utilizados para obtener información de una cantidad determinada y precisión. Refinamiento significa cualquier disminución en la incidencia o severidad de procedimientos inhumanos aplicados a aquellos animales que todavía tienen que ser utilizados ".
Las tres R que propongo no anulan los principios éticos descritos en el capítulo 6. Más bien, son una versión más elaborada de uno de esos principios, la beneficencia, específicamente en el marco de los experimentos humanos.
En términos de la primera R ("reemplazo"), la comparación del experimento de contagio emocional (Kramer, Guillory, and Hancock 2014) y el experimento natural de contagio emocional (Lorenzo Coviello et al. 2014) ofrece algunas lecciones generales sobre las compensaciones involucradas al pasar de experimentos a experimentos naturales (y otros enfoques, como el emparejamiento, que intentan aproximar experimentos en datos no experimentales, ver el capítulo 2). Además de los beneficios éticos, el cambio de los estudios experimentales a los no experimentales también permite a los investigadores estudiar tratamientos que no pueden desplegar logísticamente. Sin embargo, estos beneficios éticos y logísticos tienen un costo. Con experimentos naturales, los investigadores tienen menos control sobre aspectos como el reclutamiento de participantes, la aleatorización y la naturaleza del tratamiento. Por ejemplo, una limitación de la lluvia como tratamiento es que aumenta la positividad y disminuye la negatividad. En el estudio experimental, sin embargo, Kramer y sus colegas fueron capaces de ajustar la positividad y la negatividad de forma independiente. El enfoque particular utilizado por Lorenzo Coviello et al. (2014) fue elaborado por L. Coviello, Fowler, and Franceschetti (2014) . Para una introducción a las variables instrumentales, que es el enfoque utilizado por Lorenzo Coviello et al. (2014) , ver Angrist and Pischke (2009) (menos formal) o Angrist, Imbens, and Rubin (1996) (más formal). Para una evaluación escéptica de las variables instrumentales, ver Deaton (2010) , y para una introducción a las variables instrumentales con instrumentos débiles (la lluvia es un instrumento débil), ver Murray (2006) . De manera más general, Dunning (2012) una buena introducción a los experimentos naturales, mientras que Rosenbaum (2002) , ( ??? ) y Shadish, Cook, and Campbell (2001) ofrecen buenas ideas sobre la estimación de efectos causales sin experimentos.
En términos de la segunda R ("refinamiento"), existen compensaciones científicas y logísticas cuando se considera cambiar el diseño del contagio emocional de bloquear publicaciones a aumentar las publicaciones. Por ejemplo, puede ser que la implementación técnica de News Feed haga que sea sustancialmente más fácil hacer un experimento en el que se bloquean las publicaciones en lugar de una en la que se refuercen (tenga en cuenta que podría implementarse un experimento de bloqueo de publicaciones). como una capa en la parte superior del sistema de noticias sin ninguna necesidad de alteraciones del sistema subyacente). Científicamente, sin embargo, la teoría abordada por el experimento no sugería claramente un diseño sobre el otro. Lamentablemente, no estoy al tanto de investigaciones sustanciales previas sobre los méritos relativos de bloquear e impulsar el contenido en las noticias. Además, no he visto mucha investigación sobre los tratamientos de refinación para hacerlos menos dañinos; Una excepción es B. Jones and Feamster (2015) , que considera el caso de la medición de la censura de Internet (un tema que analizo en el capítulo 6 en relación con el estudio Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
En términos de la tercera R ("reducción"), Cohen (1988) (libro) y Cohen (1992) (artículo) presentan buenas introducciones al análisis de poder tradicional, mientras que Gelman and Carlin (2014) ofrecen una perspectiva ligeramente diferente. Las covariables de pretratamiento se pueden incluir en la etapa de diseño y análisis de los experimentos; el capítulo 4 de Gerber and Green (2012) proporciona una buena introducción a ambos enfoques, y Casella (2008) proporciona un tratamiento más profundo. Las técnicas que usan esta información previa al tratamiento en la aleatorización se suelen denominar diseños experimentales bloqueados o diseños experimentales estratificados (la terminología no se utiliza de manera uniforme en todas las comunidades); estas técnicas están estrechamente relacionadas con las técnicas de muestreo estratificado discutidas en el capítulo 3. Ver Higgins, Sävje, and Sekhon (2016) para más información sobre el uso de estos diseños en experimentos masivos. Las covariables de pretratamiento también se pueden incluir en la etapa de análisis. McKenzie (2012) explora el enfoque de diferencia en diferencias para analizar experimentos de campo con mayor detalle. Consulte Carneiro, Lee, and Wilhelm (2016) para obtener más información sobre las ventajas y desventajas entre los diferentes enfoques para aumentar la precisión en las estimaciones de los efectos del tratamiento. Finalmente, al decidir si se intenta incluir las covariables de pretratamiento en la etapa de diseño o análisis (o ambas), hay algunos factores a considerar. En un entorno donde los investigadores quieren demostrar que no están "pescando" (Humphreys, Sierra, and Windt 2013) , usar covariables de pretratamiento en la etapa de diseño puede ser útil (Higgins, Sävje, and Sekhon 2016) . En situaciones donde los participantes llegan de forma secuencial, especialmente experimentos de campo en línea, el uso de información previa al tratamiento en la etapa de diseño puede ser difícil logísticamente; ver, por ejemplo, Xie and Aurisset (2016) .
Vale la pena agregar un poco de intuición acerca de por qué un enfoque de diferencia en las diferencias puede ser mucho más efectivo que uno de diferencia en los medios. Muchos resultados en línea tienen una varianza muy alta (véanse, por ejemplo, RA Lewis and Rao (2015) y Lamb et al. (2015) ) y son relativamente estables a lo largo del tiempo. En este caso, la puntuación de cambio tendrá una varianza sustancialmente menor, lo que aumentará la potencia de la prueba estadística. Una razón por la cual este enfoque no se usa con más frecuencia es que antes de la era digital, no era común tener resultados previos al tratamiento. Una forma más concreta de pensar sobre esto es imaginar un experimento para medir si una rutina de ejercicio específica causa pérdida de peso. Si adopta un enfoque de diferencia en los medios, su estimación tendrá variabilidad derivada de la variabilidad en los pesos en la población. Sin embargo, si hace un enfoque de diferencias en las diferencias, se elimina la variación natural en los pesos, y puede detectar más fácilmente una diferencia causada por el tratamiento.
Finalmente, consideré agregar una cuarta R: "reutilizar". Es decir, si los investigadores se encuentran con más datos experimentales que los que necesitan para abordar su pregunta de investigación original, deberían reutilizar los datos para formular nuevas preguntas. Por ejemplo, imagine que Kramer y sus colegas utilizaron un estimador de diferencia en diferencias y se encontraron con más datos de los que necesitaban para abordar su pregunta de investigación. En lugar de no utilizar los datos en toda su extensión, podrían haber estudiado el tamaño del efecto como una función de la expresión emocional previa al tratamiento. Al igual que Schultz et al. (2007) encontraron que el efecto del tratamiento fue diferente para los usuarios leves y pesados, tal vez los efectos del News Feed fueron diferentes para las personas que ya tendían a publicar mensajes felices (o tristes). La reutilización podría conducir a la "pesca" (Humphreys, Sierra, and Windt 2013) y al "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , pero estos son en gran medida abordables con una combinación de informes honestos (Simmons, Nelson, and Simonsohn 2011) , preinscripción (Humphreys, Sierra, and Windt 2013) y métodos de aprendizaje automático que intentan evitar el exceso de ajuste.