más comentarios

Esta sección está diseñada para ser utilizada como una referencia, en lugar de ser leído como un relato.

  • Introducción (Sección 4.1)

Las preguntas acerca de la causalidad en la investigación social a menudo son complejos e intrincados. Para un enfoque fundamental para la causalidad basado en gráficos causales, consulte Pearl (2009) , y por un enfoque fundamental sobre la base de los resultados potenciales, véase Imbens and Rubin (2015) (y el apéndice técnico de este capítulo). Para una comparación entre estos dos enfoques, véase Morgan and Winship (2014) . Para un enfoque formal para definir un factor de confusión, ver VanderWeele and Shpitser (2013) .

En el capítulo, he creado lo que parecía ser una línea clara entre nuestra capacidad para hacer estimaciones causales a partir de datos experimentales y no experimentales. En realidad, creo que la distinción es más borrosa. Por ejemplo, todo el mundo acepta que el fumar causa cáncer a pesar de que nunca hemos hecho un experimento controlado aleatorio que obliga a las personas que fuman. Por sus excelentes tratamientos de longitud libro sobre la realización de estimaciones causales a partir de datos no experimentales véase Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , y Dunning (2012) .

Los capítulos 1 y 2 de Freedman, Pisani, and Purves (2007) ofrecen una introducción clara de las diferencias entre los experimentos, los experimentos controlados, aleatorios y experimentos controlados.

Manzi (2012) ofrece una fascinante introducción y legible en las bases filosóficas y estadísticos de experimentos controlados aleatorios. También proporciona ejemplos del mundo real de interés de la potencia de la experimentación en los negocios.

  • ¿Cuáles son los experimentos? (Sección 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) proporcionan buenas introducciones a los aspectos estadísticos de diseño y análisis experimental. Además, hay excelentes tratamientos de la utilización de experimentos en los ámbitos más diversos: economía (Bardsley et al. 2009) , sociología (Willer and Walker 2007; Jackson and Cox 2013) , psicología (Aronson et al. 1989) , la ciencia política (Morton and Williams 2010) , y la política social (Glennerster and Takavarasha 2013) .

La importancia de la captación de participantes (por ejemplo, toma de muestras) a menudo no se aprecia en la investigación experimental. Sin embargo, si el efecto del tratamiento es heterogéneo en la población, la muestra es crítica. Longford (1999) hace que este punto claramente cuando aboga para que los investigadores piensan en experimentos como un estudio de la población con un muestreo al azar.

  • Dos dimensiones de experimentos de laboratorio: el campo y analógico-digital (Sección 4.3)

La dicotomía que presenté entre los experimentos de laboratorio y de campo es un poco simplificada. De hecho, otros investigadores han propuesto tipologías más detallados, en particular, los que separan las diversas formas de experimentos de campo (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Además, hay otros dos tipos de experimentos llevados a cabo por los científicos sociales que no encajan perfectamente en el laboratorio y de campo: dicotomía. Experimentos de encuestas y experimentos sociales experimentos de la encuesta se experimentos utilizando la infraestructura de las encuestas existentes y comparar las respuestas a las versiones alternativas de la mismas preguntas (algunos experimentos encuesta se presentan en el capítulo 3); para más información sobre los experimentos de la encuesta ver Mutz (2011) . Los experimentos sociales son experimentos en los que el tratamiento es un poco de la política social que sólo puede ser implementado por un gobierno. Los experimentos sociales están estrechamente relacionados con la evaluación del programa. Para más información sobre los experimentos de política, consulte Orr (1998) , Glennerster and Takavarasha (2013) y Heckman and Smith (1995) .

Varios trabajos han comparado los experimentos de laboratorio y de campo en el resumen (Falk and Heckman 2009; Cialdini 2009) y en términos de resultados de experimentos específicos en ciencias políticas (Coppock and Green 2015) , la economía (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) y la psicología (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ofrece un buen diseño de investigación para comparar los resultados de experimentos de laboratorio y de campo.

La preocupación por los participantes cambian su comportamiento, ya que saben que están siendo observados de cerca a veces son llamados efectos de la demanda, y se han estudiado en la psicología (Orne 1962) y la economía (Zizzo 2009) . Aunque en su mayoría asociados con experimentos de laboratorio, estos mismos problemas pueden causar problemas para los experimentos de campo también. De hecho, los efectos de demanda a veces también se denominan efectos de Hawthorne, un término que deriva de un experimento de campo, específicamente los famosos experimentos de iluminación que se inició en 1924 en la fábrica Hawthorne de la Western Electric Company (Adair 1984; Levitt and List 2011) . Ambos efectos de la demanda y los efectos del espino están estrechamente relacionados con la idea de medida reactiva discutido en el capítulo 2 (véase también Webb et al. (1966) ).

La historia de los experimentos de campo se ha descrito en la economía (Levitt and List 2009) , la ciencia política (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psicología (Shadish 2002) , y las políticas públicas (Shadish and Cook 2009) . Una de las áreas de las ciencias sociales, donde los experimentos de campo rápidamente llegó a ser prominente es el desarrollo internacional. Para una revisión positiva de que el trabajo dentro de la economía véase Banerjee and Duflo (2009) , y para una evaluación crítica véase Deaton (2010) . Para una revisión de este trabajo en la ciencia política ver Humphreys and Weinstein (2009) . Por último, los problemas éticos involucrados en experimentos de campo han sido explorados en la ciencia política (Humphreys 2015; Desposato 2016b) y la economía del desarrollo (Baele 2013) .

En el capítulo, he sugerido que la información pre-tratamiento puede ser utilizado para mejorar la precisión de los efectos estimados del tratamiento, pero hay cierto debate acerca de este enfoque: Freedman (2008) , Lin (2013) , y Berk et al. (2013) ; ver Bloniarz et al. (2016) para más información.

  • Yendo más allá de experimentos sencillos (Sección 4.4)

He optado por centrarse en tres conceptos: la validez, la heterogeneidad de los efectos del tratamiento, y mecanismos. Estos conceptos tienen diferentes nombres en diferentes campos. Por ejemplo, los psicólogos tienden a ir más allá de simples experimentos, centrándose en los mediadores y moderadores (Baron and Kenny 1986) . La idea de los mediadores es capturado por lo que llamo mecanismos, y la idea de moderadores es capturado por lo que llamo la validez externa (por ejemplo, serían los resultados del experimento diferente si fue ejecutado en diferentes situaciones) y la heterogeneidad de los efectos del tratamiento ( por ejemplo, los efectos son más grandes para algunas personas que otras personas).

El experimento de Schultz et al. (2007) muestra cómo las teorías sociales se puede utilizar para diseñar intervenciones efectivas. Para una discusión más general sobre el papel de la teoría en el diseño de intervenciones eficaces, véase Walton (2014) .

  • Validez (Sección 4.4.1)

Los conceptos de validez interna y externa se introdujeron por primera vez en Campbell (1957) . Ver Shadish, Cook, and Campbell (2001) para una historia más detallada y una cuidadosa elaboración de validez conclusión estadística, la validez interna, validez de constructo y la validez externa.

Para una visión general de las cuestiones relacionadas con la validez conclusión estadística en los experimentos ver Gerber and Green (2012) (para una perspectiva de las ciencias sociales) y Imbens and Rubin (2015) (para el punto de vista estadístico). Algunas cuestiones de validez conclusión estadística que surgen específicamente en experimentos de campo en línea incluyen cuestiones tales como los métodos computacionalmente eficientes para la creación de intervalos de confianza con los datos dependientes (Bakshy and Eckles 2013) .

La validez interna puede ser difícil de garantizar en experimentos de campo complejas. Véase, por ejemplo, Gerber and Green (2000) , Imai (2005) , y Gerber and Green (2005) para el debate acerca de la ejecución de un experimento de campo complejo acerca de la votación. Kohavi et al. (2012) y Kohavi et al. (2013) proporcionar una introducción a los retos de la validez de intervalo en experimentos de campo en línea.

Una preocupación importante con validez interna es problemas con la asignación al azar. Una forma de detectar potenciales problemas con la aleatorización es comparar los grupos de tratamiento y control en los rasgos observables. Este tipo de comparación se llama un cheque equilibrio. Ver Hansen and Bowers (2008) para un enfoque estadístico para equilibrar los cheques, y ver Mutz and Pemantle (2015) para las preocupaciones acerca de los controles de balance. Por ejemplo, usando una balanza de visita Allcott (2011) encontró que hay alguna evidencia de que la asignación al azar no se ha implementado correctamente en tres de los experimentos en algunos de los experimentos Opower (véase la Tabla 2; los sitios 2, 6, y 8). Para otros enfoques, ver Imbens and Rubin (2015) , Capítulo 21.

Otros de los principales problemas relacionados con la validez interna son: 1) un solo lado incumplimiento, cuando no todos en el grupo de tratamiento recibió realmente el tratamiento, 2) dos caras incumplimiento, cuando no todos en el grupo de tratamiento recibe el tratamiento y algunos personas en el grupo de control reciben el tratamiento, 3) de desgaste, donde los resultados no se miden para algunos participantes, y 4) la interferencia, donde el tratamiento se derrama de la gente en la condición de tratamiento a las personas en el grupo de control. Ver Gerber and Green (2012) los capítulos 5, 6, 7, y 8 para más información sobre cada uno de estos temas.

Para más información sobre la validez de constructo, véase Westen and Rosenthal (2003) , y para más información sobre la validez de constructo de las fuentes de datos grandes, Lazer (2015) y en el capítulo 2 de este libro.

Un aspecto de la validez externa es el entorno en el que se prueba una intervención. Allcott (2015) ofrece un tratamiento teórico y empírico cuidado de sesgo de selección de sitios. Este problema también se discute en Deaton (2010) . Además de ser replicado en muchos sitios, la intervención Inicio Informe de la Energía también se ha estudiado de forma independiente por varios grupos de investigación (por ejemplo, Ayres, Raseman, and Shih (2013) ).

  • La heterogeneidad de los efectos del tratamiento (Sección 4.4.2)

Para una excelente revisión de la heterogeneidad de los efectos del tratamiento en los experimentos de campo, véase el Capítulo 12 de Gerber and Green (2012) . Para introducciones a la heterogeneidad de los efectos del tratamiento en ensayos clínicos, ver Kent and Hayward (2007) , Longford (1999) , y Kravitz, Duan, and Braslow (2004) . La heterogeneidad de los efectos del tratamiento se centran generalmente en las diferencias basadas en las características de pre-tratamiento. Si usted está interesado en la heterogeneidad basada en los resultados posteriores al tratamiento, entonces se necesitan abordaje de la más complejas, tales como la estratificación director (Frangakis and Rubin 2002) ; ver Page et al. (2015) para una revisión.

Muchos investigadores estiman que la heterogeneidad de los efectos del tratamiento mediante regresión lineal, pero los nuevos métodos se basan en el aprendizaje de máquina, por ejemplo Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , y Athey and Imbens (2016a) .

Hay un cierto escepticismo sobre los resultados de la heterogeneidad de los efectos debido a múltiples problemas de comparación y la "pesca". Hay una variedad de métodos estadísticos que pueden ayudar a solucionar problemas acerca de comparación múltiple (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Una aproximación a la preocupación por la "pesca" es pre-registro, que se está convirtiendo cada vez más común en la psicología (Nosek and Lakens 2014) , la ciencia política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) y la economía (Olken 2015) .

En el estudio de la Costa and Kahn (2013) sólo la mitad de los hogares en el experimento fueron capaces de estar vinculado a la información demográfica. Los lectores interesados ​​en los detalles y posibles problemas con este análisis deben consultar el documento original.

  • Mecanismos (Sección 4.4.3)

Los mecanismos son muy importantes, pero resultan ser muy difíciles de estudiar. La investigación sobre los mecanismos estrechamente relacionada con el estudio de los mediadores en la psicología (pero véase también VanderWeele (2009) para una comparación precisa entre las dos ideas). Métodos estadísticos a la búsqueda de mecanismos, tales como el enfoque desarrollado en Baron and Kenny (1986) , son bastante comunes. Por desgracia, resulta que estos procedimientos dependen de algunos supuestos fuertes (Bullock, Green, and Ha 2010) y sufren cuando hay múltiples mecanismos, como era de esperar en muchas situaciones (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) y Imai and Yamamoto (2013) ofrecen algunos métodos estadísticos mejorados. Además, VanderWeele (2015) ofrece un tratamiento de longitud del libro con una serie de resultados importantes, incluyendo un enfoque integral para el análisis de sensibilidad.

Un enfoque separado se centra en experimentos que intentan manipular el mecanismo de forma directa (por ejemplo, dando marineros vitamina C). Por desgracia, en muchos entornos de las ciencias sociales a menudo hay múltiples mecanismos y es difícil diseñar tratamientos que cambian uno sin cambiar los demás. Algunos enfoques de forma experimental, se describen los mecanismos que alteran en Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , y Pirlott and MacKinnon (2016) .

Por último, los mecanismos también tienen una larga historia en la filosofía de la ciencia como se describe por Hedström and Ylikoski (2010) .

  • El uso de los entornos existentes (Sección 4.5.1.1)

Para más información sobre el uso de estudios por correspondencia y estudios de auditoría para medir la discriminación ver Pager (2007) .

  • Construir su propio experimento (Sección 4.5.1.2)

La forma más común de reclutar a los participantes a los experimentos que se genera es Amazon Mechanical Turk (MTurk). Debido MTurk imita los aspectos de los experimentos de pago de laboratorio tradicionales de personas para realizar las tareas que no iban a hacer por investigadores libres muchos ya han comenzado a utilizar Turkers (los trabajadores en MTurk) como participantes en sujetos humanos experimentos que resulta en más barato de recogida de datos más rápida y que los tradicionales experimentos de laboratorio en el campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

La mayor fortaleza de experimentos con participantes reclutados en MTurk son logístico: permiten a los investigadores a reclutar a los participantes de forma rápida y, según sea necesario. Mientras que los experimentos de laboratorio pueden tomar semanas para correr y experimentos de campo pueden tardar meses en la configuración, los experimentos con participantes reclutados en MTurk se pueden ejecutar en días. Por ejemplo, Berinsky, Huber, and Lenz (2012) fueron capaces de reclutar a 400 sujetos en un solo día para participar en un experimento 8 minuto. Además, estos participantes pueden ser reclutados para virtualmente cualquier propósito (incluidos los estudios y la colaboración masiva, como se explica en los capítulos 3 y 5). Esta facilidad de reclutamiento significa que los investigadores pueden ejecutar secuencias de experimentos relacionados en rápida sucesión.

Antes de reclutar participantes de MTurk para sus propios experimentos, hay cuatro cosas importantes que debe saber. En primer lugar, muchos investigadores tienen un escepticismo no específica de los experimentos que implican Turkers. Debido a que este escepticismo no es específica, es difícil de contrarrestar con pruebas. Sin embargo, después de varios años de estudios que utilizan Turkers, ahora podemos concluir que este escepticismo no es especialmente necesario. Ha habido muchos estudios que comparan los datos demográficos de Turkers a otras poblaciones y muchos estudios que comparan los resultados de los experimentos con Turkers a los resultados de otras poblaciones. Teniendo en cuenta todo este trabajo, creo que la mejor manera para que usted piensa acerca de ello es que Turkers son una muestra de conveniencia razonable, al igual que los estudiantes, sino un poco más diversa (Berinsky, Huber, and Lenz 2012) . Por lo tanto, al igual que los estudiantes son una población razonable para algunos, pero no toda la investigación experimental, Turkers son una población razonable para algunos, pero no todas las investigaciones. Si usted va a trabajar con Turkers, entonces tiene sentido para leer muchos de estos estudios comparativos y comprender sus matices.

En segundo lugar, los investigadores han desarrollado las mejores prácticas para aumentar la validez interna de los experimentos Turk, y usted debe conocer y seguir estas mejores prácticas (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Por ejemplo, se anima a los investigadores que usan Turkers utilizar cribas para eliminar participantes de falta de atención (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (pero véase también el DJ Hauser and Schwarz (2015b) y DJ Hauser and Schwarz (2015a) ). Si no se retiran los participantes de falta de atención, entonces cualquier efecto del tratamiento puede ser lavado por el ruido introducido por los participantes de falta de atención, y en la práctica el número de participantes de falta de atención puede ser sustancial. En el experimento de Huber y sus colegas (2012) sobre 30% de los participantes no cribadores básicos de atención. Otro problema común con Turkers participantes no es ingenuo (Chandler et al. 2015) .

En tercer lugar, en relación con algunas otras formas de experimentos digitales, los experimentos MTurk pueden no escala; Stewart et al. (2015) estiman que en un momento dado sólo hay alrededor de 7.000 personas en MTurk.

Por último, usted debe saber que MTurk es una comunidad con sus propias reglas y normas (Mason and Suri 2012) . De la misma manera que lo haría tratar de averiguar acerca de la cultura de un país en el que se va a ejecutar sus experimentos, usted debe tratar de averiguar más acerca de la cultura y las normas de Turkers (Salehi et al. 2015) . Y, usted debe saber que los Turkers a estar hablando de tu experimento si lo hace algo inadecuado o poco ético (Gray et al. 2016) .

MTurk es una forma muy conveniente para reclutar a los participantes a sus experimentos, ya sean de laboratorio similares, tales como Huber, Hill, and Lenz (2012) , o más de campo como, por ejemplo, Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , y Mao et al. (2016) .

  • Construir su propio producto (Sección 4.5.1.3)

Si usted está pensando en tratar de crear su propio producto, le recomiendo que lea los consejos ofrecidos por el grupo MovieLens en Harper and Konstan (2015) . Un elemento clave de su experiencia es que para cada proyecto exitoso hay muchos, muchos fracasos. Por ejemplo, el grupo lanzó MovieLens otros productos tales como GopherAnswers que estaban completos fracasos (Harper and Konstan 2015) . Otro ejemplo de un investigador en su defecto, mientras que el intento de construir un producto es el intento de Edward Castronova para construir un juego en línea llamado Arden. A pesar de $ 250.000 en la financiación, el proyecto fue un fracaso (Baker 2008) . Proyectos como GopherAnswers y Arden son por desgracia mucho más común de lo que proyectos como MovieLens. Por último, cuando dije que no sabía de ningún otros investigadores que habían construido con éxito productos para la experimentación repetida aquí están mis criterios: 1) los participantes utilizan el producto debido a lo que les proporciona (por ejemplo, no se les paga y no son voluntarios ayudando ciencia) y 2) el producto ha sido utilizado durante más de un experimento distinto (es decir, no el mismo experimento varias veces con diferentes grupos de participantes). Si usted sabe de otros ejemplos, por favor hágamelo saber.

  • Asociarse con los poderosos (Sección 4.5.2)

He escuchado la idea de Cuadrante de Pasteur discutido con frecuencia en las empresas de tecnología, y ayuda a organizar los esfuerzos de investigación en Google (Spector, Norvig, and Petrov 2012) .

Bond y colegas de estudio (2012) también trata de detectar el efecto de estos tratamientos sobre los amigos de aquellos que los recibieron. Debido al diseño del experimento, estos efectos secundarios son difíciles de detectar limpiamente; El lector interesado puede ver Bond et al. (2012) para una discusión más a fondo. Este experimento es parte de una larga tradición de experimentos en ciencias políticas en los esfuerzos para promover el voto (Green and Gerber 2015) . Estos experimentos get-fuera-del-voto son comunes, en parte, porque están en el Cuadrante de Pasteur. Es decir, hay muchas personas que están motivados para estimular el voto y el voto puede ser un comportamiento interesante para poner a prueba las teorías más generales sobre el cambio de comportamiento y la influencia social.

Otros investigadores han prestado asesoramiento sobre la ejecución de los experimentos de campo con organizaciones asociadas como los partidos políticos, ONG y empresas (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Otros han ofrecido consejos sobre cómo las asociaciones con organizaciones pueden impactar los diseños de investigación (Green, Calfano, and Aronow 2014; King et al. 2007) . La asociación también puede dar lugar a cuestiones éticas (Humphreys 2015; Nickerson and Hyde 2016) .

  • Consejos de diseño (Sección 4.6)

Si se va crear un plan de análisis antes de ejecutar el experimento, le sugiero que comience por leer directrices. El CONSORT (Consolidated Norma de Información de ensayos) directrices fueron desarrolladas en la medicina (Schulz et al. 2010) y modificado para la investigación social (Mayo-Wilson et al. 2013) . Un conjunto relacionado de directrices ha sido desarrollado por los editores de la revista Journal of Experimental de Ciencias Políticas (Gerber et al. 2014) (véase también Mutz and Pemantle (2015) y Gerber et al. (2015) ). Por último, las directrices de presentación de informes se han desarrollado en la psicología (Group 2008) , y la consulta Simmons, Nelson, and Simonsohn (2011) .

Si crea un plan de análisis debe tener en cuenta antes de registrarse porque preinscripción aumentará la confianza de que otros tienen en sus resultados. Además, si se está trabajando con un socio, que limitará la capacidad de su pareja para cambiar el análisis después de ver los resultados. La preinscripción se está convirtiendo cada vez más común en la psicología (Nosek and Lakens 2014) , la ciencia política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , y la economía (Olken 2015) .

Si bien la creación de su plan de pre-análisis debe tener en cuenta que algunos investigadores también utilizan la regresión y los enfoques relacionados para mejorar la precisión del efecto estimado del tratamiento, y existe cierto debate acerca de este enfoque: Freedman (2008) , Lin (2013) , y Berk et al. (2013) ; ver Bloniarz et al. (2016) para más información.

Consejos de diseño especialmente para experimentos de campo en línea también se presenta en Konstan and Chen (2007) y Chen and Konstan (2015) .

  • Crear cero los datos de costes variables (Sección 4.6.1)

Para más información sobre los experimentos MusicLab, ver Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , y Salganik (2007) . Para más información sobre el ganador se lleva todos los mercados, véase Frank and Cook (1996) . Para más información sobre la suerte de desenredado y habilidad en términos más generales, ver Mauboussin (2012) , Watts (2012) , y Frank (2016) .

Hay otro método para la eliminación de los pagos de los participantes que los investigadores deben utilizar con precaución: el servicio militar obligatorio. En muchos experimentos de campo en línea participantes son, básicamente, reclutados en los experimentos y nunca compensado. Los ejemplos de este enfoque incluyen Restivo y de van de Rijt (2012) experimento sobre recompensas en Wikipedia y Bond y del colega (2012) experimento en animar a la gente a votar. Estos experimentos en realidad no tienen coste variable cero, que tiene cero costo variable para los investigadores. A pesar de que el coste de muchos de estos experimentos es extremadamente pequeña para cada participante, pequeños costes imponen un enorme número de participantes puede aumentar rápidamente. Los investigadores que ejecutan experimentos masivos online a menudo justifican la importancia de los pequeños efectos estimados del tratamiento diciendo que estos pequeños efectos pueden llegar a ser importante cuando se aplica a muchas personas. El mismo pensamiento exacto se aplica a los costos que imponen a los investigadores participantes. Si sus experimentos provoca un millón de personas a perder un minuto, el experimento no es muy perjudicial para cualquier persona en particular, pero en conjunto se ha perdido casi dos años de tiempo.

Otro enfoque a la creación de pago coste variable cero a los participantes es el uso de una lotería, un enfoque que se ha utilizado también en la investigación de encuesta (Halpern et al. 2011) . Por último, para más información sobre el diseño de usuarios-experiencias agradables ver Toomim et al. (2011) .

  • Reemplazar, refinar y Reducir (Sección 4.6.2)

Aquí están las definiciones originales de las tres R, de Russell and Burch (1959) :

"Sustitución significa la sustitución de conciencia que viven los animales superiores de material insensible. Reducción significa la reducción en el número de animales utilizados para obtener información de una cantidad determinada y precisión. Refinamiento significa cualquier disminución en la incidencia o severidad de procedimientos inhumanos aplicados a aquellos animales que todavía tienen que ser utilizados ".

Las tres R que propongo no anulan los principios éticos descritos en el capítulo 6. Por el contrario, son una versión más elaborada uno de esos principios, la beneficencia, específicamente para el ajuste de los experimentos humanos.

Al considerar el contagio emocional, hay tres cuestiones no éticos a tener en cuenta en la interpretación de este experimento. En primer lugar, no está claro cómo los detalles reales del experimento se conectan a las reivindicaciones teóricos; en otras palabras, hay dudas acerca de la validez de constructo. No está claro que las palabras positivas y negativas que cuenta son en realidad un buen indicador del estado emocional de los participantes, ya que 1) no está claro que las palabras que la gente publica son un buen indicador de sus emociones y 2) no está claro que la técnica de análisis de sentimiento particular que utilizan los investigadores es capaz de inferir con fiabilidad las emociones (Beasley and Mason 2015; Panger 2016) . En otras palabras, puede haber una mala medida de una señal parcial. En segundo lugar, el diseño y el análisis del experimento no nos dice nada acerca de quién estaba más afectado (es decir, no existe un análisis de la heterogeneidad de los efectos del tratamiento) y lo que podría ser el mecanismo. En este caso, los investigadores tuvieron mucha información sobre los participantes, pero que fueron tratados esencialmente como widgets en el análisis. En tercer lugar, el tamaño del efecto en este experimento era muy pequeña; la diferencia entre las condiciones de tratamiento y de control es de 1 en 1.000 palabras. En su artículo, Kramer y sus colegas hacen el caso de que un efecto de este tamaño es importante, ya que cientos de millones de personas acceder a su News Feed cada día. En otras palabras, argumentan que incluso los efectos que son pequeños para cada persona son grandes en su conjunto. Incluso si se aceptara este argumento, todavía no está claro si un efecto de este tamaño es importante con respecto a la cuestión científica más general sobre el contagio emocional. Para más información sobre las situaciones en las que los pequeños efectos son importantes ver Prentice and Miller (1992) .

En cuanto a la primera R (reemplazo), comparando el experimento emocional contagio (Kramer, Guillory, and Hancock 2014) y el experimento natural contagio emocional (Coviello et al. 2014) ofrece algunas lecciones generales acerca de las compensaciones involucradas con el movimiento de experimentos a experimentos naturales (y otros enfoques como la búsqueda de que el intento de aproximar los experimentos en los datos no experimentales, véase el Capítulo 2). Además de los beneficios éticos, el cambio de experimental para estudios no experimentales también permite a los investigadores estudiar los tratamientos que son logísticamente incapaz de implementar. Estos beneficios éticos y logísticos tienen un costo, sin embargo. Con experimentos naturales investigadores tienen menos control sobre cosas como el reclutamiento de participantes, la asignación al azar, y la naturaleza del tratamiento. Por ejemplo, una limitación de la precipitación como un tratamiento es que tanto aumenta la positividad y negatividad disminuye. En el estudio experimental, sin embargo, Kramer y sus colegas fueron capaces de ajustar de forma independiente positividad y negatividad.

El enfoque utilizado en particular por Coviello et al. (2014) se desarrolló más ampliamente en Coviello, Fowler, and Franceschetti (2014) . Para una introducción a las variables instrumentales ver Angrist and Pischke (2009) (menos formal) o Angrist, Imbens, and Rubin (1996) (más formal). Para una valoración escéptica de variables instrumentales ver Deaton (2010) , y para una introducción a las variables instrumentales con instrumentos débiles (lluvia es un instrumento débil), ver Murray (2006) .

De manera más general, una buena introducción a los experimentos naturales es Dunning (2012) , y Rosenbaum (2002) , Rosenbaum (2009) , y Shadish, Cook, and Campbell (2001) ofrecen buenas ideas acerca de la estimación de los efectos causales sin experimentos.

En cuanto a la segunda R (refinamiento), hay compensaciones científicas y logísticas al considerar el cambio del diseño del contagio emocional de bloquear mensajes de impulsar mensajes. Por ejemplo, puede darse el caso de que la implementación técnica del servidor de noticias hace que sea sustancialmente más fácil de hacer un experimento con el bloqueo de mensajes en lugar de un experimento con impulsar mensajes (tenga en cuenta que un experimento con el bloqueo de mensajes podría ser implementado como una capa en la parte parte superior del sistema de Noticias sin necesidad de alteraciones del sistema subyacente). Científicamente, sin embargo, la teoría tratada por el experimento no sugieren claramente un diseño sobre el otro.

Por desgracia, no estoy al tanto de la investigación previa sustancial sobre los méritos relativos de bloqueo y aumentar el contenido en el Servicio de Noticias. Además, no he visto mucha investigación sobre el perfeccionamiento de los tratamientos para que sean menos nocivos; una excepción es Jones and Feamster (2015) , que considera el caso de la medición de la censura de Internet (un tema discuto en el capítulo 6 en relación con el estudio Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

En cuanto a la tercera R (Reducción), una buena introducción al análisis del poder tradicional es Cohen (1988) . covariables Pre-tratamiento pueden ser incluidos en la etapa de diseño y la etapa de análisis de los experimentos; Capítulo 4 de Gerber and Green (2012) proporciona una buena introducción a ambos enfoques, y Casella (2008) proporciona un tratamiento más profundo. Las técnicas que utilizan esta información pre-tratamiento en el aleatorización se suele llamar, ya sea bloqueado diseños experimentales o diseños experimentales estratificadas (la terminología no se usa constantemente a través de las comunidades); estas técnicas están profundamente relacionados con las técnicas de muestreo estratificado analizados en el capítulo 3. Véase Higgins, Sävje, and Sekhon (2016) para más información sobre el uso de estos diseños en los experimentos masivos. Covariables Pre-tratamiento también pueden ser incluidos en la etapa de análisis. McKenzie (2012) explora el enfoque de diferencias en diferencias para el análisis de los experimentos de campo en mayor detalle. Ver Carneiro, Lee, and Wilhelm (2016) para más información sobre las soluciones de compromiso entre diferentes enfoques para aumentar la precisión en las estimaciones de los efectos del tratamiento. Por último, la hora de decidir si intentar incluir covariables previas al tratamiento en fase de diseño o el análisis (o ambos), hay algunos factores a considerar. En un entorno en el que los investigadores quieren demostrar que no son "pesca" (Humphreys, Sierra, and Windt 2013) , utilizando covariables previas al tratamiento en la etapa de diseño puede ser útil (Higgins, Sävje, and Sekhon 2016) . En situaciones en las que los participantes llegan de forma secuencial, los experimentos de campo, especialmente en línea, utilizando la información de pre-tratamiento en la etapa de diseño puede ser difícil logísticamente, véase por ejemplo Xie and Aurisset (2016) .

Vale la pena añadir un poco de intuición acerca de por qué la diferencia en las diferencias puede ser mucho más eficaz que la de diferencias en los medios. Muchos resultados en línea tienen muy alta varianza (véase, por ejemplo, Lewis and Rao (2015) y Lamb et al. (2015) ) y son relativamente estables en el tiempo. En este caso, la puntuación de cambio tendrá varianza sustancialmente más pequeño, el aumento de la potencia de la prueba estadística. Una de las razones de este acercó no se usa más a menudo es que antes de la era digital no era común tener los resultados pre-tratamiento. Una forma más concreta a pensar en ello es imaginar un experimento para medir si una rutina de ejercicio específico provoca la pérdida de peso. Si lo hace un enfoque de diferencias en los medios, su estimación tendrá variabilidad que proviene de la variabilidad en los pesos en la población. Si lo hace un método de diferencia en diferencia, sin embargo, que la variación natural en pesos se retira y se puede detectar más fácilmente la diferencia causada por el tratamiento.

Una manera importante de reducir el número de participantes en el experimento es llevar a cabo un análisis de poder, que Kramer y sus colegas podrían haber hecho en base a los tamaños de los efectos observados del experimento natural por Coviello et al. (2014) o anterior investigación no experimental por Kramer (2012) (en realidad se trata de actividades al final de este capítulo). Observe que este uso de análisis de potencia es un poco diferente de lo habitual. En la era analógica, los investigadores hicieron un análisis general de alimentación para asegurarse de que su estudio no era demasiado pequeño (es decir, un bajo poder estadístico). Ahora, sin embargo, los investigadores deben hacer análisis de poder para asegurarse de que su estudio no es demasiado grande (es decir, el exceso de potencia).

Por último, he considerado la adición de una cuarta R: cambiar la finalidad. Es decir, si los investigadores se encuentran con los datos experimentales más de lo que necesitan para hacer frente a la pregunta de la investigación original, se deben reutilizar los datos para hacer nuevas preguntas. Por ejemplo, imaginemos que Kramer y sus colegas habían utilizado un estimador de diferencias en diferencias y se encontraron con más datos de los necesarios para hacer frente a la pregunta de investigación. En lugar de no utilizar los datos en la mayor medida, podrían haber estudiado el tamaño del efecto como una función de pre-tratamiento de la expresión emocional. Así como Schultz et al. (2007) encontraron que el efecto del tratamiento fue diferente para los usuarios ligeros y pesados, tal vez los efectos del servidor de noticias externas fueron diferentes para las personas que ya tendían a enviar mensajes felices (o triste). La reformulación podría dar lugar a la "pesca" (Humphreys, Sierra, and Windt 2013) y "p-piratería" (Simmons, Nelson, and Simonsohn 2011) , pero estos son direccionables en gran medida con una combinación de información honesta (Simmons, Nelson, and Simonsohn 2011) , pre-registro (Humphreys, Sierra, and Windt 2013) , y los métodos de aprendizaje automático que tratan de evitar el exceso de ajuste.