[ , ] Berinsky y sus colegas (2012) evaluaron MTurk en parte mediante la reproducción de tres experimentos clásicos. Replicar el clásico experimento de enmarcar asiático de la enfermedad por Tversky and Kahneman (1981) . ¿Tus resultados coinciden con los de Tversky y Kahneman? ¿Sus resultados coinciden con los de Berinsky y sus colegas? ¿Qué -si acaso- nos enseña esto sobre el uso de MTurk para los experimentos topográficos?
[ , ] En un papel un poco irónico titulado "Tenemos que romper", el psicólogo social Robert Cialdini, uno de los autores de Schultz et al. (2007) , escribió que se retiraba temprano de su trabajo como profesor, en parte debido a los desafíos que enfrentó haciendo experimentos de campo en una disciplina (psicología) que principalmente conduce experimentos de laboratorio (Cialdini 2009) . Lea el documento de Cialdini y escriba un correo electrónico instándolo a reconsiderar su ruptura a la luz de las posibilidades de los experimentos digitales. Use ejemplos específicos de investigación que aborden sus inquietudes.
[ ] Para determinar si los éxitos iniciales pequeños se encierran o se desvanecen, van de Rijt y colegas (2014) intervinieron en cuatro sistemas diferentes que otorgaban éxito a los participantes seleccionados al azar, y luego midieron los impactos a largo plazo de este éxito arbitrario. ¿Puedes pensar en otros sistemas en los que podrías ejecutar experimentos similares? Evalúe estos sistemas en términos de cuestiones de valor científico, confusión algorítmica (ver capítulo 2) y ética.
[ , ] Los resultados de un experimento pueden depender de los participantes. Cree un experimento y luego ejecútelo en MTurk usando dos estrategias de reclutamiento diferentes. Intenta elegir el experimento y las estrategias de reclutamiento para que los resultados sean lo más diferentes posible. Por ejemplo, sus estrategias de reclutamiento podrían ser reclutar participantes por la mañana y por la noche o compensar a los participantes con sueldos altos y bajos. Este tipo de diferencias en la estrategia de reclutamiento podría llevar a diferentes grupos de participantes y diferentes resultados experimentales. ¿Qué tan diferentes resultaron tus resultados? ¿Qué revela eso sobre ejecutar experimentos en MTurk?
[ , , ] Imagine que estaba planeando el experimento de Contagio Emocional (Kramer, Guillory, and Hancock 2014) . Utilice los resultados de un estudio observacional anterior realizado por Kramer (2012) para decidir el número de participantes en cada condición. Estos dos estudios no coinciden perfectamente, así que asegúrese de enumerar explícitamente todas las suposiciones que hace:
[ , , ] Responda la pregunta anterior nuevamente, pero esta vez, en lugar de utilizar el estudio observacional anterior de Kramer (2012) , utilice los resultados de un experimento natural anterior realizado por Lorenzo Coviello et al. (2014) .
[ ] Tanto Margetts et al. (2011) y van de Rijt et al. (2014) realizaron experimentos para estudiar el proceso de personas que firman una petición. Compare y contraste los diseños y hallazgos de estos estudios.
[ ] Dwyer, Maki, and Rothman (2015) realizaron dos experimentos de campo sobre la relación entre las normas sociales y el comportamiento proambiental. Aquí está el resumen de su artículo:
"¿Cómo se podría utilizar la ciencia psicológica para alentar el comportamiento proambiental? En dos estudios, las intervenciones destinadas a promover el comportamiento de conservación de energía en baños públicos examinaron las influencias de las normas descriptivas y la responsabilidad personal. En el Estudio 1, el estado de luz (es decir, encendido o apagado) se manipuló antes de que alguien entrara a un baño público desocupado, señalando la norma descriptiva para ese entorno. Los participantes eran significativamente más propensos a apagar las luces si estaban apagados cuando ingresaron. En el Estudio 2, se incluyó una condición adicional en la que la norma de apagar la luz la demostró un confederado, pero los participantes no fueron los mismos responsables de encenderla. La responsabilidad personal moderó la influencia de las normas sociales en el comportamiento; cuando los participantes no eran responsables de encender la luz, la influencia de la norma disminuía. Estos resultados indican cómo las normas descriptivas y la responsabilidad personal pueden regular la efectividad de las intervenciones ambientales ".
Lea su trabajo y diseñe una réplica del estudio 1.
[ , ] Sobre la base de la pregunta anterior, ahora realice su diseño.
[ ] Ha habido un debate sustancial sobre los experimentos con participantes reclutados de MTurk. Paralelamente, también ha habido un debate sustancial sobre los experimentos con participantes reclutados de poblaciones estudiantiles de pregrado. Escribe un memorando de dos páginas que compare y contraste a Turkers y estudiantes universitarios como participantes de la investigación. Su comparación debe incluir una discusión de cuestiones científicas y logísticas.
[ ] El libro de Jim Manzi Uncontrolled (2012) es una maravillosa introducción al poder de la experimentación en los negocios. En el libro, transmitió la siguiente historia:
"Una vez estuve en una reunión con un verdadero genio de los negocios, un multimillonario hecho a sí mismo que tenía una profunda e intuitiva comprensión del poder de los experimentos. Su compañía gastó importantes recursos tratando de crear grandes vitrinas en las tiendas que atrajesen a los consumidores y aumentaran las ventas, como la sabiduría convencional dijo que deberían. Los expertos probaron cuidadosamente el diseño después del diseño, y en las sesiones de revisión de prueba individuales durante un período de años no mostraron un efecto causal significativo de cada nuevo diseño de pantalla en las ventas. Los principales ejecutivos de marketing y comercialización se reunieron con el CEO para revisar estos resultados históricos de las pruebas en su totalidad. Después de presentar todos los datos experimentales, llegaron a la conclusión de que el criterio convencional era erróneo: que las ventanas no generan ventas. Su acción recomendada fue reducir los costos y el esfuerzo en esta área. Esto demostró dramáticamente la capacidad de la experimentación para revertir la sabiduría convencional. La respuesta del CEO fue simple: "Mi conclusión es que tus diseñadores no son muy buenos". Su solución fue aumentar el esfuerzo en el diseño de la exhibición de la tienda y lograr que nuevas personas lo hicieran ". (Manzi 2012, 158–9)
¿Qué tipo de validez es la preocupación del CEO?
[ ] Sobre la base de la pregunta anterior, imagina que estuviste en la reunión donde se discutieron los resultados de los experimentos. ¿Cuáles son las cuatro preguntas que podría formular, una para cada tipo de validez (estadística, constructo, interna y externa)?
[ ] Bernedo, Ferraro, and Price (2014) estudiaron el efecto de siete años de la intervención de ahorro de agua descrito en Ferraro, Miranda, and Price (2011) (ver figura 4.11). En este documento, Bernedo y sus colegas también trataron de comprender el mecanismo detrás del efecto al comparar el comportamiento de los hogares que se han movido y no se han movido después de que se entregó el tratamiento. Es decir, aproximadamente, intentaron ver si el tratamiento impactó en el hogar o el propietario.
[ ] En un seguimiento de Schultz et al. (2007) , Schultz y sus colegas realizaron una serie de tres experimentos sobre el efecto de las normas descriptivas y cautelares sobre un comportamiento ambiental diferente (reutilización de toallas) en dos contextos (un hotel y un condominio de tiempo compartido) (Schultz, Khazian, and Zaleski 2008) .
[ ] En respuesta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) realizaron una serie de experimentos de laboratorio para estudiar el diseño de las facturas de electricidad. Así es como lo describen en abstracto:
"En un experimento basado en encuestas, cada participante vio una factura de electricidad hipotética para una familia con un consumo de electricidad relativamente alto, que abarca información sobre (a) uso histórico, (b) comparaciones con vecinos y (c) uso histórico con avería de electrodomésticos. Los participantes vieron todos los tipos de información en uno de los tres formatos que incluyen (a) tablas, (b) gráficos de barras y (c) gráficos de íconos. Reportamos tres hallazgos principales. En primer lugar, los consumidores entendieron la mayor cantidad de información sobre el uso de electricidad cuando se presentó en una tabla, tal vez porque las tablas facilitan la lectura simple de puntos. Segundo, las preferencias y las intenciones de ahorrar electricidad fueron las más fuertes para la información de uso histórico, independientemente del formato. En tercer lugar, las personas con menor conocimiento de la energía entendieron toda la información menos ".
A diferencia de otros estudios de seguimiento, el principal resultado de interés en Canfield, Bruin, and Wong-Parodi (2016) es el comportamiento informado, no el comportamiento real. ¿Cuáles son las fortalezas y debilidades de este tipo de estudio en un programa de investigación más amplio que promueve el ahorro de energía?
[ , ] Smith and Pell (2003) presentaron un metanálisis satírico de estudios que demostraban la efectividad de los paracaídas. Concluyeron:
"Al igual que con muchas intervenciones destinadas a prevenir problemas de salud, la efectividad de los paracaídas no se ha sometido a una evaluación rigurosa mediante el uso de ensayos controlados aleatorios. Los defensores de la medicina basada en la evidencia han criticado la adopción de intervenciones evaluadas al usar solo datos de observación. Pensamos que todos podrían beneficiarse si los protagonistas más radicales de la medicina basada en la evidencia se organizaran y participaran en un ensayo doble ciego, aleatorizado, controlado con placebo, cruzado del paracaídas ".
Escriba un artículo de opinión adecuado para un periódico de lectores generales, como el New York Times , argumentando en contra de la fetichización de la evidencia experimental. Proporcione ejemplos concretos y concretos. Sugerencia: Ver también Deaton (2010) y Bothwell et al. (2016) .
[ , , ] Los estimadores de diferencia de diferencias de un efecto de tratamiento pueden ser más precisos que los estimadores de diferencia en media. Escriba una nota a un ingeniero a cargo de las pruebas A / B en una empresa de redes sociales de nueva creación que explique el valor del enfoque de diferencia en diferencias para ejecutar un experimento en línea. La nota debe incluir una declaración del problema, alguna intuición sobre las condiciones bajo las cuales el estimador de diferencia en la diferencia superará al estimador de diferencia en la media, y un simple estudio de simulación.
[ , ] Gary Loveman fue profesor en Harvard Business School antes de convertirse en el CEO de Harrah's, una de las compañías de casinos más grandes del mundo. Cuando se mudó a Harrah's, Loveman transformó la compañía con un programa de lealtad de viajero frecuente que recopiló enormes cantidades de datos sobre el comportamiento del cliente. Además de este sistema de medición permanente, la compañía comenzó a ejecutar experimentos. Por ejemplo, podrían ejecutar un experimento para evaluar el efecto de un cupón para una noche de hotel gratis para clientes con un patrón de juego específico. Así es como Loveman describió la importancia de la experimentación para las prácticas comerciales cotidianas de Harrah:
"Es como si no hostigas a las mujeres, no robas, y tienes que tener un grupo de control. Esta es una de las cosas por las que puedes perder tu trabajo en Harrah's, no tener un grupo de control ". (Manzi 2012, 146)
Escriba un correo electrónico a un nuevo empleado explicando por qué Loveman cree que es tan importante tener un grupo de control. Debería intentar incluir un ejemplo, ya sea real o inventado, para ilustrar su punto.
[ , ] Un nuevo experimento tiene como objetivo estimar el efecto de recibir recordatorios de mensajes de texto sobre la captación de vacunas. Ciento cincuenta clínicas, cada una con 600 pacientes elegibles, están dispuestas a participar. Hay un costo fijo de $ 100 por cada clínica con la que desee trabajar, y le cuesta $ 1 por cada mensaje de texto que desee enviar. Además, cualquier clínica con la que esté trabajando medirá el resultado (ya sea que alguien haya recibido una vacuna) de forma gratuita. Suponga que tiene un presupuesto de $ 1,000.
[ , ] Un problema importante con los cursos en línea es la deserción: muchos estudiantes que comienzan los cursos terminan abandonando. Imagine que está trabajando en una plataforma de aprendizaje en línea, y un diseñador de la plataforma ha creado una barra de progreso visual que cree que ayudará a evitar que los estudiantes abandonen el curso. Desea probar el efecto de la barra de progreso en los estudiantes en un gran curso de ciencias sociales computacionales. Después de abordar cualquier problema ético que pueda surgir en el experimento, usted y sus colegas se preocupan de que el curso no tenga suficientes estudiantes para detectar de manera confiable los efectos de la barra de progreso. En los siguientes cálculos, puede suponer que la mitad de los estudiantes recibirán la barra de progreso y la mitad no. Además, puedes asumir que no hay interferencia. En otras palabras, puede suponer que los participantes solo se verán afectados por si recibieron el tratamiento o el control; no se ven afectados por si otras personas recibieron el tratamiento o el control (para una definición más formal, consulte el capítulo 8 de Gerber and Green (2012) ). Mantenga un registro de cualquier suposición adicional que realice.
[ , , ] Imagine que está trabajando como científico de datos en una empresa de tecnología. Alguien del departamento de marketing le pide su ayuda para evaluar un experimento que están planificando para medir el retorno de la inversión (ROI) de una nueva campaña publicitaria en línea. El ROI se define como el beneficio neto de la campaña dividido por el costo de la campaña. Por ejemplo, una campaña que no tuvo ningún efecto en las ventas tendría un ROI de -100%; una campaña donde los beneficios generados eran iguales a los costos tendrían un ROI de 0; y una campaña donde las ganancias generadas fueran el doble del costo tendría un ROI del 200%.
Antes de iniciar el experimento, el departamento de marketing le proporciona la siguiente información en función de su investigación anterior (de hecho, estos valores son típicos de las campañas publicitarias en línea reales informadas en Lewis y Rao (2015) ):
Escriba una nota que evalúe este experimento propuesto. Su nota debe usar evidencia de una simulación que cree, y debe abordar dos cuestiones principales: (1) ¿Recomendaría iniciar este experimento como estaba previsto? Si es así, ¿por qué? ¿Si no, porque no? Asegúrese de tener en claro los criterios que está utilizando para tomar esta decisión. (2) ¿Qué tamaño de muestra recomendaría para este experimento? De nuevo, asegúrese de tener en claro los criterios que está utilizando para tomar esta decisión.
Un buen memo abordará este caso específico; una mejor nota se generalizará de este caso de una manera (por ejemplo, mostrar cómo cambia la decisión en función del tamaño del efecto de la campaña); y una gran nota presentará un resultado completamente generalizado. Su nota debe usar gráficos para ayudar a ilustrar sus resultados.
Aquí hay dos consejos. En primer lugar, el departamento de marketing podría haberle brindado cierta información innecesaria y es posible que no le haya brindado la información necesaria. En segundo lugar, si está utilizando R, tenga en cuenta que la función rlnorm () no funciona del modo que muchas personas esperan.
Esta actividad le dará práctica con el análisis de poder, la creación de simulaciones y la comunicación de sus resultados con palabras y gráficos. Debería ayudarlo a realizar análisis de potencia para cualquier tipo de experimento, no solo experimentos diseñados para calcular el ROI. Esta actividad asume que usted tiene cierta experiencia con las pruebas estadísticas y el análisis de potencia. Si no está familiarizado con el análisis de potencia, le recomiendo que lea "A Power Primer" por Cohen (1992) .
Esta actividad se inspiró en un artículo encantador de RA Lewis and Rao (2015) , que ilustra vívidamente una limitación estadística fundamental incluso de experimentos masivos. Su artículo, que originalmente tenía el provocativo título "Sobre la casi imposibilidad de medir el rendimiento de la publicidad", muestra lo difícil que es medir el retorno de la inversión de los anuncios en línea, incluso con experimentos digitales que involucran a millones de clientes. En términos más generales, RA Lewis and Rao (2015) ilustran un hecho estadístico fundamental que es particularmente importante para los experimentos de la era digital: es difícil estimar los pequeños efectos del tratamiento en medio de datos de resultados ruidosos.
[ , ] Haga lo mismo que la pregunta anterior, pero, en lugar de simulación, debe usar resultados analíticos.
[ , , ] Haga lo mismo que la pregunta anterior, pero use tanto la simulación como los resultados analíticos.
[ , , ] Imagine que ha escrito la nota descrita anteriormente, y alguien del departamento de mercadotecnia proporciona una nueva información: esperan una correlación de 0.4 entre las ventas antes y después del experimento. ¿Cómo cambia esto las recomendaciones en tu nota? (Sugerencia: consulte la sección 4.6.2 para obtener más información sobre el estimador de diferencia de medias y el estimador de diferencia en diferencias).
[ , ] Para evaluar la efectividad de un nuevo programa de asistencia de empleo basado en la web, una universidad realizó una prueba de control aleatorio entre 10,000 estudiantes que ingresaban a su último año de escuela. Se envió una suscripción gratuita con información de inicio de sesión única a través de una invitación exclusiva por correo electrónico a 5,000 de los estudiantes seleccionados al azar, mientras que los otros 5,000 estudiantes estaban en el grupo de control y no tenían una suscripción. Doce meses después, una encuesta de seguimiento (sin ninguna respuesta) mostró que tanto en el grupo de tratamiento como en el de control, el 70% de los estudiantes tenían un empleo de tiempo completo en el campo elegido (tabla 4.6). Por lo tanto, parecía que el servicio basado en la web no tenía ningún efecto.
Sin embargo, un inteligente científico de datos de la universidad analizó los datos un poco más de cerca y descubrió que solo el 20% de los estudiantes en el grupo de tratamiento alguna vez iniciaban sesión en la cuenta después de recibir el correo electrónico. Además, y algo sorprendente, entre aquellos que iniciaron sesión en el sitio web, solo el 60% había asegurado un empleo de tiempo completo en el campo que eligieron, que era menor que la tasa para las personas que no iniciaron sesión y menor que la tasa de personas en la condición de control (tabla 4.7).
Sugerencia: esta pregunta va más allá del material cubierto en este capítulo, pero aborda cuestiones comunes en los experimentos. Este tipo de diseño experimental a veces se denomina diseño de estímulo porque se alienta a los participantes a participar en el tratamiento. Este problema es un ejemplo de lo que se llama incumplimiento unilateral (ver el capítulo 5 de Gerber and Green (2012) ).
[ ] Después de un examen más detallado, resultó que el experimento descrito en la pregunta anterior era aún más complicado. Resultó que el 10% de las personas en el grupo de control pagaban por el acceso al servicio y terminaban con una tasa de empleo del 65% (tabla 4.8).
Sugerencia: esta pregunta va más allá del material cubierto en este capítulo, pero aborda cuestiones comunes en los experimentos. Este problema es un ejemplo de lo que se denomina incumplimiento de dos caras (ver capítulo 6 de Gerber and Green (2012) ).
Grupo | tamaño | Tasa de empleo |
---|---|---|
Acceso otorgado al sitio web | 5,000 | 70% |
No se le concede acceso al sitio web | 5,000 | 70% |
Grupo | tamaño | Tasa de empleo |
---|---|---|
Acceso otorgado al sitio web e inicio de sesión | 1,000 | 60% |
Acceso concedido al sitio web y nunca ha iniciado sesión | 4.000 | 72.5% |
No se le concede acceso al sitio web | 5,000 | 70% |
Grupo | tamaño | Tasa de empleo |
---|---|---|
Acceso otorgado al sitio web e inicio de sesión | 1,000 | 60% |
Acceso concedido al sitio web y nunca ha iniciado sesión | 4.000 | 72.5% |
No se le otorgó acceso al sitio web y lo pagó | 500 | sesenta y cinco% |
No se le otorgó acceso al sitio web y no lo pagó | 4,500 | 70.56% |