Ocupaciones

  • grado de dificultad: fácil fácil , medio medio , difícil difícil , muy duro muy duro
  • requiere matemática ( requiere matemática )
  • requiere codificación ( requiere codificación )
  • recopilación de datos ( recopilación de datos )
  • mis favoritos ( mi favorito )
  1. [ medio , recopilación de datos ] Berinsky y sus colegas (2012) evaluaron MTurk en parte mediante la reproducción de tres experimentos clásicos. Replicar el clásico experimento de enmarcar asiático de la enfermedad por Tversky and Kahneman (1981) . ¿Tus resultados coinciden con los de Tversky y Kahneman? ¿Sus resultados coinciden con los de Berinsky y sus colegas? ¿Qué -si acaso- nos enseña esto sobre el uso de MTurk para los experimentos topográficos?

  2. [ medio , mi favorito ] En un papel un poco irónico titulado "Tenemos que romper", el psicólogo social Robert Cialdini, uno de los autores de Schultz et al. (2007) , escribió que se retiraba temprano de su trabajo como profesor, en parte debido a los desafíos que enfrentó haciendo experimentos de campo en una disciplina (psicología) que principalmente conduce experimentos de laboratorio (Cialdini 2009) . Lea el documento de Cialdini y escriba un correo electrónico instándolo a reconsiderar su ruptura a la luz de las posibilidades de los experimentos digitales. Use ejemplos específicos de investigación que aborden sus inquietudes.

  3. [ medio ] Para determinar si los éxitos iniciales pequeños se encierran o se desvanecen, van de Rijt y colegas (2014) intervinieron en cuatro sistemas diferentes que otorgaban éxito a los participantes seleccionados al azar, y luego midieron los impactos a largo plazo de este éxito arbitrario. ¿Puedes pensar en otros sistemas en los que podrías ejecutar experimentos similares? Evalúe estos sistemas en términos de cuestiones de valor científico, confusión algorítmica (ver capítulo 2) y ética.

  4. [ medio , recopilación de datos ] Los resultados de un experimento pueden depender de los participantes. Cree un experimento y luego ejecútelo en MTurk usando dos estrategias de reclutamiento diferentes. Intenta elegir el experimento y las estrategias de reclutamiento para que los resultados sean lo más diferentes posible. Por ejemplo, sus estrategias de reclutamiento podrían ser reclutar participantes por la mañana y por la noche o compensar a los participantes con sueldos altos y bajos. Este tipo de diferencias en la estrategia de reclutamiento podría llevar a diferentes grupos de participantes y diferentes resultados experimentales. ¿Qué tan diferentes resultaron tus resultados? ¿Qué revela eso sobre ejecutar experimentos en MTurk?

  5. [ muy duro , requiere matemática , requiere codificación ] Imagine que estaba planeando el experimento de Contagio Emocional (Kramer, Guillory, and Hancock 2014) . Utilice los resultados de un estudio observacional anterior realizado por Kramer (2012) para decidir el número de participantes en cada condición. Estos dos estudios no coinciden perfectamente, así que asegúrese de enumerar explícitamente todas las suposiciones que hace:

    1. Ejecute una simulación que decidirá cuántos participantes se habrían necesitado para detectar un efecto tan grande como el efecto en Kramer (2012) con \(\alpha = 0.05\) y \(1 - \beta = 0.8\) .
    2. Haz el mismo cálculo analíticamente.
    3. Dado los resultados de Kramer (2012) Contagio Emocional (Kramer, Guillory, and Hancock 2014) exceso de potencia (es decir, ¿tuvo más participantes de los necesarios)?
    4. ¿De las suposiciones que hizo, que tienen el mayor efecto en su cálculo?
  6. [ muy duro , requiere matemática , requiere codificación ] Responda la pregunta anterior nuevamente, pero esta vez, en lugar de utilizar el estudio observacional anterior de Kramer (2012) , utilice los resultados de un experimento natural anterior realizado por Lorenzo Coviello et al. (2014) .

  7. [ fácil ] Tanto Margetts et al. (2011) y van de Rijt et al. (2014) realizaron experimentos para estudiar el proceso de personas que firman una petición. Compare y contraste los diseños y hallazgos de estos estudios.

  8. [ fácil ] Dwyer, Maki, and Rothman (2015) realizaron dos experimentos de campo sobre la relación entre las normas sociales y el comportamiento proambiental. Aquí está el resumen de su artículo:

    "¿Cómo se podría utilizar la ciencia psicológica para alentar el comportamiento proambiental? En dos estudios, las intervenciones destinadas a promover el comportamiento de conservación de energía en baños públicos examinaron las influencias de las normas descriptivas y la responsabilidad personal. En el Estudio 1, el estado de luz (es decir, encendido o apagado) se manipuló antes de que alguien entrara a un baño público desocupado, señalando la norma descriptiva para ese entorno. Los participantes eran significativamente más propensos a apagar las luces si estaban apagados cuando ingresaron. En el Estudio 2, se incluyó una condición adicional en la que la norma de apagar la luz la demostró un confederado, pero los participantes no fueron los mismos responsables de encenderla. La responsabilidad personal moderó la influencia de las normas sociales en el comportamiento; cuando los participantes no eran responsables de encender la luz, la influencia de la norma disminuía. Estos resultados indican cómo las normas descriptivas y la responsabilidad personal pueden regular la efectividad de las intervenciones ambientales ".

    Lea su trabajo y diseñe una réplica del estudio 1.

  9. [ medio , recopilación de datos ] Sobre la base de la pregunta anterior, ahora realice su diseño.

    1. ¿Cómo se comparan los resultados?
    2. ¿Qué podría explicar estas diferencias?
  10. [ medio ] Ha habido un debate sustancial sobre los experimentos con participantes reclutados de MTurk. Paralelamente, también ha habido un debate sustancial sobre los experimentos con participantes reclutados de poblaciones estudiantiles de pregrado. Escribe un memorando de dos páginas que compare y contraste a Turkers y estudiantes universitarios como participantes de la investigación. Su comparación debe incluir una discusión de cuestiones científicas y logísticas.

  11. [ fácil ] El libro de Jim Manzi Uncontrolled (2012) es una maravillosa introducción al poder de la experimentación en los negocios. En el libro, transmitió la siguiente historia:

    "Una vez estuve en una reunión con un verdadero genio de los negocios, un multimillonario hecho a sí mismo que tenía una profunda e intuitiva comprensión del poder de los experimentos. Su compañía gastó importantes recursos tratando de crear grandes vitrinas en las tiendas que atrajesen a los consumidores y aumentaran las ventas, como la sabiduría convencional dijo que deberían. Los expertos probaron cuidadosamente el diseño después del diseño, y en las sesiones de revisión de prueba individuales durante un período de años no mostraron un efecto causal significativo de cada nuevo diseño de pantalla en las ventas. Los principales ejecutivos de marketing y comercialización se reunieron con el CEO para revisar estos resultados históricos de las pruebas en su totalidad. Después de presentar todos los datos experimentales, llegaron a la conclusión de que el criterio convencional era erróneo: que las ventanas no generan ventas. Su acción recomendada fue reducir los costos y el esfuerzo en esta área. Esto demostró dramáticamente la capacidad de la experimentación para revertir la sabiduría convencional. La respuesta del CEO fue simple: "Mi conclusión es que tus diseñadores no son muy buenos". Su solución fue aumentar el esfuerzo en el diseño de la exhibición de la tienda y lograr que nuevas personas lo hicieran ". (Manzi 2012, 158–9)

    ¿Qué tipo de validez es la preocupación del CEO?

  12. [ fácil ] Sobre la base de la pregunta anterior, imagina que estuviste en la reunión donde se discutieron los resultados de los experimentos. ¿Cuáles son las cuatro preguntas que podría formular, una para cada tipo de validez (estadística, constructo, interna y externa)?

  13. [ fácil ] Bernedo, Ferraro, and Price (2014) estudiaron el efecto de siete años de la intervención de ahorro de agua descrito en Ferraro, Miranda, and Price (2011) (ver figura 4.11). En este documento, Bernedo y sus colegas también trataron de comprender el mecanismo detrás del efecto al comparar el comportamiento de los hogares que se han movido y no se han movido después de que se entregó el tratamiento. Es decir, aproximadamente, intentaron ver si el tratamiento impactó en el hogar o el propietario.

    1. Lea el documento, describa su diseño y resuma sus hallazgos.
    2. ¿Influyen sus hallazgos en cómo debe evaluar la relación costo-efectividad de intervenciones similares? Si es así, ¿por qué? ¿Si no, porque no?
  14. [ fácil ] En un seguimiento de Schultz et al. (2007) , Schultz y sus colegas realizaron una serie de tres experimentos sobre el efecto de las normas descriptivas y cautelares sobre un comportamiento ambiental diferente (reutilización de toallas) en dos contextos (un hotel y un condominio de tiempo compartido) (Schultz, Khazian, and Zaleski 2008) .

    1. Resuma el diseño y los hallazgos de estos tres experimentos.
    2. Cómo, si es que lo hacen, cambian su interpretación de Schultz et al. (2007) ?
  15. [ fácil ] En respuesta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) realizaron una serie de experimentos de laboratorio para estudiar el diseño de las facturas de electricidad. Así es como lo describen en abstracto:

    "En un experimento basado en encuestas, cada participante vio una factura de electricidad hipotética para una familia con un consumo de electricidad relativamente alto, que abarca información sobre (a) uso histórico, (b) comparaciones con vecinos y (c) uso histórico con avería de electrodomésticos. Los participantes vieron todos los tipos de información en uno de los tres formatos que incluyen (a) tablas, (b) gráficos de barras y (c) gráficos de íconos. Reportamos tres hallazgos principales. En primer lugar, los consumidores entendieron la mayor cantidad de información sobre el uso de electricidad cuando se presentó en una tabla, tal vez porque las tablas facilitan la lectura simple de puntos. Segundo, las preferencias y las intenciones de ahorrar electricidad fueron las más fuertes para la información de uso histórico, independientemente del formato. En tercer lugar, las personas con menor conocimiento de la energía entendieron toda la información menos ".

    A diferencia de otros estudios de seguimiento, el principal resultado de interés en Canfield, Bruin, and Wong-Parodi (2016) es el comportamiento informado, no el comportamiento real. ¿Cuáles son las fortalezas y debilidades de este tipo de estudio en un programa de investigación más amplio que promueve el ahorro de energía?

  16. [ medio , mi favorito ] Smith and Pell (2003) presentaron un metanálisis satírico de estudios que demostraban la efectividad de los paracaídas. Concluyeron:

    "Al igual que con muchas intervenciones destinadas a prevenir problemas de salud, la efectividad de los paracaídas no se ha sometido a una evaluación rigurosa mediante el uso de ensayos controlados aleatorios. Los defensores de la medicina basada en la evidencia han criticado la adopción de intervenciones evaluadas al usar solo datos de observación. Pensamos que todos podrían beneficiarse si los protagonistas más radicales de la medicina basada en la evidencia se organizaran y participaran en un ensayo doble ciego, aleatorizado, controlado con placebo, cruzado del paracaídas ".

    Escriba un artículo de opinión adecuado para un periódico de lectores generales, como el New York Times , argumentando en contra de la fetichización de la evidencia experimental. Proporcione ejemplos concretos y concretos. Sugerencia: Ver también Deaton (2010) y Bothwell et al. (2016) .

  17. [ medio , requiere codificación , mi favorito ] Los estimadores de diferencia de diferencias de un efecto de tratamiento pueden ser más precisos que los estimadores de diferencia en media. Escriba una nota a un ingeniero a cargo de las pruebas A / B en una empresa de redes sociales de nueva creación que explique el valor del enfoque de diferencia en diferencias para ejecutar un experimento en línea. La nota debe incluir una declaración del problema, alguna intuición sobre las condiciones bajo las cuales el estimador de diferencia en la diferencia superará al estimador de diferencia en la media, y un simple estudio de simulación.

  18. [ fácil , mi favorito ] Gary Loveman fue profesor en Harvard Business School antes de convertirse en el CEO de Harrah's, una de las compañías de casinos más grandes del mundo. Cuando se mudó a Harrah's, Loveman transformó la compañía con un programa de lealtad de viajero frecuente que recopiló enormes cantidades de datos sobre el comportamiento del cliente. Además de este sistema de medición permanente, la compañía comenzó a ejecutar experimentos. Por ejemplo, podrían ejecutar un experimento para evaluar el efecto de un cupón para una noche de hotel gratis para clientes con un patrón de juego específico. Así es como Loveman describió la importancia de la experimentación para las prácticas comerciales cotidianas de Harrah:

    "Es como si no hostigas a las mujeres, no robas, y tienes que tener un grupo de control. Esta es una de las cosas por las que puedes perder tu trabajo en Harrah's, no tener un grupo de control ". (Manzi 2012, 146)

    Escriba un correo electrónico a un nuevo empleado explicando por qué Loveman cree que es tan importante tener un grupo de control. Debería intentar incluir un ejemplo, ya sea real o inventado, para ilustrar su punto.

  19. [ difícil , requiere matemática ] Un nuevo experimento tiene como objetivo estimar el efecto de recibir recordatorios de mensajes de texto sobre la captación de vacunas. Ciento cincuenta clínicas, cada una con 600 pacientes elegibles, están dispuestas a participar. Hay un costo fijo de $ 100 por cada clínica con la que desee trabajar, y le cuesta $ 1 por cada mensaje de texto que desee enviar. Además, cualquier clínica con la que esté trabajando medirá el resultado (ya sea que alguien haya recibido una vacuna) de forma gratuita. Suponga que tiene un presupuesto de $ 1,000.

    1. ¿Bajo qué condiciones podría ser mejor enfocar sus recursos en un pequeño número de clínicas y bajo qué condiciones sería mejor difundirlas más ampliamente?
    2. ¿Qué factores determinarían el tamaño de efecto más pequeño que podrá detectar de manera confiable con su presupuesto?
    3. Escriba una nota que explique estas concesiones a un financiador potencial.
  20. [ difícil , requiere matemática ] Un problema importante con los cursos en línea es la deserción: muchos estudiantes que comienzan los cursos terminan abandonando. Imagine que está trabajando en una plataforma de aprendizaje en línea, y un diseñador de la plataforma ha creado una barra de progreso visual que cree que ayudará a evitar que los estudiantes abandonen el curso. Desea probar el efecto de la barra de progreso en los estudiantes en un gran curso de ciencias sociales computacionales. Después de abordar cualquier problema ético que pueda surgir en el experimento, usted y sus colegas se preocupan de que el curso no tenga suficientes estudiantes para detectar de manera confiable los efectos de la barra de progreso. En los siguientes cálculos, puede suponer que la mitad de los estudiantes recibirán la barra de progreso y la mitad no. Además, puedes asumir que no hay interferencia. En otras palabras, puede suponer que los participantes solo se verán afectados por si recibieron el tratamiento o el control; no se ven afectados por si otras personas recibieron el tratamiento o el control (para una definición más formal, consulte el capítulo 8 de Gerber and Green (2012) ). Mantenga un registro de cualquier suposición adicional que realice.

    1. Supongamos que se espera que la barra de progreso aumente la proporción de estudiantes que terminan la clase en 1 punto porcentual; ¿Cuál es el tamaño de muestra necesario para detectar de manera confiable el efecto?
    2. Supongamos que se espera que la barra de progreso aumente la proporción de estudiantes que terminan la clase en 10 puntos porcentuales; ¿Cuál es el tamaño de muestra necesario para detectar de manera confiable el efecto?
    3. Ahora imagine que ha realizado el experimento, y los alumnos que hayan completado todos los materiales del curso hayan realizado el examen final. Cuando compara los puntajes del examen final de los estudiantes que recibieron la barra de progreso con los puntajes de los que no lo hicieron, encuentra, para su sorpresa, que los estudiantes que no recibieron la barra de progreso en realidad obtuvieron una calificación más alta. ¿Esto significa que la barra de progreso hizo que los estudiantes aprendieran menos? ¿Qué puedes aprender de estos datos de resultado? (Pista: Ver el capítulo 7 de Gerber and Green (2012) )
  21. [ muy duro , requiere codificación , mi favorito ] Imagine que está trabajando como científico de datos en una empresa de tecnología. Alguien del departamento de marketing le pide su ayuda para evaluar un experimento que están planificando para medir el retorno de la inversión (ROI) de una nueva campaña publicitaria en línea. El ROI se define como el beneficio neto de la campaña dividido por el costo de la campaña. Por ejemplo, una campaña que no tuvo ningún efecto en las ventas tendría un ROI de -100%; una campaña donde los beneficios generados eran iguales a los costos tendrían un ROI de 0; y una campaña donde las ganancias generadas fueran el doble del costo tendría un ROI del 200%.

    Antes de iniciar el experimento, el departamento de marketing le proporciona la siguiente información en función de su investigación anterior (de hecho, estos valores son típicos de las campañas publicitarias en línea reales informadas en Lewis y Rao (2015) ):

    • La media de ventas por cliente sigue una distribución logarítmica normal con una media de $ 7 y una desviación estándar de $ 75.
    • Se espera que la campaña aumente las ventas en $ 0.35 por cliente, lo que corresponde a un aumento en las ganancias de $ 0.175 por cliente.
    • El tamaño planificado del experimento es de 200,000 personas: la mitad en el grupo de tratamiento y la mitad en el grupo de control.
    • El costo de la campaña es de $ 0.14 por participante.
    • El ROI esperado para la campaña es del 25% [ \((0.175 - 0.14)/0.14\) ]. En otras palabras, el departamento de marketing cree que por cada 100 dólares gastados en marketing, la compañía obtendrá un beneficio adicional de $ 25.

    Escriba una nota que evalúe este experimento propuesto. Su nota debe usar evidencia de una simulación que cree, y debe abordar dos cuestiones principales: (1) ¿Recomendaría iniciar este experimento como estaba previsto? Si es así, ¿por qué? ¿Si no, porque no? Asegúrese de tener en claro los criterios que está utilizando para tomar esta decisión. (2) ¿Qué tamaño de muestra recomendaría para este experimento? De nuevo, asegúrese de tener en claro los criterios que está utilizando para tomar esta decisión.

    Un buen memo abordará este caso específico; una mejor nota se generalizará de este caso de una manera (por ejemplo, mostrar cómo cambia la decisión en función del tamaño del efecto de la campaña); y una gran nota presentará un resultado completamente generalizado. Su nota debe usar gráficos para ayudar a ilustrar sus resultados.

    Aquí hay dos consejos. En primer lugar, el departamento de marketing podría haberle brindado cierta información innecesaria y es posible que no le haya brindado la información necesaria. En segundo lugar, si está utilizando R, tenga en cuenta que la función rlnorm () no funciona del modo que muchas personas esperan.

    Esta actividad le dará práctica con el análisis de poder, la creación de simulaciones y la comunicación de sus resultados con palabras y gráficos. Debería ayudarlo a realizar análisis de potencia para cualquier tipo de experimento, no solo experimentos diseñados para calcular el ROI. Esta actividad asume que usted tiene cierta experiencia con las pruebas estadísticas y el análisis de potencia. Si no está familiarizado con el análisis de potencia, le recomiendo que lea "A Power Primer" por Cohen (1992) .

    Esta actividad se inspiró en un artículo encantador de RA Lewis and Rao (2015) , que ilustra vívidamente una limitación estadística fundamental incluso de experimentos masivos. Su artículo, que originalmente tenía el provocativo título "Sobre la casi imposibilidad de medir el rendimiento de la publicidad", muestra lo difícil que es medir el retorno de la inversión de los anuncios en línea, incluso con experimentos digitales que involucran a millones de clientes. En términos más generales, RA Lewis and Rao (2015) ilustran un hecho estadístico fundamental que es particularmente importante para los experimentos de la era digital: es difícil estimar los pequeños efectos del tratamiento en medio de datos de resultados ruidosos.

  22. [ muy duro , requiere matemática ] Haga lo mismo que la pregunta anterior, pero, en lugar de simulación, debe usar resultados analíticos.

  23. [ muy duro , requiere matemática , requiere codificación ] Haga lo mismo que la pregunta anterior, pero use tanto la simulación como los resultados analíticos.

  24. [ muy duro , requiere matemática , requiere codificación ] Imagine que ha escrito la nota descrita anteriormente, y alguien del departamento de mercadotecnia proporciona una nueva información: esperan una correlación de 0.4 entre las ventas antes y después del experimento. ¿Cómo cambia esto las recomendaciones en tu nota? (Sugerencia: consulte la sección 4.6.2 para obtener más información sobre el estimador de diferencia de medias y el estimador de diferencia en diferencias).

  25. [ difícil , requiere matemática ] Para evaluar la efectividad de un nuevo programa de asistencia de empleo basado en la web, una universidad realizó una prueba de control aleatorio entre 10,000 estudiantes que ingresaban a su último año de escuela. Se envió una suscripción gratuita con información de inicio de sesión única a través de una invitación exclusiva por correo electrónico a 5,000 de los estudiantes seleccionados al azar, mientras que los otros 5,000 estudiantes estaban en el grupo de control y no tenían una suscripción. Doce meses después, una encuesta de seguimiento (sin ninguna respuesta) mostró que tanto en el grupo de tratamiento como en el de control, el 70% de los estudiantes tenían un empleo de tiempo completo en el campo elegido (tabla 4.6). Por lo tanto, parecía que el servicio basado en la web no tenía ningún efecto.

    Sin embargo, un inteligente científico de datos de la universidad analizó los datos un poco más de cerca y descubrió que solo el 20% de los estudiantes en el grupo de tratamiento alguna vez iniciaban sesión en la cuenta después de recibir el correo electrónico. Además, y algo sorprendente, entre aquellos que iniciaron sesión en el sitio web, solo el 60% había asegurado un empleo de tiempo completo en el campo que eligieron, que era menor que la tasa para las personas que no iniciaron sesión y menor que la tasa de personas en la condición de control (tabla 4.7).

    1. Proporcione una explicación de lo que podría haber sucedido.
    2. ¿Cuáles son dos formas diferentes de calcular el efecto del tratamiento en este experimento?
    3. Dado este resultado, ¿debería proporcionar este servicio a todos los estudiantes? Para ser claros, esta no es una pregunta con una respuesta simple.
    4. ¿Qué deberían hacer después?

    Sugerencia: esta pregunta va más allá del material cubierto en este capítulo, pero aborda cuestiones comunes en los experimentos. Este tipo de diseño experimental a veces se denomina diseño de estímulo porque se alienta a los participantes a participar en el tratamiento. Este problema es un ejemplo de lo que se llama incumplimiento unilateral (ver el capítulo 5 de Gerber and Green (2012) ).

  26. [ difícil ] Después de un examen más detallado, resultó que el experimento descrito en la pregunta anterior era aún más complicado. Resultó que el 10% de las personas en el grupo de control pagaban por el acceso al servicio y terminaban con una tasa de empleo del 65% (tabla 4.8).

    1. Escriba un correo electrónico que resuma lo que cree que está sucediendo y recomiende un curso de acción.

    Sugerencia: esta pregunta va más allá del material cubierto en este capítulo, pero aborda cuestiones comunes en los experimentos. Este problema es un ejemplo de lo que se denomina incumplimiento de dos caras (ver capítulo 6 de Gerber and Green (2012) ).

Tabla 4.6: Vista simple de los datos del experimento de servicios profesionales
Grupo tamaño Tasa de empleo
Acceso otorgado al sitio web 5,000 70%
No se le concede acceso al sitio web 5,000 70%
Tabla 4.7: Vista más completa de los datos del experimento de servicios profesionales
Grupo tamaño Tasa de empleo
Acceso otorgado al sitio web e inicio de sesión 1,000 60%
Acceso concedido al sitio web y nunca ha iniciado sesión 4.000 72.5%
No se le concede acceso al sitio web 5,000 70%
Tabla 4.8: Vista completa de datos del experimento de servicios de carrera
Grupo tamaño Tasa de empleo
Acceso otorgado al sitio web e inicio de sesión 1,000 60%
Acceso concedido al sitio web y nunca ha iniciado sesión 4.000 72.5%
No se le otorgó acceso al sitio web y lo pagó 500 sesenta y cinco%
No se le otorgó acceso al sitio web y no lo pagó 4,500 70.56%