actividades

  • grao de dificultade: fácil fácil , medio medio , duro duro , moi duro moi duro
  • require matemáticas ( require matemáticas )
  • require codificación ( require codificación )
  • recopilación de datos ( recollida de datos )
  • meus favoritos ( Meu favorito )
  1. [ medio , recollida de datos ] Berinsky e colegas (2012) avaliaron MTurk en parte replicando tres experimentos clásicos. Reproduce o clásico experimento de elaboración de enfermidades asiáticas por Tversky and Kahneman (1981) de Tversky and Kahneman (1981) . Os teus resultados coinciden con Tversky e Kahneman? Os resultados coinciden cos de Berinsky e os seus colegas? Que hai que dicir, se isto nos ensina sobre o uso de MTurk para os experimentos de enquisas?

  2. [ medio , Meu favorito ] Nunha mancha un pouco cara a cara titulada "Temos que romper", o psicólogo social Robert Cialdini, un dos autores de Schultz et al. (2007) , escribiu que estaba aposentarse a principios do seu traballo como profesor, en parte por mor dos desafíos que enfrontaba facendo experimentos de campo nunha disciplina (psicoloxía) que realiza principalmente experimentos de laboratorio (Cialdini 2009) . Lea o artigo de Cialdini e escríbeo un correo electrónico que o insta a reconsiderar a súa separación á luz das posibilidades de experimentos dixitais. Use exemplos específicos de investigación que aborden as súas preocupacións.

  3. [ medio ] Para determinar se pequenos éxitos iniciais se cadran ou desaparecen, van de Rijt e e colegas (2014) interviñeron en catro sistemas diferentes que permitían o éxito de participantes seleccionados aleatoriamente e entón mediron os impactos a longo prazo deste éxito arbitrario. Podes pensar noutros sistemas nos que podes realizar experimentos similares? Avaliar estes sistemas en términos de cuestións de valor científico, confusión algorítmica (ver capítulo 2) e ética.

  4. [ medio , recollida de datos ] Os resultados dun experimento poden depender dos participantes. Crea un experimento e execúteo en MTurk usando dúas estratexias de contratación diferentes. Tenta escoller as estratexias de experimentación e contratación para que os resultados sexan o máis diferentes posible. Por exemplo, as súas estratexias de contratación poderían ser reclutar os participantes pola mañá e á noite ou para compensar os participantes con salarios altos e baixos. Este tipo de diferenzas na estratexia de contratación pode levar a diferentes grupos de participantes e diferentes resultados experimentais. ¿Que tan diferentes resultaron os teus resultados? Que revela sobre a execución de experimentos en MTurk?

  5. [ moi duro , require matemáticas , require codificación ] Imaxina que estaba a planear o experimento Emocional Contagion (Kramer, Guillory, and Hancock 2014) . Utilice os resultados dun estudo observacional anterior de Kramer (2012) para decidir o número de participantes en cada condición. Estes dous estudos non coinciden perfectamente, así que asegúrate de listar explícitamente todas as suposicións que fas:

    1. Executar unha simulación que decidirá cantos participantes fosen necesarios para detectar un efecto tan grande como o efecto en Kramer (2012) con \(\alpha = 0.05\) e \(1 - \beta = 0.8\) .
    2. Fai o mesmo cálculo analíticamente.
    3. Dados os resultados de Kramer (2012) foi Contagion Emocional (Kramer, Guillory, and Hancock 2014) superpoderados (é dicir, tiña máis participantes do necesario)?
    4. Das suposicións que fixeches, que teñen o maior efecto no cálculo?
  6. [ moi duro , require matemáticas , require codificación ] Responda nuevamente a pregunta anterior, pero esta vez en lugar de utilizar o estudo observacional anterior de Kramer (2012) , utiliza os resultados dun experimento natural anterior de Lorenzo Coviello et al. (2014) .

  7. [ fácil ] Tanto Margetts et al. (2011) e van de Rijt et al. (2014) realizou experimentos estudando o proceso de persoas que asinaron unha petición. Comparar e contrastar os deseños e os resultados destes estudos.

  8. [ fácil ] Dwyer, Maki, and Rothman (2015) realizaron dous experimentos de campo sobre a relación entre normas sociais e comportamento ambiental. Aquí tes o resumo do seu traballo:

    "Como se pode usar a ciencia psicolóxica para fomentar o comportamento ambiental? En dous estudos, as intervencións destinadas a promover o comportamento da conservación de enerxía nos baños públicos examinaron as influencias das normas descritivas e da responsabilidade persoal. No Estudo 1, o estado da luz (ou sexa, activado ou desactivado) foi manipulado antes de que alguén ingresase nun baño público desocupado, sinalando a norma descritiva para esa configuración. Os participantes foron significativamente máis propensos a apagar as luces se estaban fóra cando entraron. No Estudo 2, incluír unha condición adicional na que a confederación demostrou a norma de apagar a luz, pero os participantes non eran os propios responsables de acendelo. A responsabilidade persoal moderou a influencia das normas sociais sobre o comportamento; cando os participantes non se encargaron de acender a luz, a influencia da norma diminuíu. Estes resultados indican como as normas descritivas e a responsabilidade persoal poden regular a eficacia das intervencións ambientais ".

    Ler o seu traballo e deseñar unha replicación do estudo 1.

  9. [ medio , recollida de datos ] Baseándose na pregunta anterior, agora realiza o teu deseño.

    1. Como se comparan os resultados?
    2. Que podería explicar estas diferenzas?
  10. [ medio ] Houbo un debate substancial sobre experimentos empregando participantes contratados por MTurk. Paralelamente, tamén houbo un debate substancial sobre experimentos utilizando participantes contratados por poboacións de estudantes universitarios. Escribe unha nota de dúas páxinas comparando e contrastando turcomanos e graduados como participantes da investigación. A súa comparación debería incluír unha discusión sobre temas científicos e loxísticos.

  11. [ fácil ] O libro de Jim Manzi Uncontrolled (2012) é unha marabillosa introdución ao poder da experimentación nos negocios. No libro retransmitiu a seguinte historia:

    "Estiven nunha reunión cun verdadeiro xenio de negocios, un multimillonario autodeterminado que tivo unha profunda e intuitiva subestimación do poder dos experimentos. A súa empresa gastou recursos significativos intentando crear grandes xanelas de fiestras que atraerían aos consumidores e aumentaría as vendas, como sabía convencional. Os expertos examinaron coidadosamente o deseño despois do deseño e, durante as sesións de proba individual durante un período de anos, non se observou ningún efecto causal significativo de cada novo deseño de visualización nas vendas. Os executivos de mercadotecnia e supermercados superiores reuníronse co CEO para revisar estes resultados de probas históricos. Despois de presentar todos os datos experimentais, concluíron que a sabedoría convencional estaba mal: as pantallas da xanela non producen as vendas. A súa acción recomendada foi reducir custos e esforzos nesta área. Isto demostrou dramáticamente a habilidade da experimentación para anular a sabedoría convencional. A resposta do CEO foi sinxela: "A miña conclusión é que os seus deseñadores non son moi bos". A súa solución foi aumentar o esforzo no deseño da pantalla da tenda e conseguir que novas persoas o fagan " (Manzi 2012, 158–9)

    ¿Que tipo de validez é a preocupación do CEO?

  12. [ fácil ] Baseándose na pregunta anterior, imaxina que estaba na reunión onde se discutiron os resultados dos experimentos. Cales son as catro preguntas que podería pedir: unha para cada tipo de validez (estatística, construción, interna e externa)?

  13. [ fácil ] Bernedo, Ferraro, and Price (2014) estudaron o efecto sete anos da intervención de aforro de auga descrita en Ferraro, Miranda, and Price (2011) (ver figura 4.11). Neste traballo, Bernedo e os seus colegas tamén procuraron comprender o mecanismo detrás do efecto comparando o comportamento dos fogares que tiveron e non se trasladaron despois do tratamento. É dicir, máis ou menos, intentaron ver se o tratamento afectou o fogar ou o propietario.

    1. Ler o traballo, describir o seu deseño e resumir os seus resultados.
    2. ¿Os seus resultados afectan como se debe avaliar a eficacia do custo de intervencións similares? Se é así, por que? Se non, por que non?
  14. [ fácil ] Nun seguimento de Schultz et al. (2007) , Schultz e compañeiros realizaron unha serie de tres experimentos sobre o efecto das normas descritivas e cautelares sobre un comportamento ambiental diferente (reutilización da toalla) en dous contextos (un hotel e un condominio de tempo compartido) (Schultz, Khazian, and Zaleski 2008) .

    1. Resumir o deseño e as conclusións destes tres experimentos.
    2. Como, en todo caso, cambian a túa interpretación de Schultz et al. (2007) ?
  15. [ fácil ] En resposta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) realizaron unha serie de experimentos similares ao laboratorio para estudar o deseño de contas eléctricas. Velaquí como o describen en abstracto:

    "Nun experimento baseado en enquisas, cada participante viu unha hipotética factura de electricidade para unha familia de uso relativamente elevado de electricidade, que abrangue información sobre (a) uso histórico, (b) comparacións cos veciños e (c) uso histórico co colapso do aparello. Os participantes viron todos os tipos de información nun dos tres formatos, incluíndo (a) táboas, (b) gráficos de barra e (c) gráficos de iconas. Informamos sobre tres principais descubrimentos. En primeiro lugar, os consumidores entendían cada tipo de información de uso de electricidade a maior parte cando se presentou nunha táboa, quizais porque as táboas facilitan a lectura de puntos sinxelas. En segundo lugar, as preferencias e intencións para aforrar electricidade foron as máis fortes para a información de uso histórico, independentemente do formato. En terceiro lugar, os individuos con menor alfabetización enerxética entendían menos información ".

    A diferenza doutros estudos de seguimento, o resultado principal de interese en Canfield, Bruin, and Wong-Parodi (2016) denomínase comportamento, non o comportamento real. Cales son os puntos fortes e débiles deste tipo de estudo nun programa de investigación máis amplo que promove o aforro enerxético?

  16. [ medio , Meu favorito ] Smith and Pell (2003) presentaron un meta-análise satírico de estudos que demostraron a eficacia dos paracaídas. Eles concluíron:

    "Como ocorreu con moitas intervencións destinadas a previr a mala saúde, a eficacia dos paracaídas non foi sometida a unha avaliación rigorosa mediante o uso de ensaios controlados aleatorios. Os defensores da medicina baseada en evidencias criticaron a adopción das intervencións evaluadas utilizando só datos de observación. Pensamos que todos poderían beneficiarse se os protagonistas máis radicais da medicina baseada en evidencias organizaron e participaron nun ensaio de crossover dobre cego, aleatorizado, controlado con placebo do paracaídas ".

    Escribe un op-ed axeitado para un xornal de lectores xerais, como o New York Times , argumentando contra a fetichización de probas experimentais. Proporcionar exemplos concretos e concretos. Consello: véxase tamén Deaton (2010) e Bothwell et al. (2016) .

  17. [ medio , require codificación , Meu favorito ] Os estimadores de diferenzas en diferenzas dun efecto do tratamento poden ser máis precisos que os estimadores de diferenza. Escribe un memo a un enxeñeiro encargado das probas de A / B nunha empresa de redes sociais de inicio que explica o valor do enfoque de diferenzas en diferenzas para realizar un experimento en liña. O memorando debería incluír unha declaración do problema, algunha intuición sobre as condicións en que o estimador de diferenza en diferenza superará o estimador de diferenza en media e un estudo de simulación simple.

  18. [ fácil , Meu favorito ] Gary Loveman foi profesor na Harvard Business School antes de converterse no CEO de Harrah's, unha das maiores compañías casino do mundo. Cando se trasladou a Harrah's, Loveman transformou a compañía cun programa de fidelización de tipo freeware que recollía enormes cantidades de datos sobre o comportamento do cliente. Ademais deste sistema de medición sempre en curso, a compañía comezou a realizar experimentos. Por exemplo, poden realizar un experimento para avaliar o efecto dun cupón dunha noite de hotel gratuíto para os clientes con un patrón de xogo específico. Vexa como Loveman describiu a importancia da experimentación ás prácticas comerciais cotiás de Harrah:

    "É como que non asasinas ás mulleres, non roubes e ten que ter un grupo de control. Esta é unha das cousas que podes perder o teu emprego en Harrah's, non executando un grupo de control ". (Manzi 2012, 146)

    Escribe un correo electrónico a un novo empregado explicando por que Loveman pensa que é tan importante ter un grupo de control. Debería tentar incluír un exemplo, real ou composto, para ilustrar o seu punto.

  19. [ duro , require matemáticas ] Un novo experimento ten como obxectivo estimar o efecto de recibir recordatorios de mensaxes de texto sobre o consumo de vacinas. Un cento cincuenta clínicas, cada un con 600 pacientes subvencionables, están dispostos a participar. Hai un custo fixo de 100 dólares por cada clínica coa que queres traballar e custa 1 dólar por cada mensaxe de texto que queres enviar. Ademais, as clínicas coas que traballa medirán o resultado (se alguén recibiu unha vacinación) de xeito gratuíto. Supoña que ten un orzamento de $ 1,000.

    1. En que condicións podería ser mellor centrar os seus recursos nunha pequena cantidade de clínicas e en que condicións podería ser mellor para difundilos máis amplamente?
    2. Que factores determinarán o menor tamaño de efecto que poderá detectar fiablemente co seu orzamento?
    3. Escribe un memo explicando estas compensacións a un posible financiador.
  20. [ duro , require matemáticas ] Un gran problema cos cursos en liña é o desgaste: moitos estudantes que inician os cursos acaban abandonando. Imaxina que está a traballar nunha plataforma de aprendizaxe en liña e un deseñador na plataforma creou unha barra de progreso visual que pensa que axudará a evitar que os alumnos abandonen o curso. Quere probar o efecto da barra de progreso nos estudantes nun gran curso de ciencias sociais computacionais. Despois de abordar os problemas éticos que poidan xurdir no experimento, vostede e os seus compañeiros se preocupan que o curso non teña os alumnos suficientes para detectar de forma fiable os efectos da barra de progreso. Nos seguintes cálculos, podes supoñer que a metade dos alumnos recibirán a barra de progreso e a metade non. Ademais, podes supoñer que non hai interferencia. Noutras palabras, pode supoñer que os participantes só se ven afectados por se recibiron o tratamento ou o control; non se realizan se outras persoas recibiron o tratamento ou o control (para unha definición máis formal, consulte o capítulo 8 de Gerber and Green (2012) ). Fai un seguimento das suposicións que fagas.

    1. Supoñamos que se espera que a barra de progreso acade a proporción de alumnos que terminen a clase por 1 punto porcentual; Cal é o tamaño da mostra necesaria para detectar de forma fiable o efecto?
    2. Supoñamos que se espera que a barra de progreso acade a proporción de alumnos que finalizan a clase en 10 puntos porcentuais; Cal é o tamaño da mostra necesaria para detectar de forma fiable o efecto?
    3. Agora imaxina que realizaches o experimento e os alumnos que completaron todos os materiais do curso teñan realizado un exame final. Cando se comparan as cualificacións de exames finais dos alumnos que recibiron a barra de progreso coas puntuacións das que non o fixeron, atopou, moi por sorpresa, que os estudantes que non recibiron a barra de progreso fixéronse máis. Isto significa que a barra de progreso fixo que os alumnos aprendan menos? Que pode aprender a partir deste dato? (Consello: vexa o capítulo 7 de Gerber and Green (2012) )
  21. [ moi duro , require codificación , Meu favorito ] Imaxina que estás traballando como científico de datos nunha empresa de tecnoloxía. Alguén do departamento de mercadotecnia solicita a túa axuda na avaliación dun experimento que están a planear para medir o rendemento do investimento (ROI) para unha nova campaña de publicidade en liña. O ROI defínese como o beneficio neto da campaña dividido polo custo da campaña. Por exemplo, unha campaña que non tivo efecto sobre as vendas tería un ROI de -100%; unha campaña onde os beneficios xerados eran igual aos custos terían un ROI de 0; e unha campaña onde os beneficios xerados son o dobre do custo terían un ROI do 200%.

    Antes de iniciar o experimento, o departamento de mercadotecnia ofrécelle a seguinte información baseada na súa investigación anterior (de feito, estes valores son típicos das reais campañas publicitarias en liña informadas en Lewis and Rao (2015) ):

    • A media de vendas por cliente segue unha distribución log-normal cunha media de $ 7 e unha desviación estándar de $ 75.
    • A campaña espérase aumentar as vendas en 0,35 dólares por cliente, o que corresponde a un aumento de beneficio de $ 0.175 por cliente.
    • O tamaño planificado do experimento é de 200.000 persoas: a metade do grupo de tratamento e a metade do grupo de control.
    • O custo da campaña é de 0,14 dólares por participante.
    • O ROI esperado para a campaña é do 25% [ \((0.175 - 0.14)/0.14\) ]. Noutras palabras, o departamento de mercadotecnia cre que por cada 100 dólares gastos en mercadotecnia, a compañía gañará un beneficio adicional de $ 25.

    Escribe un memo que avalía este experimento proposto. A súa nota debe empregar a proba dunha simulación que crea e debe abordar dous grandes problemas: (1) ¿Recomendarías iniciar este experimento como estaba previsto? Se é así, por que? Se non, por que non? Asegúrese de estar claro sobre os criterios que está a usar para tomar esta decisión. (2) Que tamaño de mostra recomendarías para este experimento? De novo, asegúrese de estar claro sobre os criterios que está a usar para tomar esta decisión.

    Un bo recordará este caso específico; unha mellor nota xeneralizará deste caso dun xeito (por exemplo, amosar como a decisión cambia en función do tamaño do efecto da campaña); e un excelente memo presentará un resultado completamente xeneralizado. A súa nota debe usar gráficos para ilustrar os resultados.

    Aquí tes dous consellos. En primeiro lugar, o departamento de mercadotecnia pode fornecerlle algunha información innecesaria, e poden non proporcionarlle algunha información necesaria. En segundo lugar, se está a usar R, ten en conta que a función rlnorm () non funciona do xeito que moitas persoas esperan.

    Esta actividade dálle práctica coa análise de potencia, creando simulacións e comunicando os resultados con palabras e gráficos. Debe axudarche a realizar análises de potencia para calquera tipo de experimento, non só experimentos deseñados para estimar o ROI. Esta actividade supón que ten algunha experiencia con probas estatísticas e análise de potencia. Se non estás familiarizado coa análise de potencia, recomendo que lea "A Power Primer" de Cohen (1992) .

    Esta actividade foi inspirada nun fermoso traballo de RA Lewis and Rao (2015) , que ilustra vivamente unha limitación estatística fundamental de experimentos masivos. O seu traballo, que orixinalmente tiña o título provocativo "sobre a imposibilidade inmediata de medir as devolucións á publicidade", mostra o difícil que é medir o retorno do investimento de anuncios en liña, mesmo con experimentos dixitais que inclúen millóns de clientes. En xeral, RA Lewis and Rao (2015) ilustran un feito estatístico fundamental que é particularmente importante para os experimentos con idade dixital: é difícil estimar pequenos efectos de tratamento en medio de datos de resultado ruidosos.

  22. [ moi duro , require matemáticas ] Fai o mesmo que a pregunta anterior, pero, en vez de simulación, debes usar resultados analíticos.

  23. [ moi duro , require matemáticas , require codificación ] Fai o mesmo que a pregunta anterior, pero utiliza tanto a simulación como os resultados analíticos.

  24. [ moi duro , require matemáticas , require codificación ] Imaxina que escribiu a nota descrita anteriormente e alguén do departamento de mercadotecnia proporciona unha peza de información nova: esperan unha correlación de 0.4 entre as vendas antes e despois do experimento. Como isto cambia as recomendacións na túa nota? (Consello: consulte a sección 4.6.2 para obter máis información sobre o estimador de diferenza de medios eo estimador de diferenzas en diferenzas).

  25. [ duro , require matemáticas ] Para avaliar a eficacia dun novo programa de asistencia ao emprego baseado na web, unha universidade realizou un ensaio de control aleatorizado entre 10.000 alumnos que ingresaron no último ano da escola. Unha sinatura gratuíta con información de rexistro exclusiva foi enviada a través dunha invitación exclusiva de correo electrónico a 5.000 dos alumnos seleccionados aleatoriamente, mentres que os outros 5,000 estudantes estaban no grupo de control e non tiñan ningunha suscripción. Doce meses despois, unha enquisa de seguimento (sen respostas) demostrou que tanto nos grupos de tratamento como de control, o 70% dos estudantes garantiu un emprego a tempo completo no seu campo escolleito (táboa 4.6). Deste xeito, parecía que o servizo baseado na web non tiña ningún efecto.

    Non obstante, un científico de datos intelixente na universidade estudou os datos un pouco máis de preto e constatou que só o 20% dos estudantes do grupo de tratamento ingresaron na conta despois de recibir o correo electrónico. Ademais, e de forma sorprendente, entre os que ingresaron ao sitio web, só o 60% aseguraban emprego a tempo completo no seu campo elixido, o que era inferior ao índice para as persoas que non iniciaron sesión e baixaron a taxa de persoas na condición de control (táboa 4.7).

    1. Proporcione unha explicación sobre o que podería pasar.
    2. ¿Que son dúas formas diferentes de calcular o efecto do tratamento neste experimento?
    3. Ante este resultado, ¿deberías proporcionar este servizo a todos os estudantes? Só para estar claro, esta non é unha pregunta cunha resposta simple.
    4. Que deberían facer a continuación?

    Consello: esta pregunta vai máis alá do material cuberto neste capítulo, pero aborda cuestións comúns nos experimentos. Este tipo de deseño experimental é ás veces chamado de estímulo porque os participantes son alentados a participar no tratamento. Este problema é un exemplo do que se chama incumplimiento unilateral (ver capítulo 5 de Gerber and Green (2012) ).

  26. [ duro ] Tras un posterior exame, descubriuse que o experimento descrito na pregunta anterior era aínda máis complicado. Descubriuse que o 10% das persoas do grupo de control pagaron por acceder ao servizo e terminaron cunha taxa de emprego do 65% (táboa 4.8).

    1. Escriba un correo electrónico que resuma o que pensa que está a suceder e recomenda un curso de acción.

    Consello: esta pregunta vai máis alá do material cuberto neste capítulo, pero aborda cuestións comúns nos experimentos. Este problema é un exemplo do que se chama incumprimento a dúas caras (ver capítulo 6 de Gerber and Green (2012) ).

Táboa 4.6: Vista simple de datos do Experimento en servizos profesionais
Grupo Tamaño Taxa de emprego
Acceso concedido ao sitio web 5.000 70%
Non se outorgou acceso ao sitio web 5.000 70%
Táboa 4.7: Ver máis completa de datos do Experimento en servizos profesionais
Grupo Tamaño Taxa de emprego
Acceso concedido ao sitio web e conectado 1.000 60%
Accedeu ao sitio web e nunca iniciou sesión 4.000 72,5%
Non se outorgou acceso ao sitio web 5.000 70%
Táboa 4.8: Vista completa de datos do Experimento de servizos profesionais
Grupo Tamaño Taxa de emprego
Acceso concedido ao sitio web e conectado 1.000 60%
Accedeu ao sitio web e nunca iniciou sesión 4.000 72,5%
Non se outorgou acceso ao sitio web e pagouse por el 500 65%
Non se concedeu acceso ao sitio web e non pagou por iso 4,500 70,56%