actividades

Key:

  • Grado de dificultade: fácil fácil , medio medio , difícil difícil , moi duro moi duro
  • require matemáticas ( require matemáticas )
  • require codificación ( require codificación )
  • recollida de datos ( recollida de datos )
  • favoritos ( Meu favorito )
  1. [ medio , recollida de datos ] Berinsky e os seus colegas (2012) avalía Mechanical Turk, en parte, a través da replicación tres experimentos clásicos. Replicar o experimento marco Disease clásico asiático por Tversky and Kahneman (1981) . Será que os seus resultados xogo Tversky e Kahneman de? Será que os seus resultados xogo Berinsky e compañeiros? What-se algo-que iso nos ensina sobre o uso Mechanical Turk para experimentos de investigación?

  2. [ medio , Meu favorito ] Nun papel algo tongue-in-Cheek titulado "We Have to Break Up", o psicólogo social Robert Cialdini, un dos autores do Schultz et al. (2007) , escribiu que estaba aposentando antes do seu traballo como profesor, en parte por mor dos desafíos que afrontou facendo experimentos de campo nunha disciplina (psicoloxía), que realiza principalmente experimentos de laboratorio (Cialdini 2009) . Lea o artigo de Cialdini, e escribir-lle un correo pedíndolle para reconsiderar a súa disolución en función das posibilidades de experiencias dixitais. Use exemplos específicos de investigación que aborden as súas preocupacións.

  3. [ medio ] A fin de determinar se os pequenos logros iniciais lock-in ou desaparecer, van de Rijt e e os seus colegas (2014) interveu en catro diferentes sistemas revisando éxito participantes seleccionados aleatoriamente, e despois mediron os impactos a longo prazo deste éxito arbitraria. Podes pensar en outros sistemas en que podería realizar experiencias semellantes? Avaliar estes sistemas en termos de cuestións de valor científico, confusión algorítmica (véxase o capítulo 2), e ética.

  4. [ medio , recollida de datos ] Os resultados dunha experiencia pode depender dos participantes. Crear un experimento e, a continuación, executa-lo en Amazon Mechanical Turk (MTurk) usando dúas estratexias de contratación diferentes. Probe escoller as estratexias experimentais e de contratación de xeito que os resultados serán tan diferentes como puido. Por exemplo, as súas estratexias de contratación podería ser para contratar asistentes de mañá e á noite ou para compensar os participantes con alta e baixa remuneración. Estes tipos de diferenzas na estratexia de contratación podería levar a diferentes grupos de participantes e diferentes resultados experimentais. Que diferente é que os seus resultados se mostra? O que isto revela sobre a execución de experimentos en MTurk?

  5. [ moi duro , require matemáticas , require codificación , Meu favorito ] Imaxina que estaba a planear o estudo Emotional Contagion (Kramer, Guillory, and Hancock 2014) . Use os resultados dun estudo observacional anteriormente por Kramer (2012) para decidir o número de participantes en cada condición. Estes dous estudos non corresponden perfectamente, entón asegúrese de incluír explicitamente as presupostos que fai:

    1. Realizar unha simulación que decidirá cantos participantes sería necesaria para detectar un efecto tan grande como o efecto no Kramer (2012) con \ (\ alpha = 0,05 \) e \ (1 - \ beta = 0,8 \).
    2. Fai o mesmo cálculo analiticamente.
    3. Tendo en conta os resultados de Kramer (2012) foi Contagion emocional (Kramer, Guillory, and Hancock 2014) sobre-alimentado (é dicir, que tivo máis participantes do necesario)?
    4. Das suposicións que fixo, que teñen o maior efecto sobre o seu cálculo?
  6. [ moi duro , require matemáticas , require codificación , Meu favorito ] Responde a pregunta anterior, pero en vez de usar o estudo observacional anteriormente por Kramer (2012) usar os resultados dun experimento natural antes por Coviello et al. (2014) .

  7. [ fácil ] Ambos Rijt et al. (2014) e Margetts et al. (2011) ambas realizar experimentos que estudan o proceso de persoas que asinaron unha petición. Comparar e contrastar o deseño e conclusións destes estudos.

  8. [ fácil ] Dwyer, Maki, and Rothman (2015) conduciron dous experimentos de campo sobre a relación entre normas sociais e comportamentos proenvironmental. Aquí está o resumo do seu papel:

    "Como pode a ciencia psicolóxica pode empregar para fomentar un comportamento proenvironmental? En dous estudos, as intervencións destinadas a promover o comportamento conservación de enerxía en baños públicos examinou as influencias das normas descritivas e responsabilidade persoal. No Estudo 1, o estado de luz (isto é, activado ou desactivado) foi manipulado antes de que alguén entrou nun baño público desocupado, sinalizando a norma descritivo para esta definición. Os participantes eran significativamente máis propensos a apagar as luces estaban fóra cando entraron. No Estudo 2, unha condición adicional foi incluído na cal a norma de apagar a luz foi demostrado por un confederado, pero os participantes non eran eles mesmos responsables liga-lo. responsabilidade persoal moderou a influencia das normas sociais no comportamento; cando os participantes non foron responsables acender a luz, a influencia da norma foi diminuída. Estes resultados indican como normas e responsabilidade persoal descritiva pode regular a eficacia das intervencións proenvironmental ".

    Ler o seu papel e proxectar unha replicación de estudo 1.

  9. [ medio , recollida de datos ] Baseado na pregunta anterior, agora realizar o seu proxecto.

    1. Como é que os resultados se comparan?
    2. O que pode explicar estas diferenzas?
  10. [ medio ] Houbo un debate substancial sobre experimentos utilizando participantes recrutados de Amazon Mechanical Turk. En paralelo, tamén houbo un debate importante sobre experimentos utilizando participantes recrutados dende poboacións de graduación do estudante. Escribir un memorando de dúas páxinas comparando e contrastando as Turkers e estudantes como participantes investigadores. A súa comparación debe incluír unha discusión de ambas as cuestións científicas e loxísticas.

  11. [ fácil O libro de] Jim Manzi descontrolada (2012) é unha introdución marabillosa para o poder de experimentación na empresa. No libro, el transmitiu esta historia:

    "Unha vez eu estaba nunha reunión cun verdadeiro xenio de negocios, un multimillonario que tiña unha subdeclaração profunda e intuitiva do poder de experimentos. A súa empresa gastou recursos significativos intentando crear grandes tenda de vitrinas que atraen os consumidores e aumenta as vendas, como a sabedoría convencional di que deberían. Especialistas coidadosamente probado proxecto despois de deseño, e nas sesións de revisión de probas individuais ao longo dun período de anos continuou mostrando ningún efecto causal significativo de cada novo deseño display sobre as vendas. Seniores de marketing e merchandising executivos reuniuse co CEO a avaliar os resultados destas probas históricos en toto. Despois de presentar todos os datos experimentais, eles concluíron que a sabedoría convencional estaba mal, isto vitrinas non impulsar as vendas. A súa acción recomendada era reducir custos e esforzos nesta área. Isto demostrou dramaticamente a capacidade de experimentación para derrubar a sabedoría convencional. A resposta do CEO era simple: "A miña conclusión é que os seus creadores non son moi boas." A súa solución foi aumentar o esforzo no proxecto de exposición da tenda, e para obter novas persoas para facelo. " (Manzi 2012, 158–9)

    Que tipo de validez é a preocupación do CEO?

  12. [ fácil ] Baseado na pregunta anterior, imaxina que estaban na reunión na que os resultados dos experimentos foron discutidos. Cales son catro preguntas que lle podería pedir, un para cada tipo de validez (estatística, construír, interna e externa)?

  13. [ fácil ] Bernedo, Ferraro, and Price (2014) estuda o efecto da intervención salvífica de auga descrito en sete anos Ferraro, Miranda, and Price (2011) (vexa a Figura 4.10). Neste traballo, Bernedo e compañeiros tamén buscar entender o mecanismo detrás do efecto comparando o comportamento das familias que teñen e non se moveron despois do tratamento se entrega. Isto é, a grosso modo, tentan ver se o tratamento impactado a casa ou o propietario.

    1. Ler o xornal, describen o seu deseño, e resumir os seus achados. b) Esta descuberta afectar o xeito no que ten que avaliar a relación custo-eficacia das intervencións similares? Se si, por que? Se non, por que non?
  14. [ fácil ] Nun follow-up para Schultz et al. (2007) , Schultz e compañeiros realizar unha serie de tres experimentos sobre o efecto das normas descritivas e inibitórias nun comportamento ambiental diferente (toalla de reutilización) en dous contextos (un hotel e un condominio timeshare) (Schultz, Khazian, and Zaleski 2008) .

    1. Resumen o deseño e os resultados destas tres experiencias.
    2. Como, en todo, eles cambiar a súa interpretación do Schultz et al. (2007) ?
  15. [ fácil ] En resposta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) publicou unha serie de experimentos de laboratorio-like para estudar o proxecto de contas de enerxía eléctrica. Vexa como describen la no resumo:

    "Nun experimento baseado en enquisas, cada participante viu unha factura de electricidade hipotética para unha familia con uso relativamente alta de enerxía eléctrica, abranguendo información (a) uso histórico, (b) comparacións cos veciños, e (c) uso histórico, con repartición aparato. Os participantes viu todo tipo de información en un dos tres formatos, incluíndo (a) táboas, (b) gráficos de barra, e (c) icono gráficos. Relatamos tres conclusións principais. En primeiro lugar, os consumidores comprendido cada tipo de información de enerxía eléctrica de usar a máis cando se presentou nunha táboa, quizais porque as táboas de facilitar a lectura sinxela punto. En segundo lugar, preferencias e intencións para aforrar electricidade eran os máis fortes para a información de uso histórico, independente do formato. En terceiro lugar, os individuos con baixa alfabetización enerxía comprendido toda a información menos ".

    A diferenza doutros estudos de seguimento, o principal resultado de interese en Canfield, Bruin, and Wong-Parodi (2016) é informar comportamento non comportamento real. Cales son os puntos fortes e débiles deste tipo de estudo nun programa de investigación máis amplo, promover o aforro de enerxía?

  16. [ medio , Meu favorito ] Smith and Pell (2003) é unha meta-análise satírica de estudos que demostran a eficacia do paracaídas. Eles conclúen:

    "Igual que moitas intervencións destinadas a evitar problemas de saúde, a eficacia do paracaídas non foi sometido a unha avaliación rigorosa, utilizando ensaios clínicos randomizados. Defensores da medicina baseada en evidencias criticaron a adopción de intervencións avaliadas usando só os datos observacionais. Pensamos que todos poidan beneficiarse os protagonistas máis radicais da Medicina baseada en evidencias organizou e participou nun estudo dobre cego, randomizado, controlado por placebo, estudo cruzado do paracaídas. "

    Escribir op-ed axeitado para un xornal lectores en xeral, como o The New York Times, argumentando contra a fetichização da evidencia experimental. Proporcionar exemplos específicos e concretos. Consello: Vexa tamén, Bothwell et al. (2016) e Deaton (2010)

  17. [ medio , require codificación , Meu favorito ] Diferenza en diferenzas estimadores dun efecto do tratamento pode ser máis preciso do que estimadores diferenzas en media. Escribir un memorando para un enxeñeiro encargado de probas A / B nunha empresa de comunicación social start-up explicando o valor do enfoque de diferenzas en diferenzas para realizar unha experiencia online. O memorando incluirá unha declaración do problema, algunha intuición sobre as condicións en que o estimador de diferenza en diferenzas superará o estimador de diferenzas en media, e un estudo de simulación simple.

  18. [ fácil , Meu favorito ] Gary Loveman foi profesor da Harvard Business School antes de facer o CEO de Harrah, unha das maiores empresas de Casino do mundo. Cando se cambiou a Harrah, Loveman transformou a empresa con un programa de fidelidade insecto-como frecuente que recolleu enormes cantidades de datos sobre o comportamento do cliente. Na parte superior desta sistema de medida always-on, a empresa comezou a executar experimentos. Por exemplo, poden realizar un experimento para avaliar o efecto dun cupón para unha noite hotel gratuíto para os clientes con un nivel de xogo específico. Vexa como Loveman describiu a importancia da experimentación de prácticas de negocio diarias Harrah:

    "É como se non asediou as mulleres, non roubar, e ten que ter un grupo de control. Esta é unha das cousas que podes perder o seu emprego durante polo Harrah's-non execución dun grupo de control. " (Manzi 2012, 146)

    Escribir un correo electrónico a un novo funcionario explicando porque Loveman pensa que é tan importante ter un grupo de control. Ten que tentar incluír un exemplo real ou fixo se para ilustrar o seu punto.

  19. [ difícil , require matemáticas ] Un novo experimento ten como obxectivo estimar o efecto de recibir recordatorios de mensaxe de texto sobre a captación de vacinación. 150 clínicas, cada un con 600 pacientes elixibles, están dispostos a participar. Hai un custo fixo de 100 dólares para cada clínica que quere traballar con, e custa 1 dólar por cada mensaxe de texto que quere enviar. Ademais, calquera clínicas que se está a traballar coa vontade de medir o resultado (se a persoa recibiu unha vacinación) de forma gratuíta. Supoña que teña un orzamento de 1.000 dólares.

    1. En que condicións pode ser mellor concentrar os seus recursos en un pequeno número de clínicas e en que condicións pode que sexa mellor para estender a eles máis amplamente?
    2. Cales son os factores que ía determinar o tamaño do efecto menor que será capaz de detectar con seguridade o seu orzamento?
    3. Escribir unha nota explicando estes trade-offs a un potencial financiador.
  20. [ difícil , require matemáticas ] Un problema con cursos en liña é de fricción; moitos estudantes que inician cursos acaban soltando-out. Imaxina que está a traballar nunha plataforma de aprendizaxe en liña, e un deseño na plataforma creou unha barra de progreso visual que ela pensa que vai axudar a evitar os estudantes de abandono do curso. Desexa probar o efecto da barra de progreso sobre os estudantes nun gran curso de ciencias sociais computacional. Despois de abordar todas as cuestións éticas que poidan xurdir na experiencia, vostede e os seus compañeiros estar preocupado que o curso pode non ter alumnos suficientes para detectar de forma fiable os efectos da barra de progreso. Nos cálculos abaixo pode asumir que a metade dos estudantes recibirán a barra de progreso e metade non. Ademais, pode asumir que non hai interferencia. Noutras palabras, pode supoñer que os participantes só son afectados por eles recibiron o tratamento ou control; eles non son efectuadas por outras persoas recibiron o tratamento ou control (para unha definición máis formal, ver Gerber and Green (2012) , Cap. 8). Por favor, manter o control de todos os supostos adicionais que fai.

    1. Supoña que se espera que a barra de progreso para aumentar a proporción de alumnos que rematan a clase en 1 punto porcentual, o que é o tamaño da mostra necesaria para detectar con seguridade o efecto?
    2. Supoña que se espera que a barra de progreso para aumentar a proporción de alumnos que rematan a clase en 10 puntos porcentuais, o que é o tamaño da mostra necesaria para detectar con seguridade o efecto?
    3. Imaxina que teña executado o experimento e os alumnos que teñan completado todos os materiais do curso tomar un exame final. Cando compara as puntuacións finais dos exames dos alumnos que recibiron a barra de progreso para os que non, atopa, para a súa sorpresa, que os alumnos que non recibiron a barra de progreso en realidade pontuaram máis alto. Quere isto dicir que a barra de progreso causado os alumnos a aprender menos? O que podes aprender con estes datos de resultado? (Consello: Ver Gerber and Green (2012) , Ch. 7)
  21. [ moi duro , require codificación ] Nun artigo encantador, Lewis and Rao (2015) ilustran vividamente unha limitación estatística fundamental de experiencias mesmo masivas. O papel que orixinalmente tiña o provocador título "Sobre a case imposibilidade de medir a Volta ao Publicidade" -Mostra como é difícil para medir o rendemento do investimento de anuncios en liña, mesmo con experiencias dixitais inclúen millóns de clientes. Máis xenericamente, o artigo mostra claramente que é difícil estimar pequeno efecto do tratamento no medio datos de resultados ruidosos. Ou afirmou diffently, o artigo mostra que os efectos do tratamento estimados terá grandes intervalos de confianza cando a desviación estándar de impacto-to - (\ (\ frac {\ Delta \ bar {y}} {\ sigma} \)) ratio é pequena. A lección xeral importante deste traballo é que os resultados de experimentos con relación impacto pequeno-to-desviación estándar (por exemplo, ROI das campañas de publicidade) será insatisfactorios. O seu reto será o de escribir un memorando para alguén no departamento da súa empresa de marketing evaluting un experimento planeado para medir o ROI dunha campaña publicitaria. A súa nota debe ser apoiada con gráficos dos resultados de simulacións de computador.

    Aquí están algunhas información de fondo que pode ter. Todos estes valores numéricos son típicos das experiencias reais relativos en Lewis and Rao (2015) :

    • ROI, unha métrica clave para campañas de publicidade en liña, defínese como o beneficio neto da campaña (beneficio bruto de menos custo campaña de campaña) dividido polo custo da campaña. Por exemplo, unha campaña que non tivo ningún efecto sobre as vendas tería un ROI de 100% e unha campaña na que os beneficios xerados eran iguais aos custos tería un ROI de 0.

    • as vendas medias por cliente é de R $ 7 cun desvío estándar de US $ 75.

    • a campaña espérase para aumentar as vendas en US $ 0,35 por cliente que corresponde a un aumento de beneficio de US $ 0,175 por cliente. Noutras palabras, a marxe bruto é de 50%.

    • o tamaño planeado da experiencia é de 200.000 persoas, a metade do grupo de tratamento ea outra metade no grupo de control.

    • o custo da campaña é de R $ 0,14 por participante.

    Escribir un memorando evaluting esta experiencia. Recomenda lanzar esta experiencia como planificado? Se si, por que? Se non, cales cambios recomenda?

    Unha boa nota pode abordar este problema específico; un memorando mellor vai xeneralizar a partir de que neste caso, dun xeito (por exemplo, amosar como os cambios de decisións en función do ratio impacto-to-desviación estándar); e unha gran memo presentará un resultado totalmente xeneralizada.

  22. [ moi duro , require matemáticas ] Fai o mesmo que a pregunta anterior, pero en vez de simulación pode usar os resultados analíticos.

  23. [ moi duro , require matemáticas , require codificación ] Fai o mesmo que a pregunta anterior, pero usar tanto simulación e resultados analíticos.

  24. [ moi duro , require matemáticas , require codificación ] Imaxina que teña escrito o memorando descrito anteriormente usando simulación, os resultados analíticos, ou ambos, e alguén do departamento de marketing recomenda o uso dun estimador de diferenzas en diferenzas máis que unha diferenza no medio estimador (ver Sección 4.6.2) . Escribir unha nota máis curta explicando como unha correlación de 0,4 entre as vendas antes do experimento e vendas tras o experimento ía cambiar a súa conclusión.

  25. [ difícil , require matemáticas ] A fin de avaliar a eficacia dun novo servizo de carreira baseado na web, unha oficina de servizos de carreira da universidade realizou un ensaio clínico aleatorio entre os 10.000 estudantes que entran no seu último ano de escola. A inscrición é gratuíta con información de log-in exclusivo foi enviada a través de unha invitación de correo exclusiva de 5.000 dos estudantes seleccionados aleatoriamente, mentres que os outros 5.000 estudantes están no grupo control e non ten unha sinatura. Doce meses despois, nunha investigación follow-up (sen non-resposta) mostra que, en ambos os grupos de tratamento e control, o 70% dos alumnos teñen garantido emprego a tempo completo no seu campo escollido (Táboa 4.5). Así, parece que o servizo baseado na web que non tivo ningún efecto.

    Con todo, un científico de datos intelixente na universidade mirou os datos algo máis de preto e constatou que só o 20% dos estudantes no grupo de tratamento xa rexistrado na conta despois do recibimento do correo electrónico. Ademais, e de forma algo sorprendente, entre os que teñen rexistrado na web só o 60% tiñan garantido emprego a tempo completo no seu campo escollido, que foi menor que a taxa para a xente que non facer login e menor que a taxa para as persoas en a condición de control (táboa 4.6).

    1. Proporcionar unha explicación para o que podería acontecer.
    2. Cales son as dúas formas diferentes para calcular o efecto do tratamento nesta experiencia?
    3. Dado este resultado, debe o servizo carreira universitaria proporcionar este servizo de carreira baseado na web para todos os alumnos? Só queda claro, isto non é unha pregunta cunha resposta simple.
    4. Que deberían facer a continuación?

    Consello: Esta cuestión vai máis alá do material cuberto neste capítulo, pero aborda cuestións comúns en experimentos. Este tipo de proxecto experimental chámase ás veces un deseño impulso porque os participantes son encoraxados a se implican no tratamento. Este problema é un exemplo do que se chama unha banda non-conformidade (ver Gerber and Green (2012) , cap. 5)

  26. [ difícil ] Tras unha análise máis aprofundada, verifícase que o experimento descrito na pregunta anterior foi aínda máis complicada. Acontece que o 10% das persoas do grupo de control de pago para acceder ao servizo, e eles acabaron cunha taxa de emprego do 65% (Táboa 4.7).

    1. Escribir un correo electrónico resumindo o que pensas que está a suceder e recomenda un curso de acción.

    Consello: Esta cuestión vai máis alá do material cuberto neste capítulo, pero aborda cuestións comúns en experimentos. Este problema é un exemplo do que se chama fronte e verso non-conformidade (ver Gerber and Green (2012) , cap. 6)

Táboa 4.5: Vista simple de datos do experimento de servizos de carreira.
grupo tamaño taxa de emprego
acceso concedido ao sitio 5.000 70%
Non concedido acceso ao sitio web 5.000 70%
Táboa 4.6: visión máis completa dos datos do experimento de servizos de carreira.
grupo tamaño taxa de emprego
Concedido acceso ao sitio web e logueado 1.000 60%
Concedido acceso ao sitio web e nunca sesión 4.000 85%
Non concedido acceso ao sitio web 5.000 70%
Táboa 4.7: Visualización completa dos datos do experimento de servizos de carreira.
grupo tamaño taxa de emprego
Concedido acceso ao sitio web e logueado 1.000 60%
Concedido acceso ao sitio web e nunca sesión 4.000 72,5%
Non concedido acceso ao sitio web e pagou por el 500 65%
Non concedido acceso ao sitio web e non pagar por iso 4.500 70,56%