atividades

Chave:

  • grau de dificuldade: fácil fácil , médio médio , difícil difícil , muito difícil muito difícil
  • requer matemática ( requer matemática )
  • requer codificação ( requer codificação )
  • coleção de dados ( coleção de dados )
  • meus favoritos ( meu favorito )
  1. [ médio , coleção de dados ] Berinsky e seus colegas (2012) avalia Mechanical Turk, em parte, por meio da replicação três experimentos clássicos. Replicar o experimento enquadramento Disease clássico asiático por Tversky and Kahneman (1981) . Será que os seus resultados jogo Tversky e Kahneman de? Será que os seus resultados jogo Berinsky e colegas? What-se alguma coisa-que isso nos ensina sobre o uso Mechanical Turk para experimentos de pesquisa?

  2. [ médio , meu favorito ] Em um papel um pouco tongue-in-cheek intitulado "We Have to Break Up", o psicólogo social Robert Cialdini, um dos autores do Schultz et al. (2007) , escreveu que ele estava se aposentando mais cedo de seu trabalho como professor, em parte por causa dos desafios que enfrentou fazendo experimentos de campo em uma disciplina (psicologia), que realiza principalmente experimentos de laboratório (Cialdini 2009) . Leia o artigo de Cialdini, e escrever-lhe um e-mail pedindo-lhe para reconsiderar sua dissolução em função das possibilidades de experiências digitais. Use exemplos específicos de investigação que abordem suas preocupações.

  3. [ médio ] A fim de determinar se os pequenos sucessos iniciais lock-in ou desaparecer, van de Rijt e e seus colegas (2014) interveio em quatro diferentes sistemas conferindo sucesso em participantes selecionados aleatoriamente, e depois mediram os impactos de longo prazo desse sucesso arbitrária. Você pode pensar em outros sistemas em que você poderia realizar experiências semelhantes? Avaliar esses sistemas em termos de questões de valor científico, confusão algorítmica (ver Capítulo 2), e ética.

  4. [ médio , coleção de dados ] Os resultados de uma experiência pode depender dos participantes. Criar um experimento e, em seguida, executá-lo em Amazon Mechanical Turk (MTurk) usando duas estratégias de recrutamento diferentes. Tente escolher as estratégias experimentais e de recrutamento de modo a que os resultados serão tão diferentes quanto possível. Por exemplo, suas estratégias de recrutamento poderia ser para recrutar participantes de manhã e à noite ou para compensar os participantes com alta e baixa remuneração. Esses tipos de diferenças na estratégia de recrutamento poderia levar a diferentes grupos de participantes e diferentes resultados experimentais. Quão diferente é que seus resultados se mostra? O que isso revela sobre a execução de experimentos em MTurk?

  5. [ muito difícil , requer matemática , requer codificação , meu favorito ] Imagine que você estava planejando o estudo Emotional Contagion (Kramer, Guillory, and Hancock 2014) . Use os resultados de um estudo observacional anteriormente por Kramer (2012) para decidir o número de participantes em cada condição. Estes dois estudos não correspondem perfeitamente, então certifique-se de listar explicitamente todos os pressupostos que você faz:

    1. Executar uma simulação que vai decidir quantos participantes teria sido necessária para detectar um efeito tão grande quanto o efeito no Kramer (2012) com \ (\ alpha = 0,05 \) e \ (1 - \ beta = 0,8 \).
    2. Faça o mesmo cálculo analiticamente.
    3. Tendo em conta os resultados de Kramer (2012) foi Contagion emocional (Kramer, Guillory, and Hancock 2014) sobre-alimentado (ou seja, que ele teve mais participantes do que o necessário)?
    4. Das suposições que você fez, que têm o maior efeito sobre o seu cálculo?
  6. [ muito difícil , requer matemática , requer codificação , meu favorito ] Responda a pergunta acima, mas em vez de usar o estudo observacional anteriormente por Kramer (2012) usar os resultados de um experimento natural antes por Coviello et al. (2014) .

  7. [ fácil ] Ambos Rijt et al. (2014) e Margetts et al. (2011) ambos realizar experimentos que estudam o processo de pessoas que assinaram uma petição. Comparar e contrastar a concepção e conclusões destes estudos.

  8. [ fácil ] Dwyer, Maki, and Rothman (2015) conduziram dois experimentos de campo sobre a relação entre normas sociais e comportamentos proenvironmental. Aqui está o resumo de seu papel:

    "Como pode a ciência psicológica ser utilizada para encorajar um comportamento proenvironmental? Em dois estudos, as intervenções destinadas a promover o comportamento conservação de energia em casas de banho públicas examinou as influências das normas descritivas e responsabilidade pessoal. No Estudo 1, o status de luz (isto é, ligado ou desligado) foi manipulado antes que alguém entrou em um banheiro público desocupado, sinalizando a norma descritivo para essa definição. Os participantes eram significativamente mais propensos a desligar as luzes se eles estavam fora quando eles entraram. No Estudo 2, uma condição adicional foi incluído na qual a norma de desligar a luz foi demonstrado por um confederado, mas os participantes não eram eles mesmos responsáveis ​​por ligá-lo. responsabilidade pessoal moderou a influência das normas sociais no comportamento; quando os participantes não foram responsáveis ​​por acender a luz, a influência da norma foi diminuída. Estes resultados indicam como normas e responsabilidade pessoal descritiva pode regular a eficácia das intervenções proenvironmental ".

    Leia o seu papel e projetar uma replicação de estudo 1.

  9. [ médio , coleção de dados ] Com base na pergunta anterior, agora realizar seu projeto.

    1. Como é que os resultados se comparam?
    2. O que pode explicar essas diferenças?
  10. [ médio ] Houve um debate substancial sobre experimentos utilizando participantes recrutados da Amazon Mechanical Turk. Em paralelo, também tem havido um debate importante sobre experimentos utilizando participantes recrutados a partir de populações de graduação do estudante. Escrever um memorando de duas páginas comparando e contrastando as Turkers e estudantes como participantes pesquisadores. Sua comparação deve incluir uma discussão de ambas as questões científicas e logísticas.

  11. [ fácil O livro de] Jim Manzi descontrolada (2012) é uma introdução maravilhosa para o poder de experimentação no negócio. No livro, ele transmitiu esta história:

    "Certa vez eu estava em uma reunião com um verdadeiro gênio de negócios, um bilionário que tinha uma subdeclaração profunda e intuitiva do poder de experimentos. Sua empresa gastou recursos significativos tentando criar grandes loja de vitrines que atraem os consumidores e aumenta as vendas, como a sabedoria convencional diz que deveriam. Especialistas cuidadosamente testados projeto depois de design, e nas sessões de revisão de teste individuais ao longo de um período de anos continuou mostrando nenhum efeito causal significativo de cada novo design display sobre as vendas. Seniores de marketing e merchandising executivos se reuniu com o CEO a avaliar os resultados destes testes históricos em toto. Depois de apresentar todos os dados experimentais, eles concluíram que a sabedoria convencional estava errado, isto vitrines não impulsionar as vendas. Sua ação recomendada era reduzir custos e esforços nesta área. Isto demonstrou dramaticamente a capacidade de experimentação para derrubar a sabedoria convencional. A resposta do CEO era simples: "A minha conclusão é que seus criadores não são muito boas." Sua solução foi aumentar o esforço no projeto de exposição da loja, e para obter novas pessoas para fazê-lo. " (Manzi 2012, 158–9)

    Que tipo de validade é a preocupação do CEO?

  12. [ fácil ] Com base na pergunta anterior, imagine que você estavam na reunião em que os resultados dos experimentos foram discutidos. Quais são quatro perguntas que você poderia pedir, um para cada tipo de validade (estatística, construir, interna e externa)?

  13. [ fácil ] Bernedo, Ferraro, and Price (2014) estuda o efeito da intervenção salvífica de água descrito em sete anos Ferraro, Miranda, and Price (2011) (veja a Figura 4.10). Neste trabalho, Bernedo e colegas também procurar entender o mecanismo por trás do efeito comparando o comportamento das famílias que têm e não se moveram após o tratamento foi entregue. Isto é, a grosso modo, eles tentam ver se o tratamento impactado a casa ou o proprietário.

    1. Ler o jornal, descrevem o seu design, e resumir suas descobertas. b) Essa descoberta afetar o modo como você deve avaliar a relação custo-eficácia das intervenções semelhantes? Se sim, porquê? Se não, por que não?
  14. [ fácil ] Em um follow-up para Schultz et al. (2007) , Schultz e colegas realizar uma série de três experimentos sobre o efeito das normas descritivas e inibitórias em um comportamento ambiental diferente (toalha de reutilização) em dois contextos (um hotel e um condomínio timeshare) (Schultz, Khazian, and Zaleski 2008) .

    1. Resumem a concepção e os resultados destas três experiências.
    2. Como, se em tudo, eles alterar a sua interpretação do Schultz et al. (2007) ?
  15. [ fácil ] Em resposta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) publicou uma série de experimentos de laboratório-like para estudar o projeto de contas de energia elétrica. Veja como eles descrevem-la no resumo:

    "Em um experimento baseado em inquéritos, cada participante viu uma factura de electricidade hipotética para uma família com uso relativamente alta de energia elétrica, abrangendo informações sobre (a) uso histórico, (b) comparações com os vizinhos, e (c) uso histórico, com repartição aparelho. Os participantes viu todos os tipos de informação em um dos três formatos, incluindo (a) tabelas, (b) gráficos de barra, e (c) ícone gráficos. Relatamos três conclusões principais. Em primeiro lugar, os consumidores compreendido cada tipo de informação de energia elétrica de usar a mais quando foi apresentado em uma tabela, talvez porque as tabelas de facilitar a leitura simples ponto. Em segundo lugar, preferências e intenções para economizar eletricidade eram os mais fortes para as informações de uso histórico, independente do formato. Em terceiro lugar, os indivíduos com baixa literacia energia compreendido todas as informações menos ".

    Ao contrário de outros estudos de seguimento, o principal resultado de interesse em Canfield, Bruin, and Wong-Parodi (2016) é relatado comportamento não comportamento real. Quais são os pontos fortes e fracos deste tipo de estudo em um programa de pesquisa mais amplo, promover a poupança de energia?

  16. [ médio , meu favorito ] Smith and Pell (2003) é uma meta-análise satírica de estudos demonstrando a eficácia do pára-quedas. Eles concluem:

    "Tal como acontece com muitas intervenções destinadas a evitar problemas de saúde, a eficácia do pára-quedas não foi submetido a uma avaliação rigorosa, utilizando ensaios clínicos randomizados. Defensores da medicina baseada em evidências têm criticado a adoção de intervenções avaliadas usando apenas os dados observacionais. Pensamos que todos possam se beneficiar se os protagonistas mais radicais da Medicina baseada em evidências organizou e participou em um estudo duplo cego, randomizado, controlado por placebo, estudo cruzado do pára-quedas. "

    Escrever um op-ed adequado para um jornal leitores em geral, como o The New York Times, argumentando contra a fetichização da evidência experimental. Fornecer exemplos específicos e concretos. Dica: Veja também, Bothwell et al. (2016) e Deaton (2010)

  17. [ médio , requer codificação , meu favorito ] Diferença em diferenças estimadores de um efeito do tratamento pode ser mais preciso do que estimadores diferenças em média. Escrever um memorando para um engenheiro encarregado de testes A / B em uma empresa de mídia social start-up explicando o valor da abordagem de diferenças em diferenças para realizar uma experiência online. O memorando deve incluir uma declaração do problema, alguma intuição sobre as condições em que o estimador de diferença em diferenças irá superar o estimador de diferenças em média, e um estudo de simulação simples.

  18. [ fácil , meu favorito ] Gary Loveman foi professor da Harvard Business School antes de se tornar o CEO da Harrah, uma das maiores empresas de casino do mundo. Quando se mudou para Harrah, Loveman transformou a empresa com um programa de fidelidade insecto-como frequente que recolheu enormes quantidades de dados sobre o comportamento do cliente. No topo desta sistema de medição always-on, a empresa começou a executar experimentos. Por exemplo, eles podem executar um experimento para avaliar o efeito de um cupom para uma noite hotel gratuito para os clientes com um padrão de jogo específico. Veja como Loveman descreveu a importância da experimentação de práticas de negócios diárias Harrah:

    "É como se você não assediar as mulheres, você não roubar, e você tem que ter um grupo de controle. Esta é uma das coisas que você pode perder o seu emprego por pelo Harrah's-não execução de um grupo de controle. " (Manzi 2012, 146)

    Escrever um e-mail para um novo funcionário explicando porque Loveman pensa que é tão importante ter um grupo de controle. Você deve tentar incluir um exemplo-real ou fez-se-para ilustrar o seu ponto.

  19. [ difícil , requer matemática ] Um novo experimento tem como objetivo estimar o efeito de receber lembretes de mensagem de texto sobre a captação de vacinação. 150 clínicas, cada um com 600 pacientes elegíveis, estão dispostos a participar. Há um custo fixo de 100 dólares para cada clínica que você quer trabalhar com, e custa 1 dólar para cada mensagem de texto que você deseja enviar. Além disso, quaisquer clínicas que você está trabalhando com a vontade de medir o resultado (se a pessoa recebeu uma vacinação) de forma gratuita. Suponha que você tenha um orçamento de 1000 dólares.

    1. Em que condições pode ser melhor concentrar seus recursos em um pequeno número de clínicas e em que condições pode ele ser melhor para espalhar-los mais amplamente?
    2. Quais os fatores que iria determinar o tamanho do efeito menor que você será capaz de detectar com segurança com o seu orçamento?
    3. Escreva uma nota explicando estes trade-offs a um potencial financiador.
  20. [ difícil , requer matemática ] Um grande problema com cursos on-line é de atrito; muitos estudantes que iniciam cursos acabam soltando-out. Imagine que você está trabalhando em uma plataforma de aprendizagem on-line, e um designer na plataforma criou uma barra de progresso visual que ela acha que vai ajudar a impedir os estudantes de abandono do curso. Você deseja testar o efeito da barra de progresso sobre os estudantes em um grande curso de ciências sociais computacional. Depois de abordar todas as questões éticas que possam surgir na experiência, você e seus colegas ficar preocupado que o curso pode não ter alunos suficientes para detectar de forma fiável os efeitos da barra de progresso. Nos cálculos abaixo você pode assumir que metade dos estudantes receberão a barra de progresso e metade não. Além disso, você pode assumir que não há interferência. Em outras palavras, você pode supor que os participantes só são afetados por se eles receberam o tratamento ou controlo; eles não são efectuadas por se outras pessoas receberam o tratamento ou controlo (para uma definição mais formal, ver Gerber and Green (2012) , Cap. 8). Por favor, manter o controle de todas as suposições adicionais que você faz.

    1. Suponha que se espera que a barra de progresso para aumentar a proporção de alunos que terminam a classe em 1 ponto percentual, o que é o tamanho da amostra necessária para detectar com segurança o efeito?
    2. Suponha que se espera que a barra de progresso para aumentar a proporção de alunos que terminam a classe em 10 pontos percentuais, o que é o tamanho da amostra necessária para detectar com segurança o efeito?
    3. Agora imagine que você tenha executado o experimento e os alunos que tenham concluído todos os materiais do curso ter tomado um exame final. Quando você compara as pontuações finais dos exames dos alunos que receberam a barra de progresso para aqueles que não, você encontrar, para sua surpresa, que os alunos que não receberam a barra de progresso na verdade pontuaram mais alto. Quer isto dizer que a barra de progresso causado os alunos a aprender menos? O que você pode aprender com esses dados de resultado? (Dica: Veja Gerber and Green (2012) , Ch. 7)
  21. [ muito difícil , requer codificação ] Em um artigo adorável, Lewis and Rao (2015) ilustram vividamente uma limitação estatística fundamental de experiências mesmo maciças. O papel que originalmente tinha o provocativo título "Sobre a quase impossibilidade de medir a Volta ao Publicidade" -Mostra como é difícil para medir o retorno sobre o investimento de anúncios on-line, mesmo com experiências digitais envolvendo milhões de clientes. Mais genericamente, o artigo mostra claramente que é difícil estimar pequeno efeito do tratamento em meio a dados de resultados ruidosos. Ou afirmou diffently, o artigo mostra que os efeitos do tratamento estimados terá grandes intervalos de confiança quando o desvio-padrão de impacto-to-(\ (\ frac {\ delta \ bar {y}} {\ sigma} \)) rácio é pequena. A lição geral importante deste trabalho é que os resultados de experimentos com rácio impacto pequeno-to-desvio-padrão (por exemplo, ROI das campanhas de publicidade) será insatisfatório. Seu desafio será o de escrever um memorando para alguém no departamento de sua empresa de marketing evaluting um experimento planejado para medir o ROI de uma campanha publicitária. A sua nota deve ser apoiada com gráficos dos resultados de simulações de computador.

    Aqui estão algumas informações de fundo que você pode precisar. Todos estes valores numéricos são típicos das experiências reais relatados em Lewis and Rao (2015) :

    • ROI, uma métrica chave para campanhas de publicidade on-line, é definido como sendo o lucro líquido da campanha (lucro bruto de menos custo campanha de campanha) dividido pelo custo da campanha. Por exemplo, uma campanha que não teve nenhum efeito sobre as vendas teria um ROI de 100% e uma campanha em que os lucros gerados eram iguais aos custos teria um ROI de 0.

    • as vendas médias por cliente é de R $ 7 com um desvio padrão de US $ 75.

    • a campanha é esperado para aumentar as vendas em US $ 0,35 por cliente que corresponde a um aumento de lucro de US $ 0,175 por cliente. Em outras palavras, a margem bruto é de 50%.

    • o tamanho planeado da experiência é de 200.000 pessoas, metade do grupo de tratamento e a outra metade no grupo de controlo.

    • o custo da campanha é de R $ 0,14 por participante.

    Escrever um memorando evaluting esta experiência. Você recomendaria lançar esta experiência como planejado? Se sim, porquê? Se não, quais mudanças você recomendaria?

    Uma boa nota irá abordar este caso específico; um memorando melhor vai generalizar a partir de neste caso, de uma forma (por exemplo, mostrar como as mudanças de decisões em função do rácio impacto-to-desvio-padrão); e uma grande memo irá apresentar um resultado totalmente generalizada.

  22. [ muito difícil , requer matemática ] Faça o mesmo que a pergunta anterior, mas em vez de simulação você deve usar os resultados analíticos.

  23. [ muito difícil , requer matemática , requer codificação ] Faça o mesmo que a pergunta anterior, mas usar tanto simulação e resultados analíticos.

  24. [ muito difícil , requer matemática , requer codificação ] Imagine que você tenha escrito o memorando descrito acima usando simulação, os resultados analíticos, ou ambos, e alguém do departamento de marketing recomenda o uso de um estimador de diferenças em diferenças ao invés de uma diferença no meio estimador (ver Secção 4.6.2) . Escrever uma nova nota mais curta explicando como uma correlação de 0,4 entre as vendas antes do experimento e vendas após o experimento iria alterar a sua conclusão.

  25. [ difícil , requer matemática ] A fim de avaliar a eficácia de um novo serviço de carreira baseado na Web, um escritório de serviços de carreira da universidade realizou um ensaio clínico aleatório entre os 10.000 estudantes que entram no seu último ano de escola. A inscrição é gratuita com informações de log-in exclusivo foi enviada através de um convite de e-mail exclusivo de 5.000 dos estudantes selecionados aleatoriamente, enquanto os outros 5.000 estudantes estão no grupo controle e não tem uma assinatura. Doze meses depois, uma pesquisa follow-up (sem não-resposta) mostra que, em ambos os grupos de tratamento e de controlo, 70% dos alunos têm garantido emprego a tempo inteiro em seu campo escolhido (Tabela 4.5). Assim, parece que o serviço baseado na web não teve nenhum efeito.

    No entanto, um cientista de dados inteligente na universidade olhou para os dados um pouco mais de perto e constatou que apenas 20% dos estudantes no grupo de tratamento já registrado na conta após o recebimento do e-mail. Além disso, e de forma algo surpreendente, entre aqueles que têm logado no website apenas 60% tinham garantido emprego a tempo inteiro em seu campo escolhido, que foi menor do que a taxa para as pessoas que não fazer login e menor do que a taxa para as pessoas em a condição de controle (Tabela 4.6).

    1. Fornecer uma explicação para o que poderia ter acontecido.
    2. Quais são as duas maneiras diferentes para calcular o efeito do tratamento nesta experiência?
    3. Dado este resultado, deve o serviço carreira universitária fornecer este serviço de carreira baseado na web para todos os alunos? Só para ficar claro, isto não é uma pergunta com uma resposta simples.
    4. O que eles deveriam fazer a seguir?

    Dica: Esta questão vai além do material coberto neste capítulo, mas aborda questões comuns em experimentos. Este tipo de projeto experimental é chamado às vezes um design incentivo porque os participantes são encorajados a se engajar no tratamento. Este problema é um exemplo do que é chamado de um lado não-conformidade (ver Gerber and Green (2012) , cap. 5)

  26. [ difícil ] Depois de uma análise mais aprofundada, verifica-se que o experimento descrito na pergunta anterior foi ainda mais complicada. Acontece que 10% das pessoas do grupo de controle pago para acesso ao serviço, e eles acabaram com uma taxa de emprego de 65% (Tabela 4.7).

    1. Escrever um e-mail resumindo o que você acha que está acontecendo e recomendar um curso de ação.

    Dica: Esta questão vai além do material coberto neste capítulo, mas aborda questões comuns em experimentos. Este problema é um exemplo do que é chamado de frente e verso não-conformidade (ver Gerber and Green (2012) , cap. 6)

Tabela 4.5: Vista simples de dados do experimento de serviços de carreira.
Grupo Tamanho Taxa de emprego
acesso concedido ao site 5.000 70%
Não concedido acesso ao site 5.000 70%
Tabela 4.6: visão mais completa dos dados do experimento de serviços de carreira.
Grupo Tamanho Taxa de emprego
Concedido acesso ao site e logado 1.000 60%
Concedido acesso ao site e nunca logado 4.000 85%
Não concedido acesso ao site 5.000 70%
Tabela 4.7: Visualização completa dos dados do experimento de serviços de carreira.
Grupo Tamanho Taxa de emprego
Concedido acesso ao site e logado 1.000 60%
Concedido acesso ao site e nunca logado 4.000 72,5%
Não concedido acesso ao site e pagou por ele 500 65%
Não concedido acesso ao site e não pagar por isso 4.500 70,56%