[ , Berinsky e colegas (2012) avaliaram MTurk, em parte, replicando três experimentos clássicos. Replicar o clássico experimento de enquadramento da doença asiática por Tversky and Kahneman (1981) . Seus resultados correspondem aos de Tversky e Kahneman? Os seus resultados correspondem aos de Berinsky e colegas? O que - se alguma coisa - isso nos ensina sobre o uso do MTurk para experimentos de pesquisa?
[ , Num artigo um tanto irônico, intitulado “Nós temos que romper”, o psicólogo social Robert Cialdini, um dos autores de Schultz et al. (2007) , escreveu que ele estava se aposentando cedo de seu trabalho como professor, em parte por causa dos desafios que enfrentou fazendo experimentos de campo em uma disciplina (psicologia) que conduz principalmente experimentos de laboratório (Cialdini 2009) . Leia o artigo de Cialdini e escreva-lhe um e-mail pedindo-lhe que reconsidere sua separação à luz das possibilidades dos experimentos digitais. Use exemplos específicos de pesquisas que abordem suas preocupações.
[ ] Para determinar se pequenos sucessos iniciais se fecham ou desaparecem, van de Rijt e colegas (2014) interveio em quatro sistemas diferentes, dando sucesso em participantes selecionados aleatoriamente, e então mediu os impactos a longo prazo desse sucesso arbitrário. Você consegue pensar em outros sistemas nos quais você poderia realizar experiências semelhantes? Avalie esses sistemas em termos de questões de valor científico, confundimento algorítmico (ver capítulo 2) e ética.
[ , ] Os resultados de um experimento podem depender dos participantes. Crie uma experiência e, em seguida, execute-a no MTurk usando duas estratégias de recrutamento diferentes. Tente escolher a experiência e as estratégias de recrutamento para que os resultados sejam os mais diferentes possíveis. Por exemplo, suas estratégias de recrutamento poderiam ser recrutar participantes de manhã e à noite ou compensar os participantes com salários altos e baixos. Esses tipos de diferenças na estratégia de recrutamento podem levar a diferentes grupos de participantes e diferentes resultados experimentais. Quão diferentes foram os resultados? O que isso revela sobre a execução de experimentos no MTurk?
[ , , Imagine que você estivesse planejando o experimento do Contágio Emocional (Kramer, Guillory, and Hancock 2014) . Use os resultados de um estudo observacional anterior de Kramer (2012) para decidir o número de participantes em cada condição. Esses dois estudos não combinam perfeitamente, portanto, certifique-se de listar explicitamente todas as suposições feitas:
[ , , ] Responda à pergunta anterior novamente, mas desta vez, em vez de usar o estudo observacional anterior de Kramer (2012) , use os resultados de um experimento natural anterior de Lorenzo Coviello et al. (2014) .
[ Ambos Margetts et al. (2011) e van de Rijt et al. (2014) realizaram experimentos estudando o processo de pessoas assinarem uma petição. Compare e contraste os desenhos e resultados desses estudos.
[ Dwyer, Maki, and Rothman (2015) realizaram dois experimentos de campo sobre a relação entre normas sociais e comportamento pró-ambiental. Aqui está o resumo do artigo deles:
“Como a ciência psicológica pode ser utilizada para incentivar o comportamento pró-ambiental? Em dois estudos, as intervenções destinadas a promover o comportamento de conservação de energia em banheiros públicos examinaram as influências das normas descritivas e da responsabilidade pessoal. No Estudo 1, o status da luz (ou seja, ligado ou desligado) foi manipulado antes que alguém entrasse em um banheiro público desocupado, sinalizando a norma descritiva para esse cenário. Os participantes foram significativamente mais propensos a desligar as luzes se eles estavam fora quando eles entraram. No Estudo 2, foi incluída uma condição adicional na qual a norma de desligar a luz era demonstrada por um confederado, mas os participantes não eram responsáveis por ativá-lo. A responsabilidade pessoal moderou a influência das normas sociais no comportamento; quando os participantes não eram responsáveis por acender a luz, a influência da norma era diminuída. Esses resultados indicam como as normas descritivas e a responsabilidade pessoal podem regular a eficácia das intervenções pro-ambientais ”.
Leia o artigo e projete uma replicação do estudo 1.
[ , ] Com base na pergunta anterior, agora execute seu projeto.
[ Houve um debate substancial sobre experimentos usando participantes recrutados do MTurk. Paralelamente, houve também um debate substancial sobre experimentos usando participantes recrutados de populações de estudantes de graduação. Escreva um memorando de duas páginas comparando e contrastando turkers e universitários como participantes da pesquisa. Sua comparação deve incluir uma discussão de questões científicas e logísticas.
[ O livro de Jim Manzi, Uncontrolled (2012) é uma introdução maravilhosa ao poder da experimentação nos negócios. No livro ele retransmitiu a seguinte história:
“Certa vez, eu estava em uma reunião com um verdadeiro gênio dos negócios, um bilionário autodidata que tinha um profundo e intuitivo entendimento do poder dos experimentos. Sua empresa gastava recursos significativos tentando criar grandes vitrines que atraíssem consumidores e aumentassem as vendas, como a sabedoria convencional dizia que deveriam. Os especialistas testaram cuidadosamente o projeto após o projeto e, em sessões individuais de revisão de testes, durante um período de anos, não mostraram nenhum efeito causal significativo de cada novo design de exibição nas vendas. Executivos sênior de marketing e merchandising reuniram-se com o CEO para revisar os resultados dos testes históricos. Depois de apresentar todos os dados experimentais, eles concluíram que a sabedoria convencional estava errada - que as vitrines não geram vendas. Sua ação recomendada foi reduzir custos e esforços nessa área. Isso demonstrou dramaticamente a capacidade da experimentação de derrubar a sabedoria convencional. A resposta do CEO foi simples: "Minha conclusão é que seus designers não são muito bons". Sua solução foi aumentar o esforço no design de expositores de lojas e fazer com que novas pessoas o fizessem. ” (Manzi 2012, 158–9)
Qual tipo de validade é a preocupação do CEO?
[ ] Com base na pergunta anterior, imagine que você estava na reunião em que os resultados dos experimentos foram discutidos. Quais são as quatro perguntas que você poderia fazer - uma para cada tipo de validade (estatística, construção, interna e externa)?
[ Bernedo, Ferraro, and Price (2014) estudaram o efeito de sete anos da intervenção de economia de água descrita em Ferraro, Miranda, and Price (2011) (ver figura 4.11). Neste artigo, Bernedo e seus colegas também procuraram entender o mecanismo por trás do efeito comparando o comportamento de famílias que mudaram ou não após o término do tratamento. Isso é, grosso modo, eles tentaram ver se o tratamento impactou a casa ou o proprietário.
[ ] Em uma continuação de Schultz et al. (2007) , Schultz e colegas realizaram uma série de três experimentos sobre o efeito de normas descritivas e injuntivas em um comportamento ambiental diferente (reutilização de toalhas) em dois contextos (um hotel e um condomínio de timeshare) (Schultz, Khazian, and Zaleski 2008) .
[ ] Em resposta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) realizaram uma série de experimentos em laboratório para estudar o projeto de contas de energia elétrica. Veja como eles descrevem o resumo:
“Em um experimento baseado em pesquisa, cada participante viu uma hipotética conta de eletricidade para uma família com uso de eletricidade relativamente alto, cobrindo informações sobre (a) uso histórico, (b) comparações com vizinhos e (c) uso histórico com quebra de eletrodomésticos. Os participantes viram todos os tipos de informações em um dos três formatos, incluindo (a) tabelas, (b) gráficos de barras e (c) gráficos de ícones. Nós relatamos três principais descobertas. Primeiro, os consumidores entenderam cada tipo de informação de uso de eletricidade mais quando foi apresentada em uma tabela, talvez porque as tabelas facilitam a leitura simples de pontos. Em segundo lugar, as preferências e intenções de economizar eletricidade foram as mais fortes para a informação de uso histórico, independente do formato. Em terceiro lugar, os indivíduos com baixa literacia energética compreendiam menos todas as informações. ”
Ao contrário de outros estudos de acompanhamento, o principal resultado de interesse em Canfield, Bruin, and Wong-Parodi (2016) é o comportamento relatado, não o comportamento real. Quais são os pontos fortes e fracos deste tipo de estudo em um programa de pesquisa mais amplo que promove a economia de energia?
[ , Smith and Pell (2003) apresentaram uma metanálise satírica de estudos que demonstram a eficácia dos pára-quedas. Eles concluíram:
“Tal como acontece com muitas intervenções destinadas a prevenir problemas de saúde, a eficácia dos pára-quedas não foi submetida a avaliações rigorosas utilizando ensaios controlados aleatorizados. Defensores da medicina baseada em evidências criticaram a adoção de intervenções avaliadas usando apenas dados observacionais. Achamos que todos poderiam se beneficiar se os protagonistas mais radicais da medicina baseada em evidências organizassem e participassem de um ensaio duplo-cego, randomizado, controlado por placebo e cruzado do pára-quedas. ”
Escreva um artigo adequado para um jornal de leitura geral, como o New York Times , argumentando contra a fetichização de evidências experimentais. Forneça exemplos específicos e concretos. Dica: Veja também Deaton (2010) e Bothwell et al. (2016) .
[ , , Os estimadores de diferença-em-diferenças de um efeito de tratamento podem ser mais precisos do que os estimadores de diferença em média. Escreva um memorando para um engenheiro encarregado do teste A / B em uma empresa iniciante de mídia social explicando o valor da abordagem diferença-em-diferenças para executar um experimento on-line. O memorando deve incluir uma declaração do problema, alguma intuição sobre as condições sob as quais o estimador diferença-em-diferença superará o estimador diferença-em-média e um simples estudo de simulação.
[ , Gary Loveman foi professor da Harvard Business School antes de se tornar CEO da Harrah's, uma das maiores empresas de cassino do mundo. Quando ele se mudou para a Harrah's, Loveman transformou a empresa com um programa de fidelidade que exibia uma quantidade enorme de dados sobre o comportamento do cliente. Além desse sistema de medição sempre ativo, a empresa começou a realizar experimentos. Por exemplo, eles podem realizar um experimento para avaliar o efeito de um cupom para uma diária gratuita de hotel para clientes com um padrão de jogo específico. Veja como Loveman descreveu a importância da experimentação para as práticas comerciais diárias da Harrah:
“É como se você não assediasse as mulheres, não roubasse e tivesse um grupo de controle. Essa é uma das coisas pelas quais você pode perder seu emprego no Harrah's - não administrar um grupo de controle. ” (Manzi 2012, 146)
Escreva um e-mail para um novo funcionário explicando porque Loveman acha que é tão importante ter um grupo de controle. Você deve tentar incluir um exemplo - seja real ou inventado - para ilustrar seu ponto.
[ , Um novo experimento visa estimar o efeito de receber lembretes de mensagens de texto sobre a captação de vacinas. Cento e cinquenta clínicas, cada uma com 600 pacientes elegíveis, estão dispostas a participar. Há um custo fixo de US $ 100 para cada clínica com a qual você deseja trabalhar e custa US $ 1 para cada mensagem de texto que você deseja enviar. Além disso, quaisquer clínicas com as quais você esteja trabalhando medirão o resultado (se alguém recebeu uma vacina) de graça. Suponha que você tenha um orçamento de US $ 1.000.
[ , Um dos principais problemas dos cursos on-line é o atrito: muitos alunos que iniciam cursos acabam desistindo. Imagine que você esteja trabalhando em uma plataforma de aprendizado on-line e um designer da plataforma criou uma barra de progresso visual que, segundo ela, ajudará a impedir que os alunos abandonem o curso. Você quer testar o efeito da barra de progresso nos alunos de um grande curso de ciências sociais computacionais. Depois de abordar qualquer questão ética que possa surgir no experimento, você e seus colegas ficam preocupados com a possibilidade de o curso não ter alunos suficientes para detectar com segurança os efeitos da barra de progresso. Nos cálculos seguintes, você pode assumir que metade dos alunos receberá a barra de progresso e metade não. Além disso, você pode assumir que não há interferência. Em outras palavras, você pode assumir que os participantes são afetados apenas por receberem o tratamento ou controle; elas não são afetadas pelo fato de outras pessoas receberem o tratamento ou controle (para uma definição mais formal, ver capítulo 8 de Gerber and Green (2012) ). Acompanhe todas as suposições adicionais que você faz.
[ , , Imagine que você esteja trabalhando como cientista de dados em uma empresa de tecnologia. Alguém do departamento de marketing pede sua ajuda para avaliar um experimento que está planejando para medir o retorno do investimento (ROI) de uma nova campanha publicitária on-line. O ROI é definido como o lucro líquido da campanha dividido pelo custo da campanha. Por exemplo, uma campanha que não teve efeito sobre as vendas teria um ROI de -100%; uma campanha em que os lucros gerados fossem iguais aos custos teria um ROI de 0; e uma campanha em que os lucros gerados fossem o dobro do custo teria um ROI de 200%.
Antes de iniciar o experimento, o departamento de marketing fornece as seguintes informações com base em suas pesquisas anteriores (na verdade, esses valores são típicos das campanhas publicitárias online reais relatadas em Lewis e Rao (2015) ):
Escreva um memorando avaliando este experimento proposto. Seu memorando deve usar evidências de uma simulação criada por você e deve abordar dois problemas principais: (1) Você recomendaria o lançamento desse experimento como planejado? Se sim, porque? Se não, por que não? Certifique-se de ser claro sobre os critérios que você está usando para tomar essa decisão. (2) Qual tamanho de amostra você recomendaria para este experimento? Novamente, por favor, certifique-se de ser claro sobre os critérios que você está usando para tomar essa decisão.
Um bom memorando abordará esse caso específico; um memorando melhor irá generalizar a partir deste caso de uma maneira (por exemplo, mostrar como a decisão muda em função do tamanho do efeito da campanha); e um ótimo memorando apresentará um resultado totalmente generalizado. Seu memorando deve usar gráficos para ajudar a ilustrar seus resultados.
Aqui estão duas dicas. Primeiro, o departamento de marketing pode ter lhe fornecido algumas informações desnecessárias e elas podem ter falhado em fornecer algumas informações necessárias. Segundo, se você estiver usando R, esteja ciente de que a função rlnorm () não funciona da maneira que muitas pessoas esperam.
Esta atividade lhe dará prática com análise de poder, criando simulações e comunicando seus resultados com palavras e gráficos. Ele deve ajudar você a conduzir análises de energia para qualquer tipo de experiência, não apenas experimentos projetados para estimar o ROI. Esta atividade pressupõe que você tenha alguma experiência com testes estatísticos e análise de energia. Se você não estiver familiarizado com a análise de potência, recomendo que você leia “A Power Primer” de Cohen (1992) .
Esta atividade foi inspirada por um adorável artigo de RA Lewis and Rao (2015) , que ilustra vividamente uma limitação estatística fundamental até mesmo de experimentos massivos. Seu artigo - que originalmente tinha o título provocativo “Sobre a quase impossibilidade de medir os retornos da publicidade” - mostra como é difícil medir o retorno sobre o investimento de anúncios on-line, mesmo com experimentos digitais envolvendo milhões de clientes. De maneira mais geral, RA Lewis and Rao (2015) ilustram um fato estatístico fundamental que é particularmente importante para experimentos com a era digital: é difícil estimar pequenos efeitos do tratamento em meio a dados de resultados ruidosos.
[ , Faça o mesmo que a pergunta anterior, mas, em vez de simulação, você deve usar resultados analíticos.
[ , , ] Faça o mesmo que a pergunta anterior, mas use tanto a simulação quanto os resultados analíticos.
[ , , Imagine que você tenha escrito o memorando descrito acima, e alguém do departamento de marketing forneça uma nova informação: eles esperam uma correlação de 0,4 entre as vendas antes e depois do experimento. Como isso altera as recomendações no seu memorando? (Dica: veja a seção 4.6.2 para mais informações sobre o estimador de diferença de médias e o estimador de diferença-em-diferenças.)
[ , ] Para avaliar a eficácia de um novo programa de assistência ao emprego baseado na Internet, uma universidade realizou um teste aleatório de controle entre 10 mil estudantes que entram no último ano da escola. Uma assinatura gratuita com informações exclusivas de login foi enviada por meio de um convite exclusivo por e-mail para 5.000 dos alunos selecionados aleatoriamente, enquanto os outros 5.000 alunos estavam no grupo de controle e não tinham uma assinatura. Doze meses depois, uma pesquisa de acompanhamento (sem nenhuma resposta) mostrou que, tanto no grupo de tratamento quanto no de controle, 70% dos estudantes conseguiram um emprego em tempo integral no campo escolhido (tabela 4.6). Assim, parecia que o serviço baseado na web não teve efeito.
No entanto, um cientista de dados inteligente da universidade examinou os dados um pouco mais de perto e descobriu que apenas 20% dos alunos do grupo de tratamento já tinham feito login na conta depois de receber o e-mail. Além disso, e de forma surpreendente, entre os que acessaram o site, apenas 60% conseguiram um emprego em tempo integral em seu campo escolhido, que foi menor que a taxa para pessoas que não fizeram login e menor que a taxa para pessoas na condição de controle (tabela 4.7).
Dica: essa questão vai além do material abordado neste capítulo, mas aborda problemas comuns em experimentos. Este tipo de desenho experimental é às vezes chamado de desenho de encorajamento porque os participantes são encorajados a se engajar no tratamento. Esse problema é um exemplo do que é chamado de não-adesão unilateral (ver capítulo 5 de Gerber and Green (2012) ).
[ Depois de um exame mais aprofundado, descobriu-se que o experimento descrito na pergunta anterior era ainda mais complicado. Descobriu-se que 10% das pessoas do grupo de controle pagavam pelo acesso ao serviço e acabaram com uma taxa de emprego de 65% (tabela 4.8).
Dica: essa questão vai além do material abordado neste capítulo, mas aborda problemas comuns em experimentos. Esse problema é um exemplo do que é chamado de não-conformidade bilateral (veja o capítulo 6 de Gerber and Green (2012) ).
Grupo | Tamanho | Taxa de emprego |
---|---|---|
Acesso concedido ao site | 5.000 | 70% |
Não é concedido acesso ao site | 5.000 | 70% |
Grupo | Tamanho | Taxa de emprego |
---|---|---|
Concedido acesso ao site e logado | 1.000 | 60% |
Concedido acesso ao site e nunca logado | 4.000 | 72,5% |
Não é concedido acesso ao site | 5.000 | 70% |
Grupo | Tamanho | Taxa de emprego |
---|---|---|
Concedido acesso ao site e logado | 1.000 | 60% |
Concedido acesso ao site e nunca logado | 4.000 | 72,5% |
Não é concedido acesso ao site e pago por isso | 500 | 65% |
Não foi concedido acesso ao site e não pagou por isso | 4.500 | 70,56% |