Esta secção destina-se a ser usado como uma referência, em vez de ser lido como uma narrativa.
Perguntas sobre a causalidade na pesquisa social são muitas vezes complexa e intrincada. Para uma abordagem fundamental para a causalidade com base em gráficos causais, consulte Pearl (2009) , e por uma abordagem fundamental baseada em resultados potenciais, consulte Imbens and Rubin (2015) (e o apêndice técnico neste capítulo). Para uma comparação entre essas duas abordagens, consulte Morgan and Winship (2014) . Para uma abordagem formal para definir um fator de confusão, consulte VanderWeele and Shpitser (2013) .
No capítulo, eu criei o que parecia ser uma linha clara entre a nossa capacidade de fazer estimativas causais a partir de dados experimentais e não-experimentais. Na realidade, acho que a distinção é mais desfocada. Por exemplo, todo mundo aceita que fumar causa câncer, apesar de nunca ter feito um experimento controlado randomizado que obriga as pessoas a fumar. Para excelentes tratamentos comprimento livro sobre como fazer estimativas causais a partir de dados não-experimentais ver Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , e Dunning (2012) .
Os capítulos 1 e 2 do Freedman, Pisani, and Purves (2007) oferecem uma introdução clara para as diferenças entre os experimentos, experimentos controlados e randomizados experimentos controlados.
Manzi (2012) fornece uma introdução fascinante e legível para os fundamentos filosóficos e estatísticos de experimentos aleatórios controlados. Ele também fornece exemplos interessantes do mundo real do poder de experimentação no negócio.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) fornecem boas introduções aos aspectos estatísticos do delineamento experimental e análise. Além disso, existem excelentes tratamentos do uso de experiências em diversos campos: economia (Bardsley et al. 2009) , sociologia (Willer and Walker 2007; Jackson and Cox 2013) , psicologia (Aronson et al. 1989) , a ciência política (Morton and Williams 2010) , e da política social (Glennerster and Takavarasha 2013) .
A importância do recrutamento de participantes (por exemplo, amostragem) é muitas vezes subestimado em pesquisa experimental. No entanto, se o efeito do tratamento é heterogêneo na população, então a amostragem é crítica. Longford (1999) torna este ponto claramente quando ele defende para os investigadores a pensar em experimentos como um levantamento populacional, com amostragem aleatória.
A dicotomia que apresentei entre laboratório e de campo experimentos é um pouco simplificado. Na verdade, outros pesquisadores têm proposto tipologias mais detalhadas, nomeadamente os que separam as diversas formas de experimentos de campo (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Além disso, há outros dois tipos de experimentos realizados pelos cientistas sociais que não se encaixam perfeitamente no laboratório e no campo dicotomia:. Experimentos de pesquisa e experimentos sociais experimentos da pesquisa são experimentos utilizando a infra-estrutura de inquéritos existentes e comparar as respostas para as versões alternativas do mesmas perguntas (algumas experiências da pesquisa são apresentados no Capítulo 3); Para saber mais sobre as experiências de pesquisa ver Mutz (2011) . experimentos sociais são experimentos onde o tratamento é alguma política social que só pode ser implementada por um governo. experiências sociais estão intimamente relacionadas com o programa de avaliação. Para saber mais sobre as experiências de política, consulte Orr (1998) , Glennerster and Takavarasha (2013) e Heckman and Smith (1995) .
Um número de trabalhos têm comparado laboratório e de campo experimentos em abstracto (Falk and Heckman 2009; Cialdini 2009) e em termos de resultados de experimentos específicos em ciência política (Coppock and Green 2015) , economia (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) e psicologia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) oferece um desenho de pesquisa agradável para comparar resultados de laboratório e de campo experimentos.
Preocupações sobre os participantes mudando seu comportamento, porque eles sabem que estão sendo observados de perto às vezes são chamados efeitos na procura, e eles têm sido estudados em psicologia (Orne 1962) e economia (Zizzo 2009) . Embora na maior parte associado com experiências de laboratório, essas mesmas questões podem causar problemas para experimentos de campo também. Na verdade, os efeitos de demanda são também, por vezes chamados de efeitos de Hawthorne, um termo que deriva de um experimento de campo, especificamente as famosas experiências de iluminação, que começou em 1924 nas obras de Hawthorne da Western Electric Company (Adair 1984; Levitt and List 2011) . Ambos os efeitos de demanda e efeitos Hawthorn estão intimamente relacionados com a idéia de medida reativa discutido no Capítulo 2 (ver também Webb et al. (1966) ).
A história dos experimentos de campo tem sido descrito em economia (Levitt and List 2009) , a ciência política (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psicologia (Shadish 2002) , e políticas públicas (Shadish and Cook 2009) . Uma área da ciência social onde experimentos de campo rapidamente se tornou proeminente é o desenvolvimento internacional. Para uma revisão positiva de que o trabalho dentro da economia ver Banerjee and Duflo (2009) , e por uma avaliação crítica ver Deaton (2010) . Para uma revisão deste trabalho em ciência política ver Humphreys and Weinstein (2009) . Finalmente, os desafios éticos envolvidos com experimentos de campo foram explorados em ciência política (Humphreys 2015; Desposato 2016b) e economia do desenvolvimento (Baele 2013) .
No capítulo, sugeriu que a informação pré-tratamento pode ser utilizado para melhorar a precisão da estimativa de efeitos de tratamento, mas há algum debate sobre esta abordagem: Freedman (2008) , Lin (2013) , e Berk et al. (2013) ; veja Bloniarz et al. (2016) para mais informações.
Eu escolhi a concentrar-se em três conceitos: validade, a heterogeneidade dos efeitos do tratamento e mecanismos. Estes conceitos têm nomes diferentes em diferentes campos. Por exemplo, os psicólogos tendem a mover-se além experimentos simples, concentrando-se mediadores e moderadores (Baron and Kenny 1986) . A ideia de mediadores é capturado pelo que eu chamo de mecanismos, ea ideia de moderadores é capturado pelo que eu chamo de validade externa (por exemplo, se os resultados do experimento seria diferente se ele foi executado em diferentes situações) ea heterogeneidade dos efeitos do tratamento ( por exemplo, são os efeitos maiores para algumas pessoas do que outras pessoas).
O experimento de Schultz et al. (2007) mostra como as teorias social pode ser usada para projetar intervenções eficazes. Para um argumento mais geral sobre o papel da teoria na concepção de intervenções eficazes, consulte Walton (2014) .
Os conceitos de validade interna e externa foram introduzidos pela primeira vez em Campbell (1957) . Veja Shadish, Cook, and Campbell (2001) para uma história mais detalhada e uma elaboração cuidadosa de validade conclusão estatística, validade interna, validade do construto e validade externa.
Para uma visão geral das questões relacionadas à validade conclusão estatística em experimentos ver Gerber and Green (2012) (para uma perspectiva das ciências sociais) e Imbens and Rubin (2015) (para uma perspectiva estatística). Algumas questões de validade conclusão estatística que surgem especificamente em experimentos de campo online incluem questões como métodos computacionalmente eficientes para a criação de intervalos de confiança com os dados dependentes (Bakshy and Eckles 2013) .
A validade interna pode ser difícil de assegurar, em experimentos de campo complexos. Veja, por exemplo, Gerber and Green (2000) , Imai (2005) , e Gerber and Green (2005) para o debate sobre a implementação de um experimento de campo complexa sobre a votação. Kohavi et al. (2012) e Kohavi et al. (2013) fornecem uma introdução sobre os desafios de validade intervalo em experimentos de campo on-line.
Uma das principais preocupações com validade interna é problemas com a randomização. Uma maneira de potencialmente detectar problemas com a randomização é comparar os grupos de tratamento e controle sobre as características observáveis. Este tipo de comparação é chamado de verificação de saldo. Veja Hansen and Bowers (2008) para uma abordagem estatística para equilibrar cheques, e veja Mutz and Pemantle (2015) para preocupações sobre cheques de equilíbrio. Por exemplo, usando uma balança vá Allcott (2011) descobriram que há alguma evidência de que a randomização não foi implementado correctamente em três experiências em algumas das experiências Opower (ver Tabela 2; sítios 2, 6, e 8). Para outras abordagens, consulte Imbens and Rubin (2015) , Capítulo 21.
Outras grandes preocupações relacionadas com a validade interna são: 1) unilateral não-conformidade, em que nem toda a gente no grupo de tratamento efectivamente recebido o tratamento, 2) dois lados não cumprimento, em que nem todos no grupo de tratamento recebe o tratamento e alguns pessoas no grupo de controlo recebem o tratamento, 3) de atrito, em que os resultados não são medidos para alguns participantes, e interferência 4), em que o tratamento se repercute de pessoas na condição de tratamento para pessoas na condição de controlo. Veja Gerber and Green (2012) os capítulos 5, 6, 7 e 8 para mais informações sobre cada uma dessas questões.
Para saber mais sobre a validade da construção, ver Westen and Rosenthal (2003) , e para saber mais sobre a validade da construção em fontes de dados grandes, Lazer (2015) e no Capítulo 2 deste livro.
Um aspecto da validade externa é o cenário em que uma intervenção é testada. Allcott (2015) fornece um tratamento teórico e empírico cuidado de viés de seleção site. Este problema também é discutido em Deaton (2010) . Além de ser replicado em muitos locais, a intervenção inicial Relatório de Energia também foi independentemente estudado por vários grupos de pesquisa (por exemplo, Ayres, Raseman, and Shih (2013) ).
Para uma excelente visão geral da heterogeneidade dos efeitos do tratamento em experimentos de campo, consulte o Capítulo 12 da Gerber and Green (2012) . Para introduções a heterogeneidade dos efeitos do tratamento em ensaios clínicos, consulte Kent and Hayward (2007) , Longford (1999) , e Kravitz, Duan, and Braslow (2004) . A heterogeneidade dos efeitos do tratamento centram-se geralmente sobre as diferenças com base em características de pré-tratamento. Se você estiver interessado em heterogeneidade baseada nos resultados pós-tratamento, em seguida, se recursos mais complexos são necessários, tais como o principal estratificação (Frangakis and Rubin 2002) ; veja Page et al. (2015) para uma revisão.
Muitos pesquisadores estimam a heterogeneidade dos efeitos do tratamento usando regressão linear, mas os métodos mais recentes contam com aprendizagem de máquina, por exemplo, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , e Athey and Imbens (2016a) .
Há algum ceticismo sobre as descobertas da heterogeneidade de efeitos por causa de vários problemas de comparação e "pesca". Há uma variedade de abordagens estatísticas que podem ajudar a responder às preocupações sobre comparação múltipla (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Uma abordagem para preocupações sobre "pesca" é pré-registo, que está se tornando cada vez mais comum na psicologia (Nosek and Lakens 2014) , ciência política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) e economia (Olken 2015) .
No estudo da Costa and Kahn (2013) apenas cerca de metade dos agregados familiares no experimento foram capazes de estar ligada à informação demográfica. Os leitores interessados nos detalhes e possíveis problemas com esta análise deve consultar o trabalho original.
Mecanismos são extremamente importantes, mas eles acabam por ser muito difíceis de estudar. Investigação sobre os mecanismos intimamente relacionado com o estudo de mediadores em psicologia (mas ver também VanderWeele (2009) para uma comparação precisa entre as duas idéias). Abordagens estatísticas para mecanismos de encontrar, como a abordagem desenvolvida no Baron and Kenny (1986) , são bastante comuns. Infelizmente, verifica-se que esses procedimentos dependem de alguns pressupostos fortes (Bullock, Green, and Ha 2010) e sofrem quando há vários mecanismos, como se poderia esperar em muitas situações (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) e Imai and Yamamoto (2013) oferecem alguns métodos estatísticos melhorados. Além disso, VanderWeele (2015) oferece um tratamento de livro de comprimento, com uma série de resultados importantes, incluindo uma abordagem abrangente para análise de sensibilidade.
Uma abordagem separada concentra-se em experimentos que tentam manipular o mecanismo directamente (por exemplo, dando marinheiros vitamina C). Infelizmente, em muitos ambientes de ciências sociais muitas vezes há vários mecanismos e é difícil de conceber tratamentos que mudam um sem mudar os outros. Algumas abordagens para experimentalmente mecanismos que alteram são descritos em Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , e Pirlott and MacKinnon (2016) .
Finalmente, os mecanismos também têm uma longa história na filosofia da ciência, como descrito por Hedström and Ylikoski (2010) .
Para saber mais sobre o uso de estudos de correspondência e estudos de auditoria para medir a discriminação ver Pager (2007) .
A maneira mais comum para recrutar participantes para experimentos que você constrói é Amazon Mechanical Turk (MTurk). Porque MTurk imita aspectos das experiências de pagamento de laboratório tradicionais de pessoas para completar tarefas que não faria por pesquisadores free-muitos já começaram a usar Turkers (os trabalhadores sobre MTurk) como participantes em seres humanos experiências resultantes da recolha de dados mais rápido e mais barato do que o tradicional experimentos de laboratório no campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
A maior força de experiências com os participantes recrutados MTurk são logístico: eles permitem que os investigadores a recrutar participantes de forma rápida e conforme necessário. Considerando que as experiências de laboratório pode levar semanas para correr e experimentos de campo pode levar meses para set-up, as experiências com os participantes recrutados MTurk pode ser executado em dias. Por exemplo, Berinsky, Huber, and Lenz (2012) foram capazes de recrutar 400 pessoas em um único dia para participar de um experimento oito minutos. Além disso, esses participantes podem ser recrutados para praticamente qualquer finalidade (incluindo inquéritos e colaboração em massa, como discutido nos capítulos 3 e 5). Esta facilidade de recrutamento significa que os investigadores podem executar sequências de experimentos relacionados em rápida sucessão.
Antes de recrutar participantes de MTurk para suas próprias experiências, há quatro coisas importantes a saber. Em primeiro lugar, muitos pesquisadores têm um ceticismo não específica de experimentos envolvendo Turkers. Porque esse ceticismo não é específico, é difícil de combater com a evidência. No entanto, após vários anos de estudos utilizando Turkers, agora podemos concluir que esse ceticismo não é especialmente necessário. Tem havido muitos estudos comparando os dados demográficos de Turkers a outras populações e muitos estudos comparando resultados de experiências com Turkers aos resultados de outras populações. Dado todo esse trabalho, eu acho que a melhor maneira para você pensar sobre isso é que Turkers são uma amostra de conveniência razoável, bem como estudantes, mas ligeiramente mais diversificada (Berinsky, Huber, and Lenz 2012) . Assim, da mesma maneira que os estudantes são uma população razoável para alguns, mas nem toda a investigação experimental, Turkers são uma população razoável para alguns, mas não todas as pesquisas. Se você estiver indo para trabalhar com Turkers, então faz sentido ler muitos destes estudos comparativos e entender suas nuances.
Em segundo lugar, os pesquisadores desenvolveram melhores práticas para aumentar a validade interna de experimentos Turk, e você deve aprender sobre e siga estas melhores práticas (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Por exemplo, os pesquisadores utilizam Turkers são incentivados a utilizar screeners para remover participantes desatentos (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (ver igualmente DJ Hauser and Schwarz (2015b) e DJ Hauser and Schwarz (2015a) ). Se você não remover participantes desatentos, então qualquer efeito do tratamento pode ser lavado para fora pelo ruído introduzido a partir de participantes desatentos, e na prática, o número de participantes desatento pode ser substancial. No experimento de Huber e colegas (2012) cerca de 30% dos participantes falharam crivos atenção básica. Outro problema comum com Turkers é participantes não-ingénuos (Chandler et al. 2015) .
Em terceiro lugar, em relação a outras formas de experiências digitais, experiências MTurk pode não à escala; Stewart et al. (2015) estima que, em determinado momento, existem apenas cerca de 7.000 pessoas em MTurk.
Finalmente, você deve saber que MTurk é uma comunidade com suas próprias regras e normas (Mason and Suri 2012) . Da mesma forma que você iria tentar descobrir mais sobre a cultura de um país onde você estava indo para executar suas experiências, você deve tentar descobrir mais sobre a cultura e as normas de Turkers (Salehi et al. 2015) . E, você deve saber que os Turkers estará falando sobre sua experiência se você fizer algo inadequado ou antiético (Gray et al. 2016) .
MTurk é uma maneira extremamente conveniente para recrutar participantes para suas experiências, sejam elas laboratório-like, como Huber, Hill, and Lenz (2012) , ou mais campo-like, como Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , e Mao et al. (2016) .
Se você está pensando de tentar criar seu próprio produto, eu recomendo que você leia os conselhos oferecidos pelo grupo MovieLens em Harper and Konstan (2015) . Um aspecto chave de sua experiência é que para cada projeto bem sucedido há muitos, muitos fracassos. Por exemplo, o grupo MovieLens lançado outros produtos, tais como GopherAnswers que eram falhas completas (Harper and Konstan 2015) . Outro exemplo de um pesquisador falhando ao tentar construir um produto é a tentativa de Edward Castronova para construir um jogo online chamado Arden. Apesar US $ 250.000 em financiamento, o projeto foi um fracasso (Baker 2008) . Projetos como GopherAnswers e Arden, infelizmente, são muito mais comuns do que projetos como MovieLens. Finalmente, quando eu disse que não sabia de quaisquer outros pesquisadores que haviam construído com sucesso produtos para experimentação repetida aqui é meu critérios: 1) os participantes usam o produto por causa do que ele fornece-los (por exemplo, eles não são pagos e não são voluntários ajudando a ciência) e 2) o produto tem sido usado por mais de uma experiência distinta (isto é, não é o mesmo experimento várias vezes com diferentes piscinas participantes). Se você souber de outros exemplos, por favor me avise.
Eu ouvi a ideia de quadrante de Pasteur discutido freqüentemente em empresas de tecnologia, e isso ajuda a organizar os esforços de pesquisa no Google (Spector, Norvig, and Petrov 2012) .
Bond e estudo dos colegas (2012) também tenta detectar o efeito destes tratamentos sobre os amigos de quem os recebeu. Devido à concepção da experiência, estes transbordamentos são difíceis de detectar de forma limpa; os leitores interessados devem ver Bond et al. (2012) para uma discussão mais aprofundada. Esta experiência é parte de uma longa tradição de experimentos em ciência política sobre os esforços para incentivar a votação (Green and Gerber 2015) . Estas experiências get-out-a-voto são comuns em parte porque eles estão no quadrante de Pasteur. Ou seja, há muitas pessoas que estão motivados para aumentar a votação ea votação pode ser um comportamento interessante para testar as teorias mais gerais sobre a mudança de comportamento e influência social.
Outros pesquisadores emitiram pareceres sobre a execução de experimentos de campo com organizações parceiras, tais como partidos políticos, ONGs e empresas (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Outros têm ofereceu conselhos sobre como parcerias com organizações podem impactar projetos de pesquisa (Green, Calfano, and Aronow 2014; King et al. 2007) . Parceria também pode levar a questões éticas (Humphreys 2015; Nickerson and Hyde 2016) .
Se você estiver indo criar um plano de análise antes de executar a sua experiência, eu sugiro que você comece lendo as diretrizes para relatórios. O CONSORT (Reportagem padrão consolidado de tentativas) diretrizes foram desenvolvidas na medicina (Schulz et al. 2010) e modificado para a investigação social (Mayo-Wilson et al. 2013) . Um conjunto relacionado de orientações tem sido desenvolvido pelos editores da revista Journal of Experimental de Ciência Política (Gerber et al. 2014) (ver também Mutz and Pemantle (2015) e Gerber et al. (2015) ). Finalmente, Diretrizes para Relatórios foram desenvolvidos em psicologia (Group 2008) , e ver também Simmons, Nelson, and Simonsohn (2011) .
Se você criar um plano de análise que você deve considerar pré registrar-lo porque o pré-registo vai aumentar a confiança que os outros têm em seus resultados. Além disso, se você estiver trabalhando com um parceiro, que vai limitar a capacidade do seu parceiro para mudar a análise depois de ver os resultados. A pré-inscrição está se tornando cada vez mais comum na psicologia (Nosek and Lakens 2014) , ciência política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) e economia (Olken 2015) .
Ao criar seu plano de pré-análise que você deve estar ciente de que alguns pesquisadores também usam regressão e abordagens afins para melhorar a precisão do efeito do tratamento estimado, e há algum debate sobre esta abordagem: Freedman (2008) , Lin (2013) , e Berk et al. (2013) ; veja Bloniarz et al. (2016) para mais informações.
Projeto conselhos especificamente para experimentos de campo on-line também é apresentado em Konstan and Chen (2007) e Chen and Konstan (2015) .
Para mais informações sobre os experimentos MusicLab, consulte Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , e Salganik (2007) . Para saber mais sobre o vencedor leva todos os mercados, ver Frank and Cook (1996) . Para saber mais sobre a sorte desembaraçar e habilidade mais geral, ver Mauboussin (2012) , Watts (2012) e Frank (2016) .
Há uma outra abordagem para eliminar pagamentos participantes que os investigadores devem usar com cautela: conscrição. Em muitos experimentos de campo on-line participantes são, basicamente, convocado para experimentos e nunca compensados. Exemplos dessa abordagem incluem Restivo e da van de Rijt (2012) experimento sobre recompensas na Wikipedia e Bond e colega (2012) ensaios em incentivar as pessoas a votar. Estas experiências realmente não têm custo variável zero, eles têm custo variável zero a pesquisadores. Mesmo que o custo de muitas destas experiências é extremamente pequeno para cada participante, pequenos custos imposta uma enorme número de participantes pode aumentar com rapidez. Pesquisadores que executam experimentos massivos online, muitas vezes justificar a importância de pequenos efeitos do tratamento estimados por dizer que esses pequenos efeitos podem tornar-se importante quando aplicada a muitas pessoas. O exato mesmo pensamento se aplica a custos que os pesquisadores impõem aos participantes. Se suas experiências faz com que um milhão de pessoas a desperdiçar um minuto, a experiência não é muito prejudicial para qualquer pessoa em particular, mas, no total, ele tem desperdiçado quase dois anos de tempo.
Outra abordagem para a criação de pagamento de custos variáveis de zero aos participantes é a utilização de uma lotaria, uma abordagem que foi também usada em investigação de pesquisa (Halpern et al. 2011) . Finalmente, há mais sobre o projeto user-experiências agradáveis ver Toomim et al. (2011) .
Aqui estão as definições originais dos três R, de Russell and Burch (1959) :
"Substituição significa a substituição para vivem animais conscientes mais elevados de material insensível. Redução significa uma redução no número de animais utilizados para se obter informação de um dado valor e precisão. Refinamento significa qualquer diminuição na incidência ou severidade dos procedimentos desumanos aplicados a esses animais que têm ainda de ser usado ".
Os três Rs que proponho não substituem os princípios éticos descritos no Capítulo 6. Em vez disso, eles são uma versão mais elaborada um dos princípios-beneficência-especificamente para a configuração de experimentos humanos.
Ao considerar contágio emocional, há três questões não-éticos para manter em mente ao interpretar esta experiência. Em primeiro lugar, não é claro o modo como os dados reais do experimento ligar com as reivindicações teóricos; em outras palavras, existem dúvidas sobre a validade da construção. Não está claro que as contagens de palavras positivas e negativas são realmente um bom indicador do estado emocional dos participantes porque 1) não é claro que as palavras que as pessoas postam são um bom indicador de suas emoções e 2) não é claro que a técnica de análise de sentimento especial, que os pesquisadores usaram é capaz de inferir de forma confiável emoções (Beasley and Mason 2015; Panger 2016) . Em outras palavras, pode haver uma má medida de um sinal polarizado. Em segundo lugar, o desenho e análise da experiência nos diz nada sobre quem foi mais afetado (ou seja, não existe uma análise da heterogeneidade dos efeitos do tratamento) e que o mecanismo poderia ser. Neste caso, os pesquisadores tiveram muita informação sobre os participantes, mas eles eram essencialmente tratados como widgets na análise. Em terceiro lugar, o tamanho do efeito nesta experiência foi muito pequena; a diferença entre as condições de tratamento e de controlo é de cerca de 1 em cada 1000 palavras. Em seu artigo, Kramer e seus colegas fazer o caso que um efeito deste tamanho é importante porque centenas de milhões de pessoas acessam seu Feed de notícias a cada dia. Em outras palavras, eles argumentam que mesmo efeitos que são pequenos para cada pessoa que eles são grandes em termos agregados. Mesmo se você fosse para aceitar este argumento, ainda não está claro se um efeito deste tamanho é importante em relação à questão científica mais gerais sobre o contágio emocional. Para saber mais sobre as situações em que pequenos efeitos são importantes ver Prentice and Miller (1992) .
Em termos de o primeiro R (substituição), comparando a experiência emocional Contagion (Kramer, Guillory, and Hancock 2014) eo experimento natural contágio emocional (Coviello et al. 2014) oferece algumas lições gerais sobre os trade-offs envolvidos com o movimento de experiências às experiências naturais (e outras abordagens como correspondência que tentam aproximar experimentos em dados não-experimentais, consulte o Capítulo 2). Além dos benefícios éticos, a mudança de experimental para estudos não-experimentais também permite aos investigadores estudar tratamentos que são logisticamente incapaz de implantar. Estes benefícios éticos e logísticos têm um custo, no entanto. Com experimentos naturais pesquisadores têm menos controle sobre coisas como o recrutamento de participantes, randomização, ea natureza do tratamento. Por exemplo, uma limitação de precipitação como um tratamento é que ele aumenta tanto positividade e negatividade diminui. No estudo experimental, no entanto, Kramer e seus colegas foram capazes de ajustar positividade e negatividade de forma independente.
A abordagem particular usado por Coviello et al. (2014) foi mais elaborada em Coviello, Fowler, and Franceschetti (2014) . Para uma introdução ao variáveis instrumentais ver Angrist and Pischke (2009) (menos formal) ou Angrist, Imbens, and Rubin (1996) (mais formal). Para uma avaliação cética de variáveis instrumentais ver Deaton (2010) , e para uma introdução a variáveis instrumentais com instrumentos fracos (chuva é um instrumento fraco), ver Murray (2006) .
De modo mais geral, uma boa introdução para experimentos naturais é Dunning (2012) , e Rosenbaum (2002) , Rosenbaum (2009) , e Shadish, Cook, and Campbell (2001) oferecem boas ideias sobre estimar efeitos causais sem experimentos.
Em termos de o segundo R (Refinement), existem trade-offs científicos e logísticos ao considerar alterar o design de contágio emocional de bloquear mensagens para impulsionar mensagens. Por exemplo, pode ser o caso que a execução técnica do Feed de notícias torna é substancialmente mais fácil de fazer um experimento com bloqueio de mensagens em vez de um experimento com a impulsionar as mensagens (note que um experimento com bloqueio de mensagens pode ser implementada como uma camada sobre parte superior do sistema feed de notícias sem qualquer necessidade de alterações do sistema subjacente). Cientificamente, no entanto, a teoria dirigida pela experiência não sugerem claramente um desenho sobre o outro.
Infelizmente, eu não tenho conhecimento de pesquisas anteriores substancial sobre os méritos relativos de bloqueio e aumentar o conteúdo no feed de notícias. Além disso, eu não vi muita pesquisa sobre refinando tratamentos para torná-los menos prejudiciais; uma exceção é Jones and Feamster (2015) , que considera o caso de medida de censura à Internet (um tópico que discutiremos no Capítulo 6 em relação ao estudo Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Em termos de o terceiro R (Redução), uma boa introdução à análise do poder tradicional é Cohen (1988) . covariáveis pré-tratamento pode ser incluído na fase de concepção e da fase da análise de experiências; Capítulo 4 de Gerber and Green (2012) fornece uma boa introdução para ambas as abordagens, e Casella (2008) fornece um tratamento mais aprofundado. Técnicas que utilizam esta informação pré-tratamento na randomização são tipicamente chamado quer bloqueada projetos experimentais ou desenhos experimentais estratificadas (a terminologia não é utilizada de forma consistente em comunidades); estas técnicas estão profundamente relacionadas com as técnicas de amostragem estratificada discutidos no Capítulo 3. Consulte Higgins, Sävje, and Sekhon (2016) para mais sobre o uso desses modelos em experimentos maciças. Covariáveis de pré-tratamento podem também ser incluídos na fase de análise. McKenzie (2012) explora a abordagem diferença-em-diferenças para analisar experiências de campo com mais pormenor. Veja Carneiro, Lee, and Wilhelm (2016) para mais informações sobre as soluções de compromisso entre diferentes abordagens para aumentar a precisão nas estimativas dos efeitos do tratamento. Finalmente, ao decidir se deve tentar incluir co-variáveis pré-tratamento na fase de concepção ou análise (ou ambos), há alguns fatores a considerar. Em um ambiente onde pesquisadores querem mostrar que eles não são "fishing" (Humphreys, Sierra, and Windt 2013) , usando co-variáveis pré-tratamento na fase de concepção pode ser útil (Higgins, Sävje, and Sekhon 2016) . Em situações em que os participantes chegam sequencialmente, experimentos de campo, especialmente on-line, utilizando as informações de pré-tratamento na fase de projeto pode ser difícil logisticamente, ver, por exemplo Xie and Aurisset (2016) .
Vale a pena acrescentar um pouco de intuição sobre a razão de diferenças em diferenças podem ser muito mais eficaz do que diferenças em meios. Muitos resultados on-line têm muito elevada variância (ver, por exemplo, Lewis and Rao (2015) e Lamb et al. (2015) ) e são relativamente estáveis ao longo do tempo. Neste caso, o marcador mudança terá substancialmente menor variância, aumentando a potência do teste estatístico. Uma razão deste abordadas não é usado mais frequentemente é que, antes da era digital não era comum ter resultados de pré-tratamento. Uma maneira mais concreta para pensar sobre isso é imaginar um experimento para medir se uma rotina de exercícios específicos faz com que a perda de peso. Se você fizer uma abordagem diferença-em-meio, a sua estimativa terá variabilidade que vem da variabilidade nos pesos da população. Se você fizer uma abordagem diferença-em-diferença, no entanto, que a variação que ocorre naturalmente nos pesos é removido e você pode mais facilmente detectar uma diferença causada pelo tratamento.
Uma maneira importante de reduzir o número de participantes em sua experiência é a realização de uma análise de energia, que Kramer e seus colegas poderiam ter feito com base nos tamanhos de efeito observados a partir do experimento natural por Coviello et al. (2014) ou mais cedo, a pesquisa não-experimental por Kramer (2012) (na verdade estas são atividades no final deste capítulo). Observe que esse uso da análise de poder é um pouco diferente do que é habitual. Na era analógica, os pesquisadores geralmente fez a análise do poder para se certificar de que seu estudo não era muito pequeno (ou seja, sob-powered). Agora, no entanto, os pesquisadores devem fazer a análise do poder para se certificar de que seu estudo não é muito grande (ou seja, mais de potência).
Finalmente, eu considerou adicionar uma quarta R: Adapte. Ou seja, se os investigadores se encontram com dados mais experimentais do que eles precisam para resolver a sua questão de pesquisa original, eles devem adaptar os dados para fazer novas perguntas. Por exemplo, imagine que Kramer e seus colegas tinham usado um estimador de diferenças em diferenças e encontraram-se com mais dados do que o necessário para resolver a sua questão de pesquisa. Em vez de não usar os dados em toda a extensão, eles poderiam ter estudado o efeito do tamanho como uma função de pré-tratamento expressão emocional. Da mesma forma que Schultz et al. (2007) descobriram que o efeito do tratamento foi diferente para os usuários leves e pesados, talvez os efeitos do Feed de notícias foram diferentes para as pessoas que já tendiam a enviar mensagens felizes (ou triste). Repurposing poderia levar a "pesca" (Humphreys, Sierra, and Windt 2013) e "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , mas estes são em grande parte endereçável com uma combinação de reportagem honesta (Simmons, Nelson, and Simonsohn 2011) , o pré-registo (Humphreys, Sierra, and Windt 2013) , e os métodos de aprendizado de máquina que tentam evitar o excesso de montagem.