As perguntas sobre causalidade na pesquisa social são frequentemente complexas e complexas. Para uma abordagem fundamental da causalidade baseada em gráficos causais, ver Pearl (2009) , e para uma abordagem fundacional baseada em resultados potenciais, ver Imbens and Rubin (2015) . Para uma comparação entre essas duas abordagens, veja Morgan and Winship (2014) . Para uma abordagem formal para definir um confundidor, consulte VanderWeele and Shpitser (2013) .
Neste capítulo, criei o que parecia ser uma linha brilhante entre nossa capacidade de fazer estimativas causais a partir de dados experimentais e não experimentais. No entanto, penso que, na realidade, a distinção é mais obscura. Por exemplo, todo mundo aceita que fumar causa câncer, mesmo que nenhum experimento controlado randomizado que force as pessoas a fumar tenha sido feito. Para excelentes tratamentos de tamanho de livro sobre como fazer estimativas causais a partir de dados não experimentais, ver Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) e Dunning (2012) .
Os capítulos 1 e 2 de Freedman, Pisani, and Purves (2007) oferecem uma clara introdução às diferenças entre experimentos, experimentos controlados e experimentos controlados e randomizados.
Manzi (2012) fornece uma introdução fascinante e legível aos fundamentos filosóficos e estatísticos de experimentos controlados randomizados. Ele também fornece exemplos interessantes do mundo real do poder de experimentação nos negócios. Issenberg (2012) fornece uma fascinante introdução ao uso da experimentação em campanhas políticas.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, e Athey and Imbens (2016b) fornecem boas introduções aos aspectos estatísticos do desenho e análise experimental. Além disso, existem excelentes tratamentos para o uso de experimentos em muitos campos diferentes: economia (Bardsley et al. 2009) , sociologia (Willer and Walker 2007; Jackson and Cox 2013) , psicologia (Aronson et al. 1989) , ciência política (Morton and Williams 2010) , e política social (Glennerster and Takavarasha 2013) .
A importância do recrutamento de participantes (por exemplo, amostragem) é frequentemente subestimada na pesquisa experimental. No entanto, se o efeito do tratamento é heterogêneo na população, a amostragem é crítica. Longford (1999) esclarece esse ponto quando defende que pesquisadores pensem em experimentos como um levantamento populacional com amostragem aleatória.
Sugeri que há um continuum entre experiências de laboratório e de campo, e outros pesquisadores propuseram tipologias mais detalhadas, em particular aquelas que separam as várias formas de experimentos de campo (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Vários trabalhos compararam os experimentos de campo e de laboratório em abstrato (Falk and Heckman 2009; Cialdini 2009) e em termos de resultados de experimentos específicos em ciência política (Coppock and Green 2015) , economia (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) e psicologia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) oferecem um bom projeto de pesquisa para comparar resultados de experimentos de laboratório e de campo. Parigi, Santana, and Cook (2017) descrevem como os experimentos de campo on-line podem combinar algumas das características dos experimentos de laboratório e de campo.
Preocupações sobre os participantes que mudam seu comportamento porque sabem que estão sendo observados de perto às vezes são chamados de efeitos de demanda e foram estudados em psicologia (Orne 1962) e economia (Zizzo 2010) . Embora estejam principalmente associados a experimentos de laboratório, esses mesmos problemas também podem causar problemas para experimentos de campo. Na verdade, os efeitos de demanda também são às vezes chamados de efeitos Hawthorne , um termo que deriva das famosas experiências de iluminação que começaram em 1924 na Hawthorne Works da Western Electric Company (Adair 1984; Levitt and List 2011) . Ambos os efeitos de demanda e os efeitos de Hawthorne estão intimamente relacionados à idéia de medição reativa discutida no capítulo 2 (ver também Webb et al. (1966) ).
Experimentos de campo têm uma longa história em economia (Levitt and List 2009) , ciência política (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psicologia (Shadish 2002) e políticas públicas (Shadish and Cook 2009) . Uma área da ciência social em que experimentos de campo rapidamente se tornaram proeminentes é o desenvolvimento internacional. Para uma revisão positiva desse trabalho dentro da economia, ver Banerjee and Duflo (2009) , e para uma avaliação crítica, ver Deaton (2010) . Para uma revisão deste trabalho em ciência política, ver Humphreys and Weinstein (2009) . Finalmente, os desafios éticos decorrentes de experimentos de campo têm sido explorados no contexto da ciência política (Humphreys 2015; Desposato 2016b) e economia do desenvolvimento (Baele 2013) .
Nesta seção, sugeri que informações pré-tratamento possam ser usadas para melhorar a precisão dos efeitos estimados do tratamento, mas há algum debate sobre essa abordagem; veja Freedman (2008) , W. Lin (2013) , Berk et al. (2013) e Bloniarz et al. (2016) para mais informações.
Finalmente, há dois outros tipos de experimentos realizados por cientistas sociais que não se encaixam perfeitamente na dimensão do campo de laboratório: experimentos de pesquisa e experimentos sociais. Os experimentos de pesquisa são experimentos usando a infra-estrutura de pesquisas existentes e comparam respostas a versões alternativas das mesmas perguntas (alguns experimentos de pesquisa são apresentados no Capítulo 3); para mais informações sobre experiências de pesquisa, ver Mutz (2011) . Os experimentos sociais são experimentos em que o tratamento é uma política social que só pode ser implementada por um governo. Experimentos sociais estão intimamente relacionados à avaliação de programas. Para mais informações sobre experiências políticas, ver Heckman and Smith (1995) , Orr (1998) e @ glennerster_running_2013.
Eu escolhi focar em três conceitos: validade, heterogeneidade dos efeitos do tratamento e mecanismos. Esses conceitos têm nomes diferentes em campos diferentes. Por exemplo, os psicólogos tendem a ir além de experimentos simples, concentrando-se em mediadores e moderadores (Baron and Kenny 1986) . A idéia de mediadores é capturada pelo que chamo de mecanismos, e a idéia de moderadores é capturada pelo que eu chamo de validade externa (por exemplo, os resultados do experimento seriam diferentes se fossem executados em situações diferentes) e heterogeneidade dos efeitos do tratamento ( por exemplo, os efeitos são maiores para algumas pessoas do que para outras).
O experimento de Schultz et al. (2007) mostra como as teorias sociais podem ser usadas para projetar intervenções efetivas. Para um argumento mais geral sobre o papel da teoria no desenho de intervenções efetivas, ver Walton (2014) .
Os conceitos de validade interna e externa foram introduzidos pela primeira vez por Campbell (1957) . Veja Shadish, Cook, and Campbell (2001) para uma história mais detalhada e uma elaboração cuidadosa da validade das conclusões estatísticas, validade interna, validade de construto e validade externa.
Para uma visão geral das questões relacionadas à validade de conclusão estatística em experimentos, ver Gerber and Green (2012) (do ponto de vista das ciências sociais) e Imbens and Rubin (2015) (de uma perspectiva estatística). Algumas questões de validade de conclusão estatística que surgem especificamente em experimentos de campo on-line incluem questões como métodos computacionalmente eficientes para criar intervalos de confiança com dados dependentes (Bakshy and Eckles 2013) .
A validade interna pode ser difícil de garantir em experimentos de campo complexos. Veja, por exemplo, Gerber and Green (2000) , Imai (2005) e Gerber and Green (2005) para o debate sobre a implementação de um experimento de campo complexo sobre votação. Kohavi et al. (2012) e Kohavi et al. (2013) fornecem uma introdução aos desafios da validade do intervalo em experimentos de campo online.
Uma grande ameaça à validade interna é a possibilidade de falha na randomização. Uma maneira potencial de detectar problemas com a randomização é comparar os grupos de tratamento e controle com características observáveis. Esse tipo de comparação é chamado de verificação de saldo . Veja Hansen and Bowers (2008) para uma abordagem estatística para balancear cheques e Mutz and Pemantle (2015) para preocupações sobre cheques de balanço. Por exemplo, usando uma verificação de equilíbrio, Allcott (2011) encontrou algumas evidências de que a randomização não foi implementada corretamente em três dos experimentos do Opower (ver tabela 2; sites 2, 6 e 8). Para outras abordagens, veja o capítulo 21 de Imbens and Rubin (2015) .
Outras preocupações importantes relacionadas à validade interna são: (1) não-adesão unilateral, em que nem todos do grupo de tratamento realmente receberam o tratamento; (2) não-adesão bilateral, em que nem todos do grupo recebem tratamento e algumas pessoas o grupo de controle recebe o tratamento, (3) atrito, onde os resultados não são medidos para alguns participantes, e (4) interferência, onde o tratamento transborda de pessoas na condição de tratamento para pessoas na condição de controle. Veja os capítulos 5, 6, 7 e 8 de Gerber and Green (2012) para mais sobre cada uma dessas questões.
Para mais informações sobre validade de construto, ver Westen and Rosenthal (2003) , e mais sobre validade de construto em fontes de big data, Lazer (2015) e capítulo 2 deste livro.
Um aspecto da validade externa é o cenário no qual uma intervenção é testada. Allcott (2015) fornece um cuidadoso tratamento teórico e empírico do viés de seleção de locais. Essa questão também é discutida por Deaton (2010) . Outro aspecto da validade externa é se as operacionalizações alternativas da mesma intervenção terão efeitos semelhantes. Nesse caso, uma comparação entre Schultz et al. (2007) e Allcott (2011) mostram que os experimentos de Opower tiveram um efeito tratado estimado menor do que os experimentos originais de Schultz e colegas (1,7% versus 5%). Allcott (2011) especulou que os experimentos de acompanhamento tiveram um efeito menor por causa das maneiras pelas quais o tratamento diferia: um emoticon manuscrito como parte de um estudo patrocinado por uma universidade, comparado com um emoticon impresso como parte de uma produção em massa. relatório de uma empresa de energia.
Para uma excelente visão geral da heterogeneidade dos efeitos do tratamento em experimentos de campo, veja o capítulo 12 de Gerber and Green (2012) . Para introduções à heterogeneidade dos efeitos do tratamento em estudos médicos, ver Kent and Hayward (2007) , Longford (1999) e Kravitz, Duan, and Braslow (2004) . Considerações sobre a heterogeneidade dos efeitos do tratamento geralmente se concentram nas diferenças com base nas características do pré-tratamento. Se você está interessado em heterogeneidade com base nos resultados pós-tratamento, então são necessárias abordagens mais complexas, como a estratificação principal (Frangakis and Rubin 2002) ; veja Page et al. (2015) para uma revisão.
Muitos pesquisadores estimam a heterogeneidade dos efeitos do tratamento usando a regressão linear, mas os métodos mais recentes dependem do aprendizado de máquina; ver, por exemplo, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) e Athey and Imbens (2016a) .
Há algum ceticismo sobre as descobertas de heterogeneidade de efeitos por causa de múltiplos problemas de comparação e “pesca”. Há uma variedade de abordagens estatísticas que podem ajudar a resolver as preocupações sobre comparações múltiplas (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Uma abordagem das preocupações com a “pesca” é o pré-registro, que está se tornando cada vez mais comum em psicologia (Nosek and Lakens 2014) , ciência política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) e economia (Olken 2015) .
No estudo de Costa and Kahn (2013) apenas cerca de metade dos domicílios no experimento pode estar ligada à informação demográfica. Os leitores interessados nesses detalhes devem consultar o artigo original.
Mecanismos são incrivelmente importantes, mas eles se revelam muito difíceis de serem estudados. Pesquisas sobre mecanismos estão intimamente relacionadas ao estudo de mediadores em psicologia (mas também ver VanderWeele (2009) para uma comparação precisa entre as duas idéias). Abordagens estatísticas para encontrar mecanismos, como a abordagem desenvolvida em Baron and Kenny (1986) , são bastante comuns. Infelizmente, verifica-se que esses procedimentos dependem de algumas suposições fortes (Bullock, Green, and Ha 2010) e sofrem quando há múltiplos mecanismos, como se poderia esperar em muitas situações (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) e Imai and Yamamoto (2013) oferecem alguns métodos estatísticos aprimorados. Além disso, VanderWeele (2015) oferece um tratamento de tamanho de livro com vários resultados importantes, incluindo uma abordagem abrangente à análise de sensibilidade.
Uma abordagem separada enfoca os experimentos que tentam manipular o mecanismo diretamente (por exemplo, dar aos marinheiros a vitamina C). Infelizmente, em muitos contextos de ciências sociais, muitas vezes há vários mecanismos e é difícil criar tratamentos que mudem um sem alterar os outros. Algumas abordagens para alterar experimentalmente os mecanismos são descritas por Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) e Pirlott and MacKinnon (2016) .
Os pesquisadores que executam experimentos totalmente fatorial precisarão se preocupar com o teste de hipóteses múltiplas; veja Fink, McConnell, and Vollmer (2014) e List, Shaikh, and Xu (2016) para mais informações.
Finalmente, os mecanismos também têm uma longa história na filosofia da ciência, conforme descrito por Hedström and Ylikoski (2010) .
Para mais informações sobre o uso de estudos por correspondência e estudos de auditoria para medir a discriminação, ver Pager (2007) .
A maneira mais comum de recrutar participantes para experimentos que você constrói é o Amazon Mechanical Turk (MTurk). Como MTurk imita aspectos de experimentos tradicionais de laboratório - pagando pessoas para concluir tarefas que eles não fariam de graça - muitos pesquisadores já começaram a usar Turkers (os trabalhadores em MTurk) como participantes experimentais, resultando em coleta de dados mais rápida e barata do que pode ser alcançado em experimentos de laboratório tradicionais no campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Geralmente, as maiores vantagens de usar participantes recrutados do MTurk são logísticos. Considerando que os experimentos de laboratório podem levar semanas para serem executados e os experimentos de campo podem levar meses para serem configurados, experimentos com participantes recrutados no MTurk podem ser executados em dias. Por exemplo, Berinsky, Huber, and Lenz (2012) conseguiram recrutar 400 sujeitos em um único dia para participar de um experimento de 8 minutos. Além disso, esses participantes podem ser recrutados para praticamente qualquer finalidade (incluindo pesquisas e colaboração em massa, como discutido nos capítulos 3 e 5). Essa facilidade de recrutamento significa que os pesquisadores podem executar sequências de experimentos relacionados em rápida sucessão.
Antes de recrutar participantes do MTurk para suas próprias experiências, há quatro coisas importantes que você precisa saber. Primeiro, muitos pesquisadores têm um ceticismo inespecífico de experimentos envolvendo os Turkers. Como esse ceticismo não é específico, é difícil contestar as evidências. No entanto, após vários anos de estudos usando Turkers, podemos agora concluir que esse ceticismo não é particularmente justificado. Tem havido muitos estudos comparando a demografia de Turkers com os de outras populações e muitos estudos comparando os resultados de experimentos com Turkers com aqueles de outras populações. Dado todo esse trabalho, acho que a melhor maneira de pensar sobre isso é que os Turkers são uma amostra razoável de conveniência, muito parecida com os estudantes, mas um pouco mais diversificada (Berinsky, Huber, and Lenz 2012) . Assim, assim como os estudantes são uma população razoável para algumas pesquisas, mas não todas, os Turkers são uma população razoável para algumas pesquisas, mas não todas. Se você vai trabalhar com Turkers, então faz sentido ler muitos desses estudos comparativos e entender suas nuances.
Segundo, os pesquisadores desenvolveram as melhores práticas para aumentar a validade interna dos experimentos MTurk, e você deve aprender e seguir estas boas práticas (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Por exemplo, pesquisadores usando Turkers são encorajados a usar screeners para remover participantes desatentos (Berinsky, Margolis, and Sances 2014, 2016) (mas também veja DJ Hauser and Schwarz (2015b) e DJ Hauser and Schwarz (2015a) ). Se você não remover os participantes desatentos, qualquer efeito do tratamento pode ser eliminado pelo ruído que eles introduzem e, na prática, o número de participantes desatentos pode ser substancial. No experimento de Huber e colaboradores (2012) , cerca de 30% dos participantes falharam nos testes de atenção básica. Outros problemas que comumente surgem quando os Turkers são usados são participantes não-ingênuos (Chandler et al. 2015) e desgaste (Zhou and Fishbach 2016) .
Terceiro, em relação a algumas outras formas de experimentos digitais, os experimentos de MTurk não podem escalar; Stewart et al. (2015) estimam que a qualquer momento há apenas cerca de 7.000 pessoas no MTurk.
Finalmente, você deve saber que MTurk é uma comunidade com suas próprias regras e normas (Mason and Suri 2012) . Da mesma forma que você tentaria descobrir sobre a cultura de um país onde você iria realizar seus experimentos, você deveria tentar descobrir mais sobre a cultura e as normas de Turkers (Salehi et al. 2015) . E você deve saber que os Turkers estarão falando sobre o seu experimento se você fizer algo inapropriado ou antiético (Gray et al. 2016) .
MTurk é uma maneira incrivelmente conveniente de recrutar participantes para seus experimentos, sejam eles de laboratório, como os de Huber, Hill, and Lenz (2012) , ou mais parecidos com um campo, como os de Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) e Mao et al. (2016) .
Se você está pensando em criar seu próprio produto, recomendo que você leia o conselho oferecido pelo grupo MovieLens em Harper and Konstan (2015) . Um insight fundamental de sua experiência é que, para cada projeto bem-sucedido, há muitos, muitos fracassos. Por exemplo, o grupo MovieLens lançou outros produtos, como GopherAnswers, que eram falhas completas (Harper and Konstan 2015) . Outro exemplo de falha de um pesquisador ao tentar construir um produto é a tentativa de Edward Castronova de construir um jogo online chamado Arden. Apesar de US $ 250.000 em financiamento, o projeto foi um fracasso (Baker 2008) . Projetos como GopherAnswers e Arden são, infelizmente, muito mais comuns do que projetos como o MovieLens.
Ouvi a ideia do Quadrante de Pasteur ser discutido com frequência em empresas de tecnologia e isso ajuda a organizar os esforços de pesquisa no Google (Spector, Norvig, and Petrov 2012) .
O estudo de Bond e colegas (2012) também tenta detectar o efeito desses tratamentos nos amigos daqueles que os receberam. Por causa do design do experimento, esses spillovers são difíceis de detectar de forma limpa; leitores interessados devem ver Bond et al. (2012) para uma discussão mais aprofundada. Jones e colegas (2017) também realizaram um experimento muito semelhante durante a eleição de 2012. Esses experimentos fazem parte de uma longa tradição de experimentos em ciência política sobre os esforços para incentivar o voto (Green and Gerber 2015) . Esses experimentos de saída são comuns, em parte porque estão no Quadrante de Pasteur. Ou seja, há muitas pessoas motivadas a aumentar a votação e a votação pode ser um comportamento interessante para testar teorias mais gerais sobre mudança de comportamento e influência social.
Para obter conselhos sobre como realizar experimentos em campo com organizações parceiras, como partidos políticos, ONGs e empresas, consulte Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) e Gueron (2002) . Para pensamentos sobre como parcerias com organizações podem impactar projetos de pesquisa, ver King et al. (2007) e Green, Calfano, and Aronow (2014) . A parceria também pode levar a questões éticas, conforme discutido por Humphreys (2015) e Nickerson and Hyde (2016) .
Se você criar um plano de análise antes de executar sua experiência, sugiro que comece lendo as diretrizes de relatórios. As diretrizes CONSORT (Consolidated Standard Reporting of Trials) foram desenvolvidas em medicina (Schulz et al. 2010) e modificadas para pesquisa social (Mayo-Wilson et al. 2013) . Um conjunto de diretrizes relacionadas foi desenvolvido pelos editores do Journal of Experimental Political Science (Gerber et al. 2014) (ver também Mutz and Pemantle (2015) e Gerber et al. (2015) ). Finalmente, as diretrizes de relatórios foram desenvolvidas em psicologia (APA Working Group 2008) , e ver também Simmons, Nelson, and Simonsohn (2011) .
Se você criar um plano de análise, deverá considerar o pré-registro porque o pré-registro aumentará a confiança que os outros têm nos resultados. Além disso, se você estiver trabalhando com um parceiro, isso limitará a capacidade do seu parceiro de alterar a análise depois de ver os resultados. O pré-registro está se tornando cada vez mais comum em psicologia (Nosek and Lakens 2014) , ciência política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) e economia (Olken 2015) .
Aconselhamento de design especificamente para experimentos de campo online também é apresentado em Konstan and Chen (2007) e Chen and Konstan (2015) .
O que chamei de estratégia da armada às vezes é chamado de pesquisa programática ; veja Wilson, Aronson, and Carlsmith (2010) .
Para mais informações sobre os experimentos do MusicLab, ver Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) e Salganik (2007) . Para mais informações sobre os mercados de winner-take-all, veja Frank and Cook (1996) . Para saber mais sobre desvendar a sorte e a habilidade em geral, veja Mauboussin (2012) , Watts (2012) e Frank (2016) .
Existe outra abordagem para eliminar os pagamentos dos participantes que os pesquisadores devem usar com cautela: recrutamento. Em muitos experimentos de campo on-line, os participantes são basicamente recrutados para experimentos e nunca compensados. Exemplos dessa abordagem incluem o experimento de Restivo e van de Rijt (2012) sobre recompensas na Wikipédia e o experimento de Bond e colega (2012) sobre incentivar as pessoas a votar. Esses experimentos realmente não têm custo variável zero - ao contrário, eles têm custo variável zero para os pesquisadores . Em tais experimentos, mesmo que o custo para cada participante seja extremamente pequeno, o custo agregado pode ser bastante grande. Pesquisadores que realizam enormes experimentos on-line muitas vezes justificam a importância de pequenos efeitos estimados de tratamento, dizendo que esses pequenos efeitos podem se tornar importantes quando aplicados a muitas pessoas. O mesmo raciocínio se aplica aos custos que os pesquisadores impõem aos participantes. Se o seu experimento faz com que um milhão de pessoas desperdice um minuto, o experimento não é muito prejudicial a uma pessoa em particular, mas, em conjunto, perdeu quase dois anos.
Outra abordagem para criar um pagamento com custo variável zero para os participantes é usar uma loteria, uma abordagem que também tem sido usada em pesquisa de pesquisa (Halpern et al. 2011) . Para mais informações sobre como criar experiências de usuário agradáveis, consulte Toomim et al. (2011) . Para mais sobre o uso de bots para criar experimentos com custo variável zero, veja ( ??? ) .
Os três R's, como originalmente proposto por Russell and Burch (1959) são os seguintes:
"Substituição significa a substituição para vivem animais conscientes mais elevados de material insensível. Redução significa uma redução no número de animais utilizados para se obter informação de um dado valor e precisão. Refinamento significa qualquer diminuição na incidência ou severidade dos procedimentos desumanos aplicados a esses animais que têm ainda de ser usado ".
Os três Rs que proponho não substituem os princípios éticos descritos no capítulo 6. Em vez disso, são uma versão mais elaborada desses princípios - beneficência - especificamente no contexto de experimentos humanos.
Em termos do primeiro R (“substituição”), comparar o experimento de contágio emocional (Kramer, Guillory, and Hancock 2014) e o experimento natural contágio emocional (Lorenzo Coviello et al. 2014) oferece algumas lições gerais sobre os trade-offs envolvidos em passar de experimentos para experimentos naturais (e outras abordagens como comparar essa tentativa de aproximar experimentos em dados não experimentais; ver capítulo 2). Além dos benefícios éticos, mudar de estudos experimentais para não experimentais também permite que os pesquisadores estudem tratamentos que eles são logisticamente incapazes de implantar. Esses benefícios éticos e logísticos têm um custo, no entanto. Com experimentos naturais, os pesquisadores têm menos controle sobre coisas como recrutamento de participantes, randomização e a natureza do tratamento. Por exemplo, uma limitação das chuvas como tratamento é que ambas aumentam a positividade e diminuem a negatividade. No estudo experimental, no entanto, Kramer e seus colegas foram capazes de ajustar positividade e negatividade de forma independente. A abordagem particular usada por Lorenzo Coviello et al. (2014) foi mais elaborado por L. Coviello, Fowler, and Franceschetti (2014) . Para uma introdução às variáveis instrumentais, que é a abordagem utilizada por Lorenzo Coviello et al. (2014) , veja Angrist and Pischke (2009) (menos formal) ou Angrist, Imbens, and Rubin (1996) (mais formal). Para uma avaliação cética das variáveis instrumentais, ver Deaton (2010) , e para uma introdução às variáveis instrumentais com instrumentos fracos (a chuva é um instrumento fraco), ver Murray (2006) . Mais genericamente, uma boa introdução a experimentos naturais é dada por Dunning (2012) , enquanto Rosenbaum (2002) ( ??? ) e Shadish, Cook, and Campbell (2001) oferecem boas idéias sobre a estimativa de efeitos causais sem experimentos.
Em termos do segundo R (“refinamento”), há compensações científicas e logísticas ao considerar a mudança do design do Contágio Emocional, de bloquear postagens para postagens de estímulo. Por exemplo, pode ser que a implementação técnica do Feed de Notícias torne substancialmente mais fácil realizar um experimento no qual as postagens são bloqueadas em vez de uma em que são impulsionadas (observe que um experimento envolvendo o bloqueio de postagens pode ser implementado como uma camada no topo do sistema News Feed, sem qualquer necessidade de alterações do sistema subjacente). Cientificamente, no entanto, a teoria abordada pelo experimento não sugeriu claramente um projeto em detrimento do outro. Infelizmente, não tenho conhecimento de pesquisas anteriores substanciais sobre os méritos relativos de bloquear e impulsionar conteúdo no Feed de notícias. Além disso, eu não tenho visto muita pesquisa sobre o refinamento de tratamentos para torná-los menos prejudiciais; uma exceção é B. Jones and Feamster (2015) , que considera o caso da medição da censura na Internet (um tópico que eu discuto no capítulo 6 em relação ao estudo Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Em termos do terceiro R (“redução”), boas introduções à análise de poder tradicional são dadas por Cohen (1988) (livro) e Cohen (1992) (artigo), enquanto Gelman and Carlin (2014) oferecem uma perspectiva ligeiramente diferente. As covariáveis de pré-tratamento podem ser incluídas no estágio de projeto e análise dos experimentos; O capítulo 4 de Gerber and Green (2012) fornece uma boa introdução para ambas as abordagens, e Casella (2008) fornece um tratamento mais aprofundado. Técnicas que usam essas informações de pré-tratamento na randomização são tipicamente chamadas de projetos experimentais bloqueados ou projetos experimentais estratificados (a terminologia não é usada consistentemente nas comunidades); Estas técnicas estão intimamente relacionadas com as técnicas de amostragem estratificada discutidas no capítulo 3. Veja Higgins, Sävje, and Sekhon (2016) para mais sobre o uso desses projetos em experimentos maciços. As covariáveis de pré-tratamento também podem ser incluídas no estágio de análise. McKenzie (2012) explora a abordagem diferença-em-diferenças para analisar os experimentos de campo em maior detalhe. Veja Carneiro, Lee, and Wilhelm (2016) para mais sobre os trade-offs entre diferentes abordagens para aumentar a precisão nas estimativas dos efeitos do tratamento. Finalmente, ao decidir se deve incluir covariáveis pré-tratamento no estágio de design ou análise (ou ambos), existem alguns fatores a serem considerados. Em um cenário onde os pesquisadores querem mostrar que eles não estão “pescando” (Humphreys, Sierra, and Windt 2013) , usar covariáveis pré-tratamento no estágio de design pode ser útil (Higgins, Sävje, and Sekhon 2016) . Em situações em que os participantes chegam sequencialmente, especialmente em experimentos de campo on-line, o uso de informações pré-tratamento no estágio de projeto pode ser difícil logisticamente; ver, por exemplo, Xie and Aurisset (2016) .
Vale a pena acrescentar um pouco de intuição sobre por que uma abordagem de diferença em diferenças pode ser muito mais eficaz do que uma diferença em termos de diferença. Muitos resultados online têm variância muito alta (ver, por exemplo, RA Lewis and Rao (2015) e Lamb et al. (2015) ) e são relativamente estáveis ao longo do tempo. Nesse caso, o escore de mudança terá variância substancialmente menor, aumentando o poder do teste estatístico. Uma razão pela qual essa abordagem não é usada com mais frequência é que, antes da era digital, não era comum ter resultados pré-tratamento. Uma maneira mais concreta de pensar sobre isso é imaginar um experimento para medir se uma rotina de exercícios específica causa perda de peso. Se você adotar uma abordagem de diferença de médias, sua estimativa terá variabilidade decorrente da variabilidade de pesos na população. Se você fizer uma abordagem de diferenças em diferenças, no entanto, essa variação de pesos que ocorre naturalmente é removida e você pode detectar mais facilmente uma diferença causada pelo tratamento.
Finalmente, considerei adicionar um quarto R: "reutilizar". Ou seja, se os pesquisadores se encontrarem com dados mais experimentais do que precisam para responder a sua pergunta original de pesquisa, eles devem adaptar os dados para fazer novas perguntas. Por exemplo, imagine que Kramer e seus colegas usaram um estimador de diferenças-em-diferenças e se encontraram com mais dados do que precisavam para resolver sua questão de pesquisa. Em vez de não usar os dados em toda a extensão, eles poderiam ter estudado o tamanho do efeito em função da expressão emocional antes do tratamento. Assim como Schultz et al. (2007) descobriram que o efeito do tratamento era diferente para usuários leves e pesados, talvez os efeitos do Feed de Notícias fossem diferentes para pessoas que já tendiam a postar mensagens felizes (ou tristes). Reaproveitamento poderia levar a "pesca" (Humphreys, Sierra, and Windt 2013) e "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , mas estes são amplamente endereçados com uma combinação de relatórios honestos (Simmons, Nelson, and Simonsohn 2011) , pré-registro (Humphreys, Sierra, and Windt 2013) , e métodos de aprendizado de máquina que tentam evitar o ajuste excessivo.