Esta sección está dirixida a ser usado como unha referencia, no canto de ser lido como un relato.
Preguntas sobre a causalidade na investigación social son moitas veces complexa e intrincada. Para unha visión fundamental para a causalidade en base a gráficos causais, consulte Pearl (2009) , e por unha visión fundamental baseada en resultados posibles, consulte Imbens and Rubin (2015) (eo apéndice técnico neste capítulo). Para unha comparación entre estas dúas enfoques, consulte Morgan and Winship (2014) . Para unha visión formal para establecer un factor de confusión, consulte VanderWeele and Shpitser (2013) .
No capítulo, creei o que parecía ser unha liña clara entre a nosa capacidade de facer estimacións causais a partir de datos experimentais e non experimentais. En realidade, creo que a distinción é máis borrosa. Por exemplo, todo o mundo acepta que fumar causa cancro, a pesar de nunca ter feito un experimento controlado randomizado que obriga á xente a fumar. Para excelentes tratamentos lonxitude libro sobre como facer estimacións causais a partir de datos non experimentais ver Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , e Dunning (2012) .
Os capítulos 1 e 2 do Freedman, Pisani, and Purves (2007) ofrecen unha introdución clara para as diferenzas entre os experimentos, experimentos controlados e randomizados experimentos controlados.
Manzi (2012) ofrece unha introdución fascinante e lexible para os fundamentos filosóficos e estatísticos de experimentos aleatorios controlados. Tamén ofrece exemplos interesantes do mundo real do poder de experimentación na empresa.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) proporcionan boas introducións aos aspectos estatísticos do delineamento experimental e análise. Ademais, existen excelentes tratamentos do uso de experiencias en diversos campos: economía (Bardsley et al. 2009) , socioloxía (Willer and Walker 2007; Jackson and Cox 2013) , psicoloxía (Aronson et al. 1989) , a ciencia política (Morton and Williams 2010) , e da política social (Glennerster and Takavarasha 2013) .
A importancia do recrutamento de participantes (por exemplo, mostraxe) é moitas veces subestimado en investigación experimental. Con todo, se o efecto do tratamento é heteroxéneo na poboación, entón a mostraxe é crítica. Longford (1999) fai que este punto claramente cando defende aos investigadores a pensar en experimentos como un levantamento poboacional, con mostraxe aleatoria.
A dicotomía que presentei entre laboratorio e de campo experimentos é algo simplificado. En realidade, outros investigadores propuxeron tipoloxías detallada, en particular, os que separan as distintas formas de experimentos de campo (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Ademais, hai outros dous tipos de experimentos realizados polos científicos sociais que non se encaixan perfectamente no laboratorio e no campo dicotomía :. Experimentos de investigación e experimentos sociais experimentos da investigación son experimentos utilizando a infraestrutura de enquisas existentes e comparar as respostas para as versións alternativas do mesmas preguntas (algunhas experiencias de investigación son presentados no capítulo 3); Para saber máis sobre as experiencias de investigación ver Mutz (2011) . Experimentos sociais son experimentos onde o tratamento é algunha política social que só pode ser aplicada por un goberno. experiencias sociais están intimamente relacionados co programa de avaliación. Para saber máis sobre as experiencias de política, consulte Orr (1998) , Glennerster and Takavarasha (2013) e Heckman and Smith (1995) .
Un número de traballos teñen comparado laboratorio e de campo experimentos en abstracto (Falk and Heckman 2009; Cialdini 2009) e en termos de resultados de experimentos específicos en ciencia política (Coppock and Green 2015) , economía (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) e psicoloxía (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ofrece un deseño de investigación agradable para comparar resultados de laboratorio e de campo experimentos.
Problemas sobre os participantes cambiando o seu comportamento, porque saben que están a ser observados de preto ás veces son chamados efectos na procura, e foron estudados en psicoloxía (Orne 1962) e economía (Zizzo 2009) . Aínda que na maior parte asociado con experiencias de laboratorio, estas mesmas cuestións poden causar problemas para experimentos de campo tamén. De feito, os efectos de demanda son tamén, por veces chamados de efectos de Hawthorne, un termo que deriva dun experimento de campo, especialmente as coñecidas experiencias de iluminación, que comezou en 1924 nas obras de Hawthorne da Western Electric Company (Adair 1984; Levitt and List 2011) . Ambos os efectos de demanda e efectos Hawthorn están intimamente relacionados coa idea de medida reactiva discutido no Capítulo 2 (véxase Webb et al. (1966) ).
A historia dos experimentos de campo foi descrito en economía (Levitt and List 2009) , a ciencia política (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psicoloxía (Shadish 2002) , e políticas públicas (Shadish and Cook 2009) . Unha área da ciencia social onde experimentos de campo axiña se tornou destacado é o desenvolvemento internacional. Para unha revisión positiva de que o traballo dentro da economía ver Banerjee and Duflo (2009) , e por unha avaliación crítica ver Deaton (2010) . Para unha revisión deste traballo en ciencia política ver Humphreys and Weinstein (2009) . Finalmente, os retos éticos implicados con experimentos de campo foron explotados en ciencia política (Humphreys 2015; Desposato 2016b) e economía do desenvolvemento (Baele 2013) .
No capítulo, suxeriu que a información pretratamento se pode empregar para mellorar a precisión da estimación de efectos de tratamento, pero hai algún debate sobre esta visión: Freedman (2008) , Lin (2013) , e Berk et al. (2013) ; vexa Bloniarz et al. (2016) para máis información.
Eu escollín a concentrar-se en tres conceptos: validez, a heteroxeneidade dos efectos do tratamento e mecanismos. Estes conceptos teñen nomes diferentes en diferentes campos. Por exemplo, os psicólogos adoitan moverse alén experimentos simples, concentrando-se mediadores e moderadores (Baron and Kenny 1986) . A idea de mediadores é capturado polo que eu chamo de mecanismos, ea idea de moderadores é capturado polo que eu chamo de validez externa (por exemplo, se os resultados do experimento sería diferente se foi executado en diferentes situacións) ea heteroxeneidade dos efectos do tratamento ( por exemplo, son os efectos máis grandes para algunhas persoas que outros).
O experimento de Schultz et al. (2007) mostra como as teorías sociais pode ser usada para proxectar intervencións eficaces. Para un argumento máis xeral sobre o papel da teoría no deseño de intervencións eficaces, consulte Walton (2014) .
Os conceptos de validez interna e externa foron introducidos por primeira vez en Campbell (1957) . Vexa Shadish, Cook, and Campbell (2001) para unha historia máis detallada e unha elaboración coidadosa de validez conclusión estatística, validez interna, validez do construto e validez externa.
Para unha visión xeral das cuestións relacionadas coa validez conclusión estatística en experimentos ver Gerber and Green (2012) (para unha perspectiva das ciencias sociais) e Imbens and Rubin (2015) (para unha perspectiva estatística). Algunhas cuestións de validez conclusión estatística que xorden especialmente en experimentos de campo en liña inclúen cuestións como métodos computacionalmente eficiente para a creación de intervalos de confianza cos datos dependentes (Bakshy and Eckles 2013) .
A validez interna pode ser difícil de asegurar, en experimentos de campo complexos. Ver, por exemplo, Gerber and Green (2000) , Imai (2005) , e Gerber and Green (2005) para o debate sobre a posta en marcha dun experimento de campo complexo sobre a votación. Kohavi et al. (2012) e Kohavi et al. (2013) proporcionan unha introdución sobre os retos de validez intervalo en experimentos de campo en liña.
Unha das principais preocupacións con validez interna e problemas coa randomização. Un xeito de potencialmente detectar problemas coa randomização é comparar os grupos de tratamento e control sobre as características observables. Este tipo de comparación é chamado de verificación de saldo. Vexa Hansen and Bowers (2008) para unha abordaxe estatística para equilibrar cheques, e mira Mutz and Pemantle (2015) para problemas sobre cheques de equilibrio. Por exemplo, usando unha balanza vaia Allcott (2011) atoparon que hai algunha evidencia de que a randomização non implementado correctamente en tres experiencias en algunhas das experiencias Opower (ver Táboa 2; sitios 2, 6, e 8). Para outras abordaxes, consulte Imbens and Rubin (2015) , capítulo 21.
Outras grandes preocupacións relacionadas coa validez interna son: 1) unilateral non-conformidade, no que non todo o mundo no grupo de tratamento efectivamente recibido o tratamento, 2) dous lados incumprimento, en que non todos no grupo de tratamento recibe o tratamento e algúns persoas no grupo de control reciben o tratamento, 3) de fricción, en que os resultados non son medidos para algúns participantes, e interferencia 4), en que o tratamento se repercute de persoas na condición de tratamento para persoas coa condición de control. Vexa Gerber and Green (2012) os capítulos 5, 6, 7 e 8 para máis información sobre cada unha destas cuestións.
Para saber máis sobre a validez da construción, ver Westen and Rosenthal (2003) , e para saber máis sobre a validez da construción en fontes de datos grandes, Lazer (2015) e no Capítulo 2 deste libro.
Un aspecto da validez externa é o escenario no que unha intervención é probada. Allcott (2015) ofrece un tratamento teórico e empírico coidado de viés de selección web. Este problema tamén é discutido Deaton (2010) . Ademais de ser replicado en moitos lugares, a intervención inicial Informe de Enerxía tamén foi independentemente estudado por varios grupos de investigación (por exemplo, Ayres, Raseman, and Shih (2013) ).
Para unha excelente visión xeral da heteroxeneidade dos efectos do tratamento en experimentos de campo, consulte o Capítulo 12 da Gerber and Green (2012) . Para introducións a heteroxeneidade dos efectos do tratamento en ensaios clínicos, consulte Kent and Hayward (2007) , Longford (1999) , e Kravitz, Duan, and Braslow (2004) . A heteroxeneidade dos efectos do tratamento céntranse xeralmente sobre as diferenzas en base a características de pretratamento. Se vostede está interesado en heteroxeneidade baseada nos resultados post-tratamento, a continuación, se recursos máis complexos son necesarios, tales como o principal estratificación (Frangakis and Rubin 2002) ; vexa Page et al. (2015) para unha revisión.
Moitos investigadores estiman a heteroxeneidade dos efectos do tratamento mediante regresión lineal, pero os métodos máis recentes contan con aprendizaxe de máquina, por exemplo, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , e Athey and Imbens (2016a) .
Hai algún escepticismo sobre os descubrimentos da heteroxeneidade de efectos por mor de varios problemas de comparación e "pesca". Hai unha variedade de enfoques estatísticas que poden axudar a responder ás preocupacións sobre comparación múltiple (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Unha visión para problemas sobre "pesca" é pre-rexistro, que se está facendo cada vez máis común na psicoloxía (Nosek and Lakens 2014) , ciencia política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) e economía (Olken 2015) .
No estudo da Costa and Kahn (2013) só preto da metade dos fogares no experimento puideron estar ligada á información demográfica. Os lectores interesados nos detalles e posibles problemas con esta análise debe consultar o traballo orixinal.
Mecanismos son moi importantes, pero acaban por ser moi difíciles de estudar. Investigación sobre os mecanismos intimamente relacionado co estudo de mediadores en psicoloxía (pero ver tamén VanderWeele (2009) para unha comparación ten entre as dúas ideas). Enfoques estatísticas para mecanismos de atopar, como o achegamento desenvolvida no Baron and Kenny (1986) , son moi comúns. Desafortunadamente, verifícase que estes procedementos dependen dalgúns supostos fortes (Bullock, Green, and Ha 2010) e sofren cando hai varios mecanismos, como se podería esperar en moitas situacións (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) e Imai and Yamamoto (2013) ofrecen algúns métodos estatísticos mellorados. Ademais, VanderWeele (2015) ofrece un tratamento de libro de lonxitude, con unha serie de resultados importantes, incluíndo unha visión ampla para a análise de sensibilidade.
Unha visión separada concéntrase en experimentos que tentan manipular o mecanismo directamente (por exemplo, dando mariñeiros vitamina C). Desafortunadamente, en moitos ámbitos de ciencias sociais moitas veces hai varios mecanismos e é difícil de concibir tratamentos que cambian un sen cambiar os outros. Algunhas propostas para experimentalmente mecanismos que alteran son descritos en Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , e Pirlott and MacKinnon (2016) .
Finalmente, os mecanismos tamén teñen unha longa historia na filosofía da ciencia, como descrito por Hedström and Ylikoski (2010) .
Para saber máis sobre o uso de estudos de correspondencia e estudos de auditoría para medir a discriminación ver Pager (2007) .
O xeito máis común para contratar asistentes para experimentos que constrúe é Amazon Mechanical Turk (MTurk). Porque MTurk imita aspectos das experiencias de pago de laboratorio tradicionais de persoas para completar tarefas que non faría por investigadores libres moitos xa comezaron a usar Turkers (os traballadores sobre MTurk) como participantes en seres humanos experiencias resultantes da recollida de datos máis rápido e máis barato que a tradicional experimentos de laboratorio no campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
A maior forza de experiencias cos participantes recrutados MTurk son loxístico: permiten que os investigadores a contratar participantes de xeito rápido e que sexa. Tendo en conta que as experiencias de laboratorio pode levar semanas para executar e experimentos de campo pode levar meses para set-up, as experiencias cos participantes recrutados MTurk pode ser executado en días. Por exemplo, Berinsky, Huber, and Lenz (2012) puideron contratar 400 persoas nun só día para participar nun experimento oito minutos. Ademais, estes participantes poden ser recrutados para practicamente calquera finalidade (incluíndo enquisas e colaboración en masa, como discutido nos capítulos 3 e 5). Esta facilidade de contratación significa que os investigadores poden executar secuencias de experimentos relacionados en rápida sucesión.
Antes de contratar participantes MTurk para as súas propias experiencias, hai catro cousas importantes a saber. En primeiro lugar, moitos investigadores teñen un escepticismo non específica de experimentos que inclúen Turkers. Porque ese escepticismo non é específico, é difícil de combater coa evidencia. Con todo, tras varios anos de estudos utilizando Turkers, agora podemos concluír que este escepticismo non é especialmente necesario. Houbo moitos estudos comparando os datos demográficos de Turkers a outras poboacións e moitos estudos comparando resultados de experiencias con Turkers aos resultados doutras poboacións. Dado todo este traballo, eu creo que a mellor forma para pensar sobre iso é que Turkers son unha mostra de barrio razoable, así como estudantes, pero lixeiramente máis diversificada (Berinsky, Huber, and Lenz 2012) . Así, do mesmo xeito que os estudantes son unha poboación razoable para algúns, pero non toda a investigación experimental, Turkers son unha poboación razoable para algúns, pero non todas as enquisas. Se está indo a traballar con Turkers, entón ten sentido ler moitos destes estudos comparativos e entender as súas pasaxes.
En segundo lugar, os investigadores desenvolveron prácticas para aumentar a validez interna de experimentos Turk, e ten que aprender sobre e siga estas prácticas (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Por exemplo, os investigadores utilizan Turkers son animou a utilizar screeners para eliminar participantes desatentos (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (ver tamén DJ Hauser and Schwarz (2015b) e DJ Hauser and Schwarz (2015a) ). Se non eliminar participantes desatentos, calquera efecto do tratamento pode ser lavado para fóra polo ruído introducido desde participantes desatentos, e na práctica, o número de participantes desatento pode ser substancial. No experimento de Huber e compañeiros (2012) preto de 30% dos participantes fallaron crivo atención básica. Outro problema común con Turkers é participantes non inxenuos (Chandler et al. 2015) .
En terceiro lugar, en relación a outras formas de experiencias dixitais, experiencias MTurk non á escala; Stewart et al. (2015) estima que, en determinado momento, hai só uns 7.000 persoas en MTurk.
Finalmente, ten que saber que MTurk é unha comunidade con as súas propias regras e normas (Mason and Suri 2012) . Do mesmo xeito que ía tentar descubrir máis sobre a cultura dun país onde estaba indo para realizar as súas experiencias, ten que tentar descubrir máis sobre a cultura e as normas de Turkers (Salehi et al. 2015) . E, ten que saber que os Turkers estará falando sobre a súa experiencia se fai algo inadecuado ou antiético (Gray et al. 2016) .
MTurk é un xeito moi cómodo para contratar asistentes para as súas experiencias, sexan elas laboratorio-like, como Huber, Hill, and Lenz (2012) , ou máis campo-like, como Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , e Mao et al. (2016) .
Se está a pensar de intentar crear o seu propio produto, eu recomendo que lea os consellos ofrecidos polo grupo MovieLens en Harper and Konstan (2015) . Un aspecto clave da súa experiencia é que para cada proxecto exitoso hai moitos, moitos fracasos. Por exemplo, o grupo MovieLens lanzado outros produtos, como GopherAnswers que eran erros completas (Harper and Konstan 2015) . Outro exemplo dun investigador fallando ao tentar construír un produto é o intento de Edward Castronova para construír un xogo en liña chamado Arden. Aínda US $ 250.000 en financiamento, o proxecto foi un fracaso (Baker 2008) . Proxectos como GopherAnswers e Arden, por desgraza, son moito máis comúns do que proxectos como MovieLens. Finalmente, cando dixo que non sabía de calquera outros investigadores que construíran correctamente produtos para experimentación repetida aquí é o meu criterios: 1) os participantes usan o produto por mor do que el ofrece-los (por exemplo, non son pagados e non son voluntarios axudando a ciencia) e 2) o produto foi usado por máis dunha experiencia distinta (isto é, non é o mesmo experimento varias veces con diferentes piscinas participantes). Se sabe de outros exemplos, por favor me aviso.
Escoitei a idea de cuadrante de Pasteur discutido frecuentemente en empresas de tecnoloxía, e iso axuda a organizar os esforzos de procura en Google (Spector, Norvig, and Petrov 2012) .
Bond e estudo dos compañeiros (2012) tamén tenta detectar o efecto destes tratamentos sobre os amigos de quen os recibiu. Debido ao deseño da experiencia, estes desbordamentos son difíciles de detectar de forma limpa; os lectores interesados deben ver Bond et al. (2012) para unha discusión máis aprofundada. Esta experiencia é parte dunha longa tradición de experimentos en ciencia política sobre os esforzos para impulsar a votación (Green and Gerber 2015) . Estas experiencias get out a voto son comúns en parte porque están no cuadrante de Pasteur. É dicir, hai moitas persoas que están motivados para aumentar a votación ea votación pode ser un comportamento interesante para probar as teorías máis xerais sobre o cambio de comportamento e influencia social.
Outros investigadores emitiron opinións sobre a execución de experimentos de campo con organizacións socias, como partidos políticos, organizacións non gobernamentais e empresas (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Outros ofreceu consellos sobre como asociacións con organizacións poden impactar proxectos de investigación (Green, Calfano, and Aronow 2014; King et al. 2007) . Colaboración tamén pode levar a cuestións éticas (Humphreys 2015; Nickerson and Hyde 2016) .
Se indo crear un plan de análise antes de realizar a súa experiencia, eu sugiro que comece lendo as directrices para informes. O Consorte (Reportaxe estándar consolidado de intentos) directrices foron desenvolvidas na medicina (Schulz et al. 2010) e modificado para a investigación social (Mayo-Wilson et al. 2013) . Un conxunto relacionado de orientacións foi desenvolvido polos editores da revista Journal of Experimental de Ciencia Política (Gerber et al. 2014) (ver tamén Mutz and Pemantle (2015) e Gerber et al. (2015) ). Finalmente, Directrices para Informes foron desenvolvidos en psicoloxía (Group 2008) , e ver tamén Simmons, Nelson, and Simonsohn (2011) .
Se crear un plan de análise que debes considerar pre rexistrarse porque o pre-rexistro vai aumentar a confianza que os outros teñen os seus resultados. Ademais, se está a traballar con un compañeiro, que vai limitar a capacidade do seu compañeiro para cambiar a análise tras ver os resultados. A preinscrición está facendo cada vez máis común na psicoloxía (Nosek and Lakens 2014) , ciencia política (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) e economía (Olken 2015) .
Ao crear o seu plan de pre-análise que ten que ser consciente de que algúns investigadores tamén usan regresión e enfoques afíns para mellorar a precisión do efecto do tratamento estimado, e hai algún debate sobre esta visión: Freedman (2008) , Lin (2013) , e Berk et al. (2013) ; vexa Bloniarz et al. (2016) para máis información.
Proxecto consellos especialmente para experimentos de campo en liña tamén é presentado en Konstan and Chen (2007) e Chen and Konstan (2015) .
Para máis información sobre os experimentos MusicLab, consulte Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , e Salganik (2007) . Para saber máis sobre o gañador leva todos os mercados, ver Frank and Cook (1996) . Para saber máis sobre a sorte desembaraçar e habilidade máis xeral, ver Mauboussin (2012) , Watts (2012) e Frank (2016) .
Hai outra visión para eliminar pagos participantes que os investigadores deben usar con cautela: conscrição. En moitos experimentos de campo en liña participantes son, basicamente, convocado para experimentos e nunca compensado. Exemplos desa visión inclúen Restivo e da van de Rijt (2012) experimento sobre recompensas na Wikipedia e Bond e compañeiro (2012) ensaios en fomentar a xente a votar. Estas experiencias realmente non teñen custo variable cero, eles teñen custo variable cero a investigadores. Aínda que o custo de moitas destas experiencias é moi pequeno para cada participante, pequenos custos imposta unha enorme cantidade de participantes pode aumentar con rapidez. Investigadores que executan experimentos masivos online, moitas veces xustificar a importancia de pequenos efectos do tratamento estimados por dicir que eses pequenos efectos poden chegar a ser importante cando aplicada a moitas persoas. O exacto mesmo pensamento é aplicable a custos que os investigadores impoñen aos participantes. Se as súas experiencias fai que un millón de persoas a perder un minuto, a experiencia non é moi prexudicial para calquera persoa en particular, pero, en total, ten desperdiçado case dous anos de tempo.
Outra visión para a creación de pago de gastos variables de cero para entrar é a utilización dunha lotería, un enfoque que foi tamén usada en investigación de investigación (Halpern et al. 2011) . Finalmente, hai máis sobre o proxecto user-experiencias agradables ver Toomim et al. (2011) .
Aquí están os axustes orixinais dos tres R, de Russell and Burch (1959) :
"Substitución significa a substitución para viven animais conscientes máis elevados de material insensible. Redución supón unha redución no número de animais utilizados para obter información dun dato valor e precisión. Refinamento significa calquera diminución na incidencia ou severidade dos procedementos inhumanos aplicados a estes animais que teñen aínda que ser usado ".
Os tres Rs que propoño non substitúen os principios éticos descritos no capítulo 6. Pola contra, son unha versión máis elaborada un dos principios-beneficencia-especialmente para a configuración de experimentos humanos.
Ao considerar contaxio emocional, hai tres cuestións non éticos para manter presente ao interpretar esta experiencia. En primeiro lugar, non está claro o modo como os datos reais do experimento conectar coas demandas teóricos; noutras palabras, existen dúbidas sobre a validez da construción. Non está claro que as contas de palabras positivas e negativas son realmente un bo indicador do estado emocional dos participantes por 1) non está claro que as palabras que a xente postam son un bo indicador das súas emocións e 2) non está claro que a técnica de análise de sentimento especial, que os investigadores utilizaron é capaz de inferir de forma fiable emocións (Beasley and Mason 2015; Panger 2016) . Noutras palabras, pode haber unha mala medida dun sinal polarizado. En segundo lugar, o deseño e análise da experiencia nos di nada sobre quen foi máis afectado (é dicir, non existe unha análise da heteroxeneidade dos efectos do tratamento) e que o mecanismo pode ser. Neste caso, os investigadores tiveron moita información sobre os participantes, pero eles eran esencialmente tratados como widgets na análise. En terceiro lugar, o tamaño do efecto nesta experiencia foi moi pequena; a diferenza entre as condicións de tratamento e control é de preto de 1 de cada 1000 palabras. No seu artigo, Kramer e os seus colegas facer o caso que un efecto deste tamaño é importante porque centos de millóns de persoas acceden seu Fonte de noticias cada día. Noutras palabras, eles argumentan que mesmo efectos que son pequenos para cada persoa que son grandes en canto agregados. Mesmo se fose para aceptar este argumento, aínda non está claro se un efecto deste tamaño é importante en relación á cuestión científica máis xerais sobre o contaxio emocional. Para saber máis sobre as situacións en que pequenos efectos son importantes ver Prentice and Miller (1992) .
En termos de o primeiro R (substitución), comparando a experiencia emocional Contagion (Kramer, Guillory, and Hancock 2014) eo experimento natural contaxio emocional (Coviello et al. 2014) ofrece algunhas leccións xerais sobre os trade-offs implicados co movemento de experiencias ás experiencias naturais (e outras abordaxes como correspondencia que tentan achegar experimentos en datos non experimentais, consulte o Capítulo 2). Ademais dos beneficios éticos, o cambio de experimental para estudos non experimentais tamén permite aos investigadores estudar tratamentos que son loxística incapaz de implantar. Estes beneficios éticos e loxísticos teñen un custo, con todo. Con experimentos naturais investigadores menos control sobre cousas como o recrutamento de participantes, randomização, ea natureza do tratamento. Por exemplo, unha limitación de precipitación como un tratamento é que aumenta tanto positividade e negativa diminúe. No estudo experimental, con todo, Kramer e os seus compañeiros foron capaces de axustar positividade e negativa de forma independente.
O enfoque particular usado por Coviello et al. (2014) foi elaborada en Coviello, Fowler, and Franceschetti (2014) . Para unha introdución ao variables instrumentais ver Angrist and Pischke (2009) (menos formal) ou Angrist, Imbens, and Rubin (1996) (máis formal). Para unha avaliación escéptica de variables instrumentais ver Deaton (2010) , e para unha introdución a variables instrumentais con instrumentos débiles (choiva é un instrumento feble), ver Murray (2006) .
De xeito máis xeral, unha boa introdución para experimentos naturais é Dunning (2012) , e Rosenbaum (2002) , Rosenbaum (2009) , e Shadish, Cook, and Campbell (2001) ofrecen boas ideas sobre estimar efectos causais sen experimentos.
En termos de o segundo R (Refinement), existen trade-offs científicos e loxísticos ao considerar cambiar o deseño de contaxio emocional de bloquear mensaxes para impulsar mensaxes. Por exemplo, pode ser o caso de que a execución técnica do Fonte de noticias fai é substancialmente máis fácil de facer un experimento con bloqueo de mensaxes no canto dun experimento coa impulsar as mensaxes (teña en conta que un experimento con bloqueo de mensaxes pode ser aplicada como unha capa sobre parte superior do sistema feed de noticias sen necesidade de cambios do sistema subxacente). Cientificamente, con todo, a teoría dirixida pola experiencia non suxiren claramente un deseño sobre o outro.
Desafortunadamente, eu non teño coñecemento de investigacións anteriores substancial sobre os méritos relativos de bloqueo e aumentar o contido en comentario de noticias. Ademais, eu non vin moita investigación sobre refinando tratamentos para tornalos menos prexudiciais; unha excepción é Jones and Feamster (2015) , que considera o caso de medida de censura a Internet (un tema do que falaremos no capítulo 6 en relación ao estudo Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
En termos de o terceiro R (redución), unha boa introdución á análise do poder tradicional é Cohen (1988) . covariáveis pretratamento pode ser incluído na fase de deseño e de fase da análise de experiencias; Capítulo 4 de Gerber and Green (2012) ofrece unha boa introdución para ambas as abordaxes, e Casella (2008) ofrece un tratamento máis profundo. Técnicas que utilizan esta información pretratamento na randomização son tipicamente chamado quere bloqueada proxectos experimentais ou debuxos experimentais estratificadas (terminoloxía non é utilizada de forma consistente en comunidades); estas técnicas están profundamente relacionadas coas técnicas de mostraxe estratificada discutidos no capítulo 3. Consulte Higgins, Sävje, and Sekhon (2016) para máis información sobre o uso destes modelos en experimentos masivas. Covariáveis de pretratamento poden ser incluídos na fase de análise. McKenzie (2012) explora o enfoque diferenza-en-diferenzas para analizar experiencias de campo con máis detalle. Vexa Carneiro, Lee, and Wilhelm (2016) para máis información sobre as solucións de compromiso entre diferentes propostas para aumentar a precisión nas estimacións dos efectos do tratamento. Finalmente, ao decidir se debe tentar incluír co-variables pretratamento na fase de deseño ou análise (ou ambos), hai algúns factores a considerar. Nun ambiente onde investigadores queren demostrar que eles non son "fishing" (Humphreys, Sierra, and Windt 2013) , mediante co-variables pretratamento na fase de deseño pode ser útil (Higgins, Sävje, and Sekhon 2016) . En situacións en que os participantes chegan secuencialmente, experimentos de campo, especialmente en liña, utilizando a información de pretratamento na fase de proxecto pode ser difícil loxística, ver, por exemplo Xie and Aurisset (2016) .
Paga a pena engadir un pouco de intuición sobre a razón de diferenzas en diferenzas poden ser moito máis eficaz que diferenzas en medios. Moitos resultados en liña teñen moi elevada varianza (ver, por exemplo, Lewis and Rao (2015) e Lamb et al. (2015) ) e son relativamente estables ao longo do tempo. Neste caso, o marcador cambio terá substancialmente menor varianza, aumentando a potencia da proba estatística. Unha razón deste abordadas non se usa con máis frecuencia é que, antes da era dixital non era común ter resultados de pretratamento. Un xeito máis concreta para pensar sobre iso é imaxinar un experimento para medir unha rutina de exercicios específicos fai que a perda de peso. Se fai un achegamento diferenza-en-medio, a súa estimación terá variabilidade que vén da variabilidade nos pesos da poboación. Se fai un achegamento diferenza-en-diferenza, con todo, que a variación que ocorre naturalmente nos pesos é eliminado e pode facilmente detectar unha diferenza causada polo tratamento.
Un xeito importante de reducir o número de participantes na súa experiencia é a realización dunha análise de enerxía, que Kramer e os seus colegas poderían ter feito a partir dos tamaños de efecto observados desde o experimento natural por Coviello et al. (2014) ou máis cedo, a investigación non-experimental por Kramer (2012) (en realidade estas son actividades a finais deste capítulo). Teña en conta que este uso da análise de poder é un pouco diferente do que é habitual. Na era analóxica, os investigadores xeralmente fixo a análise do poder para asegurarse de que o seu estudo non era moi pequeno (ou sexa, baixo-powered). Agora, con todo, os investigadores deben facer a análise do poder para asegurarse de que o seu estudo non é moi grande (é dicir, máis de potencia).
Finalmente, eu considerou engadir unha cuarta R: adapte. É dicir, se os investigadores están con datos máis experimentais que precisan para resolver a súa pregunta de investigación orixinal, deben adaptar os datos para facer novas preguntas. Por exemplo, imaxina que Kramer e os seus colegas usaran un estimador de diferenzas en diferenzas e atopáronse con máis datos que o necesario para resolver a súa pregunta de investigación. No canto de non usar os datos en toda a extensión, poderían estudar o efecto do tamaño como unha función de pretratamento expresión emocional. Do mesmo xeito que Schultz et al. (2007) atoparon que o efecto do tratamento foi diferente para os usuarios lixeiros e pesados, quizais os efectos do Fonte de noticias foron diferentes para as persoas que xa tendían a enviar mensaxes felices (ou triste). Repurposing podería levar a "pesca" (Humphreys, Sierra, and Windt 2013) e "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , pero estes son en gran parte endereçável cunha combinación de reportaxe honesta (Simmons, Nelson, and Simonsohn 2011) , o pre-rexistro (Humphreys, Sierra, and Windt 2013) , e os métodos de aprendizaxe de máquina que tentan evitar o exceso de montaxe.