Les questions sur la causalité dans la recherche sociale sont souvent complexes et complexes. Pour une approche fondamentale de la causalité basée sur les graphes causaux, voir Pearl (2009) , et pour une approche fondamentale basée sur les résultats potentiels, voir Imbens and Rubin (2015) . Pour une comparaison entre ces deux approches, voir Morgan and Winship (2014) . Pour une approche formelle de la définition d'un facteur de confusion, voir VanderWeele and Shpitser (2013) .
Dans ce chapitre, j'ai créé ce qui semblait être une ligne claire entre notre capacité à faire des estimations causales à partir de données expérimentales et non expérimentales. Cependant, je pense que, en réalité, la distinction est plus floue. Par exemple, tout le monde admet que fumer cause le cancer, même si aucune expérience contrôlée randomisée qui oblige les gens à fumer n'a jamais été faite. Pour d'excellents traitements sur la réalisation d'estimations causales à partir de données non expérimentales, voir Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) et Dunning (2012) .
Les chapitres 1 et 2 de Freedman, Pisani, and Purves (2007) offrent une introduction claire aux différences entre les expériences, les expériences contrôlées et les expériences contrôlées randomisées.
Manzi (2012) fournit une introduction fascinante et lisible aux fondements philosophiques et statistiques des expériences contrôlées randomisées. Il fournit également des exemples intéressants du monde réel de la puissance de l'expérimentation dans les affaires. Issenberg (2012) fournit une introduction fascinante à l'utilisation de l'expérimentation dans les campagnes politiques.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, et Athey and Imbens (2016b) fournissent de bonnes introductions aux aspects statistiques de la conception et de l'analyse expérimentales. De plus, il existe d'excellents traitements de l'expérimentation dans de nombreux domaines: économie (Bardsley et al. 2009) , sociologie (Willer and Walker 2007; Jackson and Cox 2013) , psychologie (Aronson et al. 1989) , science politique (Morton and Williams 2010) , et la politique sociale (Glennerster and Takavarasha 2013) .
L'importance du recrutement des participants (par exemple, l'échantillonnage) est souvent sous-estimée dans la recherche expérimentale. Cependant, si l'effet du traitement est hétérogène dans la population, l'échantillonnage est critique. Longford (1999) exprime clairement ce point lorsqu'il préconise que les chercheurs envisagent des expériences comme une enquête de population avec échantillonnage aléatoire.
J'ai suggéré qu'il existe un continuum entre les expériences en laboratoire et sur le terrain, et d'autres chercheurs ont proposé des typologies plus détaillées, en particulier celles qui séparent les différentes formes d'expériences sur le terrain (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Un certain nombre d'articles ont comparé des expériences de laboratoire et de terrain dans l'abstrait (Falk and Heckman 2009; Cialdini 2009) et en termes de résultats d'expériences spécifiques en science politique (Coppock and Green 2015) , économie (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , et la psychologie (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) offrent une conception de recherche intéressante pour comparer les résultats d'expériences en laboratoire et sur le terrain. Parigi, Santana, and Cook (2017) décrivent comment les expériences en ligne peuvent combiner certaines des caractéristiques des expériences en laboratoire et sur le terrain.
Les inquiétudes concernant le fait que les participants modifient leur comportement parce qu'ils savent qu'ils sont surveillés de près sont parfois appelés effets de la demande , et ils ont été étudiés en psychologie (Orne 1962) et en économie (Zizzo 2010) . Bien que la plupart du temps associés à des expériences de laboratoire, ces mêmes problèmes peuvent causer des problèmes pour les expériences sur le terrain. En fait, les effets de la demande sont aussi parfois appelés effets Hawthorne , un terme qui dérive des célèbres expériences d'illumination qui ont débuté en 1924 à Hawthorne Works de la Western Electric Company (Adair 1984; Levitt and List 2011) . Les effets de demande et les effets de Hawthorne sont étroitement liés à l'idée de mesure réactive discutée au chapitre 2 (voir aussi Webb et al. (1966) ).
Les expériences de terrain ont une longue histoire en économie (Levitt and List 2009) , en science politique (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , en psychologie (Shadish 2002) et en politique publique (Shadish and Cook 2009) . Un domaine de la science sociale où les expériences sur le terrain sont rapidement devenues proéminentes est le développement international. Pour une revue positive de ce travail en économie, voir Banerjee and Duflo (2009) , et pour une évaluation critique, voir Deaton (2010) . Pour une revue de ce travail en science politique, voir Humphreys and Weinstein (2009) . Enfin, les défis éthiques découlant des expériences sur le terrain ont été explorés dans le contexte de la science politique (Humphreys 2015; Desposato 2016b) et de l'économie du développement (Baele 2013) .
Dans cette section, j'ai suggéré que l'information de prétraitement peut être utilisée pour améliorer la précision des effets de traitement estimés, mais il y a un débat sur cette approche; voir Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , et Bloniarz et al. (2016) pour plus d'informations.
Enfin, il existe deux autres types d'expériences réalisées par des chercheurs en sciences sociales qui ne correspondent pas parfaitement à la dimension de laboratoire: les expériences d'enquête et les expériences sociales. Les expériences d'enquête sont des expériences utilisant l'infrastructure des enquêtes existantes et comparant les réponses aux versions alternatives des mêmes questions (certaines expériences d'enquête sont présentées au chapitre 3); Pour plus d'informations sur les expériences d'enquête, voir Mutz (2011) . Les expériences sociales sont des expériences où le traitement est une politique sociale qui ne peut être mise en œuvre que par un gouvernement. Les expériences sociales sont étroitement liées à l'évaluation du programme. Pour plus d'informations sur les expériences politiques, voir Heckman and Smith (1995) , Orr (1998) et @ glennerster_running_2013.
J'ai choisi de me concentrer sur trois concepts: la validité, l'hétérogénéité des effets du traitement et les mécanismes. Ces concepts ont des noms différents dans différents domaines. Par exemple, les psychologues ont tendance à aller au-delà des simples expériences en mettant l'accent sur les médiateurs et les modérateurs (Baron and Kenny 1986) . L'idée de médiateurs est capturée par ce que j'appelle des mécanismes, et l'idée de modérateurs est capturée par ce que j'appelle la validité externe (par exemple, les résultats de l'expérience seraient-ils différents si elle était utilisée dans différentes situations)? par exemple, les effets sont-ils plus importants pour certaines personnes que pour d'autres).
L'expérience de Schultz et al. (2007) montre comment les théories sociales peuvent être utilisées pour concevoir des interventions efficaces. Pour un argument plus général sur le rôle de la théorie dans la conception d'interventions efficaces, voir Walton (2014) .
Les concepts de validité interne et externe ont été introduits pour la première fois par Campbell (1957) . Voir Shadish, Cook, and Campbell (2001) pour un historique plus détaillé et une élaboration minutieuse de la validité des conclusions statistiques, de la validité interne, de la validité de construction et de la validité externe.
Pour un aperçu des problèmes liés à la validité des conclusions statistiques dans les expériences, voir Gerber and Green (2012) (d'un point de vue des sciences sociales) et Imbens and Rubin (2015) (d'un point de vue statistique). Certains problèmes de validité des conclusions statistiques qui se posent spécifiquement dans les expériences sur le terrain en ligne comprennent des problèmes tels que les méthodes informatiques efficaces pour créer des intervalles de confiance avec des données dépendantes (Bakshy and Eckles 2013) .
La validité interne peut être difficile à garantir dans des expériences de terrain complexes. Voir, par exemple, Gerber and Green (2000) , Imai (2005) et Gerber and Green (2005) pour débattre de la mise en œuvre d'une expérience de terrain complexe sur le vote. Kohavi et al. (2012) et Kohavi et al. (2013) fournissent une introduction aux défis de la validité des intervalles dans les expériences de terrain en ligne.
Une menace majeure à la validité interne est la possibilité d'une randomisation échouée. Une façon potentielle de détecter les problèmes avec la randomisation est de comparer les groupes de traitement et de contrôle sur les caractères observables. Ce genre de comparaison s'appelle un contrôle d'équilibre . Voir Hansen and Bowers (2008) pour une approche statistique de l'équilibre des chèques et Mutz and Pemantle (2015) pour les préoccupations concernant les bilans d'équilibre. Par exemple, en utilisant une vérification d'équilibre, Allcott (2011) trouvé des preuves que la randomisation n'a pas été mise en œuvre correctement dans trois des expériences d'Opower (voir le tableau 2, les sites 2, 6 et 8). Pour d'autres approches, voir le chapitre 21 d' Imbens and Rubin (2015) .
Les autres préoccupations majeures liées à la validité interne sont: (1) la non-conformité unilatérale, où tout le monde n'a pas reçu le traitement, (2) la non-conformité bilatérale, où tout le monde ne reçoit pas le traitement et certaines personnes le groupe témoin reçoit le traitement, (3) l'attrition, où les résultats ne sont pas mesurés pour certains participants, et (4) l'interférence, où le traitement déborde des personnes dans la condition de traitement aux personnes dans la condition de contrôle. Voir les chapitres 5, 6, 7 et 8 de Gerber and Green (2012) pour plus d'informations sur chacune de ces questions.
Pour plus d'informations sur la validité de construct, voir Westen and Rosenthal (2003) , et pour plus d'informations sur la validité de construct dans les sources de données volumineuses, Lazer (2015) et le chapitre 2 de ce livre.
Un aspect de la validité externe est le contexte dans lequel une intervention est testée. Allcott (2015) fournit un traitement théorique et empirique minutieux du biais de sélection des sites. Cette question est également discutée par Deaton (2010) . Un autre aspect de la validité externe est de savoir si les opérationnalisations alternatives de la même intervention auront des effets similaires. Dans ce cas, une comparaison entre Schultz et al. (2007) et Allcott (2011) montrent que les expériences d'Opower avaient un effet traité estimé plus petit que les expériences originales de Schultz et ses collègues (1,7% contre 5%). Allcott (2011) spéculé que les expériences de suivi avaient un effet moindre en raison des différences de traitement: une émoticône manuscrite dans le cadre d'une étude sponsorisée par une université, comparée à une émoticône imprimée dans le cadre d'une production de masse. rapport d'une compagnie d'électricité.
Pour un excellent aperçu de l'hétérogénéité des effets du traitement dans les expériences de terrain, voir le chapitre 12 de Gerber and Green (2012) . Pour les introductions à l'hétérogénéité des effets du traitement dans les essais médicaux, voir Kent and Hayward (2007) , Longford (1999) et Kravitz, Duan, and Braslow (2004) . Les considérations d'hétérogénéité des effets du traitement se concentrent généralement sur les différences fondées sur les caractéristiques avant le traitement. Si vous êtes intéressé par l'hétérogénéité basée sur les résultats post-traitement, alors des approches plus complexes sont nécessaires, telles que la stratification principale (Frangakis and Rubin 2002) ; voir Page et al. (2015) pour un examen.
De nombreux chercheurs estiment l'hétérogénéité des effets du traitement en utilisant la régression linéaire, mais les méthodes plus récentes reposent sur l'apprentissage automatique; voir, par exemple, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , et Athey and Imbens (2016a) .
Il existe un certain scepticisme quant aux résultats de l'hétérogénéité des effets en raison de problèmes de comparaison multiples et de «pêche». Il existe diverses approches statistiques qui peuvent aider à répondre aux préoccupations concernant les comparaisons multiples (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . La pré-inscription, qui devient de plus en plus courante en psychologie (Nosek and Lakens 2014) , la science politique (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , est une approche des préoccupations concernant la pêche (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) et économie (Olken 2015) .
Dans l'étude de Costa and Kahn (2013) seulement la moitié des ménages de l'expérience pourrait être liée à l'information démographique. Les lecteurs intéressés par ces détails devraient se référer à l'article original.
Les mécanismes sont extrêmement importants, mais ils s'avèrent très difficiles à étudier. La recherche sur les mécanismes est étroitement liée à l'étude des médiateurs en psychologie (mais voir aussi VanderWeele (2009) pour une comparaison précise entre les deux idées). Les approches statistiques pour trouver des mécanismes, telles que l'approche développée dans Baron and Kenny (1986) , sont assez courantes. Malheureusement, il s'avère que ces procédures dépendent de certaines hypothèses fortes (Bullock, Green, and Ha 2010) et souffrent quand il y a plusieurs mécanismes, comme on pourrait s'y attendre dans de nombreuses situations (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) et Imai and Yamamoto (2013) proposent quelques méthodes statistiques améliorées. En outre, VanderWeele (2015) propose un traitement de longueur de livre avec un certain nombre de résultats importants, y compris une approche complète de l'analyse de sensibilité.
Une approche distincte se concentre sur les expériences qui tentent de manipuler le mécanisme directement (par exemple, en donnant aux marins de la vitamine C). Malheureusement, dans de nombreux contextes de sciences sociales, il existe souvent de multiples mécanismes et il est difficile de concevoir des traitements qui changent un sans changer les autres. Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) et Pirlott and MacKinnon (2016) décrivent certaines approches des mécanismes de modification expérimentale.
Les chercheurs qui mènent des expériences entièrement factorielles devront se préoccuper des tests d'hypothèses multiples; voir Fink, McConnell, and Vollmer (2014) et List, Shaikh, and Xu (2016) pour plus d'informations.
Enfin, les mécanismes ont aussi une longue histoire dans la philosophie des sciences telle que décrite par Hedström and Ylikoski (2010) .
Pour en savoir plus sur l'utilisation d'études par correspondance et d'études d'audit pour mesurer la discrimination, voir Pager (2007) .
La manière la plus courante de recruter des participants pour des expériences que vous construisez est Amazon Mechanical Turk (MTurk). Parce que MTurk imite les aspects des expériences de laboratoire traditionnelles - payant des gens pour accomplir des tâches qu'ils ne feraient pas gratuitement - de nombreux chercheurs ont déjà commencé à utiliser Turkers (les travailleurs de MTurk) comme participants expérimentaux, ce qui permet une collecte de données plus rapide et moins coûteuse. dans des expériences de laboratoire traditionnelles sur le campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Généralement, les plus grands avantages de l'utilisation des participants recrutés à partir de MTurk sont logistiques. Alors que les expériences de laboratoire peuvent prendre des semaines à se dérouler et que les expériences sur le terrain peuvent prendre des mois à se mettre en place, des expériences avec des participants recrutés à partir de MTurk peuvent être effectuées en quelques jours. Par exemple, Berinsky, Huber, and Lenz (2012) ont pu recruter 400 sujets en une seule journée pour participer à une expérience de 8 minutes. En outre, ces participants peuvent être recrutés pour pratiquement n'importe quel but (y compris les enquêtes et la collaboration de masse, comme discuté dans les chapitres 3 et 5). Cette facilité de recrutement signifie que les chercheurs peuvent exécuter des séquences d'expériences connexes en succession rapide.
Avant de recruter des participants de MTurk pour vos propres expériences, il y a quatre choses importantes que vous devez savoir. Tout d'abord, de nombreux chercheurs ont un scepticisme non spécifique des expériences impliquant Turkers. Parce que ce scepticisme n'est pas spécifique, il est difficile de contrer les preuves. Cependant, après plusieurs années d'études utilisant Turkers, nous pouvons maintenant conclure que ce scepticisme n'est pas particulièrement justifié. Il y a eu de nombreuses études comparant la démographie des Turkers avec celles d'autres populations et de nombreuses études comparant les résultats des expériences avec les Turkers avec ceux d'autres populations. Compte tenu de tout ce travail, je pense que la meilleure façon d'y penser est que les Turkers constituent un échantillon de convenance raisonnable, un peu comme les étudiants mais légèrement plus diversifié (Berinsky, Huber, and Lenz 2012) . Ainsi, tout comme les étudiants constituent une population raisonnable pour certaines recherches, mais pas toutes, les Turkers constituent une population raisonnable pour certaines recherches, mais pas toutes. Si vous allez travailler avec Turkers, alors il est logique de lire beaucoup de ces études comparatives et de comprendre leurs nuances.
Deuxièmement, les chercheurs ont développé des meilleures pratiques pour augmenter la validité interne des expériences MTurk, et vous devriez apprendre et suivre ces meilleures pratiques (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Par exemple, les chercheurs utilisant Turkers sont encouragés à utiliser des filtres pour éliminer les participants inattentifs (Berinsky, Margolis, and Sances 2014, 2016) (voir aussi DJ Hauser and Schwarz (2015b) et DJ Hauser and Schwarz (2015a) ). Si vous ne supprimez pas les participants inattentifs, alors tout effet du traitement peut être éliminé par le bruit qu'ils introduisent, et dans la pratique, le nombre de participants inattentifs peut être important. Dans l'expérience menée par Huber et ses collègues (2012) , environ 30% des participants ont échoué aux tests de dépistage de l'attention de base. D'autres problèmes qui surviennent fréquemment lorsque les Turkers sont utilisés sont les participants non naïfs (Chandler et al. 2015) et l'attrition (Zhou and Fishbach 2016) .
Troisièmement, par rapport à d'autres formes d'expériences numériques, les expériences MTurk ne peuvent pas évoluer; Stewart et al. (2015) estiment qu'à tout moment, il n'y a que 7 000 personnes sur MTurk.
Enfin, vous devriez savoir que MTurk est une communauté avec ses propres règles et normes (Mason and Suri 2012) . De la même manière que vous essayeriez de découvrir la culture d'un pays où vous alliez mener vos expériences, vous devriez essayer d'en savoir plus sur la culture et les normes des Turkers (Salehi et al. 2015) . Et vous devriez savoir que les Turkers parleront de votre expérience si vous faites quelque chose d'inapproprié ou d'immoral (Gray et al. 2016) .
MTurk est un moyen incroyablement pratique pour recruter des participants à vos expériences, qu'ils soient de laboratoire, comme ceux de Huber, Hill, and Lenz (2012) , ou plus semblables à des champs, comme ceux de Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , et Mao et al. (2016) .
Si vous envisagez d'essayer de créer votre propre produit, je vous recommande de lire les conseils du groupe MovieLens dans Harper and Konstan (2015) . Un aperçu clé de leur expérience est que pour chaque projet réussi, il y a beaucoup, beaucoup d'échecs. Par exemple, le groupe MovieLens a lancé d'autres produits, tels que GopherAnswers, qui étaient des échecs complets (Harper and Konstan 2015) . Un autre exemple d'un chercheur échouant en essayant de construire un produit est la tentative d'Edward Castronova de construire un jeu en ligne appelé Arden. Malgré un financement de 250 000 $, le projet était un échec (Baker 2008) . Des projets comme GopherAnswers et Arden sont malheureusement beaucoup plus communs que des projets comme MovieLens.
J'ai entendu l'idée du Quadrant de Pasteur souvent discutée dans les entreprises technologiques, et cela aide à organiser les efforts de recherche chez Google (Spector, Norvig, and Petrov 2012) .
L'étude de Bond et ses collègues (2012) tente également de détecter l'effet de ces traitements sur les amis de ceux qui les ont reçus. En raison de la conception de l'expérience, ces débordements sont difficiles à détecter proprement; les lecteurs intéressés devraient voir Bond et al. (2012) pour une discussion plus approfondie. Jones et ses collègues (2017) également mené une expérience très similaire lors des élections de 2012. Ces expériences s'inscrivent dans une longue tradition d'expérimentation en science politique sur les efforts pour encourager le vote (Green and Gerber 2015) . Ces expériences de sortie sont communes, en partie parce qu'elles sont dans le Quadrant de Pasteur. Autrement dit, il y a beaucoup de gens qui sont motivés à augmenter le vote et le vote peut être un comportement intéressant pour tester des théories plus générales sur le changement de comportement et l'influence sociale.
Pour obtenir des conseils sur la façon de mener des expériences sur le terrain avec des organisations partenaires telles que les partis politiques, les ONG et les entreprises, voir Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) et Gueron (2002) . Pour des réflexions sur la façon dont les partenariats avec les organisations peuvent avoir un impact sur la conception de la recherche, voir King et al. (2007) et Green, Calfano, and Aronow (2014) . Le partenariat peut également mener à des questions éthiques, comme en ont discuté Humphreys (2015) et Nickerson and Hyde (2016) .
Si vous créez un plan d'analyse avant d'exécuter votre test, je vous suggère de commencer par lire les consignes relatives aux rapports. Les lignes directrices CONSORT (Consolidated Standard Reporting of Trials) ont été élaborées en médecine (Schulz et al. 2010) et modifiées pour la recherche sociale (Mayo-Wilson et al. 2013) . Un ensemble de lignes directrices connexes a été élaboré par les éditeurs du Journal of Experimental Political Science (Gerber et al. 2014) (voir également Mutz and Pemantle (2015) et Gerber et al. (2015) ). Enfin, des lignes directrices sur les rapports ont été élaborées en psychologie (APA Working Group 2008) et voir également Simmons, Nelson, and Simonsohn (2011) .
Si vous créez un plan d'analyse, vous devriez envisager de le pré-enregistrer car la pré-inscription augmentera la confiance que les autres ont dans vos résultats. De plus, si vous travaillez avec un partenaire, cela limitera la capacité de votre partenaire à modifier l'analyse après avoir vu les résultats. Le pré-enregistrement est de plus en plus courant en psychologie (Nosek and Lakens 2014) , en science politique (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) et en économie (Olken 2015) .
Des conseils de conception spécifiques aux expériences sur le terrain en ligne sont également présentés dans Konstan and Chen (2007) et Chen and Konstan (2015) .
Ce que j'ai appelé la stratégie de l'armada est parfois appelé recherche programmatique ; voir Wilson, Aronson, and Carlsmith (2010) .
Pour plus d'informations sur les expériences de MusicLab, voir Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) et Salganik (2007) . Pour en savoir plus sur les marchés à tirage complet, voir Frank and Cook (1996) . Pour en savoir plus sur la chance et le talent en général, voir Mauboussin (2012) , Watts (2012) et Frank (2016) .
Il existe une autre approche pour éliminer les paiements des participants que les chercheurs devraient utiliser avec prudence: la conscription. Dans de nombreuses expériences de terrain en ligne, les participants sont essentiellement rédigés dans des expériences et jamais compensés. Des exemples de cette approche comprennent l'expérience de Restivo et van de Rijt (2012) sur les récompenses dans Wikipedia et l'expérience de Bond et de ses collègues (2012) sur l'encouragement des personnes à voter. Ces expériences n'ont pas vraiment de coût variable nul - elles ont plutôt un coût variable nul pour les chercheurs . Dans de telles expériences, même si le coût pour chaque participant est extrêmement faible, le coût global peut être assez important. Les chercheurs qui effectuent des expériences massives en ligne justifient souvent l'importance de petits effets de traitement estimés en disant que ces petits effets peuvent devenir importants lorsqu'ils sont appliqués à de nombreuses personnes. La même réflexion s'applique aux coûts que les chercheurs imposent aux participants. Si votre expérience fait perdre une minute à un million de personnes, l'expérience n'est pas très nocive pour une personne en particulier, mais globalement, elle a perdu presque deux ans.
Une autre approche pour créer un paiement à coût variable nul pour les participants consiste à utiliser une loterie, une approche qui a également été utilisée dans la recherche par sondage (Halpern et al. 2011) . Pour en savoir plus sur la conception d'expériences utilisateur agréables, voir Toomim et al. (2011) . Pour plus d'informations sur l'utilisation des bots pour créer des expériences à coût variable nul, voir ( ??? ) .
Les trois R proposés par Russell and Burch (1959) sont les suivants:
"Remplacement signifie le remplacement de la conscience vivant animaux supérieurs de matériau insensible. Réduction des moyens de réduction du nombre d'animaux utilisés pour obtenir des informations d'une quantité et une précision donnée. Raffinement signifie toute diminution de l'incidence ou de la gravité des procédures inhumaines appliquées à ces animaux qui doivent encore être utilisés. "
Les trois R que je propose ne remplacent pas les principes éthiques décrits au chapitre 6. Ils sont plutôt une version plus élaborée de ces principes - la bienfaisance - spécifiquement dans le contexte des expériences humaines.
En termes de premier R («remplacement»), la comparaison de l'expérience de contagion émotionnelle (Kramer, Guillory, and Hancock 2014) et l'expérience naturelle de contagion émotionnelle (Lorenzo Coviello et al. 2014) quelques leçons générales sur les compromis en passant d'expériences à des expériences naturelles (et d'autres approches telles que l'appariement qui tentent d'approximer des expériences dans des données non expérimentales, voir le chapitre 2). En plus des avantages éthiques, le passage d'études expérimentales à des études non expérimentales permet également aux chercheurs d'étudier des traitements qu'ils sont logistiquement incapables de déployer. Cependant, ces avantages éthiques et logistiques ont un coût. Avec des expériences naturelles, les chercheurs ont moins de contrôle sur des choses comme le recrutement des participants, la randomisation et la nature du traitement. Par exemple, une limitation de la pluviométrie en tant que traitement est qu'elle augmente à la fois la positivité et diminue la négativité. Dans l'étude expérimentale, cependant, Kramer et ses collègues ont pu ajuster la positivité et la négativité indépendamment. L'approche particulière utilisée par Lorenzo Coviello et al. (2014) été développé par L. Coviello, Fowler, and Franceschetti (2014) . Pour une introduction aux variables instrumentales, quelle est l'approche utilisée par Lorenzo Coviello et al. (2014) , voir Angrist and Pischke (2009) (moins formel) ou Angrist, Imbens, and Rubin (1996) (plus formel). Pour une évaluation sceptique des variables instrumentales, voir Deaton (2010) , et pour une introduction aux variables instrumentales avec des instruments faibles (la pluie est un instrument faible), voir Murray (2006) . Plus généralement, une bonne introduction aux expériences naturelles est donnée par Dunning (2012) , tandis que Rosenbaum (2002) , ( ??? ) et Shadish, Cook, and Campbell (2001) offrent de bonnes idées sur l'estimation des effets causaux sans expériences.
En ce qui concerne le deuxième R («raffinement»), il y a des compromis scientifiques et logistiques lorsqu'on envisage de modifier la conception de la contagion émotionnelle, qui consiste à bloquer les postes et à renforcer les postes. Par exemple, il se peut que la mise en œuvre technique du Fil d'actualité rende beaucoup plus facile de faire une expérience dans laquelle les messages sont bloqués plutôt que dans lesquels ils sont boostés (notez qu'une expérience impliquant le blocage de messages pourrait être mise en œuvre comme une couche au-dessus du système de fil de nouvelles sans besoin de modifications du système sous-jacent). Scientifiquement, cependant, la théorie abordée par l'expérience ne suggérait pas clairement un design par rapport à l'autre. Malheureusement, je ne suis pas au courant de recherches antérieures importantes sur les mérites relatifs du blocage et de l'augmentation du contenu dans le fil d'actualité. Aussi, je n'ai pas vu beaucoup de recherches sur les traitements de raffinage pour les rendre moins nocifs; une exception est B. Jones and Feamster (2015) , qui considèrent le cas de la mesure de la censure sur Internet (un sujet dont je traite au chapitre 6 en relation avec l'étude Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
En ce qui concerne le troisième R («réduction»), Cohen (1988) (livre) et Cohen (1992) (article) présentent de bonnes introductions à l'analyse traditionnelle du pouvoir, tandis que Gelman and Carlin (2014) offrent une perspective légèrement différente. Les covariables de prétraitement peuvent être incluses dans la phase de conception et d'analyse des expériences; Le chapitre 4 de Gerber and Green (2012) fournit une bonne introduction aux deux approches, et Casella (2008) fournit un traitement plus approfondi. Les techniques qui utilisent cette information de prétraitement dans la randomisation sont généralement appelées conceptions expérimentales bloquées ou conceptions expérimentales stratifiées (la terminologie n'est pas utilisée uniformément dans les communautés); ces techniques sont étroitement liées aux techniques d'échantillonnage stratifié discutées au chapitre 3. Voir Higgins, Sävje, and Sekhon (2016) pour plus d'informations sur l'utilisation de ces modèles dans des expériences massives. Les covariables de prétraitement peuvent également être incluses dans la phase d'analyse. McKenzie (2012) explore l'approche de différence dans les différences pour analyser les expériences de terrain plus en détail. Voir Carneiro, Lee, and Wilhelm (2016) pour en savoir plus sur les compromis entre différentes approches pour accroître la précision des estimations des effets du traitement. Enfin, lorsqu'on décide d'essayer d'inclure des covariables avant le traitement à l'étape de la conception ou de l'analyse (ou les deux), il y a quelques facteurs à prendre en considération. Dans un contexte où les chercheurs veulent montrer qu'ils ne pêchent pas (Humphreys, Sierra, and Windt 2013) , il peut être utile d'utiliser des covariables de prétraitement au stade de la conception (Higgins, Sävje, and Sekhon 2016) . Dans les situations où les participants arrivent de manière séquentielle, en particulier les expériences sur le terrain en ligne, l'utilisation des informations de pré-traitement dans la phase de conception peut être difficile sur le plan logistique; voir, par exemple, Xie and Aurisset (2016) .
Il vaut la peine d'ajouter un peu d'intuition à la question de savoir pourquoi une approche fondée sur la différence des différences peut être beaucoup plus efficace qu'une approche fondée sur la différence en termes de moyens. De nombreux résultats en ligne présentent une variance très élevée (voir par exemple RA Lewis and Rao (2015) et Lamb et al. (2015) ) et sont relativement stables dans le temps. Dans ce cas, le score de changement aura une variance nettement plus faible, ce qui augmentera la puissance du test statistique. L'une des raisons pour lesquelles cette approche n'est pas utilisée plus souvent est qu'avant l'ère numérique, il n'était pas courant d'avoir des résultats avant le traitement. Une manière plus concrète de penser à ceci est d'imaginer une expérience pour mesurer si une routine d'exercice spécifique cause la perte de poids. Si vous adoptez une approche fondée sur la différence des moyennes, votre estimation aura une variabilité découlant de la variabilité des poids dans la population. Si vous faites une différence dans les différences, cependant, cette variation naturelle des poids est supprimée, et vous pouvez plus facilement détecter une différence causée par le traitement.
Enfin, j'ai envisagé d'ajouter un quatrième R: "repurpose". Autrement dit, si les chercheurs se retrouvent avec plus de données expérimentales qu'ils n'en ont besoin pour répondre à leur question de recherche originale, ils devraient réutiliser les données pour poser de nouvelles questions. Imaginons, par exemple, que Kramer et ses collègues aient utilisé un estimateur de différences dans les différences et se soient retrouvés avec plus de données qu'ils n'en avaient besoin pour répondre à leur question de recherche. Plutôt que de ne pas utiliser les données dans toute la mesure du possible, ils auraient pu étudier la taille de l'effet en fonction de l'expression émotionnelle avant le traitement. Tout comme Schultz et al. (2007) constaté que l'effet du traitement était différent pour les utilisateurs légers et les utilisateurs lourds. Les effets du fil d'actualité étaient peut-être différents pour les personnes qui avaient déjà tendance à afficher des messages heureux (ou tristes). La réutilisation pourrait mener à la «pêche» (Humphreys, Sierra, and Windt 2013) et au «p-hacking» (Simmons, Nelson, and Simonsohn 2011) , mais ceux-ci sont largement adressables avec une combinaison de rapports honnêtes (Simmons, Nelson, and Simonsohn 2011) , le pré-enregistrement (Humphreys, Sierra, and Windt 2013) , et les méthodes d'apprentissage automatique qui tentent d'éviter le sur-ajustement.