[ , Berinsky et ses collègues (2012) évalué MTurk en partie en reproduisant trois expériences classiques. Reproduire l'expérience classique de cadrage des maladies asiatiques par Tversky and Kahneman (1981) . Vos résultats correspondent-ils à ceux de Tversky et Kahneman? Est-ce que vos résultats correspondent à ceux de Berinsky et ses collègues? Qu'est-ce que cela nous apprend à propos de l'utilisation de MTurk pour des expériences d'enquête?
[ , ] Dans un papier un peu ironique intitulé «We have to Break Up», le psychologue social Robert Cialdini, l'un des auteurs de Schultz et al. (2007) , a écrit qu'il prenait sa retraite prématurément de son poste de professeur, en partie à cause des défis auxquels il faisait face en faisant des expériences de terrain dans une discipline (psychologie) qui mène principalement des expériences de laboratoire (Cialdini 2009) . Lisez l'article de Cialdini et écrivez-lui un courriel l'invitant à reconsidérer sa rupture à la lumière des possibilités des expériences numériques. Utilisez des exemples spécifiques de recherche qui répondent à ses préoccupations.
[ ] Afin de déterminer si les petites réussites initiales s'enfermaient ou disparaissaient, van de Rijt et ses collègues (2014) intervenus dans quatre systèmes différents accordant du succès à des participants choisis au hasard, puis ont mesuré les impacts à long terme de ce succès arbitraire. Pouvez-vous penser à d'autres systèmes dans lesquels vous pourriez exécuter des expériences similaires? Évaluer ces systèmes en termes de questions de valeur scientifique, de confusion algorithmique (voir le chapitre 2) et d'éthique.
[ , Les résultats d'une expérience peuvent dépendre des participants. Créez une expérience, puis exécutez-la sur MTurk en utilisant deux stratégies de recrutement différentes. Essayez de choisir l'expérience et les stratégies de recrutement afin que les résultats soient aussi différents que possible. Par exemple, vos stratégies de recrutement pourraient être de recruter des participants le matin et le soir ou de rémunérer les participants avec des salaires élevés et bas. Ces types de différences dans la stratégie de recrutement pourraient mener à différents groupes de participants et à différents résultats expérimentaux. À quel point vos résultats ont-ils été différents? Qu'est-ce que cela révèle à propos de l'exécution d'expériences sur MTurk?
[ , , ] Imaginez que vous planifiiez l'expérience de Contagion émotionnelle (Kramer, Guillory, and Hancock 2014) . Utilisez les résultats d'une étude observationnelle antérieure de Kramer (2012) pour décider du nombre de participants dans chaque condition. Ces deux études ne correspondent pas parfaitement alors assurez-vous de lister explicitement toutes les hypothèses que vous faites:
[ , , ] Répondez à nouveau à la question précédente, mais cette fois plutôt que d'utiliser l'étude observationnelle antérieure de Kramer (2012) , utilisez les résultats d'une expérience naturelle antérieure de Lorenzo Coviello et al. (2014) .
[ ] Margetts et al. (2011) et van de Rijt et al. (2014) réalisé des expériences en étudiant le processus de signature d'une pétition. Comparer et contraster les conceptions et les résultats de ces études.
[ ] Dwyer, Maki, and Rothman (2015) mené deux expériences de terrain sur la relation entre les normes sociales et le comportement pro-environnemental. Voici le résumé de leur article:
"Comment la science psychologique peut-elle être utilisée pour encourager le comportement pro-environnemental? Dans deux études, les interventions visant à promouvoir le comportement d'économie d'énergie dans les salles de bain publiques ont examiné les influences des normes descriptives et de la responsabilité personnelle. Dans l'étude 1, l'état de la lumière (activé ou désactivé) a été manipulé avant que quelqu'un entre dans une salle de bain publique inoccupée, indiquant la norme descriptive pour ce paramètre. Les participants étaient significativement plus susceptibles d'éteindre les lumières s'ils étaient éteints lorsqu'ils sont entrés. Dans l'étude 2, une condition supplémentaire a été incluse dans laquelle la norme d'éteindre la lumière a été démontrée par un confédéré, mais les participants n'étaient pas eux-mêmes responsables de l'allumer. La responsabilité personnelle a modéré l'influence des normes sociales sur le comportement; Lorsque les participants n'étaient pas responsables d'allumer la lumière, l'influence de la norme était diminuée. Ces résultats indiquent comment les normes descriptives et la responsabilité personnelle peuvent réguler l'efficacité des interventions pro-environnementales. "
Lisez leur article et concevez une réplique de l'étude 1.
[ , ] Sur la base de la question précédente, effectuez maintenant votre conception.
[ ] Il y a eu un débat important sur les expériences utilisant des participants recrutés à MTurk. En parallèle, il y a eu aussi un débat important sur les expériences utilisant des participants recrutés parmi les populations étudiantes de premier cycle. Rédiger un mémo de deux pages comparant et contrastant Turkers et étudiants de premier cycle en tant que participants à la recherche. Votre comparaison devrait inclure une discussion des questions scientifiques et logistiques.
[ ] Le livre de Jim Manzi Uncontrolled (2012) est une merveilleuse introduction au pouvoir de l'expérimentation dans les affaires. Dans le livre, il a relayé l'histoire suivante:
"J'étais une fois dans une réunion avec un vrai génie des affaires, un milliardaire self-made qui avait une sous-estimation profonde et intuitive de la puissance des expériences. Son entreprise a dépensé des ressources considérables en essayant de créer de grandes vitrines qui attireraient les consommateurs et augmenteraient les ventes, comme la sagesse conventionnelle le dit. Les experts ont minutieusement testé la conception après la conception et, lors de sessions de revue de test individuelles sur une période de plusieurs années, n'ont pas montré d'effet causal significatif de chaque nouveau concept d'affichage sur les ventes. Les cadres supérieurs du marketing et du merchandising ont rencontré le chef de la direction pour examiner ces résultats d'analyse historiques dans leur intégralité. Après avoir présenté toutes les données expérimentales, ils ont conclu que la sagesse conventionnelle était fausse - que les vitrines ne génèrent pas de ventes. Leur action recommandée était de réduire les coûts et les efforts dans ce domaine. Cela a démontré de façon spectaculaire la capacité de l'expérimentation à renverser la sagesse conventionnelle. La réponse du PDG était simple: «Ma conclusion est que vos concepteurs ne sont pas très bons. Sa solution consistait à augmenter les efforts dans la conception des (Manzi 2012, 158–9) en magasin et à amener de nouvelles personnes à le faire. » (Manzi 2012, 158–9)
Quel type de validité est la préoccupation du PDG?
[ ] Sur la base de la question précédente, imaginez que vous étiez à la réunion où les résultats des expériences ont été discutés. Quelles sont les quatre questions que vous pourriez poser, une pour chaque type de validité (statistique, construction, interne et externe)?
[ Bernedo, Ferraro, and Price (2014) étudié l'effet sur sept ans de l'intervention d'économie d'eau décrite dans Ferraro, Miranda, and Price (2011) (voir figure 4.11). Dans cet article, Bernedo et ses collègues ont également cherché à comprendre le mécanisme derrière l'effet en comparant le comportement des ménages qui ont et n'ont pas bougé après la livraison du traitement. En gros, ils ont essayé de voir si le traitement a eu des répercussions sur la maison ou le propriétaire.
[ ] Dans la foulée de Schultz et al. (2007) , Schultz et ses collègues ont réalisé une série de trois expériences sur l'effet des normes descriptives et injonctives sur un comportement environnemental différent (réutilisation des serviettes) dans deux contextes (un hôtel et un condominium à temps partagé) (Schultz, Khazian, and Zaleski 2008) .
[ En réponse à Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) mené une série d'expériences en laboratoire pour étudier la conception des factures d'électricité. Voici comment ils le décrivent dans l'abstrait:
Dans une expérience basée sur un sondage, chaque participant a vu une facture d'électricité hypothétique pour une famille consommant beaucoup d'électricité, couvrant des informations sur (a) l'utilisation historique, (b) les comparaisons avec les voisins et (c) l'utilisation historique avec panne d'appareil. Les participants ont vu tous les types d'information dans l'un des trois formats suivants: (a) tableaux, (b) graphiques à barres et (c) graphiques à icônes. Nous rapportons trois résultats principaux. Premièrement, les consommateurs comprenaient le plus chaque type d'information sur la consommation d'électricité lorsqu'ils étaient présentés dans un tableau, peut-être parce que les tableaux facilitent la lecture de points simples. Deuxièmement, les préférences et les intentions d'économiser l'électricité étaient les plus fortes pour l'information sur l'utilisation historique, indépendamment du format. Troisièmement, les personnes ayant une connaissance moindre de l'énergie ont moins compris toutes les informations. "
Contrairement à d'autres études de suivi, le principal résultat d'intérêt dans Canfield, Bruin, and Wong-Parodi (2016) est le comportement rapporté, et non le comportement réel. Quelles sont les forces et les faiblesses de ce type d'étude dans un programme de recherche plus large favorisant les économies d'énergie?
[ , Smith and Pell (2003) présenté une méta-analyse satirique d'études démontrant l'efficacité des parachutes. Ils ont conclu:
"Comme avec de nombreuses interventions destinées à prévenir les problèmes de santé, l'efficacité des parachutes n'a pas fait l'objet d'une évaluation rigoureuse à l'aide d'essais contrôlés randomisés. Les défenseurs de la médecine factuelle ont critiqué l'adoption d'interventions évaluées en utilisant uniquement des données d'observation. Nous pensons que tout le monde pourrait en bénéficier si les protagonistes les plus radicaux de la médecine fondée sur des données probantes organisaient et participaient à un essai croisé en double aveugle, randomisé et contrôlé contre placebo du parachute.
Rédiger un éditorial adapté à un journal de lecteurs généralistes, tel que le New York Times , en se prononçant contre la fétichisation des preuves expérimentales. Fournir des exemples spécifiques et concrets. Indice: Voir aussi Deaton (2010) et Bothwell et al. (2016) .
[ , , ] Les estimateurs par différence de différence d'un effet de traitement peuvent être plus précis que les estimateurs de différence de moyenne. Rédiger un mémo à l'intention d'un ingénieur en charge des tests A / B dans une start-up de médias sociaux expliquant la valeur de l'approche différence-dans-les-différences pour la réalisation d'une expérience en ligne. Le mémo devrait inclure un énoncé du problème, une certaine intuition sur les conditions dans lesquelles l'estimateur de différence de différence surpassera l'estimateur de différence de moyenne, et une simple étude de simulation.
[ , Gary Loveman était professeur à la Harvard Business School avant de devenir le PDG de Harrah's, l'une des plus grandes sociétés de casinos du monde. Quand il a déménagé à Harrah's, Loveman a transformé l'entreprise avec un programme de fidélisation semblable à celui des grands voyageurs qui a recueilli énormément de données sur le comportement des clients. En plus de ce système de mesure permanent, l'entreprise a commencé à faire des expériences. Par exemple, ils peuvent effectuer une expérience pour évaluer l'effet d'un coupon pour une nuit d'hôtel gratuite pour les clients ayant un schéma de jeu spécifique. Voici comment Loveman décrit l'importance de l'expérimentation pour les pratiques commerciales quotidiennes de Harrah:
"C'est comme si vous ne harceliez pas les femmes, vous ne volez pas, et vous devez avoir un groupe de contrôle. C'est l'une des choses pour lesquelles vous pouvez perdre votre emploi chez Harrah's - ne pas diriger un groupe témoin. » (Manzi 2012, 146)
Écrivez un courriel à un nouvel employé expliquant pourquoi Loveman pense qu'il est si important d'avoir un groupe de contrôle. Vous devriez essayer d'inclure un exemple - réel ou inventé - pour illustrer votre propos.
[ , Une nouvelle expérience vise à estimer l'effet de la réception de rappels de messages texte sur l'absorption de la vaccination. Cent cinquante cliniques, chacune avec 600 patients éligibles, sont prêtes à participer. Il y a un coût fixe de 100 $ pour chaque clinique avec laquelle vous voulez travailler, et il en coûte 1 $ pour chaque message texte que vous voulez envoyer. De plus, toutes les cliniques avec lesquelles vous travaillez mesureront le résultat (si quelqu'un a reçu une vaccination) gratuitement. Supposons que vous avez un budget de 1 000 $.
[ , ] Un problème majeur avec les cours en ligne est l'attrition: de nombreux étudiants qui commencent des cours finissent par abandonner. Imaginez que vous travaillez sur une plate-forme d'apprentissage en ligne, et un concepteur de la plateforme a créé une barre de progression visuelle qui, selon elle, empêchera les étudiants de quitter le cours. Vous voulez tester l'effet de la barre de progression sur les étudiants dans un grand cours de sciences sociales computationnelles. Après avoir abordé tous les problèmes éthiques qui pourraient survenir dans l'expérience, vous et vos collègues craignez que le cours n'ait pas suffisamment d'étudiants pour détecter de manière fiable les effets de la barre de progression. Dans les calculs suivants, vous pouvez supposer que la moitié des étudiants recevront la barre de progression et la moitié non. En outre, vous pouvez supposer qu'il n'y a pas d'interférence. En d'autres termes, vous pouvez supposer que les participants ne sont affectés que s'ils ont reçu le traitement ou le contrôle; elles ne sont pas affectées par le fait que d'autres personnes aient reçu le traitement ou le contrôle (pour une définition plus formelle, voir le chapitre 8 de Gerber and Green (2012) ). Gardez une trace de toutes les hypothèses supplémentaires que vous faites.
[ , , ] Imaginez que vous travaillez en tant que chercheur de données dans une entreprise de technologie. Une personne du service marketing vous demande votre aide pour évaluer une expérience qu'ils planifient afin de mesurer le retour sur investissement (ROI) d'une nouvelle campagne publicitaire en ligne. Le retour sur investissement est défini comme le bénéfice net de la campagne divisé par le coût de la campagne. Par exemple, une campagne sans effet sur les ventes aurait un ROI de -100%; une campagne où les profits générés étaient égaux aux coûts aurait un ROI de 0; et une campagne où les bénéfices générés étaient le double du coût aurait un retour sur investissement de 200%.
Avant de lancer l'expérience, le département marketing vous fournit les informations suivantes basées sur leurs recherches antérieures (en fait, ces valeurs sont typiques des campagnes publicitaires en ligne réelles rapportées dans Lewis et Rao (2015) ):
Rédigez un mémo évaluant cette expérience proposée. Votre mémo doit utiliser des preuves provenant d'une simulation que vous créez, et il doit aborder deux problèmes majeurs: (1) Recommanderiez-vous de lancer cette expérience comme prévu? Si oui, pourquoi? Si non, pourquoi pas? Assurez-vous d'être clair sur les critères que vous utilisez pour prendre cette décision. (2) Quelle taille d'échantillon recommanderiez-vous pour cette expérience? Encore une fois s'il vous plaît assurez-vous d'être clair sur les critères que vous utilisez pour prendre cette décision.
Une bonne note traitera de ce cas particulier; un meilleur mémo généralisera à partir de ce cas d'une manière (par exemple, montrer comment la décision change en fonction de la taille de l'effet de la campagne); et une grande note présentera un résultat entièrement généralisé. Votre mémo devrait utiliser des graphiques pour illustrer vos résultats.
Voici deux conseils. Tout d'abord, le service marketing vous a peut-être fourni des informations inutiles et il est possible qu'il ne vous ait pas fourni les informations nécessaires. Deuxièmement, si vous utilisez R, sachez que la fonction rlnorm () ne fonctionne pas comme prévu.
Cette activité vous permettra de vous entraîner à l'analyse de puissance, de créer des simulations et de communiquer vos résultats avec des mots et des graphiques. Cela devrait vous aider à effectuer une analyse de puissance pour n'importe quel type d'expérience, et pas seulement des expériences conçues pour estimer le retour sur investissement. Cette activité suppose que vous avez de l'expérience avec les tests statistiques et l'analyse de puissance. Si vous n'êtes pas familier avec l'analyse de puissance, je vous recommande de lire "A Power Primer" par Cohen (1992) .
Cette activité a été inspirée par un beau papier de RA Lewis and Rao (2015) , qui illustre de manière frappante une limitation statistique fondamentale des expériences, même massives. Leur article - qui portait à l'origine le titre provocateur «Sur la quasi-impossibilité de mesurer les retours à la publicité» - montre combien il est difficile de mesurer le retour sur investissement des publicités en ligne, même avec des expériences numériques impliquant des millions de clients. Plus généralement, RA Lewis and Rao (2015) illustrent un fait statistique fondamental qui est particulièrement important pour les expériences numériques: il est difficile d'estimer les petits effets du traitement au milieu des données sur les résultats bruyants.
[ , ] Faites la même chose que la question précédente, mais, plutôt que de la simulation, vous devriez utiliser des résultats analytiques.
[ , , Faites la même chose que la question précédente, mais utilisez à la fois la simulation et les résultats analytiques.
[ , , ] Imaginez que vous avez écrit le mémo décrit ci-dessus, et quelqu'un du département marketing fournit une nouvelle information: ils s'attendent à une corrélation de 0.4 entre les ventes avant et après l'expérience. Comment cela change-t-il les recommandations dans votre mémo? (Indice: voir la section 4.6.2 pour en savoir plus sur l'estimateur de la différence des moyennes et l'estimateur de la différence des différences.)
[ , ] Afin d'évaluer l'efficacité d'un nouveau programme d'aide à l'emploi sur le Web, une université a procédé à un essai comparatif randomisé auprès de 10 000 étudiants entrant en dernière année d'école. Un abonnement gratuit avec des informations de connexion uniques a été envoyé par le biais d'une invitation par e-mail exclusive à 5 000 des étudiants sélectionnés au hasard, tandis que les 5 000 autres étudiants faisaient partie du groupe témoin et n'avaient pas d'abonnement. Douze mois plus tard, une enquête de suivi (sans non-réponse) a montré que dans les deux groupes de traitement et de contrôle, 70% des étudiants avaient obtenu un emploi à temps plein dans leur domaine de prédilection (tableau 4.6). Ainsi, il semblait que le service basé sur le Web n'avait aucun effet.
Cependant, un savant informaticien à l'université a regardé les données de plus près et a constaté que seulement 20% des étudiants du groupe de traitement se sont connectés au compte après avoir reçu l'email. En outre, et étonnamment, parmi ceux qui se sont connectés au site Web, seulement 60% avaient obtenu un emploi à temps plein dans leur domaine, ce qui était inférieur au taux pour les personnes qui ne se connectaient pas et inférieur au dans la condition de contrôle (tableau 4.7).
Astuce: Cette question dépasse le sujet abordé dans ce chapitre, mais aborde des problèmes communs aux expériences. Ce type de conception expérimentale est parfois appelé un design d'encouragement parce que les participants sont encouragés à s'engager dans le traitement. Ce problème est un exemple de ce que l'on appelle la non-conformité unilatérale (voir le chapitre 5 de Gerber and Green (2012) ).
[ ] Après un examen plus approfondi, il s'est avéré que l'expérience décrite dans la question précédente était encore plus compliquée. Il s'est avéré que 10% des personnes du groupe témoin payaient pour l'accès au service et qu'elles se retrouvaient avec un taux d'emploi de 65% (tableau 4.8).
Astuce: Cette question dépasse le sujet abordé dans ce chapitre, mais aborde des problèmes communs aux expériences. Ce problème est un exemple de ce que l'on appelle la non-conformité bilatérale (voir le chapitre 6 de Gerber and Green (2012) ).
Groupe | Taille | Taux d'emploi |
---|---|---|
Accès autorisé au site Web | 5,000 | 70% |
Accès non autorisé au site Web | 5,000 | 70% |
Groupe | Taille | Taux d'emploi |
---|---|---|
Accès autorisé au site Web et connecté | 1,000 | 60% |
Accordé l'accès au site Web et jamais connecté | 4000 | 72,5% |
Accès non autorisé au site Web | 5,000 | 70% |
Groupe | Taille | Taux d'emploi |
---|---|---|
Accès autorisé au site Web et connecté | 1,000 | 60% |
Accordé l'accès au site Web et jamais connecté | 4000 | 72,5% |
Ne pas avoir accès au site Web et payer pour cela | 500 | 65% |
Ne pas avoir accès au site Web et ne pas payer pour cela | 4 500 | 70,56% |