Clé:
[ , ] Berinsky et ses collègues (2012) évalue Mechanical Turk en partie en reproduisant trois expériences classiques. Reproduire l'expérience d'encadrement de la maladie asiatique classique par Tversky and Kahneman (1981) . Vos résultats match de Tversky et Kahneman de? Faites vos résultats correspondance Berinsky et ses collègues? Qu'est-si quelque chose-ce que cela nous enseigne sur l'utilisation de Mechanical Turk pour les expériences de l'enquête?
[ , ] Dans un document quelque peu tongue-in-cheek intitulé «Nous devons Break Up» , le psychologue social Robert Cialdini, un des auteurs de Schultz et al. (2007) , a écrit qu'il se retirait début de son travail en tant que professeur, en partie à cause des difficultés qu'il a rencontrées à faire des expériences sur le terrain dans une discipline ( la psychologie) qui mène principalement des expériences de laboratoire (Cialdini 2009) , (Cialdini 2009) . Lire l'article de Cialdini, et lui écrire un e-mail lui demandant de reconsidérer sa rupture à la lumière des possibilités d'expériences numériques. Utilisez des exemples spécifiques de recherche qui portent sur ses préoccupations.
[ ] Afin de déterminer si les petites réussites initiales lock-in ou disparaître, van de Rijt et et ses collègues (2014) sont intervenus dans quatre systèmes différents conférant le succès sur les participants choisis au hasard, puis mesuré les impacts à long terme de ce succès arbitraire. Pouvez-vous penser à d'autres systèmes dans lesquels vous pouvez exécuter des expériences similaires? Évaluer ces systèmes en termes de questions de valeur scientifique, confondant algorithmique (voir chapitre 2), et de l'éthique.
[ , ] Les résultats d'une expérience peuvent compter sur les participants. Créer une expérience et puis exécutez-le sur Amazon Mechanical Turk (MTurk) en utilisant deux stratégies de recrutement différentes. Essayez de choisir les stratégies d'expérimentation et de recrutement afin que les résultats seront aussi différents que possible. Par exemple, vos stratégies de recrutement pourraient être de recruter des participants le matin et le soir ou pour compenser les participants payés haut et bas. Ces types de différences de stratégie de recrutement pourraient conduire à différents pools de participants et les différents résultats expérimentaux. Quelle différence vos résultats ne se révèlent? Qu'est-ce que cela révèle sur l'exécution des expériences sur MTurk?
[ , , , ] Imaginez que vous aviez l' intention de l'étude émotionnelle Contagion (Kramer, Guillory, and Hancock 2014) . Utiliser les résultats d'une étude d' observation plus tôt par Kramer (2012) de décider du nombre de participants dans chaque état. Ces deux études ne correspondent pas parfaitement pour être sûr de lister explicitement toutes les hypothèses que vous faites:
[ , , , ] Répondez à la question ci - dessus, mais plutôt que d' utiliser l'étude observationnelle plus tôt par Kramer (2012) utilisent les résultats d'une expérience naturelle plus tôt par Coviello et al. (2014) .
[ ] Les deux Rijt et al. (2014) et Margetts et al. (2011) à la fois réaliser des expériences qui étudient le processus de personnes ayant signé une pétition. Comparer et la conception et les résultats de ces études.
[ ] Dwyer, Maki, and Rothman (2015) ont mené deux expériences sur le terrain sur la relation entre les normes sociales et les comportements proenvironmental. Voici le résumé de leur communication:
«Comment la science psychologique pourrait être utilisé pour encourager les comportements proenvironmental? Dans deux études, les interventions visant à promouvoir les comportements de conservation de l'énergie dans les toilettes publiques ont examiné les influences des normes descriptives et la responsabilité personnelle. Dans l'étude 1, le voyant d'état (c.-à-on ou off) a été manipulé avant que quelqu'un est entré dans une salle publique inoccupée, signalant la norme descriptive pour ce paramètre. Les participants étaient beaucoup plus susceptibles d'éteindre les lumières si elles étaient quand ils sont entrés. Dans l'étude 2, une condition supplémentaire a été incluse dans laquelle la norme d'éteindre la lumière a été démontrée par un confédéré, mais les participants étaient pas eux-mêmes responsables de l'allumer. La responsabilité personnelle modérée l'influence des normes sociales sur le comportement; lorsque les participants ne sont pas responsables d'allumer la lumière, l'influence de la norme a été diminuée. Ces résultats indiquent la façon dont les normes et la responsabilité personnelle descriptive peut réglementer l'efficacité des interventions proenvironmental ".
Lisez leur papier et concevoir une réplique de l'étude 1.
[ , ] Construire sur la question précédente, maintenant réaliser votre conception.
[ ] Il y a eu un débat de fond sur les expériences utilisant des participants recrutés dans Amazon Mechanical Turk. En parallèle, il a également été un important débat sur les expériences utilisant des participants recrutés dans les populations d'étudiants de premier cycle. Ecrire un note de deux pages comparant et contrastant les Turkers et étudiants que les chercheurs participants. Votre comparaison devrait inclure une discussion sur les questions scientifiques et logistiques.
[ Le livre de] Jim Manzi Uncontrolled (2012) est une merveilleuse introduction dans la puissance de l' expérimentation dans les affaires. Dans le livre, il a relayé cette histoire:
«Je suis une fois dans une rencontre avec un génie des affaires vrai, un milliardaire self-made qui avait une profonde, minimisait intuitive de la puissance des expériences. Son entreprise a dépensé des ressources importantes en essayant de créer de grandes fenêtres de magasin affiche susceptibles d'attirer les consommateurs et augmente les ventes, que la sagesse conventionnelle dit qu'ils devraient. Experts testés soigneusement la conception après la conception, et dans chaque sessions d'examen d'essai sur une période de plusieurs années gardé montrant aucun effet causal significatif de chaque nouvelle conception d'affichage sur les ventes. Les cadres supérieurs de marketing et de marchandisage ont rencontré le directeur général d'examiner les résultats des tests historiques toto. Après avoir présenté l'ensemble des données expérimentales, ils ont conclu que la sagesse conventionnelle a eu tort-que les vitrines ne conduisent pas les ventes. Leur action recommandée était de réduire les coûts et les efforts dans ce domaine. Cela a démontré de façon spectaculaire la capacité d'expérimentation pour renverser la sagesse conventionnelle. La réponse du PDG était simple: «Ma conclusion est que vos concepteurs ne sont pas très bon." Sa solution était d'augmenter l' effort dans la conception d'affichage du magasin, et d'obtenir de nouvelles personnes pour le faire. " (Manzi 2012, 158–9)
Quel type de validité est la préoccupation du chef de la direction?
[ ] Construire sur la question précédente, imaginez que vous étiez à la réunion où les résultats des expériences ont été discutées. Quelles sont les quatre questions que vous pourriez demander, un pour chaque type de validité (statistique, construire, interne et externe)?
[ ] Bernedo, Ferraro, and Price (2014) étudie l'effet de sept ans de l'intervention d'économie d'eau décrite dans Ferraro, Miranda, and Price (2011) (voir la figure 4.10). Dans cet article, Bernedo et ses collègues cherchent également à comprendre le mécanisme de l'effet en comparant le comportement des ménages qui ont et ne sont pas déplacés après le traitement a été livré. C'est, à peu près, ils essaient de voir si le traitement touché la maison ou le propriétaire.
[ ] Dans un suivi de Schultz et al. (2007) , Schultz et ses collègues effectuent une série de trois expériences sur l'effet des normes descriptives et d' injonction sur un comportement environnemental différent (serviette de réutilisation) dans deux contextes (un hôtel et un condominium à temps partagé) (Schultz, Khazian, and Zaleski 2008) .
[ ] En réponse à Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) ont mené une série d'expériences en laboratoire comme pour étudier la conception des factures d' électricité. Voici comment ils décrivent dans l'abstrait:
"Dans une expérience basée sur un sondage, chaque participant a vu une facture d'électricité hypothétique pour une famille avec une utilisation relativement élevée d'électricité, couvrant des informations sur (a) l'utilisation historique, (b) des comparaisons avec les voisins, et (c) l'utilisation historique avec ventilation de l'appareil. Les participants ont vu tous les types d'information dans l'un des trois formats, y compris (a) tables, (b) des graphiques à barres, et (c) icon graphiques. Nous rapportons trois principales conclusions. Premièrement, les consommateurs ont compris chaque type d'information de l'électricité à usage le plus quand il a été présenté dans un tableau, peut-être parce que les tables facilitent une simple lecture de point. Deuxièmement, les préférences et les intentions d'économiser de l'électricité étaient les plus forts pour l'information sur l'utilisation historique, indépendante format. Troisièmement, les individus avec la littératie énergétique inférieure compris toutes les informations moins ".
Contrairement à d' autres études de suivi, le principal résultat de l' intérêt pour Canfield, Bruin, and Wong-Parodi (2016) est rapporté un comportement pas le comportement réel. Quelles sont les forces et les faiblesses de ce type d'étude dans un programme de recherche plus large promotion des économies d'énergie?
[ , ] Smith and Pell (2003) est une méta-analyse satirique d'études démontrant l'efficacité des parachutes. Ils concluent:
"Comme avec beaucoup d'interventions destinées à prévenir la mauvaise santé, l'efficacité des parachutes n'a pas été soumis à une évaluation rigoureuse en utilisant des essais contrôlés randomisés. Les partisans de la médecine fondée sur des preuves ont critiqué l'adoption d'interventions évaluées en utilisant uniquement des données d'observation. Nous pensons que tout le monde pourrait bénéficier si les protagonistes les plus radicales de la médecine fondée sur des preuves organisé et participé à une double aveugle, randomisée, contrôlée par placebo, essai croisé du parachute. "
Ecrire un op-ed approprié pour un journal du lectorat général, comme le New York Times, argumentant contre la fétichisation des preuves expérimentales. Fournir des exemples concrets, spécifiques. Conseil: Voir aussi, Bothwell et al. (2016) et Deaton (2010)
[ , , ] Différence entre les différences estimateurs d'un effet de traitement peut être plus précis que les estimateurs de différence en-moyenne. Ecrire une note à un ingénieur en charge des tests A / B à une société de médias sociaux start-up expliquant la valeur de l'approche de la différence des différences pour l'exécution d'une expérience en ligne. La note de service devrait inclure un énoncé du problème, une certaine intuition sur les conditions dans lesquelles l'estimateur de différence dans la différence sera surperformer l'estimateur de différence en moyenne, et une étude de simulation simple.
[ , ] Gary Loveman a été professeur à la Harvard Business School avant de devenir le PDG de Harrah, l'une des plus grandes sociétés de casino dans le monde. Quand il a déménagé à Harrah, Loveman a transformé l'entreprise avec un programme de fidélisation dépliant comme fréquentes qui a recueilli d'énormes quantités de données sur le comportement des clients. En plus de ce système toujours sur mesure, l'entreprise a commencé à courir des expériences. Par exemple, ils pourraient exécuter une expérience pour évaluer l'effet d'un coupon pour une nuit d'hôtel gratuite pour les clients avec un motif de jeu spécifique. Voici comment Loveman a décrit l'importance de l'expérimentation des pratiques commerciales de tous les jours de Harrah:
"Il est comme vous ne harcelez pas les femmes, vous ne volez pas, et vous avez obtenu d'avoir un groupe de contrôle. Ceci est l' une des choses que vous pouvez perdre votre emploi au Harrah-pas en cours d' exécution d' un groupe témoin. " (Manzi 2012, 146)
Ecrire un email à un nouvel employé expliquant pourquoi Loveman pense qu'il est si important d'avoir un groupe de contrôle. Vous devriez essayer d'inclure un exemple-réel ou composé à illustrer votre point.
[ , ] Une nouvelle expérience a pour but d'estimer l'effet de la réception de message texte des rappels sur la couverture vaccinale. 150 cliniques, chacun avec 600 patients éligibles, sont prêts à participer. Il y a un coût fixe de 100 dollars pour chaque clinique que vous voulez travailler avec, et il en coûte 1 dollar pour chaque message texte que vous souhaitez envoyer. En outre, toutes les cliniques qui vous travaillez mesureront les résultats (si quelqu'un a reçu une vaccination) gratuitement. Supposons que vous avez un budget de 1000 dollars.
[ , ] Un problème majeur avec des cours en ligne est l'attrition; de nombreux étudiants qui commencent les cours finissent par dropping-out. Imaginez que vous travaillez à une plate-forme d'apprentissage en ligne, et un designer à la plate-forme a créé une barre de progression visuelle qu'elle pense aidera à prévenir le décrochage du cours. Vous voulez tester l'effet de la barre de progression sur les étudiants dans un grand cours de sciences sociales de calcul. Après avoir abordé les questions éthiques qui pourraient surgir dans l'expérience, vous et vos collègues avez peur que le cours pourrait ne pas avoir assez d'étudiants pour détecter de manière fiable les effets de la barre de progression. Dans les calculs ci-dessous, vous pouvez supposer que la moitié des élèves recevront la barre de progression et la moitié non. En outre, vous pouvez supposer qu'il n'y ait pas d'interférence. En d'autres termes, vous pouvez supposer que les participants ne sont affectés par le fait que ils ont reçu le traitement ou le contrôle; ils ne sont pas effectuées par le fait que d' autres personnes ont reçu le traitement ou le contrôle (pour une définition plus formelle, voir Gerber and Green (2012) , Ch. 8). S'il vous plaît garder une trace de toutes les hypothèses supplémentaires que vous faites.
[ , ] Dans un joli papier, Lewis and Rao (2015) illustrent clairement une limitation statistique fondamentale des expériences , même massives. Le document, qui avait à l'origine le titre provocateur "Sur le Proche-impossibilité de mesurer les retours à la publicité" -shows combien il est difficile de mesurer le retour sur investissement d'annonces en ligne, même avec des expériences numériques impliquant des millions de clients. Plus généralement, le document montre clairement qu'il est difficile d'estimer petit effet de traitement au milieu des données sur les résultats bruyants. Ou déclaré diffently, le document montre que les effets estimés de traitement auront de grands intervalles de confiance lorsque l'écart-type impact sur-(\ (\ frac {\ delta \ bar {y}} {\ sigma} \)) Le ratio est faible. L'importante leçon générale de cet article est que les résultats d'expériences avec petit rapport l'impact à un écart-type (par exemple, le retour sur investissement des campagnes publicitaires) seront insatisfaisantes. Votre défi sera d'écrire un mémo à quelqu'un dans le département de marketing de votre entreprise evaluting une expérience planifiée pour mesurer le retour sur investissement d'une campagne publicitaire. Votre note doit être pris en charge avec des graphiques des résultats de simulations informatiques.
Voici quelques informations de base que vous pourriez avoir besoin. Toutes ces valeurs numériques sont typiques des véritables expériences rapportées dans Lewis and Rao (2015) :
ROI, une mesure clé pour les campagnes de publicité en ligne, est défini comme étant le bénéfice net de la campagne (marge brute de coût campagne de moins de la campagne), divisé par le coût de la campagne. Par exemple, une campagne qui n'a eu aucun effet sur les ventes aurait un retour sur investissement de -100% et une campagne où les profits générés sont égaux aux coûts aurait un retour sur investissement de 0.
les ventes moyennes par client est de 7 $ avec un écart type de 75 $.
est prévu la campagne pour augmenter les ventes de 0,35 $ par client qui correspond à une augmentation du bénéfice de 0,175 $ par client. En d'autres termes, la marge brute est de 50%.
la taille prévue de l'expérience est de 200.000 personnes, dont la moitié dans le groupe de traitement et la moitié dans le groupe témoin.
le coût de la campagne est de 0,14 $ par participant.
Écrire un mémo evaluting cette expérience. Recommanderiez-vous le lancement de cette expérience comme prévu? Si oui, pourquoi? Si non, quels changements recommanderiez-vous?
Une bonne note traitera ce cas précis; une meilleure note sera généraliser à partir de ce cas d'une manière (par exemple, montrer comment les changements de décision en fonction du rapport l'impact à un écart-type); et un grand mémo présentera un résultat totalement généralisé.
[ , ] Faites la même chose que la question précédente, mais plutôt que la simulation vous devez utiliser les résultats analytiques.
[ , , ] Faites la même chose que la question précédente, mais utilise à la fois la simulation et les résultats analytiques.
[ , , ] Imaginez que vous avez écrit le mémo décrit soit simulation, les résultats analytiques, ou les deux et quelqu'un du département de marketing recommande d'utiliser un estimateur de différence dans les différences plutôt que d'une différence dans l'estimateur des moyens à l'aide ci-dessus (voir la section 4.6.2) . Ecrire une nouvelle note plus courte expliquant comment une corrélation de 0,4 entre les ventes avant l'expérience et les ventes après l'expérience modifierait votre conclusion.
[ , ] Afin d'évaluer l'efficacité d'un nouveau service de carrière basé sur le Web, un bureau des services de carrière universitaire a mené un essai contrôlé randomisé entre 10.000 étudiants entrant leur dernière année d'école. Un abonnement gratuit avec des informations de log-in unique a été envoyé à travers une invitation par courriel exclusive à 5000 des étudiants sélectionnés au hasard, tandis que les 5.000 autres étudiants sont dans le groupe de contrôle et ne disposent pas d'un abonnement. Douze mois plus tard, une enquête de suivi (sans non-réponse) montre que dans les deux groupes de traitement et de contrôle, 70% des étudiants ont obtenu un emploi à temps plein dans leur domaine (tableau 4.5). Ainsi, il semble que le service basé sur le Web n'a eu aucun effet.
Cependant, un scientifique de données intelligente à l'université a regardé les données un peu plus près et a constaté que seulement 20% des étudiants du groupe de traitement jamais enregistré dans le compte après avoir reçu l'e-mail. En outre, et de façon surprenante, parmi ceux qui se sont connectés sur le site Web seulement 60% avaient obtenu un emploi à temps plein dans leur domaine, ce qui était inférieur au taux pour les personnes qui ne se connectent et inférieur au taux pour les personnes en la condition de contrôle (tableau 4.6).
Astuce: Cette question va au-delà du matériel couvert dans ce chapitre, mais aborde les problèmes communs dans les expériences. Ce type de conception expérimentale est parfois appelé une conception d'encouragement parce que les participants sont encouragés à participer dans le traitement. Ce problème est un exemple de ce qu'on appelle le non-respect d' un côté (voir Gerber and Green (2012) , Ch. 5)
[ ] Après un examen plus approfondi, il apparaît que l'expérience décrite dans la question précédente était encore plus compliquée. Il se trouve que 10% des personnes dans le groupe de contrôle payé pour l'accès au service, et ils ont fini avec un taux de 65% (tableau 4.7) de l'emploi.
Astuce: Cette question va au-delà du matériel couvert dans ce chapitre, mais aborde les problèmes communs dans les expériences. Ce problème est un exemple de ce qu'on appelle le non-respect des deux côtés (voir Gerber and Green (2012) , Ch. 6)
Groupe | Taille | Taux d'emploi |
---|---|---|
accès accordé au site | 5000 | 70% |
Non autorisé à accéder au site | 5000 | 70% |
Groupe | Taille | Taux d'emploi |
---|---|---|
Certes l'accès au site Web et connecté | 1000 | 60% |
Certes l'accès au site Web et jamais connecté | 4000 | 85% |
Non autorisé à accéder au site | 5000 | 70% |
Groupe | Taille | Taux d'emploi |
---|---|---|
Certes l'accès au site Web et connecté | 1000 | 60% |
Certes l'accès au site Web et jamais connecté | 4000 | 72,5% |
Non accordé l'accès au site Web et payé pour cela | 500 | 65% |
Non accordé l'accès au site et n'a pas payer pour cela | 4500 | 70,56% |