Schlüssel:
[ . ] Berinsky und Kollegen (2012) wertet durch Replizieren drei klassischen Experimenten teil Mechanical Turk. Replizieren Sie die klassischen asiatischen Krankheit Framing Experiment von Tversky and Kahneman (1981) . Haben Ihre Ergebnisse Spiel Tversky und Kahneman ist? Haben Ihre Ergebnisse Spiel Berinsky und Kollegen? Was-wäre-wenn alles-lehrt uns das über für Umfrage Experimente Mechanical Turk mit?
[ . ] In einer etwas tongue-in-cheek Papier mit dem Titel "Wir müssen Break Up" , der Sozialpsychologe Robert Cialdini, einer der Autoren von Schultz et al. (2007) schrieb , dass er früh von seinem Job als Professor zurückziehen, teilweise wegen der Herausforderungen , die er tun Feldversuchen in einer Disziplin konfrontiert (Psychologie) , die in erster Linie führt Laborversuche (Cialdini 2009) . Lesen Sie Cialdinis Papier, und schreiben Sie ihm eine E-Mail drängte ihn seine Break-up im Hinblick auf die Möglichkeiten der digitalen Experimente zu überdenken. Verwenden Sie spezifische Beispiele der Forschung, die seine Bedenken auszuräumen.
[ Um] , um zu bestimmen , ob kleine Anfangserfolge Lock-in oder abklingen, van de Rijt und und Kollegen (2014) griff in vier verschiedene Systeme Erfolg auf zufällig ausgewählten Teilnehmer schenk und gemessen dann die langfristigen Auswirkungen dieser willkürlichen Erfolg. Können Sie sich von anderen Systemen denken, in dem Sie ähnliche Experimente laufen konnte? Werten Sie diese Systeme im Hinblick auf Fragen der wissenschaftlichen Wert, algorithmische verwirrende (siehe Kapitel 2) und Ethik.
[ . ] Die Ergebnisse eines Experiments auf der Teilnehmer ab. Erstellen Sie ein Experiment, und führen Sie es auf Amazon Mechanical Turk (MTurk) mit zwei unterschiedlichen Rekrutierungsstrategien. Versuchen Sie, die experimentieren und Rekrutierungsstrategien zu holen , so dass die Ergebnisse so unterschiedlich wie möglich sein wird. Zum Beispiel könnten Sie Ihre Rekrutierungsstrategien werden die Teilnehmer am Morgen zu rekrutieren und am Abend oder an die Teilnehmer mit hohen und niedrigen Löhnen kompensieren. Diese Arten von Unterschieden in der Rekrutierungsstrategie könnte auf verschiedene Pools von Teilnehmern führen und verschiedene experimentelle Ergebnisse. Wie anders war Ihre Ergebnisse herausstellen? Was zeigt, dass über Experimente an MTurk läuft?
[ . . . ] Stellen Sie sich vor , dass Sie die emotionale Ansteckung Studie wurden Planung (Kramer, Guillory, and Hancock 2014) . Verwenden Sie die Ergebnisse aus einer früheren Beobachtungsstudie von Kramer (2012) die Zahl der Teilnehmer in jedem Zustand zu entscheiden. Diese beiden Studien stimmen nicht überein perfekt so sicher sein, explizit die Annahmen alle aufzulisten, die Sie machen:
[ . . . Antwort] , um die oben gestellte Frage, sondern als die frühere Beobachtungsstudie unter Verwendung von Kramer (2012) verwenden , um die Ergebnisse aus einer früheren natürlichen Experiment von Coviello et al. (2014) .
[ ] Sowohl Rijt et al. (2014) und Margetts et al. (2011) führen beide Experimente , die den Prozess der Menschen zu studieren , eine Petition zu unterzeichnen. Vergleichen und das Design und die Ergebnisse dieser Studien kontrastieren.
[ ] Dwyer, Maki, and Rothman (2015) durchgeführt , zwei Feldversuche über die Beziehung zwischen sozialen Normen und proenvironmental Verhalten. Hier ist der Auszug aus ihrem Papier:
"Wie könnte psychologische Wissenschaft genutzt werden proenvironmental Verhalten zu fördern? In zwei Studien sollen Interventionen Energieeinsparung Verhalten im öffentlichen Bädern zur Förderung untersucht die Einflüsse von deskriptiven Normen und persönliche Verantwortung. In Studie 1 die Lichtstatus (dh an oder aus) manipuliert wurde, bevor jemand einen freien öffentlichen Bad betrat, signalisiert die beschreibende Norm für diese Einstellung. Die Teilnehmer waren deutlich häufiger das Licht auszuschalten, wenn sie weg waren, als sie eintraten. In Studie 2 wurde eine zusätzliche Bedingung, in dem enthalten, das Licht die Norm des Ausschaltens durch ein verbündetes demonstriert wurde, aber die Teilnehmer waren sich nicht verantwortlich für ihn einschalten. Persönliche Verantwortung moderiert den Einfluss von sozialen Normen auf das Verhalten; wenn die Teilnehmer zum Einschalten des Lichts nicht verantwortlich waren, wurde der Einfluss der Norm verringert. Diese Ergebnisse zeigen, wie deskriptive Normen und persönliche Verantwortung können die Wirksamkeit von proenvironmental Interventionen zu regulieren. "
Lesen Sie ihre Papier und Design eine Replikation der Studie 1.
[ . ] Auf die vorhergehende Frage Gebäude, jetzt Ihr Design durchführen.
[ ] Es wurde mit Teilnehmer rekrutiert von Amazon Mechanical Turk erhebliche Debatte über Experimente gewesen. Parallel dazu hat auch erhebliche Debatte über Experimente wurden die Teilnehmer rekrutiert aus Bachelor-Student Populationen. Schreiben Sie eine Zwei-Seiten-Memo den Vergleich und Kontrast der Turkers und Studenten als Forscher Teilnehmer. Ihr Vergleich sollte eine Diskussion der wissenschaftlichen und logistischen Fragen umfassen.
[ ] Jim Manzi Buch Unkontrollierte (2012) ist eine wunderbare Einführung in die Macht des Experimentierens in der Wirtschaft. In dem Buch weitergegeben er diese Geschichte:
"Ich war einmal bei einem Treffen mit einem echten Business-Genie, ein Selfmade-Milliardär, der eine tiefe, intuitive understating der Macht der Experimente hatte. Seine Firma verbrachte erhebliche Ressourcen versuchen, große Schaufenster-Displays zu schaffen, dass die Verbraucher und steigert Umsatz anziehen würde, wie konventionelle Weisheit sagte, sie sollten. Experten sorgfältig Design nach Design getestet, und in einzelnen Test Review-Sitzungen über einen Zeitraum von mehreren Jahren zeigen keine signifikante kausale Wirkung jeder neuen Display-Design auf den Umsatz gehalten. Senior Marketing und Merchandising-Manager traf sich mit dem CEO diese historischen Testergebnisse in toto zu überprüfen. Nachdem alle der experimentellen Daten zu liefern, schlossen sie, dass die konventionelle Weisheit falsch-dass-Fenster zeigt nicht fahren Umsatz war. Ihre Empfehlung war zu reduzieren Kosten und Aufwand in diesem Bereich. Dies zeigte dramatisch die Fähigkeit des Experimentierens konventionelle Weisheit zu kippen. Die Antwort des CEO war einfach: "Meine Schlussfolgerung ist, dass Ihre Designer sind nicht sehr gut." Seine Lösung war Anstrengung im Laden Display - Design zu erhöhen, und um neue Leute zu bekommen, es zu tun. " (Manzi 2012, 158–9)
Welche Art von Gültigkeit ist das Anliegen des CEO?
[ ] Auf die vorhergehende Frage Gebäude an, dass Sie bei dem Treffen waren, wo die Ergebnisse der Experimente diskutiert wurden. Was sind vier Fragen, die Sie fragen könnten, eine für jede Art von Gültigkeit (statistische, konstruieren, interne und externe)?
[ ] Bernedo, Ferraro, and Price (2014) untersucht die Sieben-Jahres - Wirkung der in beschriebenen Intervention Wassereinsparung Ferraro, Miranda, and Price (2011) (siehe 4.10 Abbildung). In dieser Arbeit suchen Bernedo und Kollegen auch durch einen Vergleich des Verhaltens von Haushalten den Mechanismus hinter der Effekt zu verstehen, haben und haben sich nicht bewegt, nachdem die Behandlung geliefert wurde. Das heißt, grob, versuchen sie, ob die Behandlung zu sehen, das Haus oder die Hausbesitzer betroffen.
[ ] In einem Follow-up zu Schultz et al. (2007) , Schultz und Kollegen führen eine Reihe von drei Experimenten über die Wirkung von deskriptiven und Unterlassungs Normen auf einem anderen Umweltverhalten (Handtuch Wiederverwendung) in zwei Kontexten (ein Hotel und ein Teilzeitnutzungs Kondominium) (Schultz, Khazian, and Zaleski 2008) .
[ Als Reaktion] zu Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) führte eine Reihe von Labor-Experimente wie das Design von Stromrechnungen zu studieren. Hier ist, wie sie es in der Zusammenfassung beschreiben:
"In einer Umfrage-basierten Experiment sah jeder Teilnehmer eine hypothetische Stromrechnung für eine Familie mit relativ hohen Stromverbrauch und deckt Informationen über (a) historische Nutzung, (b) Vergleiche zu den Nachbarn, und (c) historische Verwendung mit Geräte Zusammenbruch. Die Teilnehmer sahen alle Arten von Informationen in einem von drei Formaten, einschließlich (a) Tabellen, (b) Balkendiagramme, und (c) Symbol Graphen. Wir berichten über drei wichtigsten Ergebnisse. Erstens verstehen die Verbraucher jede Art von Stromverwendung von Informationen am meisten, wenn es in einer Tabelle dargestellt wurde, vielleicht weil Tabellen erleichtern einfache Punkt Lesen. Zweitens, Vorlieben und Absichten Elektrizität waren die stärkste für die historische Nutzung Informationen, unabhängig von Format zu speichern. Drittens Personen mit geringerem Energiekompetenz verstanden alle Informationen weniger. "
Im Gegensatz zu anderen Follow-up - Studien, das wichtigste Ergebnis des Interesses an Canfield, Bruin, and Wong-Parodi (2016) ist das Verhalten nicht dem tatsächlichen Verhalten berichtet. Was sind die Stärken und Schwächen dieser Art der Studie in einem weiteren Forschungsprogramm zur Förderung von Energieeinsparungen?
[ . ] Smith and Pell (2003) ist eine satirische Meta-Analyse von Studien , die die Wirksamkeit von Fallschirme demonstrieren. Die Forscher folgern:
"Wie bei vielen Interventionen zur Krankheit zu verhindern, wurde die Wirksamkeit von Fallschirme nicht mithilfe randomisierten kontrollierten Studien zur strengen Bewertung unterzogen wurden. Die Befürworter der evidenzbasierten Medizin haben die Annahme von Maßnahmen durch den Einsatz nur Beobachtungsdaten ausgewertet kritisiert. Wir sind der Meinung, dass jeder davon profitieren könnten, wenn die radikalsten Protagonisten der evidenzbasierten Medizin organisiert und nahmen an einer doppelblinden, randomisierten, Placebo-Crossover-Studie mit dem Fallschirm gesteuert. "
Schreiben Sie einen op-ed geeignet für eine allgemeine Leserschaft Zeitung, wie die New York Times, mit dem Argument gegen die Fetischisierung von experimentellen Beweis. Geben Sie spezifische, konkrete Beispiele. Hinweis: Siehe auch, Bothwell et al. (2016) und Deaton (2010)
[ . . präzise sein, mehr als Differenz-in-Mittelwert-Schätzer] Differenz-in-Differenzen Schätzer eines Behandlungseffekt kann. Schreiben Sie ein Memo an einen Ingenieur verantwortlich für A / B-Tests bei einem Start-up-Unternehmen Social-Media-Erklärung der Wert der Differenz-in-Differenzen Ansatz für ein Online-Experiment ausgeführt wird. Das Memo sollte eine Erklärung des Problems sind, eine gewisse Intuition über die Bedingungen, unter denen die Differenz-in-Differenz-Schätzer wird den Unterschied-in-Mittelwert-Schätzer und eine einfache Simulationsstudie übertreffen.
[ . Gary Loveman] war Professor an der Harvard Business School, bevor der CEO von Harrahs, einer der größten Casino-Unternehmen der Welt zu werden. Als er nach Harrahs bewegt, verwandelt Loveman das Unternehmen mit einem Vielflieger-ähnlichen Treueprogramm, das enorme Mengen an Daten über das Kundenverhalten gesammelt. Am Anfang der Always-on-Messsystem, begann das Unternehmen Experimente ausgeführt wird. Zum Beispiel könnten sie ein Experiment ausführen, um die Wirkung eines Gutschein für eine kostenlose Hotel Nacht für Kunden mit einem bestimmten Glücksspiel-Muster zu bewerten. Hier ist, wie Loveman die Bedeutung des Experimentierens zu Harrahs alltäglichen Geschäftspraktiken beschrieben:
"Es ist wie Sie nicht Frauen zu belästigen, die Sie nicht stehlen, und du hast eine Kontrollgruppe zu haben. Dies ist eines der Dinge , die Sie Ihren Job für auf Harrah-nicht verlieren kann eine Kontrollgruppe ausgeführt wird . " (Manzi 2012, 146)
Schreiben Sie eine E-Mail an einen neuen Mitarbeiter zu erklären, warum Loveman denkt, dass es so wichtig ist, eine Kontrollgruppe zu haben. Sie sollten versuchen, ein Beispiel, entweder real oder unternommen, um up-to Ihren Punkt zu illustrieren.
[ . ] Ein neues Experiment zielt darauf ab, die Wirkung der Empfang von SMS-Nachricht Erinnerungen auf Impfung zu schätzen. 150 Kliniken, die jeweils mit 600 in Frage kommenden Patienten, die bereit sind, zu beteiligen. Es gibt einen festen Kosten von 100 Dollar für jede Klinik mit dem Sie arbeiten wollen, und es kostet 1 Dollar für jede SMS-Nachricht, die Sie senden möchten. Weiterhin wurden keine Kliniken mit dem Sie arbeiten, wird das Ergebnis messen kostenlos (ob jemand eine Impfung erhalten haben). Angenommen, Sie haben ein Budget von 1000 Dollar.
[ . ] Ein großes Problem bei Online-Kursen ist Abreibung; viele Studenten, die Kurse beginnen am Ende Abwurf-out. Stellen Sie sich vor, dass Sie bei einer Online-Lernplattform arbeiten, und ein Designer auf der Plattform hat eine visuelle Anzeige des Vorgangs erstellt, dass sie Studenten Herausfallen des Kurses verhindern helfen denkt. Sie wollen die Wirkung der Fortschrittsbalken auf Studenten in einem großen Rechensozialwissenschaftlichen Kurs zu testen. Nachdem alle ethischen Fragen Adressierung, die in dem Experiment entstehen könnten, werden Sie und Ihre Kollegen erhalten besorgt, dass der Kurs nicht genug Studenten haben könnten zuverlässig die Auswirkungen der Fortschrittsbalken zu erkennen. In den Berechnungen unter Ihnen, dass die Hälfte der Schüler davon ausgehen kann, wird der Fortschrittsbalken und die Hälfte nicht erhalten. Des Weiteren können Sie davon ausgehen, dass es keine Störungen. Mit anderen Worten, können Sie davon ausgehen, dass die Teilnehmer nur durch folgende Faktoren beeinträchtigt werden, ob sie die Behandlung oder Kontrolle erhalten hat; sie sind nicht durch , ob andere Personen erhielten die Behandlung oder Kontrolle (für eine formale Definition, siehe bewirkt Gerber and Green (2012) , Kap. 8). Bitte halten Sie den Überblick über alle weiteren Annahmen, die Sie machen.
[ . ] In einem schönen Papier, Lewis and Rao (2015) anschaulich eine grundlegende statistische Begrenzung der sogar massiven Experimente veranschaulichen. Das Papier, das ursprünglich den provokanten Titel hatte "Auf der Near-Unmöglichkeit der Messung der Rückkehr zur Werbung" -zeigt, wie schwierig es ist, den Return on Investment von Online-Anzeigen zu messen, auch mit digitalen Experimenten Millionen von Kunden beteiligt sind. Allgemein zeigt das Papier deutlich, dass es kleine Behandlungseffekt inmitten laut Ergebnisdaten zu schätzen, ist hart. Oder diffently angegeben, zeigt das Papier , dass geschätzte Behandlungseffekte großen Vertrauensintervalle haben wird , wenn die Auswirkungen zu Standard-Abweichung (\ (\ frac {\ delta \ bar {y}} {\ sigma} \)) Verhältnis klein ist . Die wichtige allgemeine Lehre aus dieser Arbeit ist, dass die Ergebnisse aus Experimenten mit geringen Einfluss-to-Standard-Abweichungsverhältnis (zB ROI von Werbekampagnen) unbefriedigenden sein wird. Ihre Herausforderung besteht darin, ein Memo an jemand in der Marketing-Abteilung Ihres Unternehmens zu schreiben, eine geplante Experiment evaluting den ROI einer Werbekampagne zu messen. Ihre memo sollte Graphen der Ergebnisse von Computersimulationen unterstützt werden.
Hier einige Hintergrundinformationen, die Sie benötigen könnten. Alle diese Zahlenwerte sind typisch für die real in gezeigten Experimenten Lewis and Rao (2015) :
ROI, eine wichtige Kennzahl für Online-Kampagnen, ist definiert als der Nettogewinn aus der Kampagne (Bruttogewinn von Kampagne minus Kosten der Kampagne) durch die Kosten der Kampagne geteilt zu sein. Zum Beispiel eine Kampagne, die keinen Einfluss auf den Umsatz hatte würde einen ROI von -100% und eine Kampagne haben, wo erzielten Gewinne gleich Kosten wären, würden einen ROI von 0 haben.
die mittlere Umsatz pro Kunde ist $ 7 mit einer Standardabweichung von 75 $.
Die Kampagne wird erwartet, dass der Umsatz um $ 0.35 pro Kunde zu erhöhen, die in der Gewinn von $ 0,175 pro Kunde entspricht einer Steigerung. Mit anderen Worten, ist die Bruttomarge von 50%.
die geplante Größe des Experiments ist es 200.000 Menschen, die Hälfte in der Behandlungsgruppe und die Hälfte in der Kontrollgruppe.
die Kosten der Kampagne ist es $ 0,14 pro Teilnehmer.
Schreiben Sie ein Memo evaluting dieses Experiment. Würden Sie starten dieses Experiment empfehlen wie geplant? Wenn ja, warum? Wenn nicht, welche Änderungen würden Sie empfehlen?
Eine gute Memo wird diesen speziellen Fall befassen; eine bessere Memo von diesem Fall in einer Art und Weise verallgemeinern werden (zum Beispiel zeigen, wie die Entscheidung ändert sich in Abhängigkeit von den Auswirkungen zu Standard-Abweichungsverhältnis); und eine große Memo präsentiert eine voll generali Ergebnis.
[ . Sie] das gleiche wie die vorherige Frage, sondern eher als Simulation sollten Sie analytische Ergebnisse verwenden.
[ . . Sie] das gleiche wie die vorherige Frage, aber verwenden sowohl Simulation und Analyse-Ergebnisse.
[ . . ] Stellen Sie sich vor, dass Sie das Memo oben entweder mit Simulation, analytischen Ergebnisse oder beides-und jemand aus der Marketingabteilung eine Differenz-in-Differenzen Schätzer empfiehlt die Verwendung von eher in Mittel-Schätzer als eine Differenz beschrieben geschrieben haben (siehe Abschnitt 4.6.2) . Schreiben Sie eine neue kürzere Memo zu erklären, wie eine 0,4 Korrelation zwischen Umsatz vor dem Experiment und Verkäufe nach dem Experiment würde Ihr Ergebnis nichts ändern.
[ . ] Um die Wirksamkeit eines neuen webbasierten Career Service, eine Universität Career Service führten eine randomisierte kontrollierte Studie unter 10.000 Studenten Eintritt in ihrem letzten Jahr der Schule zu bewerten. Ein kostenloses Abonnement mit einzigartigen Login-Daten wurde durch eine exklusive E-Mail-Einladung zu 5.000 der zufällig ausgewählten Studenten geschickt, während die anderen 5.000 Studenten in der Kontrollgruppe sind und nicht über ein Abonnement. Zwölf Monate später, ein Follow-up-Erhebung (ohne Non-Response) zeigt, dass sowohl in den Behandlungs- und Kontrollgruppen, 70% der Studierenden in Vollzeitbeschäftigung in ihrem jeweiligen Bereich (Tabelle 4.5) gesichert haben. So scheint es, dass die Web-basierten Dienst hatte keine Wirkung.
Allerdings sah eine clevere Datenwissenschaftler an der Universität an der Daten ein bisschen näher und fand heraus, dass nur 20% der Schüler in der Behandlungsgruppe immer auf das Konto angemeldet, nachdem die E-Mail zu erhalten. Des Weiteren und überraschend etwas unter denen, die in die Website hatte nur 60% angemeldet haben eine Vollzeitbeschäftigung in ihrem jeweiligen Bereich gesichert, die für Menschen niedriger als die Rate war, die für Menschen als die Rate nicht einloggen und niedriger die Kontrollbedingung (Tabelle 4.6).
Hinweis: Diese Frage geht über das Material in diesem Kapitel behandelt, sondern befasst sich mit Fragen häufig in Experimenten. Diese Art der experimentellen Design ist manchmal eine Ermutigung Design , weil die Teilnehmer aufgerufen bei der Behandlung zu engagieren werden gefördert. Dieses Problem ist ein Beispiel dessen , was einseitige Nichteinhaltung aufgerufen wird (siehe Gerber and Green (2012) , Kap. 5)
[ ] Nach einer weiteren Prüfung, stellt sich heraus, dass das Experiment in der vorherigen Frage kompliziert war beschrieben noch mehr. Es stellt sich heraus, dass 10% der Menschen in der Kontrollgruppe für den Zugriff auf den Dienst bezahlt, und sie mit einer Beschäftigungsquote von 65% (Tabelle 4.7) endete.
Hinweis: Diese Frage geht über das Material in diesem Kapitel behandelt, sondern befasst sich mit Fragen häufig in Experimenten. Dieses Problem ist ein Beispiel dessen , was zweiseitige Nichteinhaltung aufgerufen wird (siehe Gerber and Green (2012) , Kap. 6)
Gruppe | Größe | Beschäftigungsrate |
---|---|---|
Zugegeben Zugang zur Website | 5000 | 70% |
Nicht Zugang zur Website gewährt | 5000 | 70% |
Gruppe | Größe | Beschäftigungsrate |
---|---|---|
Zugegeben Zugang zur Website und angemeldet | 1000 | 60% |
Zugegeben Zugang zur Website und nie angemeldet | 4000 | 85% |
Nicht Zugang zur Website gewährt | 5000 | 70% |
Gruppe | Größe | Beschäftigungsrate |
---|---|---|
Zugegeben Zugang zur Website und angemeldet | 1000 | 60% |
Zugegeben Zugang zur Website und nie angemeldet | 4000 | 72,5% |
Nicht Zugang zur Website gewährt und dafür bezahlt | 500 | 65% |
Nicht Zugang zur Website gewährt und habe nicht für sie | 4500 | 70.56% |