[ , ] Berinsky und Kollegen (2012) bewerteten MTurk teilweise durch Replikation dreier klassischer Experimente. Replizieren Sie das klassische Asian Disease Framing Experiment von Tversky and Kahneman (1981) . Entsprechen Ihre Ergebnisse Tversky und Kahneman's? Stimmen Ihre Ergebnisse mit denen von Berinsky und Kollegen überein? Was - wenn überhaupt - lehrt uns das, MTurk für Umfrageexperimente zu verwenden?
[ , In einem etwas ironischen Aufsatz mit dem Titel "Wir müssen auseinander brechen", der Sozialpsychologe Robert Cialdini, einer der Autoren von Schultz et al. (2007) , schrieb, dass er sich früh von seinem Beruf als Professor zurückzog, zum Teil wegen der Herausforderungen, mit denen er Feldexperimente in einer Disziplin (Psychologie) zu meistern hatte, die hauptsächlich Laborexperimente durchführt (Cialdini 2009) . Lesen Sie Cialdini's Papier und schreiben Sie ihm eine E-Mail, die ihn auffordert, seine Trennung angesichts der Möglichkeiten digitaler Experimente zu überdenken. Verwenden Sie spezifische Forschungsbeispiele, die auf seine Anliegen eingehen.
[ ] Um festzustellen, ob kleine Anfangserfolge ein- oder ausgehen, griffen van de Rijt und und Kollegen (2014) in vier verschiedene Systeme ein, die zufällig ausgewählten Teilnehmern Erfolge bescherten, und maßen dann die langfristigen Auswirkungen dieses willkürlichen Erfolgs. Können Sie an andere Systeme denken, in denen Sie ähnliche Experimente durchführen könnten? Bewerten Sie diese Systeme in Bezug auf Fragen von wissenschaftlichem Wert, algorithmischem Confounding (siehe Kapitel 2) und Ethik.
[ , ] Die Ergebnisse eines Experiments können von den Teilnehmern abhängen. Erstellen Sie ein Experiment und führen Sie es dann auf MTurk mit zwei verschiedenen Rekrutierungsstrategien aus. Versuchen Sie, die Versuchs- und Rekrutierungsstrategien so auszuwählen, dass die Ergebnisse so unterschiedlich wie möglich sind. Zum Beispiel könnten Ihre Rekrutierungsstrategien darin bestehen, die Teilnehmer am Morgen und am Abend zu rekrutieren oder die Teilnehmer mit hohen und niedrigen Bezügen zu entschädigen. Diese Unterschiede in der Rekrutierungsstrategie können zu unterschiedlichen Pools von Teilnehmern und unterschiedlichen experimentellen Ergebnissen führen. Wie unterschiedlich waren deine Ergebnisse? Was sagt das über laufende Experimente auf MTurk aus?
[ , , Stellen Sie sich vor, Sie hätten das Experiment "Emotional Contagion" geplant (Kramer, Guillory, and Hancock 2014) . Verwenden Sie die Ergebnisse einer früheren Beobachtungsstudie von Kramer (2012) , um die Anzahl der Teilnehmer in jeder Bedingung zu bestimmen. Diese beiden Studien stimmen nicht perfekt überein, also seien Sie sicher, dass Sie alle Annahmen, die Sie machen, explizit auflisten:
[ , , ] Beantworten Sie die vorherige Frage noch einmal, verwenden Sie aber diesmal nicht die frühere Beobachtungsstudie von Kramer (2012) , sondern die Ergebnisse eines früheren natürlichen Experiments von Lorenzo Coviello et al. (2014) .
[ ] Sowohl Margetts et al. (2011) und van de Rijt et al. (2014) führten Experimente durch, in denen der Prozess der Unterschriften von Menschen untersucht wurde. Vergleichen und kontrastieren Sie die Designs und Ergebnisse dieser Studien.
[ ] Dwyer, Maki, and Rothman (2015) führten zwei Feldexperimente zur Beziehung zwischen sozialen Normen und umweltfreundlichem Verhalten durch. Hier ist die Zusammenfassung ihrer Arbeit:
"Wie könnte psychologische Wissenschaft genutzt werden, um umweltfreundliches Verhalten zu fördern? In zwei Studien untersuchten Interventionen zur Förderung des Energieerhaltungsverhaltens in öffentlichen Bädern die Einflüsse von deskriptiven Normen und Eigenverantwortung. In Studie 1 wurde der Lichtstatus (dh an oder aus) manipuliert, bevor jemand ein nicht besetztes öffentliches Bad betrat, was die beschreibende Norm für diese Einstellung signalisierte. Die Teilnehmer waren wesentlich wahrscheinlicher, das Licht auszuschalten, wenn sie beim Eintritt ausgeschaltet waren. In Studie 2 wurde eine zusätzliche Bedingung aufgenommen, in der die Norm des Ausschaltens des Lichts von einem Verbündeten demonstriert wurde, aber die Teilnehmer waren nicht selbst dafür verantwortlich, es einzuschalten. Persönliche Verantwortung moderierte den Einfluss sozialer Normen auf das Verhalten; Wenn die Teilnehmer nicht dafür verantwortlich waren, das Licht anzumachen, wurde der Einfluss der Norm verringert. Diese Ergebnisse zeigen, wie beschreibende Normen und persönliche Verantwortung die Wirksamkeit von Interventionen in der Umwelt regulieren können. "
Lesen Sie ihre Arbeit und entwerfen Sie eine Replikation von Studie 1.
[ , ] Aufbauend auf der vorherigen Frage, führen Sie nun Ihr Design aus.
[ ] Es gab eine erhebliche Debatte über Experimente mit Teilnehmern, die aus MTurk rekrutiert wurden. Parallel dazu gab es auch eine substantielle Debatte über Experimente mit Teilnehmern, die von Studenten aus Studentengruppen rekrutiert wurden. Schreiben Sie ein zweiseitiges Memo, das Turker und Studenten als Forschungsteilnehmer vergleicht und gegenüberstellt. Ihr Vergleich sollte eine Diskussion über wissenschaftliche und logistische Fragen beinhalten.
[ ] Jim Manzi Buch Uncontrolled (2012) ist eine wunderbare Einführung in die Kraft des Experimentierens in der Wirtschaft. In dem Buch gab er folgende Geschichte weiter:
"Ich war einmal in einem Meeting mit einem wahren Business-Genie, einem Self-Made-Milliardär, der eine tiefe, intuitive Understatement der Macht der Experimente hatte. Seine Firma hat erhebliche Ressourcen ausgegeben, um große Schaufenstern zu erstellen, die die Verbraucher anlocken und den Umsatz steigern würden, wie es in der herkömmlichen Meinung heißt. Die Experten testeten Design-nach-Design sorgfältig und zeigten in einzelnen Test-Review-Sitzungen über einen Zeitraum von Jahren immer noch keinen signifikanten kausalen Effekt jedes neuen Display-Designs auf den Verkauf. Leitende Marketing- und Merchandising-Führungskräfte trafen sich mit dem CEO, um diese historischen Testergebnisse insgesamt zu überprüfen. Nachdem sie alle experimentellen Daten präsentiert hatten, kamen sie zu dem Schluss, dass die gängige Meinung falsch war - dass Schaufensterauslagen den Umsatz nicht antreiben. Ihre empfohlene Maßnahme war die Reduzierung von Kosten und Aufwand in diesem Bereich. Dies demonstrierte dramatisch die Fähigkeit des Experimentierens, konventionelle Weisheiten aufzuheben. Die Antwort des CEO war einfach: "Meine Schlussfolgerung ist, dass Ihre Designer nicht sehr gut sind." Seine Lösung bestand darin, den Aufwand für das Design von Ladengeschäften zu erhöhen und neue Leute dazu zu bringen, dies zu tun. " (Manzi 2012, 158–9)
Welche Art von Gültigkeit ist das Anliegen des CEO?
[ ] Wenn Sie sich auf die vorherige Frage stützen, stellen Sie sich vor, dass Sie an dem Treffen waren, bei dem die Ergebnisse der Experimente besprochen wurden. Welche vier Fragen können Sie stellen - eine für jede Art von Validität (statistisch, konstruktiv, intern und extern)?
[ ] Bernedo, Ferraro, and Price (2014) untersuchten den siebenjährigen Effekt der wassersparenden Intervention, die in Ferraro, Miranda, and Price (2011) (siehe Abbildung 4.11). In diesem Papier versuchten Bernedo und seine Kollegen auch, den Mechanismus hinter dem Effekt zu verstehen, indem sie das Verhalten von Haushalten verglichen, die sich nach der Behandlung bewegt haben und nicht bewegt haben. Das heißt, ungefähr, sie versuchten zu sehen, ob die Behandlung das Haus oder den Hausbesitzer beeinflusste.
[ ] In einer Nachfolge von Schultz et al. (2007) führten Schultz und Kollegen eine Reihe von drei Experimenten zur Wirkung von beschreibenden und unterstellenden Normen auf ein anderes Umweltverhalten (Handtuchwiederverwendung) in zwei Kontexten durch (ein Hotel und eine Timesharing-Eigentumswohnung) (Schultz, Khazian, and Zaleski 2008) .
[ ] Als Antwort auf Schultz et al. (2007) führten Canfield, Bruin, and Wong-Parodi (2016) eine Reihe von Laborexperimenten durch, um das Design von Stromrechnungen zu untersuchen. So beschreiben sie es im Abstract:
"In einem umfragebasierten Experiment sah jeder Teilnehmer eine hypothetische Stromrechnung für eine Familie mit relativ hohem Stromverbrauch, die Informationen über (a) historische Nutzung, (b) Vergleiche mit Nachbarn und (c) historische Nutzung mit Geräteausfall enthielt. Die Teilnehmer sahen alle Informationstypen in einem von drei Formaten, einschließlich (a) Tabellen, (b) Balkendiagrammen und (c) Ikonendiagrammen. Wir berichten über drei Hauptergebnisse. Erstens verstanden die Verbraucher jede Art von Informationen zur Stromnutzung am besten, wenn sie in einer Tabelle dargestellt wurde, vielleicht weil Tabellen das einfache Lesen von Punkten erleichtern. Zweitens waren Präferenzen und Absichten, Strom zu sparen, für die historischen Nutzungsinformationen am stärksten, unabhängig vom Format. Drittens haben Personen mit niedrigerer Energiekompetenz alle Informationen weniger verstanden. "
Im Gegensatz zu anderen Folgestudien ist das Hauptergebnis des Interesses an Canfield, Bruin, and Wong-Parodi (2016) das gemeldete Verhalten, nicht das tatsächliche Verhalten. Was sind die Stärken und Schwächen dieser Art von Studie in einem breiteren Forschungsprogramm zur Förderung von Energieeinsparungen?
[ , ] Smith and Pell (2003) präsentierten eine satirische Meta-Analyse von Studien, die die Wirksamkeit von Fallschirmen demonstrierten. Sie folgerten:
"Wie bei vielen Interventionen zur Vorbeugung von Gesundheitsproblemen wurde die Wirksamkeit von Fallschirmen keiner rigorosen Evaluierung durch randomisierte kontrollierte Studien unterzogen. Befürworter evidenzbasierter Medizin haben die Einführung von Interventionen kritisiert, die nur mit Beobachtungsdaten evaluiert wurden. Wir denken, dass jeder davon profitieren könnte, wenn die radikalsten Protagonisten der evidenzbasierten Medizin einen doppelblinden, randomisierten, placebokontrollierten Crossover-Test des Fallschirms organisieren und daran teilnehmen würden. "
Schreiben Sie einen Artikel, der für eine allgemein leserliche Zeitung geeignet ist, wie die New York Times , die gegen die Fetischisierung experimenteller Beweise argumentiert. Geben Sie konkrete konkrete Beispiele an. Hinweis: Siehe auch Deaton (2010) und Bothwell et al. (2016) .
[ , , ] Differenz-in-Differenzen-Schätzer eines Behandlungseffekts können genauer sein als Differenz-in-Mittelwert-Schätzer. Schreiben Sie ein Memo an einen Ingenieur, der für A / B-Tests bei einem Startup-Unternehmen für soziale Medien zuständig ist, und erläutern Sie den Wert des Differenz-in-Differenzen-Ansatzes für die Durchführung eines Online-Experiments. Das Memo sollte eine Erklärung des Problems enthalten, eine Intuition über die Bedingungen, unter denen der Differenz-in-Differenz-Schätzer den Differenz-Mittelwert-Schätzer übertreffen wird, und eine einfache Simulationsstudie.
[ , ] Gary Loveman war Professor an der Harvard Business School, bevor er CEO von Harrah's wurde, einem der größten Casinogesellschaften der Welt. Als er zu Harrah's wechselte, verwandelte Loveman das Unternehmen mit einem Treueprogramm, das viele Kunden über das Kundenverhalten informiert. Zusätzlich zu diesem ständig laufenden Messsystem begann das Unternehmen mit Experimenten. Beispielsweise könnten sie ein Experiment durchführen, um die Wirkung eines Gutscheins für eine kostenlose Hotelnacht für Kunden mit einem bestimmten Glücksspielmuster zu bewerten. So beschreibt Loveman die Bedeutung des Experimentierens für Harrahs alltägliche Geschäftspraktiken:
"Es ist, als würdest du keine Frauen belästigen, du stehst nicht, und du musst eine Kontrollgruppe haben. Das ist eines der Dinge, bei denen du deine Stelle bei Harrahs verlieren kannst - keine Kontrollgruppe zu leiten. " (Manzi 2012, 146)
Schreiben Sie eine E-Mail an einen neuen Mitarbeiter, der erklärt, warum Loveman es für so wichtig hält, eine Kontrollgruppe zu haben. Sie sollten versuchen, ein Beispiel zu verwenden - entweder real oder erfunden -, um Ihren Standpunkt zu verdeutlichen.
[ , ] Ein neues Experiment zielt darauf ab, den Effekt des Empfangens von Textnachrichtenerinnerungen auf die Impfaufnahme zu schätzen. Einhundertundfünfzig Kliniken mit jeweils 600 in Frage kommenden Patienten sind zur Teilnahme bereit. Für jede Klinik, mit der Sie arbeiten möchten, werden Fixkosten in Höhe von 100 US-Dollar berechnet, die für jede gesendete Textnachricht 1 US-Dollar kosten. Darüber hinaus werden alle Kliniken, mit denen Sie arbeiten, das Ergebnis (ob jemand eine Impfung erhalten hat) kostenlos messen. Angenommen, Sie haben ein Budget von 1.000 Euro.
[ , ] Ein großes Problem bei Online-Kursen ist die Fluktuation: Viele Studenten, die Kurse beginnen, enden mit dem Schulabbruch. Stellen Sie sich vor, Sie arbeiten an einer Online-Lernplattform, und eine Designerin auf der Plattform hat eine visuelle Fortschrittsleiste erstellt, von der sie denkt, dass sie dazu beitragen wird, dass Studenten den Kurs nicht verlassen. Sie möchten die Wirkung des Fortschrittsbalkens auf Studenten in einem großen computational-social-science-Kurs testen. Nachdem Sie sich mit ethischen Fragen beschäftigt haben, die im Experiment auftreten könnten, befürchten Sie und Ihre Kollegen, dass der Kurs möglicherweise nicht genügend Schüler hat, um die Auswirkungen des Fortschrittsbalkens zuverlässig zu erkennen. In den folgenden Berechnungen können Sie davon ausgehen, dass die Hälfte der Schüler den Fortschrittsbalken und die andere Hälfte nicht erhalten wird. Außerdem können Sie davon ausgehen, dass es keine Störungen gibt. Mit anderen Worten, Sie können davon ausgehen, dass die Teilnehmer nur davon betroffen sind, ob sie die Behandlung oder Kontrolle erhalten haben; sie sind nicht davon betroffen, ob andere Personen die Behandlung oder Kontrolle erhalten haben (für eine formalere Definition, siehe Kapitel 8 von Gerber and Green (2012) ). Verfolgen Sie alle zusätzlichen Annahmen, die Sie treffen.
[ , , Stellen Sie sich vor, Sie arbeiten als Datenwissenschaftler in einem Technologieunternehmen. Jemand aus der Marketingabteilung bittet Sie um Hilfe bei der Bewertung eines von ihnen geplanten Experiments, um den Return on Investment (ROI) für eine neue Online-Werbekampagne zu messen. ROI ist definiert als der Nettogewinn der Kampagne dividiert durch die Kosten der Kampagne. Eine Kampagne, die keine Auswirkungen auf den Umsatz hat, hätte beispielsweise einen ROI von -100%. Eine Kampagne, bei der die erzielten Gewinne den Kosten entsprechen, hätte einen ROI von 0; und eine Kampagne, bei der die erzielten Gewinne doppelt so hoch waren wie die Kosten, hätte einen ROI von 200%.
Vor dem Start des Tests liefert Ihnen die Marketingabteilung die folgenden Informationen basierend auf früheren Untersuchungen (diese Werte sind typisch für die echten Online-Werbekampagnen, die in Lewis und Rao (2015) ):
Schreiben Sie ein Memo, das dieses vorgeschlagene Experiment bewertet. Ihr Memo sollte Beweise aus einer von Ihnen erstellten Simulation verwenden und zwei Hauptprobleme behandeln: (1) Würden Sie empfehlen, dieses Experiment wie geplant zu starten? Wenn ja warum? Wenn nicht, warum nicht? Stellen Sie sicher, dass Sie sich über die Kriterien klar sind, die Sie für diese Entscheidung verwenden. (2) Welche Stichprobengröße würden Sie für dieses Experiment empfehlen? Bitte stellen Sie sicher, dass Sie sich über die Kriterien klar sind, die Sie für diese Entscheidung verwenden.
Ein gutes Memo wird diesen speziellen Fall behandeln; ein besseres Memo verallgemeinert aus diesem Fall in einer Weise (z. B. zeigen Sie, wie sich die Entscheidung als eine Funktion der Größe der Wirkung der Kampagne ändert); und ein großartiges Memo wird ein vollständig verallgemeinertes Ergebnis präsentieren. Ihr Memo sollte Diagramme verwenden, um Ihre Ergebnisse zu veranschaulichen.
Hier sind zwei Hinweise. Erstens, die Marketingabteilung hat Ihnen möglicherweise einige unnötige Informationen zur Verfügung gestellt und sie haben Ihnen möglicherweise einige notwendige Informationen nicht gegeben. Zweitens, wenn Sie R verwenden, beachten Sie, dass die Funktion rlnorm () nicht so funktioniert, wie viele Leute erwarten.
In dieser Aktivität werden Sie mit der Power-Analyse üben, Simulationen erstellen und Ihre Ergebnisse mit Wörtern und Graphen kommunizieren. Es sollte Ihnen bei der Durchführung von Leistungsanalysen für jede Art von Experiment helfen, nicht nur bei Experimenten zur ROI-Schätzung. Bei dieser Aktivität wird davon ausgegangen, dass Sie über Erfahrung mit statistischen Tests und Leistungsanalysen verfügen. Wenn Sie mit der Leistungsanalyse nicht vertraut sind, empfehle ich, dass Sie "A Power Primer" von Cohen (1992) lesen.
Diese Aktivität wurde von einer schönen Arbeit von RA Lewis and Rao (2015) inspiriert, die anschaulich eine grundlegende statistische Begrenzung sogar von massiven Experimenten veranschaulicht. Ihre Studie, die ursprünglich den provokativen Titel "Über die Unmöglichkeit der Messung der Rendite von Werbung" trug, zeigt, wie schwierig es ist, den Return on Investment von Online-Anzeigen zu messen, selbst bei digitalen Experimenten mit Millionen von Kunden. Allgemeiner RA Lewis and Rao (2015) , RA Lewis and Rao (2015) illustrieren eine fundamentale statistische Tatsache, die besonders wichtig für Experimente im digitalen Zeitalter ist: Es ist schwierig, kleine Behandlungseffekte inmitten von verrauschten Ergebnisdaten zu schätzen.
[ , ] Gehen Sie genauso vor wie bei der vorherigen Frage, aber anstatt einer Simulation sollten Sie analytische Ergebnisse verwenden.
[ , , ] Gehen Sie genauso vor wie bei der vorherigen Frage, verwenden Sie jedoch sowohl Simulations- als auch Analyseergebnisse.
[ , , ] Stellen Sie sich vor, Sie haben das oben beschriebene Memo geschrieben, und jemand aus der Marketingabteilung liefert eine neue Information: Sie erwarten eine Korrelation von 0,4 zwischen den Verkäufen vor und nach dem Experiment. Wie ändert dies die Empfehlungen in Ihrem Memo? (Hinweis: siehe Abschnitt 4.6.2 für mehr über den Differenz-Differenz-Schätzer und den Differenz-in-Differenzen-Schätzer.)
[ , ] Um die Wirksamkeit eines neuen webbasierten Beschäftigungshilfeprogramms zu bewerten, führte eine Universität eine randomisierte Kontrollstudie unter 10.000 Schülern durch, die in ihr letztes Schuljahr gingen. Ein kostenloses Abonnement mit eindeutigen Anmeldeinformationen wurde durch eine exklusive E-Mail-Einladung an 5.000 der zufällig ausgewählten Studenten gesendet, während die anderen 5.000 Schüler in der Kontrollgruppe waren und kein Abonnement hatten. Zwölf Monate später zeigte eine Folgebefragung (ohne Rückfall), dass 70% der Studenten sowohl in der Behandlungs- als auch in der Kontrollgruppe eine Vollzeitbeschäftigung in ihrem gewählten Bereich besaßen (Tabelle 4.6). Somit schien der webbasierte Dienst keine Wirkung zu haben.
Ein schlauer Data Scientist an der Universität betrachtete die Daten jedoch etwas genauer und fand heraus, dass nur 20% der Studenten in der Behandlungsgruppe sich nach Erhalt der E-Mail auf dem Konto eingeloggt hatten. Außerdem, und etwas überraschend, unter denjenigen, die sich auf der Website anmeldeten, hatten nur 60% eine Vollzeitbeschäftigung in ihrem gewählten Bereich, die niedriger war als die Rate für Leute, die sich nicht einloggen und niedriger als die Rate für Leute in der Kontrollbedingung (Tabelle 4.7).
Hinweis: Diese Frage geht über das in diesem Kapitel behandelte Material hinaus, befasst sich jedoch mit in Experimenten üblichen Problemen. Diese Art von experimentellem Design wird manchmal als Ermutigungsdesign bezeichnet, da die Teilnehmer ermutigt werden, sich an der Behandlung zu beteiligen. Dieses Problem ist ein Beispiel für eine einseitige Nichteinhaltung (siehe Kapitel 5 von Gerber and Green (2012) ).
[ ] Nach einer weiteren Untersuchung stellte sich heraus, dass das in der vorherigen Frage beschriebene Experiment noch komplizierter war. Es stellte sich heraus, dass 10% der Personen in der Kontrollgruppe den Zugang zu dem Dienst bezahlten, und sie hatten eine Beschäftigungsquote von 65% (Tabelle 4.8).
Hinweis: Diese Frage geht über das in diesem Kapitel behandelte Material hinaus, befasst sich jedoch mit in Experimenten üblichen Problemen. Dieses Problem ist ein Beispiel für die sogenannte zweiseitige Nichteinhaltung (siehe Kapitel 6 von Gerber and Green (2012) ).
Gruppe | Größe | Beschäftigungsrate |
---|---|---|
Zugang zur Website gewährt | 5.000 | 70% |
Nicht gewährter Zugriff auf die Website | 5.000 | 70% |
Gruppe | Größe | Beschäftigungsrate |
---|---|---|
Zugang zur Website gewährt und eingeloggt | 1.000 | 60% |
Zugriff auf die Website gewährt und nie eingeloggt | 4.000 | 72,5% |
Nicht gewährter Zugriff auf die Website | 5.000 | 70% |
Gruppe | Größe | Beschäftigungsrate |
---|---|---|
Zugang zur Website gewährt und eingeloggt | 1.000 | 60% |
Zugriff auf die Website gewährt und nie eingeloggt | 4.000 | 72,5% |
Kein Zugriff auf die Website gewährt und dafür bezahlt | 500 | 65% |
Kein Zugriff auf die Website gewährt und nicht dafür bezahlt | 4.500 | 70.56% |