Aktivitäten

  • Schwierigkeitsgrad: einfach einfach , Mittel Mittel , hart hart , sehr schwer sehr schwer
  • erfordert Mathematik ( erfordert Mathematik )
  • erfordert Codierung ( erfordert Codierung )
  • Datensammlung ( Datensammlung )
  • meine Favoriten ( mein Liebling )
  1. [ Mittel , Datensammlung ] Berinsky und Kollegen (2012) bewerteten MTurk teilweise durch Replikation dreier klassischer Experimente. Replizieren Sie das klassische Asian Disease Framing Experiment von Tversky and Kahneman (1981) . Entsprechen Ihre Ergebnisse Tversky und Kahneman's? Stimmen Ihre Ergebnisse mit denen von Berinsky und Kollegen überein? Was - wenn überhaupt - lehrt uns das, MTurk für Umfrageexperimente zu verwenden?

  2. [ Mittel , mein Liebling In einem etwas ironischen Aufsatz mit dem Titel "Wir müssen auseinander brechen", der Sozialpsychologe Robert Cialdini, einer der Autoren von Schultz et al. (2007) , schrieb, dass er sich früh von seinem Beruf als Professor zurückzog, zum Teil wegen der Herausforderungen, mit denen er Feldexperimente in einer Disziplin (Psychologie) zu meistern hatte, die hauptsächlich Laborexperimente durchführt (Cialdini 2009) . Lesen Sie Cialdini's Papier und schreiben Sie ihm eine E-Mail, die ihn auffordert, seine Trennung angesichts der Möglichkeiten digitaler Experimente zu überdenken. Verwenden Sie spezifische Forschungsbeispiele, die auf seine Anliegen eingehen.

  3. [ Mittel ] Um festzustellen, ob kleine Anfangserfolge ein- oder ausgehen, griffen van de Rijt und und Kollegen (2014) in vier verschiedene Systeme ein, die zufällig ausgewählten Teilnehmern Erfolge bescherten, und maßen dann die langfristigen Auswirkungen dieses willkürlichen Erfolgs. Können Sie an andere Systeme denken, in denen Sie ähnliche Experimente durchführen könnten? Bewerten Sie diese Systeme in Bezug auf Fragen von wissenschaftlichem Wert, algorithmischem Confounding (siehe Kapitel 2) und Ethik.

  4. [ Mittel , Datensammlung ] Die Ergebnisse eines Experiments können von den Teilnehmern abhängen. Erstellen Sie ein Experiment und führen Sie es dann auf MTurk mit zwei verschiedenen Rekrutierungsstrategien aus. Versuchen Sie, die Versuchs- und Rekrutierungsstrategien so auszuwählen, dass die Ergebnisse so unterschiedlich wie möglich sind. Zum Beispiel könnten Ihre Rekrutierungsstrategien darin bestehen, die Teilnehmer am Morgen und am Abend zu rekrutieren oder die Teilnehmer mit hohen und niedrigen Bezügen zu entschädigen. Diese Unterschiede in der Rekrutierungsstrategie können zu unterschiedlichen Pools von Teilnehmern und unterschiedlichen experimentellen Ergebnissen führen. Wie unterschiedlich waren deine Ergebnisse? Was sagt das über laufende Experimente auf MTurk aus?

  5. [ sehr schwer , erfordert Mathematik , erfordert Codierung Stellen Sie sich vor, Sie hätten das Experiment "Emotional Contagion" geplant (Kramer, Guillory, and Hancock 2014) . Verwenden Sie die Ergebnisse einer früheren Beobachtungsstudie von Kramer (2012) , um die Anzahl der Teilnehmer in jeder Bedingung zu bestimmen. Diese beiden Studien stimmen nicht perfekt überein, also seien Sie sicher, dass Sie alle Annahmen, die Sie machen, explizit auflisten:

    1. Führen Sie eine Simulation durch, die darüber entscheidet, wie viele Teilnehmer benötigt wurden, um einen Effekt zu erkennen, der so groß ist wie der Effekt in Kramer (2012) mit \(\alpha = 0.05\) und \(1 - \beta = 0.8\) .
    2. Führen Sie die gleiche Berechnung analytisch durch.
    3. Angesichts der Ergebnisse von Kramer (2012) war Emotional Contagion (Kramer, Guillory, and Hancock 2014) überlastet (dh hatte es mehr Teilnehmer als nötig)?
    4. Unter welchen Annahmen haben Sie den größten Einfluss auf Ihre Kalkulation?
  6. [ sehr schwer , erfordert Mathematik , erfordert Codierung ] Beantworten Sie die vorherige Frage noch einmal, verwenden Sie aber diesmal nicht die frühere Beobachtungsstudie von Kramer (2012) , sondern die Ergebnisse eines früheren natürlichen Experiments von Lorenzo Coviello et al. (2014) .

  7. [ einfach ] Sowohl Margetts et al. (2011) und van de Rijt et al. (2014) führten Experimente durch, in denen der Prozess der Unterschriften von Menschen untersucht wurde. Vergleichen und kontrastieren Sie die Designs und Ergebnisse dieser Studien.

  8. [ einfach ] Dwyer, Maki, and Rothman (2015) führten zwei Feldexperimente zur Beziehung zwischen sozialen Normen und umweltfreundlichem Verhalten durch. Hier ist die Zusammenfassung ihrer Arbeit:

    "Wie könnte psychologische Wissenschaft genutzt werden, um umweltfreundliches Verhalten zu fördern? In zwei Studien untersuchten Interventionen zur Förderung des Energieerhaltungsverhaltens in öffentlichen Bädern die Einflüsse von deskriptiven Normen und Eigenverantwortung. In Studie 1 wurde der Lichtstatus (dh an oder aus) manipuliert, bevor jemand ein nicht besetztes öffentliches Bad betrat, was die beschreibende Norm für diese Einstellung signalisierte. Die Teilnehmer waren wesentlich wahrscheinlicher, das Licht auszuschalten, wenn sie beim Eintritt ausgeschaltet waren. In Studie 2 wurde eine zusätzliche Bedingung aufgenommen, in der die Norm des Ausschaltens des Lichts von einem Verbündeten demonstriert wurde, aber die Teilnehmer waren nicht selbst dafür verantwortlich, es einzuschalten. Persönliche Verantwortung moderierte den Einfluss sozialer Normen auf das Verhalten; Wenn die Teilnehmer nicht dafür verantwortlich waren, das Licht anzumachen, wurde der Einfluss der Norm verringert. Diese Ergebnisse zeigen, wie beschreibende Normen und persönliche Verantwortung die Wirksamkeit von Interventionen in der Umwelt regulieren können. "

    Lesen Sie ihre Arbeit und entwerfen Sie eine Replikation von Studie 1.

  9. [ Mittel , Datensammlung ] Aufbauend auf der vorherigen Frage, führen Sie nun Ihr Design aus.

    1. Wie vergleichen sich die Ergebnisse?
    2. Was könnte diese Unterschiede erklären?
  10. [ Mittel ] Es gab eine erhebliche Debatte über Experimente mit Teilnehmern, die aus MTurk rekrutiert wurden. Parallel dazu gab es auch eine substantielle Debatte über Experimente mit Teilnehmern, die von Studenten aus Studentengruppen rekrutiert wurden. Schreiben Sie ein zweiseitiges Memo, das Turker und Studenten als Forschungsteilnehmer vergleicht und gegenüberstellt. Ihr Vergleich sollte eine Diskussion über wissenschaftliche und logistische Fragen beinhalten.

  11. [ einfach ] Jim Manzi Buch Uncontrolled (2012) ist eine wunderbare Einführung in die Kraft des Experimentierens in der Wirtschaft. In dem Buch gab er folgende Geschichte weiter:

    "Ich war einmal in einem Meeting mit einem wahren Business-Genie, einem Self-Made-Milliardär, der eine tiefe, intuitive Understatement der Macht der Experimente hatte. Seine Firma hat erhebliche Ressourcen ausgegeben, um große Schaufenstern zu erstellen, die die Verbraucher anlocken und den Umsatz steigern würden, wie es in der herkömmlichen Meinung heißt. Die Experten testeten Design-nach-Design sorgfältig und zeigten in einzelnen Test-Review-Sitzungen über einen Zeitraum von Jahren immer noch keinen signifikanten kausalen Effekt jedes neuen Display-Designs auf den Verkauf. Leitende Marketing- und Merchandising-Führungskräfte trafen sich mit dem CEO, um diese historischen Testergebnisse insgesamt zu überprüfen. Nachdem sie alle experimentellen Daten präsentiert hatten, kamen sie zu dem Schluss, dass die gängige Meinung falsch war - dass Schaufensterauslagen den Umsatz nicht antreiben. Ihre empfohlene Maßnahme war die Reduzierung von Kosten und Aufwand in diesem Bereich. Dies demonstrierte dramatisch die Fähigkeit des Experimentierens, konventionelle Weisheiten aufzuheben. Die Antwort des CEO war einfach: "Meine Schlussfolgerung ist, dass Ihre Designer nicht sehr gut sind." Seine Lösung bestand darin, den Aufwand für das Design von Ladengeschäften zu erhöhen und neue Leute dazu zu bringen, dies zu tun. " (Manzi 2012, 158–9)

    Welche Art von Gültigkeit ist das Anliegen des CEO?

  12. [ einfach ] Wenn Sie sich auf die vorherige Frage stützen, stellen Sie sich vor, dass Sie an dem Treffen waren, bei dem die Ergebnisse der Experimente besprochen wurden. Welche vier Fragen können Sie stellen - eine für jede Art von Validität (statistisch, konstruktiv, intern und extern)?

  13. [ einfach ] Bernedo, Ferraro, and Price (2014) untersuchten den siebenjährigen Effekt der wassersparenden Intervention, die in Ferraro, Miranda, and Price (2011) (siehe Abbildung 4.11). In diesem Papier versuchten Bernedo und seine Kollegen auch, den Mechanismus hinter dem Effekt zu verstehen, indem sie das Verhalten von Haushalten verglichen, die sich nach der Behandlung bewegt haben und nicht bewegt haben. Das heißt, ungefähr, sie versuchten zu sehen, ob die Behandlung das Haus oder den Hausbesitzer beeinflusste.

    1. Lesen Sie das Papier, beschreiben Sie ihr Design und fassen Sie ihre Ergebnisse zusammen.
    2. Beeinflussen ihre Ergebnisse, wie Sie die Kosteneffektivität ähnlicher Interventionen bewerten sollten? Wenn ja warum? Wenn nicht, warum nicht?
  14. [ einfach ] In einer Nachfolge von Schultz et al. (2007) führten Schultz und Kollegen eine Reihe von drei Experimenten zur Wirkung von beschreibenden und unterstellenden Normen auf ein anderes Umweltverhalten (Handtuchwiederverwendung) in zwei Kontexten durch (ein Hotel und eine Timesharing-Eigentumswohnung) (Schultz, Khazian, and Zaleski 2008) .

    1. Fassen Sie das Design und die Ergebnisse dieser drei Experimente zusammen.
    2. Wie, wenn überhaupt, ändern sie Ihre Interpretation von Schultz et al. (2007) ?
  15. [ einfach ] Als Antwort auf Schultz et al. (2007) führten Canfield, Bruin, and Wong-Parodi (2016) eine Reihe von Laborexperimenten durch, um das Design von Stromrechnungen zu untersuchen. So beschreiben sie es im Abstract:

    "In einem umfragebasierten Experiment sah jeder Teilnehmer eine hypothetische Stromrechnung für eine Familie mit relativ hohem Stromverbrauch, die Informationen über (a) historische Nutzung, (b) Vergleiche mit Nachbarn und (c) historische Nutzung mit Geräteausfall enthielt. Die Teilnehmer sahen alle Informationstypen in einem von drei Formaten, einschließlich (a) Tabellen, (b) Balkendiagrammen und (c) Ikonendiagrammen. Wir berichten über drei Hauptergebnisse. Erstens verstanden die Verbraucher jede Art von Informationen zur Stromnutzung am besten, wenn sie in einer Tabelle dargestellt wurde, vielleicht weil Tabellen das einfache Lesen von Punkten erleichtern. Zweitens waren Präferenzen und Absichten, Strom zu sparen, für die historischen Nutzungsinformationen am stärksten, unabhängig vom Format. Drittens haben Personen mit niedrigerer Energiekompetenz alle Informationen weniger verstanden. "

    Im Gegensatz zu anderen Folgestudien ist das Hauptergebnis des Interesses an Canfield, Bruin, and Wong-Parodi (2016) das gemeldete Verhalten, nicht das tatsächliche Verhalten. Was sind die Stärken und Schwächen dieser Art von Studie in einem breiteren Forschungsprogramm zur Förderung von Energieeinsparungen?

  16. [ Mittel , mein Liebling ] Smith and Pell (2003) präsentierten eine satirische Meta-Analyse von Studien, die die Wirksamkeit von Fallschirmen demonstrierten. Sie folgerten:

    "Wie bei vielen Interventionen zur Vorbeugung von Gesundheitsproblemen wurde die Wirksamkeit von Fallschirmen keiner rigorosen Evaluierung durch randomisierte kontrollierte Studien unterzogen. Befürworter evidenzbasierter Medizin haben die Einführung von Interventionen kritisiert, die nur mit Beobachtungsdaten evaluiert wurden. Wir denken, dass jeder davon profitieren könnte, wenn die radikalsten Protagonisten der evidenzbasierten Medizin einen doppelblinden, randomisierten, placebokontrollierten Crossover-Test des Fallschirms organisieren und daran teilnehmen würden. "

    Schreiben Sie einen Artikel, der für eine allgemein leserliche Zeitung geeignet ist, wie die New York Times , die gegen die Fetischisierung experimenteller Beweise argumentiert. Geben Sie konkrete konkrete Beispiele an. Hinweis: Siehe auch Deaton (2010) und Bothwell et al. (2016) .

  17. [ Mittel , erfordert Codierung , mein Liebling ] Differenz-in-Differenzen-Schätzer eines Behandlungseffekts können genauer sein als Differenz-in-Mittelwert-Schätzer. Schreiben Sie ein Memo an einen Ingenieur, der für A / B-Tests bei einem Startup-Unternehmen für soziale Medien zuständig ist, und erläutern Sie den Wert des Differenz-in-Differenzen-Ansatzes für die Durchführung eines Online-Experiments. Das Memo sollte eine Erklärung des Problems enthalten, eine Intuition über die Bedingungen, unter denen der Differenz-in-Differenz-Schätzer den Differenz-Mittelwert-Schätzer übertreffen wird, und eine einfache Simulationsstudie.

  18. [ einfach , mein Liebling ] Gary Loveman war Professor an der Harvard Business School, bevor er CEO von Harrah's wurde, einem der größten Casinogesellschaften der Welt. Als er zu Harrah's wechselte, verwandelte Loveman das Unternehmen mit einem Treueprogramm, das viele Kunden über das Kundenverhalten informiert. Zusätzlich zu diesem ständig laufenden Messsystem begann das Unternehmen mit Experimenten. Beispielsweise könnten sie ein Experiment durchführen, um die Wirkung eines Gutscheins für eine kostenlose Hotelnacht für Kunden mit einem bestimmten Glücksspielmuster zu bewerten. So beschreibt Loveman die Bedeutung des Experimentierens für Harrahs alltägliche Geschäftspraktiken:

    "Es ist, als würdest du keine Frauen belästigen, du stehst nicht, und du musst eine Kontrollgruppe haben. Das ist eines der Dinge, bei denen du deine Stelle bei Harrahs verlieren kannst - keine Kontrollgruppe zu leiten. " (Manzi 2012, 146)

    Schreiben Sie eine E-Mail an einen neuen Mitarbeiter, der erklärt, warum Loveman es für so wichtig hält, eine Kontrollgruppe zu haben. Sie sollten versuchen, ein Beispiel zu verwenden - entweder real oder erfunden -, um Ihren Standpunkt zu verdeutlichen.

  19. [ hart , erfordert Mathematik ] Ein neues Experiment zielt darauf ab, den Effekt des Empfangens von Textnachrichtenerinnerungen auf die Impfaufnahme zu schätzen. Einhundertundfünfzig Kliniken mit jeweils 600 in Frage kommenden Patienten sind zur Teilnahme bereit. Für jede Klinik, mit der Sie arbeiten möchten, werden Fixkosten in Höhe von 100 US-Dollar berechnet, die für jede gesendete Textnachricht 1 US-Dollar kosten. Darüber hinaus werden alle Kliniken, mit denen Sie arbeiten, das Ergebnis (ob jemand eine Impfung erhalten hat) kostenlos messen. Angenommen, Sie haben ein Budget von 1.000 Euro.

    1. Unter welchen Umständen könnte es besser sein, Ihre Ressourcen auf eine kleine Anzahl von Kliniken zu konzentrieren, und unter welchen Bedingungen könnte es besser sein, sie breiter zu verbreiten?
    2. Welche Faktoren bestimmen die kleinste Effektgröße, die Sie mit Ihrem Budget zuverlässig erkennen können?
    3. Schreiben Sie ein Memo, in dem Sie diese Kompromisse einem potenziellen Geldgeber erklären.
  20. [ hart , erfordert Mathematik ] Ein großes Problem bei Online-Kursen ist die Fluktuation: Viele Studenten, die Kurse beginnen, enden mit dem Schulabbruch. Stellen Sie sich vor, Sie arbeiten an einer Online-Lernplattform, und eine Designerin auf der Plattform hat eine visuelle Fortschrittsleiste erstellt, von der sie denkt, dass sie dazu beitragen wird, dass Studenten den Kurs nicht verlassen. Sie möchten die Wirkung des Fortschrittsbalkens auf Studenten in einem großen computational-social-science-Kurs testen. Nachdem Sie sich mit ethischen Fragen beschäftigt haben, die im Experiment auftreten könnten, befürchten Sie und Ihre Kollegen, dass der Kurs möglicherweise nicht genügend Schüler hat, um die Auswirkungen des Fortschrittsbalkens zuverlässig zu erkennen. In den folgenden Berechnungen können Sie davon ausgehen, dass die Hälfte der Schüler den Fortschrittsbalken und die andere Hälfte nicht erhalten wird. Außerdem können Sie davon ausgehen, dass es keine Störungen gibt. Mit anderen Worten, Sie können davon ausgehen, dass die Teilnehmer nur davon betroffen sind, ob sie die Behandlung oder Kontrolle erhalten haben; sie sind nicht davon betroffen, ob andere Personen die Behandlung oder Kontrolle erhalten haben (für eine formalere Definition, siehe Kapitel 8 von Gerber and Green (2012) ). Verfolgen Sie alle zusätzlichen Annahmen, die Sie treffen.

    1. Angenommen, die Fortschrittsanzeige erhöht den Anteil der Schüler, die die Klasse beenden, um 1 Prozentpunkt. Wie groß ist die Stichprobengröße, um den Effekt sicher zu erkennen?
    2. Angenommen, der Fortschrittsbalken soll den Anteil der Schüler, die die Klasse beenden, um 10 Prozentpunkte erhöhen. Wie groß ist die Stichprobengröße, um den Effekt sicher zu erkennen?
    3. Stellen Sie sich nun vor, dass Sie das Experiment durchgeführt haben und dass die Schüler, die alle Kursmaterialien ausgefüllt haben, eine Abschlussprüfung abgelegt haben. Wenn Sie die Ergebnisse der Abschlussprüfungen von Schülern, die den Fortschrittsbalken erhalten haben, mit den Noten derjenigen vergleichen, die dies nicht getan haben, werden Sie zu Ihrer Überraschung feststellen, dass Schüler, die den Fortschrittsbalken nicht erhalten haben, einen höheren Wert erzielt haben. Bedeutet dies, dass der Fortschrittsbalken die Schüler dazu brachte, weniger zu lernen? Was können Sie aus diesen Ergebnisdaten lernen? (Hinweis: Siehe Kapitel 7 von Gerber and Green (2012) )
  21. [ sehr schwer , erfordert Codierung , mein Liebling Stellen Sie sich vor, Sie arbeiten als Datenwissenschaftler in einem Technologieunternehmen. Jemand aus der Marketingabteilung bittet Sie um Hilfe bei der Bewertung eines von ihnen geplanten Experiments, um den Return on Investment (ROI) für eine neue Online-Werbekampagne zu messen. ROI ist definiert als der Nettogewinn der Kampagne dividiert durch die Kosten der Kampagne. Eine Kampagne, die keine Auswirkungen auf den Umsatz hat, hätte beispielsweise einen ROI von -100%. Eine Kampagne, bei der die erzielten Gewinne den Kosten entsprechen, hätte einen ROI von 0; und eine Kampagne, bei der die erzielten Gewinne doppelt so hoch waren wie die Kosten, hätte einen ROI von 200%.

    Vor dem Start des Tests liefert Ihnen die Marketingabteilung die folgenden Informationen basierend auf früheren Untersuchungen (diese Werte sind typisch für die echten Online-Werbekampagnen, die in Lewis und Rao (2015) ):

    • Der durchschnittliche Umsatz pro Kunde folgt einer logarithmischen Normalverteilung mit einem Mittelwert von 7 US-Dollar und einer Standardabweichung von 75 US-Dollar.
    • Es wird erwartet, dass die Kampagne den Umsatz um 0,35 USD pro Kunde steigert, was einer Gewinnsteigerung von 0,175 USD pro Kunde entspricht.
    • Die geplante Größe des Experiments ist 200.000 Menschen: die Hälfte in der Behandlungsgruppe und die Hälfte in der Kontrollgruppe.
    • Die Kosten für die Kampagne betragen 0,14 USD pro Teilnehmer.
    • Der erwartete ROI für die Kampagne beträgt 25% [ \((0.175 - 0.14)/0.14\) ]. Mit anderen Worten, die Marketingabteilung glaubt, dass das Unternehmen für jeweils 100 Dollar, die für das Marketing ausgegeben werden, einen zusätzlichen Gewinn von 25 Dollar erzielen wird.

    Schreiben Sie ein Memo, das dieses vorgeschlagene Experiment bewertet. Ihr Memo sollte Beweise aus einer von Ihnen erstellten Simulation verwenden und zwei Hauptprobleme behandeln: (1) Würden Sie empfehlen, dieses Experiment wie geplant zu starten? Wenn ja warum? Wenn nicht, warum nicht? Stellen Sie sicher, dass Sie sich über die Kriterien klar sind, die Sie für diese Entscheidung verwenden. (2) Welche Stichprobengröße würden Sie für dieses Experiment empfehlen? Bitte stellen Sie sicher, dass Sie sich über die Kriterien klar sind, die Sie für diese Entscheidung verwenden.

    Ein gutes Memo wird diesen speziellen Fall behandeln; ein besseres Memo verallgemeinert aus diesem Fall in einer Weise (z. B. zeigen Sie, wie sich die Entscheidung als eine Funktion der Größe der Wirkung der Kampagne ändert); und ein großartiges Memo wird ein vollständig verallgemeinertes Ergebnis präsentieren. Ihr Memo sollte Diagramme verwenden, um Ihre Ergebnisse zu veranschaulichen.

    Hier sind zwei Hinweise. Erstens, die Marketingabteilung hat Ihnen möglicherweise einige unnötige Informationen zur Verfügung gestellt und sie haben Ihnen möglicherweise einige notwendige Informationen nicht gegeben. Zweitens, wenn Sie R verwenden, beachten Sie, dass die Funktion rlnorm () nicht so funktioniert, wie viele Leute erwarten.

    In dieser Aktivität werden Sie mit der Power-Analyse üben, Simulationen erstellen und Ihre Ergebnisse mit Wörtern und Graphen kommunizieren. Es sollte Ihnen bei der Durchführung von Leistungsanalysen für jede Art von Experiment helfen, nicht nur bei Experimenten zur ROI-Schätzung. Bei dieser Aktivität wird davon ausgegangen, dass Sie über Erfahrung mit statistischen Tests und Leistungsanalysen verfügen. Wenn Sie mit der Leistungsanalyse nicht vertraut sind, empfehle ich, dass Sie "A Power Primer" von Cohen (1992) lesen.

    Diese Aktivität wurde von einer schönen Arbeit von RA Lewis and Rao (2015) inspiriert, die anschaulich eine grundlegende statistische Begrenzung sogar von massiven Experimenten veranschaulicht. Ihre Studie, die ursprünglich den provokativen Titel "Über die Unmöglichkeit der Messung der Rendite von Werbung" trug, zeigt, wie schwierig es ist, den Return on Investment von Online-Anzeigen zu messen, selbst bei digitalen Experimenten mit Millionen von Kunden. Allgemeiner RA Lewis and Rao (2015) , RA Lewis and Rao (2015) illustrieren eine fundamentale statistische Tatsache, die besonders wichtig für Experimente im digitalen Zeitalter ist: Es ist schwierig, kleine Behandlungseffekte inmitten von verrauschten Ergebnisdaten zu schätzen.

  22. [ sehr schwer , erfordert Mathematik ] Gehen Sie genauso vor wie bei der vorherigen Frage, aber anstatt einer Simulation sollten Sie analytische Ergebnisse verwenden.

  23. [ sehr schwer , erfordert Mathematik , erfordert Codierung ] Gehen Sie genauso vor wie bei der vorherigen Frage, verwenden Sie jedoch sowohl Simulations- als auch Analyseergebnisse.

  24. [ sehr schwer , erfordert Mathematik , erfordert Codierung ] Stellen Sie sich vor, Sie haben das oben beschriebene Memo geschrieben, und jemand aus der Marketingabteilung liefert eine neue Information: Sie erwarten eine Korrelation von 0,4 zwischen den Verkäufen vor und nach dem Experiment. Wie ändert dies die Empfehlungen in Ihrem Memo? (Hinweis: siehe Abschnitt 4.6.2 für mehr über den Differenz-Differenz-Schätzer und den Differenz-in-Differenzen-Schätzer.)

  25. [ hart , erfordert Mathematik ] Um die Wirksamkeit eines neuen webbasierten Beschäftigungshilfeprogramms zu bewerten, führte eine Universität eine randomisierte Kontrollstudie unter 10.000 Schülern durch, die in ihr letztes Schuljahr gingen. Ein kostenloses Abonnement mit eindeutigen Anmeldeinformationen wurde durch eine exklusive E-Mail-Einladung an 5.000 der zufällig ausgewählten Studenten gesendet, während die anderen 5.000 Schüler in der Kontrollgruppe waren und kein Abonnement hatten. Zwölf Monate später zeigte eine Folgebefragung (ohne Rückfall), dass 70% der Studenten sowohl in der Behandlungs- als auch in der Kontrollgruppe eine Vollzeitbeschäftigung in ihrem gewählten Bereich besaßen (Tabelle 4.6). Somit schien der webbasierte Dienst keine Wirkung zu haben.

    Ein schlauer Data Scientist an der Universität betrachtete die Daten jedoch etwas genauer und fand heraus, dass nur 20% der Studenten in der Behandlungsgruppe sich nach Erhalt der E-Mail auf dem Konto eingeloggt hatten. Außerdem, und etwas überraschend, unter denjenigen, die sich auf der Website anmeldeten, hatten nur 60% eine Vollzeitbeschäftigung in ihrem gewählten Bereich, die niedriger war als die Rate für Leute, die sich nicht einloggen und niedriger als die Rate für Leute in der Kontrollbedingung (Tabelle 4.7).

    1. Erklären Sie, was passiert sein könnte.
    2. Was sind zwei verschiedene Wege, um den Effekt der Behandlung in diesem Experiment zu berechnen?
    3. Angesichts dieses Ergebnisses sollte dieser Service allen Schülern zur Verfügung gestellt werden? Nur um klar zu sein, dies ist keine Frage mit einer einfachen Antwort.
    4. Was sollten sie als nächstes tun?

    Hinweis: Diese Frage geht über das in diesem Kapitel behandelte Material hinaus, befasst sich jedoch mit in Experimenten üblichen Problemen. Diese Art von experimentellem Design wird manchmal als Ermutigungsdesign bezeichnet, da die Teilnehmer ermutigt werden, sich an der Behandlung zu beteiligen. Dieses Problem ist ein Beispiel für eine einseitige Nichteinhaltung (siehe Kapitel 5 von Gerber and Green (2012) ).

  26. [ hart ] Nach einer weiteren Untersuchung stellte sich heraus, dass das in der vorherigen Frage beschriebene Experiment noch komplizierter war. Es stellte sich heraus, dass 10% der Personen in der Kontrollgruppe den Zugang zu dem Dienst bezahlten, und sie hatten eine Beschäftigungsquote von 65% (Tabelle 4.8).

    1. Schreiben Sie eine E-Mail, in der Sie zusammengefasst finden, was Ihrer Meinung nach passiert und schlagen Sie eine Vorgehensweise vor.

    Hinweis: Diese Frage geht über das in diesem Kapitel behandelte Material hinaus, befasst sich jedoch mit in Experimenten üblichen Problemen. Dieses Problem ist ein Beispiel für die sogenannte zweiseitige Nichteinhaltung (siehe Kapitel 6 von Gerber and Green (2012) ).

Tabelle 4.6: Einfache Ansicht von Daten aus dem Career Services-Experiment
Gruppe Größe Beschäftigungsrate
Zugang zur Website gewährt 5.000 70%
Nicht gewährter Zugriff auf die Website 5.000 70%
Tabelle 4.7: Vollständigere Ansicht von Daten aus dem Career Services-Experiment
Gruppe Größe Beschäftigungsrate
Zugang zur Website gewährt und eingeloggt 1.000 60%
Zugriff auf die Website gewährt und nie eingeloggt 4.000 72,5%
Nicht gewährter Zugriff auf die Website 5.000 70%
Tabelle 4.8: Vollansicht der Daten aus dem Career Services-Experiment
Gruppe Größe Beschäftigungsrate
Zugang zur Website gewährt und eingeloggt 1.000 60%
Zugriff auf die Website gewährt und nie eingeloggt 4.000 72,5%
Kein Zugriff auf die Website gewährt und dafür bezahlt 500 65%
Kein Zugriff auf die Website gewährt und nicht dafür bezahlt 4.500 70.56%