In den bislang in diesem Buchbeobachtungsverhalten (Kapitel 2) und Fragestellung (Kapitel 3) behandelten Forschungsansätzen werden Daten gesammelt, ohne die Welt absichtlich und systematisch zu verändern. Der Ansatz in diesem Kapitel - laufende Experimente - ist grundlegend anders. Wenn Forscher Experimente durchführen, greifen sie systematisch in die Welt ein, um Daten zu erstellen, die ideal dazu geeignet sind, Fragen zu Ursache-Wirkungs-Beziehungen zu beantworten.
Ursache-und-Wirkung-Fragen sind in der Sozialforschung sehr verbreitet. Beispiele hierfür sind Fragen wie: Erhöhen steigende Lehrergehälter den Lernerfolg? Wie wirkt sich der Mindestlohn auf die Beschäftigungsquote aus? Wie beeinflusst ein Bewerbungsrennen ihre Chancen auf einen Job? Zusätzlich zu diesen explizit kausalen Fragen sind manchmal Ursache-und-Wirkung-Fragen implizit in allgemeineren Fragen zur Maximierung einer Leistungsmetrik enthalten. Die Frage "Welche Farbe sollte der Spenden-Button auf der Website einer NGO haben?" Zum Beispiel wirft viele Fragen zur Wirkung der verschiedenen Knopffarben auf Spenden auf.
Eine Möglichkeit, Ursache-und-Wirkung-Fragen zu beantworten, besteht darin, nach Mustern in vorhandenen Daten zu suchen. Wenn Sie beispielsweise auf die Frage nach der Auswirkung von Lehrergehältern auf das Lernen von Schülern zurückkommen, können Sie berechnen, dass Schüler in Schulen, die hohe Lehrergehälter anbieten, mehr lernen. Aber zeigt diese Korrelation, dass höhere Gehälter dazu führen , dass die Schüler mehr lernen? Natürlich nicht. Schulen, in denen Lehrer mehr verdienen, können sich in vielerlei Hinsicht unterscheiden. Zum Beispiel können Schüler in Schulen mit hohen Lehrergehältern aus wohlhabenderen Familien kommen. Was also wie eine Wirkung von Lehrern aussieht, könnte einfach durch den Vergleich verschiedener Arten von Schülern entstehen. Diese ungemessenen Unterschiede zwischen den Studierenden werden als Confounder bezeichnet , und die Möglichkeit von Confoundern führt in der Regel dazu, dass Forscher die Ursache-Wirkungs-Fragen durch die Suche nach Mustern in bestehenden Daten beantworten können.
Eine Lösung für das Problem der Confounder ist der Versuch, faire Vergleiche durch Anpassung der beobachtbaren Unterschiede zwischen den Gruppen vorzunehmen. Beispielsweise können Sie möglicherweise Grundsteuerdaten von einer Reihe von Websites der Regierung herunterladen. Dann könnten Sie die Leistung von Schülern in Schulen vergleichen, wo die Hauspreise ähnlich sind, aber die Lehrergehälter unterschiedlich sind, und Sie könnten immer noch feststellen, dass Schüler in Schulen mit höheren Lehrergehältern mehr lernen. Aber es gibt noch viele mögliche Störfaktoren. Vielleicht unterscheiden sich die Eltern dieser Schüler in ihrem Bildungsniveau. Oder vielleicht unterscheiden sich die Schulen in ihrer Nähe zu öffentlichen Bibliotheken. Oder vielleicht haben die Schulen mit höheren Lehrergehältern auch höhere Gehälter für Schulleiter, und das Hauptlohngeld, nicht das Lehrgeld, ist wirklich das, was das Lernen der Schüler steigert. Sie könnten versuchen, diese Faktoren ebenfalls zu messen und anzupassen, aber die Liste möglicher Confounder ist im Wesentlichen endlos. In vielen Situationen können Sie nicht alle möglichen Störfaktoren messen und anpassen. Als Antwort auf diese Herausforderung haben Forscher eine Reihe von Techniken entwickelt, um kausale Schätzungen aus nicht-experimentellen Daten zu erstellen - ich habe einige von ihnen in Kapitel 2 diskutiert -, aber für bestimmte Arten von Fragen sind diese Techniken begrenzt und Experimente sind vielversprechend Alternative.
Experimente ermöglichen Forschern, über die Korrelationen in natürlich vorkommenden Daten hinauszugehen, um bestimmte Ursache-Wirkungs-Fragen zuverlässig zu beantworten. Im analogen Zeitalter waren Experimente oft logistisch schwierig und teuer. Jetzt, im digitalen Zeitalter, verschwinden die logistischen Beschränkungen allmählich. Es ist nicht nur leichter, Experimente wie in der Vergangenheit zu machen, es ist auch möglich, neue Arten von Experimenten durchzuführen.
In dem, was ich bisher geschrieben habe, war ich in meiner Sprache ein bisschen locker, aber es ist wichtig, zwischen zwei Dingen zu unterscheiden: Experimente und randomisierte kontrollierte Experimente. In einem Experiment interveniert ein Forscher in der Welt und misst dann ein Ergebnis. Ich habe diesen Ansatz als "Störung und Beobachtung" beschrieben. In einem randomisierten kontrollierten Experiment interveniert ein Forscher für einige Menschen und nicht für andere, und der Forscher entscheidet, welche Personen die Intervention durch Randomisierung erhalten (z. B. eine Münze werfen). Randomisierte kontrollierte Experimente schaffen faire Vergleiche zwischen zwei Gruppen: eine, die die Intervention erhalten hat und eine, die dies nicht getan hat. Mit anderen Worten, randomisierte kontrollierte Experimente sind eine Lösung für die Probleme von Störfaktoren. Störexperimente beinhalten jedoch nur eine einzige Gruppe, die die Intervention erhalten hat, und daher können die Ergebnisse die Forscher zu der falschen Schlussfolgerung führen (wie ich bald zeigen werde). Trotz der wichtigen Unterschiede zwischen Experimenten und randomisierten kontrollierten Experimenten verwenden Sozialforscher diese Begriffe oft synonym. Ich werde diese Konvention befolgen, aber an bestimmten Punkten werde ich die Konvention brechen, um den Wert randomisierter kontrollierter Experimente gegenüber Experimenten ohne Randomisierung und einer Kontrollgruppe zu betonen.
Randomisierte kontrollierte Experimente haben sich als eine leistungsfähige Methode erwiesen, um etwas über die soziale Welt zu lernen. In diesem Kapitel werde ich Ihnen zeigen, wie Sie sie in Ihrer Forschung einsetzen können. In Abschnitt 4.2 werde ich die grundlegende Logik des Experimentierens mit einem Beispiel eines Experiments auf Wikipedia illustrieren. Dann werde ich in Abschnitt 4.3 den Unterschied zwischen Laborexperimenten und Feldexperimenten und die Unterschiede zwischen analogen Experimenten und digitalen Experimenten beschreiben. Außerdem werde ich argumentieren, dass digitale Feldexperimente die besten Eigenschaften von analogen Laborexperimenten (strenge Kontrolle) und analogen Feldexperimenten (Realismus) bieten können, alles in einem Maßstab, der vorher nicht möglich war. Als nächstes werde ich in Abschnitt 4.4 drei Konzepte beschreiben - Validität, Heterogenität der Behandlungseffekte und Mechanismen -, die für die Entwicklung umfangreicher Experimente entscheidend sind. Vor diesem Hintergrund beschreibe ich die Kompromisse, die bei den beiden Hauptstrategien für die Durchführung digitaler Experimente eine Rolle spielen: Eigeninitiative oder Partnerschaft mit den Mächtigen. Abschließend möchte ich mit einigen Designempfehlungen abschließen, wie Sie die wahre Stärke digitaler Experimente nutzen können (Abschnitt 4.6.1), und einige der damit verbundenen Verantwortlichkeiten beschreiben (Abschnitt 4.6.2).