Fragen zur Kausalität in der Sozialforschung sind oft komplex und komplex. Für einen Imbens and Rubin (2015) Kausalitätsansatz, der auf kausalen Graphen basiert, siehe Pearl (2009) und für einen auf potenziellen Ergebnissen basierenden Imbens and Rubin (2015) Ansatz, siehe Imbens and Rubin (2015) . Für einen Vergleich zwischen diesen beiden Ansätzen siehe Morgan and Winship (2014) . Für einen formalen Ansatz zur Definition eines Confounder siehe VanderWeele and Shpitser (2013) .
In diesem Kapitel habe ich eine scheinbare Grenze zwischen unserer Fähigkeit, kausale Schätzungen aus experimentellen und nicht-experimentellen Daten zu erstellen, geschaffen. Ich denke jedoch, dass die Unterscheidung in Wirklichkeit mehr verwischt ist. Zum Beispiel akzeptieren alle, dass Rauchen Krebs verursacht, obwohl noch nie ein randomisiertes kontrolliertes Experiment, das Menschen zum Rauchen zwingt, jemals gemacht wurde. Für exzellente Buchlängenbehandlungen, um kausale Schätzungen aus nicht-experimentellen Daten zu machen, siehe Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) und Dunning (2012) .
Die Kapitel 1 und 2 von Freedman, Pisani, and Purves (2007) bieten eine klare Einführung in die Unterschiede zwischen Experimenten, kontrollierten Experimenten und randomisierten kontrollierten Experimenten.
Manzi (2012) bietet eine faszinierende und lesbare Einführung in die philosophischen und statistischen Grundlagen von randomisierten kontrollierten Experimenten. Es bietet auch interessante Beispiele aus der Praxis für die Experimentierfreude in der Wirtschaft. Issenberg (2012) bietet eine faszinierende Einführung in den Einsatz von Experimenten in politischen Kampagnen.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 und Athey and Imbens (2016b) bieten gute Einführungen in die statistischen Aspekte des experimentellen Designs und der Analyse. Darüber hinaus gibt es ausgezeichnete Möglichkeiten, Experimente auf vielen verschiedenen Gebieten anzuwenden: Ökonomie (Bardsley et al. 2009) , Soziologie (Willer and Walker 2007; Jackson and Cox 2013) , Psychologie (Aronson et al. 1989) , Politikwissenschaft (Morton and Williams 2010) und Sozialpolitik (Glennerster and Takavarasha 2013) .
Die Bedeutung der Teilnehmerrekrutierung (z. B. Probenahme) wird in der experimentellen Forschung oft unterschätzt. Wenn die Wirkung der Behandlung in der Bevölkerung jedoch heterogen ist, ist die Probenahme kritisch. Longford (1999) macht diesen Punkt deutlich, wenn er sich für Forscher, die an Experimente denken, als eine Bevölkerungsbefragung mit zufälliger Probenahme ausspricht.
Ich habe vorgeschlagen, dass zwischen Labor- und Feldexperimenten ein Kontinuum besteht, und andere Forscher haben detailliertere Typologien vorgeschlagen, insbesondere solche, die die verschiedenen Formen von Feldexperimenten trennen (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
In einer Reihe von Arbeiten wurden Labor- und Feldexperimente im Abstract (Falk and Heckman 2009; Cialdini 2009) und im Hinblick auf die Ergebnisse spezifischer politikwissenschaftlicher Experimente (Coppock and Green 2015) , Ökonomie (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) und Psychologie (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) bieten ein schönes Forschungsdesign für den Vergleich von Labor- und Feldexperimenten. Parigi, Santana, and Cook (2017) beschreiben, wie Online-Feldexperimente einige der Eigenschaften von Labor- und Feldexperimenten kombinieren können.
Bedenken, dass Teilnehmer ihr Verhalten ändern könnten, weil sie wissen, dass sie genau beobachtet werden, werden manchmal Nachfrageeffekte genannt , und sie wurden in Psychologie (Orne 1962) und Wirtschaft (Zizzo 2010) . Obwohl diese Probleme meist mit Laborexperimenten verbunden sind, können sie auch bei Feldexperimenten zu Problemen führen. Tatsächlich werden Nachfrageeffekte manchmal auch Hawthorne-Effekte genannt , ein Begriff, der die berühmten Beleuchtungsexperimente ableitet, die 1924 in den Hawthorne Works der Western Electric Company begannen (Adair 1984; Levitt and List 2011) . Sowohl Nachfrageeffekte als auch Hawthorne-Effekte sind eng mit der in Kapitel 2 diskutierten Idee der reaktiven Messung verbunden (siehe auch Webb et al. (1966) ).
Feldexperimente haben eine lange Geschichte in den Wirtschaftswissenschaften (Levitt and List 2009) , Politikwissenschaften (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , Psychologie (Shadish 2002) und öffentliche Politik (Shadish and Cook 2009) . Ein Bereich der Sozialwissenschaften, in dem Feldexperimente schnell in den Vordergrund traten, ist die internationale Entwicklung. Für eine positive Überprüfung dieser Arbeit innerhalb der Wirtschaftswissenschaften siehe Banerjee and Duflo (2009) , und für eine kritische Bewertung siehe Deaton (2010) . Für einen Überblick über diese Arbeit in der Politikwissenschaft siehe Humphreys and Weinstein (2009) . Schließlich wurden die ethischen Herausforderungen, die sich aus Feldexperimenten ergeben, im Kontext von Politikwissenschaft (Humphreys 2015; Desposato 2016b) und Entwicklungsökonomie (Baele 2013) .
In diesem Abschnitt schlug ich vor, dass Vorbehandlungsinformationen verwendet werden können, um die Genauigkeit der geschätzten Behandlungseffekte zu verbessern, aber es gibt einige Diskussionen über diesen Ansatz; siehe Freedman (2008) , W. Lin (2013) , Berk et al. (2013) und Bloniarz et al. (2016) für weitere Informationen.
Schließlich gibt es noch zwei andere Arten von Experimenten, die von Sozialwissenschaftlern durchgeführt werden und nicht genau in die Laborfelddimension passen: Umfrageexperimente und soziale Experimente. Umfrage Experimente sind Experimente , die die Infrastruktur bestehender Erhebungen und vergleichen Sie Antworten auf alternative Versionen der gleichen Fragen (einige Umfrage Experimente vorgestellt werden in Kapitel 3); Mehr zu Umfrageexperimenten siehe Mutz (2011) . Soziale Experimente sind Experimente, bei denen die Behandlung eine Sozialpolitik ist, die nur von einer Regierung durchgeführt werden kann. Soziale Experimente sind eng mit der Programmbewertung verbunden. Weitere Informationen zu Richtlinienexperimenten finden Sie in Heckman and Smith (1995) , Orr (1998) und @ glennerster_running_2013.
Ich habe mich für drei Konzepte entschieden: Validität, Heterogenität der Behandlungseffekte und Mechanismen. Diese Konzepte haben unterschiedliche Namen in verschiedenen Bereichen. Zum Beispiel neigen Psychologen dazu, über einfache Experimente hinauszugehen, indem sie sich auf Mediatoren und Moderatoren konzentrieren (Baron and Kenny 1986) . Die Idee der Mediatoren wird durch Mechanismen, die ich als Mechanismen bezeichne, eingefangen, und die Idee der Moderatoren wird von etwas erfasst, was ich äußere Gültigkeit nenne (z. B. wären die Ergebnisse des Experiments anders, wenn sie in verschiedenen Situationen ausgeführt würden) und Heterogenität der Behandlungseffekte ( zB sind die Effekte für manche Menschen größer als für andere).
Das Experiment von Schultz et al. (2007) zeigt, wie Sozialtheorien genutzt werden können, um effektive Interventionen zu gestalten. Für eine allgemeinere Diskussion über die Rolle der Theorie beim Entwurf wirksamer Interventionen siehe Walton (2014) .
Die Begriffe der internen und externen Validität wurden zuerst von Campbell (1957) . Eine detailliertere Geschichte und eine sorgfältige Ausarbeitung der statistischen Schlussfolgerungsvalidität, internen Validität, Konstruktvalidität und externen Validität finden sich in Shadish, Cook, and Campbell (2001) .
Für einen Überblick über Fragen der statistischen Schlussvalidität in Experimenten siehe Gerber and Green (2012) (aus sozialwissenschaftlicher Perspektive) und Imbens and Rubin (2015) (aus statistischer Sicht). Einige Fragen der statistischen Schlussfolgerungsvalidität, die speziell in Online-Feldexperimenten auftreten, umfassen Themen wie rechnerisch effiziente Methoden zur Erstellung von Konfidenzintervallen mit abhängigen Daten (Bakshy and Eckles 2013) .
Die interne Validität kann in komplexen Feldexperimenten nur schwer gewährleistet werden. Siehe zum Beispiel Gerber and Green (2000) , Imai (2005) und Gerber and Green (2005) für die Debatte über die Umsetzung eines komplexen Feldexperiments zum Thema Voting. Kohavi et al. (2012) und Kohavi et al. (2013) geben eine Einführung in die Herausforderungen der Intervallvalidität in Online-Feldexperimenten.
Eine große Gefahr für die interne Validität ist die Möglichkeit einer fehlgeschlagenen Randomisierung. Ein möglicher Weg, Probleme mit der Randomisierung zu erkennen, besteht darin, die Behandlungs- und Kontrollgruppen auf beobachtbaren Merkmalen zu vergleichen. Diese Art von Vergleich wird als Bilanzprüfung bezeichnet . Mutz and Pemantle (2015) Hansen and Bowers (2008) zu einem statistischen Ansatz für Bilanzkontrollen und Mutz and Pemantle (2015) zu Bedenken hinsichtlich der Mutz and Pemantle (2015) . Beispielsweise fand Allcott (2011) mit einer Balance-Überprüfung einige Hinweise, dass die Randomisierung in drei der Opower-Experimente nicht korrekt implementiert wurde (siehe Tabelle 2; Standorte 2, 6 und 8). Für andere Ansätze siehe Kapitel 21 von Imbens and Rubin (2015) .
Andere wichtige Bedenken in Bezug auf die interne Validität sind: (1) einseitige Nichteinhaltung, bei der nicht alle in der Behandlungsgruppe tatsächlich behandelt wurden, (2) zweiseitige Nichteinhaltung, bei der nicht jeder in der Behandlungsgruppe die Behandlung erhält und einige Personen in Die Kontrollgruppe erhält die Behandlung, (3) die Abnutzung, bei der die Ergebnisse für einige Teilnehmer nicht gemessen werden, und (4) die Interferenz, bei der die Behandlung von Personen im Behandlungszustand auf Personen im Kontrollzustand überläuft. In den Kapiteln 5, 6, 7 und 8 von Gerber and Green (2012) mehr zu jedem dieser Themen.
Weitere Informationen zur Konstruktvalidität finden Sie in Westen and Rosenthal (2003) . Weitere Informationen zur Konstruktvalidität in großen Datenquellen finden Sie in Lazer (2015) und in Kapitel 2 dieses Buches.
Ein Aspekt der externen Validität ist die Einstellung, in der eine Intervention getestet wird. Allcott (2015) liefert eine sorgfältige theoretische und empirische Behandlung der Allcott (2015) . Dieses Thema wird auch von Deaton (2010) diskutiert. Ein weiterer Aspekt der externen Validität ist, ob alternative Operationalisierungen derselben Intervention ähnliche Auswirkungen haben. In diesem Fall wurde ein Vergleich zwischen Schultz et al. (2007) und Allcott (2011) zeigen, dass die Opower-Experimente eine geringere geschätzte behandelte Wirkung hatten als die ursprünglichen Experimente von Schultz und Kollegen (1,7% gegenüber 5%). Allcott (2011) spekulierte, dass die Folgeexperimente aufgrund der Unterschiede in der Behandlung weniger Wirkung Allcott (2011) : ein handgeschriebenes Emoticon als Teil einer von einer Universität gesponserten Studie, verglichen mit einem gedruckten Emoticon als Teil einer Massenproduktion Bericht von einer Energiegesellschaft.
Für einen exzellenten Überblick über die Heterogenität von Behandlungseffekten in Feldexperimenten, siehe Kapitel 12 von Gerber and Green (2012) . Für Einführungen zur Heterogenität von Behandlungseffekten in medizinischen Studien siehe Kent and Hayward (2007) , Longford (1999) und Kravitz, Duan, and Braslow (2004) . Überlegungen zur Heterogenität von Behandlungseffekten konzentrieren sich im Allgemeinen auf Unterschiede, die auf Vorbehandlungsmerkmalen beruhen. Wenn Sie an Heterogenität auf der Grundlage von Ergebnissen nach der Behandlung interessiert sind, dann sind komplexere Ansätze erforderlich, z. B. die Hauptschichtung (Frangakis and Rubin 2002) ; siehe Page et al. (2015) für eine Überprüfung.
Viele Forscher schätzen die Heterogenität von Behandlungseffekten mithilfe der linearen Regression, aber neuere Methoden beruhen auf maschinellem Lernen; siehe zum Beispiel Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) und Athey and Imbens (2016a) .
Es gibt eine gewisse Skepsis hinsichtlich der Befunde der Heterogenität der Effekte aufgrund von multiplen Vergleichsproblemen und "Fischen". Es gibt eine Vielzahl von statistischen Ansätzen, die dazu beitragen können, Bedenken hinsichtlich des Mehrfachvergleichs anzugehen (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Ein Ansatz zur Sorge um "Fischerei" ist die Vorregistrierung, die in der Psychologie immer häufiger vorkommt (Nosek and Lakens 2014) , Politikwissenschaft (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) und Wirtschaft (Olken 2015) .
In der Studie von Costa and Kahn (2013) nur etwa die Hälfte der Haushalte im Experiment mit den demografischen Informationen verknüpft werden. Leser, die an diesen Details interessiert sind, sollten sich auf das Originalpapier beziehen.
Mechanismen sind unglaublich wichtig, aber sie erweisen sich als sehr schwierig zu studieren. Die Erforschung von Mechanismen ist eng mit dem Studium von Mediatoren in der Psychologie verbunden (siehe jedoch auch VanderWeele (2009) für einen präzisen Vergleich der beiden Ideen). Statistische Ansätze zum Auffinden von Mechanismen, wie der in Baron and Kenny (1986) entwickelte Ansatz, sind recht häufig. Leider stellt sich heraus, dass diese Verfahren von einigen starken Annahmen abhängen (Bullock, Green, and Ha 2010) und leiden, wenn es mehrere Mechanismen gibt, wie man es in vielen Situationen erwarten kann (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) und Imai and Yamamoto (2013) bieten einige verbesserte statistische Methoden. Darüber hinaus bietet VanderWeele (2015) eine VanderWeele (2015) Behandlung mit einer Reihe wichtiger Ergebnisse, einschließlich eines umfassenden Ansatzes zur Sensitivitätsanalyse.
Ein separater Ansatz konzentriert sich auf Experimente, die versuchen, den Mechanismus direkt zu manipulieren (z. B. Seemanns Vitamin C zu geben). Leider gibt es in vielen sozialwissenschaftlichen Situationen oft mehrere Mechanismen und es ist schwer, Behandlungen zu entwickeln, die die einen verändern, ohne die anderen zu verändern. Einige Ansätze, um Mechanismen experimentell zu verändern, werden von Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) und Pirlott and MacKinnon (2016) .
Forscher, die vollfaktorielle Experimente durchführen, müssen sich über mehrere Hypothesentests Gedanken machen; siehe Fink, McConnell, and Vollmer (2014) sowie List, Shaikh, and Xu (2016) für weitere Informationen.
Schließlich haben Mechanismen auch eine lange Geschichte in der Wissenschaftsphilosophie, wie sie von Hedström and Ylikoski (2010) .
Weitere Informationen über die Verwendung von Korrespondenzstudien und Auditstudien zur Messung von Diskriminierung finden Sie unter Pager (2007) .
Der am häufigsten verwendete Weg, um Teilnehmer für von Ihnen erstellte Experimente zu rekrutieren, ist Amazon Mechanical Turk (MTurk). Da MTurk Aspekte traditioneller Laborexperimente nachahmt, die Leute dazu bringen, Aufgaben zu erledigen, die sie nicht kostenlos erledigen würden, haben viele Forscher Turkers (die Arbeiter in MTurk) bereits als Versuchsteilnehmer eingesetzt, was zu einer schnelleren und kostengünstigeren Datensammlung führt, als erreicht werden kann in traditionellen Laborexperimenten auf dem Campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Im Allgemeinen sind die größten Vorteile der Verwendung von MTurk-Teilnehmern logistische Vorteile. Während Laborexperimente Wochen benötigen und Feldexperimente Monate dauern können, können Experimente mit Teilnehmern, die aus MTurk rekrutiert werden, in Tagen durchgeführt werden. Zum Beispiel konnten Berinsky, Huber, and Lenz (2012) 400 Probanden an einem einzigen Tag rekrutieren, um an einem 8-minütigen Experiment teilzunehmen. Darüber hinaus können diese Teilnehmer für nahezu jeden Zweck rekrutiert werden (einschließlich Umfragen und Massenzusammenarbeit, wie in den Kapiteln 3 und 5 besprochen). Dank dieser einfachen Rekrutierung können die Forscher Sequenzen aufeinander bezogener Experimente in schneller Folge ablaufen lassen.
Bevor Sie Teilnehmer von MTurk für Ihre eigenen Experimente rekrutieren, gibt es vier wichtige Dinge, die Sie wissen müssen. Erstens haben viele Forscher eine unspezifische Skepsis gegenüber Experimenten mit Turkers. Da diese Skepsis nicht spezifisch ist, ist es schwer, Beweise zu widerlegen. Nach einigen Jahren der Studien mit Turkers können wir jedoch feststellen, dass diese Skepsis nicht besonders berechtigt ist. Es gab viele Studien, die die Demographie von Turksern mit denen anderer Populationen verglichen, und viele Studien verglichen die Ergebnisse von Experimenten mit Turkers mit denen anderer Populationen. Angesichts all dieser Arbeit denke ich, dass der beste Weg, darüber nachzudenken, darin besteht, dass Turkser eine angemessene Stichprobe sind, ähnlich wie Studenten, aber etwas unterschiedlicher (Berinsky, Huber, and Lenz 2012) . So, wie Studenten eine angemessene Bevölkerung für einige, aber nicht alle, Forschung sind, sind Turkers eine vernünftige Bevölkerung für einige, aber nicht alle, Forschung. Wenn Sie mit Turkers arbeiten, dann ist es sinnvoll, viele dieser Vergleichsstudien zu lesen und ihre Nuancen zu verstehen.
Zweitens haben Forscher Best Practices entwickelt, um die interne Validität von MTurk-Experimenten zu erhöhen, und Sie sollten diese Best Practices kennen und befolgen (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Zum Beispiel werden Turkers-Forscher ermutigt, mit Screenern unaufmerksame Teilnehmer zu entfernen (Berinsky, Margolis, and Sances 2014, 2016) (siehe auch DJ Hauser and Schwarz (2015b) und DJ Hauser and Schwarz (2015a) ). Wenn Sie unaufmerksame Teilnehmer nicht entfernen, kann jeder Effekt der Behandlung durch das Geräusch, das sie einführen, ausgewaschen werden, und in der Praxis kann die Anzahl der unaufmerksamen Teilnehmer beträchtlich sein. Im Experiment von Huber und Kollegen (2012) scheiterten etwa 30% der Teilnehmer an grundlegenden Aufmerksamkeitsprüfungen. Andere Probleme, die häufig auftreten, wenn Turkers verwendet werden, sind nicht-naive Teilnehmer (Chandler et al. 2015) und Abnutzung (Zhou and Fishbach 2016) .
Drittens können MTurk-Experimente im Vergleich zu anderen Formen digitaler Experimente nicht skalieren; Stewart et al. (2015) schätzen, dass zu jeder Zeit nur etwa 7.000 Menschen auf MTurk sind.
Schließlich sollten Sie wissen, dass MTurk eine Community mit eigenen Regeln und Normen ist (Mason and Suri 2012) . So wie Sie versuchen würden, etwas über die Kultur eines Landes herauszufinden, in dem Sie Ihre Experimente durchführen würden, sollten Sie versuchen, mehr über die Kultur und die Normen von Turkers herauszufinden (Salehi et al. 2015) . Und Sie sollten wissen, dass die Turkers über Ihr Experiment sprechen werden, wenn Sie etwas unangemessen oder unethisch machen (Gray et al. 2016) .
MTurk ist ein unglaublich bequemer Weg, um Teilnehmer für Ihre Experimente zu gewinnen, ob Labore wie die von Huber, Hill, and Lenz (2012) , oder eher feldähnlich, wie die von Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) sowie Mao et al. (2016) .
Wenn Sie daran denken, Ihr eigenes Produkt zu erstellen, empfehle ich Ihnen, den Rat der MovieLens-Gruppe in Harper and Konstan (2015) lesen. Ein wichtiger Einblick aus ihrer Erfahrung ist, dass es für jedes erfolgreiche Projekt viele, viele Fehler gibt. So hat die MovieLens-Gruppe beispielsweise andere Produkte wie GopherAnswers auf den Markt gebracht, bei denen es sich um komplette Fehler handelte (Harper and Konstan 2015) . Ein weiteres Beispiel für einen versagenden Forscher beim Versuch, ein Produkt zu bauen, ist Edward Castronovas Versuch, ein Online-Spiel namens Arden zu bauen. Trotz 250.000 Dollar Finanzierung war das Projekt ein Flop (Baker 2008) . Projekte wie GopherAnswers und Arden sind leider viel häufiger als Projekte wie MovieLens.
Ich habe gehört, dass der Pasteur-Quadrant häufig in Technologieunternehmen diskutiert wird, und er hilft bei der Organisation von Forschungsanstrengungen bei Google (Spector, Norvig, and Petrov 2012) .
Die Studie von Bond and Kollegen (2012) versucht auch, die Wirkung dieser Behandlungen auf die Freunde derjenigen zu untersuchen, die sie erhalten haben. Aufgrund des Designs des Experiments sind diese Spillovers schwierig sauber zu detektieren; Interessierte Leser sollten Bond et al. (2012) für eine gründlichere Diskussion. Auch Jones und seine Kollegen (2017) führten während der Wahlen 2012 ein sehr ähnliches Experiment durch. Diese Experimente sind Teil einer langen Tradition von politikwissenschaftlichen Experimenten zu Bemühungen, die Stimmbildung zu fördern (Green and Gerber 2015) . Diese Experimente, bei denen es um die Abstimmung geht, sind üblich, zum Teil, weil sie sich in Pasteurs Quadrant befinden. Das heißt, es gibt viele Menschen, die motiviert sind, die Stimmabgabe zu erhöhen, und das Abstimmen kann ein interessantes Verhalten sein, um allgemeinere Theorien über Verhaltensänderungen und sozialen Einfluss zu testen.
Hinweise zu Feldversuchen mit Partnerorganisationen wie Parteien, NGOs und Unternehmen finden Sie in Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) und Gueron (2002) . Überlegungen dazu, wie sich Partnerschaften mit Organisationen auf Forschungsdesign auswirken können, finden Sie in King et al. (2007) und Green, Calfano, and Aronow (2014) . Partnerschaft kann auch zu ethischen Fragen führen, wie von Humphreys (2015) und Nickerson and Hyde (2016) diskutiert.
Wenn Sie vor dem Ausführen des Tests einen Analyseplan erstellen, empfehle ich Ihnen, zuerst die Berichtsrichtlinien zu lesen. Die CONSORT-Richtlinien (Consolidated Standard Reporting of Trials) wurden in der Medizin entwickelt (Schulz et al. 2010) und für die Sozialforschung modifiziert (Mayo-Wilson et al. 2013) . Eine Reihe verwandter Richtlinien wurde von den Herausgebern des Journal of Experimental Political Science (Gerber et al. 2014) (siehe auch Mutz and Pemantle (2015) und Gerber et al. (2015) ). Schließlich wurden Richtlinien zur Berichterstattung in der Psychologie entwickelt (APA Working Group 2008) , und siehe auch Simmons, Nelson, and Simonsohn (2011) .
Wenn Sie einen Analyseplan erstellen, sollten Sie eine Vorregistrierung in Betracht ziehen, da die Vorregistrierung das Vertrauen anderer in Ihre Ergebnisse erhöht. Wenn Sie mit einem Partner arbeiten, wird die Fähigkeit Ihres Partners eingeschränkt, die Analyse zu ändern, nachdem er die Ergebnisse gesehen hat. Vorregistrierungen werden in der Psychologie (Nosek and Lakens 2014) , in der Politikwissenschaft (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) und in der Ökonomie (Olken 2015) .
Design-Empfehlungen speziell für Online-Feldexperimente werden ebenfalls in Konstan and Chen (2007) und Chen and Konstan (2015) .
Was ich die Armada-Strategie genannt habe, wird manchmal als programmatische Forschung bezeichnet ; siehe Wilson, Aronson, and Carlsmith (2010) .
Für mehr zu den MusicLab-Experimenten siehe Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) sowie Salganik (2007) . Mehr zu den Märkten, in denen die Gewinner alles bekommen können, siehe Frank and Cook (1996) . Mehr zu Glück und Können im Allgemeinen finden Sie in Mauboussin (2012) , Watts (2012) und Frank (2016) .
Es gibt einen anderen Ansatz zur Eliminierung von Zahlungen für Teilnehmer, den Forscher mit Vorsicht verwenden sollten: die Wehrpflicht. In vielen Online-Feldversuchen werden die Teilnehmer grundsätzlich zu Experimenten eingeplant und nie kompensiert. Beispiele für diesen Ansatz sind Restivos und van de Rijts (2012) Experiment über Belohnungen in Wikipedia und Bond und das Experiment von Kollegen (2012) , die Menschen zum Wählen motivieren. Diese Experimente haben nicht wirklich variable Kosten - sie haben keine variablen Kosten für die Forscher . Selbst wenn die Kosten für jeden Teilnehmer extrem gering sind, können die Gesamtkosten in solchen Experimenten ziemlich hoch sein. Forscher, die massive Online-Experimente durchführen, rechtfertigen häufig die Bedeutung kleiner geschätzter Behandlungseffekte, indem sie sagen, dass diese kleinen Auswirkungen für viele Menschen wichtig werden können. Das gleiche gilt für Kosten, die Forscher den Teilnehmern auferlegen. Wenn Ihr Experiment eine Million Menschen dazu bringt, eine Minute zu verschwenden, ist das Experiment für eine bestimmte Person nicht sehr schädlich, aber insgesamt hat es fast zwei Jahre Zeit verloren.
Ein anderer Ansatz, um den Teilnehmern keine variablen Kosten zu berechnen, ist die Verwendung einer Lotterie, ein Ansatz, der auch in der Umfrageforschung verwendet wurde (Halpern et al. 2011) . Weitere Toomim et al. (2011) Entwerfen von angenehmen Benutzererfahrungen finden Sie in Toomim et al. (2011) . Weitere Informationen zum Verwenden von Bots zum Erstellen von Versuchen mit variablen Kosten finden Sie unter ( ??? ) .
Die drei Rs, wie sie ursprünglich von Russell and Burch (1959) lauten wie folgt:
"Ersatz bedeutet die Substitution für bewusstes Leben höheren Tieren von insentient Material. Reduktionsmittel Verringerung der Anzahl von Tieren verwendet, um Informationen von einer gegebenen Menge und Präzision zu erhalten. Refinement jede Abnahme der Häufigkeit oder Schwere der unmenschlichen Verfahren auf jene Tiere angewandt, die noch verwendet werden müssen. "
Die drei R, die ich vorschlage, überschreiben nicht die ethischen Prinzipien, die in Kapitel 6 beschrieben werden. Vielmehr sind sie eine ausgefeiltere Version eines dieser Prinzipien - Wohltätigkeit - speziell im Rahmen von menschlichen Experimenten.
In Bezug auf den ersten R ("Ersatz") bietet der Vergleich des Experiments der emotionalen Ansteckung (Kramer, Guillory, and Hancock 2014) und des Experiments der emotionalen Ansteckung (Lorenzo Coviello et al. 2014) einige allgemeine Lektionen über die beteiligten Kompromisse beim Übergang von Experimenten zu natürlichen Experimenten (und anderen Ansätzen wie dem Versuch, Experimente in nicht-experimentellen Daten zu approximieren; siehe Kapitel 2). Zusätzlich zu den ethischen Vorteilen ermöglicht der Wechsel von experimentellen zu nicht-experimentellen Studien auch die Erforschung von Behandlungen, die logistisch nicht durchgeführt werden können. Diese ethischen und logistischen Vorteile haben jedoch ihren Preis. Mit natürlichen Experimenten haben Forscher weniger Kontrolle über Dinge wie Rekrutierung von Teilnehmern, Randomisierung und die Art der Behandlung. Zum Beispiel ist eine Beschränkung des Niederschlags als Behandlung, dass es sowohl die Positivität erhöht als auch die Negativität verringert. In der experimentellen Studie konnten Kramer und Kollegen jedoch Positivität und Negativität unabhängig voneinander anpassen. Der besondere Ansatz von Lorenzo Coviello et al. (2014) wurde von L. Coviello, Fowler, and Franceschetti (2014) weiter ausgearbeitet. Für eine Einführung in instrumentelle Variablen, wie Lorenzo Coviello et al. (2014) , siehe Angrist and Pischke (2009) (weniger formal) oder Angrist, Imbens, and Rubin (1996) (formeller). Für eine skeptische Beurteilung instrumenteller Variablen siehe Deaton (2010) , und für eine Einführung in instrumentelle Variablen mit schwachen Instrumenten (Regen ist ein schwaches Instrument), siehe Murray (2006) . Ganz allgemein wird durch eine gute Einführung in natürliche Experimente gegeben Dunning (2012) , während Rosenbaum (2002) , ( ??? ) und Shadish, Cook, and Campbell (2001) bieten gute Ideen Schätzung kausaler Effekte ohne Experimente.
In Bezug auf das zweite R ("Verfeinerung") gibt es wissenschaftliche und logistische Kompromisse, wenn man das Design von Emotional Contagion vom Blockieren von Posts auf das Boosten von Posts überdenkt. Zum Beispiel kann es sein, dass die technische Implementierung des News Feeds es wesentlich einfacher macht, ein Experiment durchzuführen, bei dem Posts blockiert werden, anstatt eines, bei dem sie verstärkt werden (beachten Sie, dass ein Experiment zur Blockierung von Posts implementiert werden könnte) als eine Ebene über dem Newsfeed-System, ohne dass Änderungen am zugrunde liegenden System erforderlich sind). Wissenschaftlich gesehen, hat die vom Experiment angeeignete Theorie jedoch nicht eindeutig ein Design gegenüber dem anderen vorgeschlagen. Leider sind mir keine substantiellen früheren Untersuchungen über die relativen Vorteile von Blockieren und Anheben von Inhalten im News Feed bekannt. Außerdem habe ich nicht viel Forschung über die Verfeinerung von Behandlungen gesehen, um sie weniger schädlich zu machen; eine Ausnahme ist B. Jones and Feamster (2015) , die den Fall der Messung der Internetzensur betrachtet (ein Thema, das ich in Kapitel 6 in Zusammenhang mit der Encore-Studie diskutiere (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
In Bezug auf das dritte R ("Reduktion") werden von Cohen (1988) (Buch) und Cohen (1992) (Artikel) gute Einführungen in die traditionelle Machtanalyse gegeben, während Gelman and Carlin (2014) eine etwas andere Perspektive bieten. Vorbehandlungskovariaten können in die Entwurfs- und Analysephase der Experimente einbezogen werden; Kapitel 4 von Gerber and Green (2012) bietet eine gute Einführung in beide Ansätze, und Casella (2008) bietet eine detailliertere Behandlung. Techniken, die diese Vorbehandlungsinformation bei der Randomisierung verwenden, werden typischerweise entweder als blockierte experimentelle Designs oder als geschichtete experimentelle Designs bezeichnet (die Terminologie wird nicht konsistent über die Gemeinschaften hinweg verwendet); Diese Techniken stehen in engem Zusammenhang mit den in Kapitel 3 diskutierten geschichteten Sampling-Techniken. Siehe Higgins, Sävje, and Sekhon (2016) für mehr über die Verwendung dieser Designs in massiven Experimenten. Vorbehandlungskovariaten können ebenfalls in die Analyse einbezogen werden. McKenzie (2012) untersucht den Differenz-in-Differenzen-Ansatz zur detaillierteren Analyse von Feldexperimenten. Vgl. Carneiro, Lee, and Wilhelm (2016) um mehr über die Kompromisse zwischen verschiedenen Ansätzen zu erfahren, um die Genauigkeit der Schätzungen von Behandlungseffekten zu erhöhen. Bei der Entscheidung, ob versucht wird, Vorbehandlungskovariaten in der Entwurfs- oder Analysephase (oder in beiden) zu berücksichtigen, müssen einige Faktoren berücksichtigt werden. In einer Umgebung, in der Forscher zeigen wollen, dass sie nicht "fischen" (Humphreys, Sierra, and Windt 2013) , kann die Verwendung von Vorbehandlungskovariaten in der Entwurfsphase hilfreich sein (Higgins, Sävje, and Sekhon 2016) . In Situationen, in denen Teilnehmer sequenziell, insbesondere Online-Feldexperimente, eintreffen, kann die Verwendung von Vorbehandlungsinformationen in der Entwurfsphase logistisch schwierig sein; siehe zum Beispiel Xie and Aurisset (2016) .
Es lohnt sich, ein wenig Intuition darüber hinzuzufügen, warum eine Differenz-in-Differenzen-Methode so viel effektiver sein kann als eine Differenz-in-der-Methode. Viele Online-Ergebnisse weisen eine sehr hohe Varianz auf (siehe zB RA Lewis and Rao (2015) und Lamb et al. (2015) ) und sind im Zeitverlauf relativ stabil. In diesem Fall wird der Änderungswert eine wesentlich geringere Varianz haben, was die Leistung des statistischen Tests erhöht. Ein Grund, warum dieser Ansatz nicht häufiger verwendet wird, ist, dass es vor dem digitalen Zeitalter keine Vorbehandlungsergebnisse gab. Ein konkreterer Weg, darüber nachzudenken, besteht darin, sich ein Experiment vorzustellen, um zu messen, ob eine bestimmte Trainingsroutine Gewichtsabnahme verursacht. Wenn Sie einen Differenz-in-Mittel-Ansatz anwenden, wird Ihre Schätzung eine Variabilität haben, die sich aus der Variabilität der Gewichte in der Bevölkerung ergibt. Wenn Sie jedoch einen Differenz-in-Differenzen-Ansatz verwenden, wird diese natürlich vorkommende Gewichtsvariation entfernt, und Sie können einen durch die Behandlung verursachten Unterschied leichter erkennen.
Schließlich habe ich darüber nachgedacht, ein viertes R: "repurpose" hinzuzufügen. Das heißt, wenn Forscher sich mit experimentelleren Daten befassen, als sie benötigen, um ihre ursprüngliche Forschungsfrage zu beantworten, sollten sie die Daten wiederverwenden, um neue Fragen zu stellen. Stellen Sie sich zum Beispiel vor, dass Kramer und Kollegen einen Differenz-in-Differenzen-Schätzer verwendet hätten und mehr Daten hätten, als sie benötigen, um ihre Forschungsfrage zu beantworten. Anstatt die Daten nicht in vollem Umfang zu verwenden, hätten sie die Größe des Effekts als eine Funktion des emotionalen Ausdrucks vor der Behandlung untersuchen können. So wie Schultz et al. (2007) fest, dass die Wirkung der Behandlung für leichte und starke Benutzer unterschiedlich war, vielleicht waren die Auswirkungen des News Feeds für Personen unterschiedlich, die bereits dazu neigten, fröhliche (oder traurige) Botschaften zu veröffentlichen. Repurposing könnte zu "fishing" (Humphreys, Sierra, and Windt 2013) und "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , aber diese sind größtenteils mit einer Kombination aus ehrlicher Berichterstattung (Simmons, Nelson, and Simonsohn 2011) adressierbar (Simmons, Nelson, and Simonsohn 2011) , Vorregistrierung (Humphreys, Sierra, and Windt 2013) und maschinelle Lernmethoden, die eine Überanpassung vermeiden.