Weitere Erläuterungen

Dieser Abschnitt soll als Referenz verwendet werden, anstatt als eine Erzählung gelesen werden.

  • Einführung (Abschnitt 4.1)

Fragen über die Kausalität in der Sozialforschung sind oft komplex und kompliziert. Für einen grundlegenden Ansatz zur Kausalität auf kausalen Graphen basiert, sehen Pearl (2009) und für einen grundlegenden Ansatz , der auf mögliche Ergebnisse finden Imbens and Rubin (2015) (und den technischen Anhang in diesem Kapitel). Für einen Vergleich zwischen diesen beiden Ansätzen finden Morgan and Winship (2014) . Für einen formalen Ansatz ein Störfaktor zu definieren, siehe VanderWeele and Shpitser (2013) .

Im Kapitel, habe ich, was wie eine helle Linie zwischen unserer Fähigkeit, schien kausalen Schätzungen aus experimentellen und nicht-experimentellen Daten zu machen. In Wirklichkeit denke ich, dass die Unterscheidung ist unschärfer. Zum Beispiel nimmt jeder, dass das Rauchen verursacht Krebs, obwohl wir nie eine randomisierte, kontrollierte Experiment gemacht haben, dass die Menschen zu rauchen zwingt. Für eine exzellente Buch Länge Behandlungen machen kausalen Schätzungen von nichtexperimentellen Daten sehen Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , und Dunning (2012) .

Kapitel 1 und 2 von Freedman, Pisani, and Purves (2007) bieten eine anschauliche Einführung in die Unterschiede zwischen den Experimenten, kontrollierten Experimenten und randomisierten kontrollierten Experimenten.

Manzi (2012) bietet eine faszinierende und gut lesbare Einführung in die philosophische und statistische Untermauerung von randomisierten kontrollierten Experimenten. Es bietet auch interessante reale Beispiele für die Macht des Experimentierens in der Wirtschaft.

  • Was sind Experimente? (Abschnitt 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) sorgen für eine gute Einführung in die statistischen Aspekte der experimentellen Design und Analyse. Des Weiteren gibt es hervorragende Behandlungen für die Verwendung von Experimenten in vielen verschiedenen Bereichen: Wirtschaft (Bardsley et al. 2009) . , Soziologie (Willer and Walker 2007; Jackson and Cox 2013) , Psychologie (Aronson et al. 1989) ., (Morton and Williams 2010) (Aronson et al. 1989) , Politikwissenschaft (Morton and Williams 2010) und Sozialpolitik (Glennerster and Takavarasha 2013) .

Die Bedeutung der Teilnehmer Rekrutierung (zB Probenahme) wird oft unterschätzt in der experimentellen Forschung. Wenn jedoch die Wirkung der Behandlung in der Bevölkerung heterogen ist, dann ist Sampling kritisch. Longford (1999) macht deutlich , diesen Punkt , als er für die Forscher spricht von Experimenten als Bevölkerungsbefragung Denken mit planlos Probenahme.

  • Zwei Dimensionen von Experimenten: Labor-Bereich und Analog-Digital (Abschnitt 4.3)

Die Dichotomie, die ich zwischen Labor- und Feldversuchen dargestellt ist ein wenig vereinfacht. In der Tat haben andere Forscher detailliertere Typologien, insbesondere diejenigen vorgeschlagen, die die verschiedenen Formen von Feldversuchen trennen (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Darüber hinaus gibt es zwei weitere Arten von von Sozialwissenschaftlern durchgeführten Experimente, die nicht ordentlich in die Labor- und Feld Dichotomie passen. Antworten auf alternative Versionen der Umfrage Experimente und soziale Experimente Umfrage Experimente sind Experimente , die die Infrastruktur bestehender Erhebungen und vergleichen Sie gleichen Fragen (einige Umfrage Experimente in Kapitel 3 sind); Weitere Informationen über die Umfrage Experimente siehe Mutz (2011) . sind soziale Experimente Experimente , bei denen die Behandlung einige Sozialpolitik ist , die nur von einer Regierung umgesetzt werden können. Soziale Experimente sind eng mit der Programmbewertung im Zusammenhang. Weitere Informationen über die Politik Experimente finden Orr (1998) , Glennerster and Takavarasha (2013) und Heckman and Smith (1995) .

Eine Reihe von Arbeiten haben im Vergleich Labor- und Feldversuche in der Zusammenfassung (Falk and Heckman 2009; Cialdini 2009) und in Bezug auf die Ergebnisse der spezifischen Experimente in der Politikwissenschaft (Coppock and Green 2015) , Wirtschaft (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) und Psychologie (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) bietet eine schöne Forschungsdesign für die Ergebnisse von Labor- und Feldexperimenten verglichen wird .

Die Besorgnis über die Teilnehmer ihr Verhalten ändern , weil sie wissen , sie werden genau beobachtet werden manchmal Nachfrageeffekte genannt, und sie haben in der Psychologie studiert (Orne 1962) und Wirtschaft (Zizzo 2009) . Obwohl meist mit Laborexperimenten verbunden sind, können dieselben Probleme verursachen Probleme für Experimente Bereich als auch. In der Tat sind auch manchmal Effekte Nachfrage genannt Hawthorne - Effekte, ein Begriff, der aus einem Feldversuch leitet, insbesondere die berühmten Beleuchtung Experimente, die an den Hawthorne Arbeiten der westlichen Electric Company im Jahr 1924 begann (Adair 1984; Levitt and List 2011) . Beide Nachfrageeffekte und Hawthorn Effekte eng mit der Idee von reaktiven Messung in Kapitel in Zusammenhang stehen 2 (siehe auch Webb et al. (1966) ).

Die Geschichte von Feldversuchen wurde in der Ökonomie beschrieben (Levitt and List 2009) , Politikwissenschaft (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , Psychologie (Shadish 2002) , und die öffentliche Ordnung (Shadish and Cook 2009) . Ein Bereich der Sozialwissenschaften, wo Feldversuchen wurde schnell prominent internationale Entwicklung. Für eine positive Beurteilung dieser Arbeit in Wirtschaft sehen Banerjee and Duflo (2009) , und für eine kritische Beurteilung siehe Deaton (2010) . Für einen Überblick über diese Arbeit in der Politikwissenschaft sehen Humphreys and Weinstein (2009) . Schließlich haben die ethischen Herausforderungen , die mit Feldversuchen wurden in der Politikwissenschaft erforscht (Humphreys 2015; Desposato 2016b) und Entwicklungsökonomie (Baele 2013) .

Im Kapitel, schlug ich vor, dass die Vorbehandlung Informationen verwendet werden kann , um die Genauigkeit der geschätzten Behandlungseffekte zu verbessern, aber es gibt einige Diskussionen über diesen Ansatz: Freedman (2008) , Lin (2013) , und Berk et al. (2013) ; siehe Bloniarz et al. (2016) für weitere Informationen.

  • Jenseits einfache Experimente (Abschnitt 4.4)

Ich habe auf drei Konzepte zu konzentrieren gewählt: Gültigkeit, Heterogenität der Behandlungseffekte und Mechanismen. Diese Konzepte haben verschiedene Namen in verschiedenen Bereichen. Zum Beispiel neigen Psychologen über einfache Experimente zu bewegen , durch die Konzentration auf Vermittler und Moderatoren (Baron and Kenny 1986) . Die Idee der Vermittler wird erfasst von dem, was ich Mechanismen nennen, und die Idee von Moderatoren wird gefangen von dem, was ich nenne externe Validität (zB würden die Ergebnisse des Experiments anders sein, wenn es in verschiedenen Situationen durchgeführt wurde) und die Heterogenität der Behandlungseffekte ( zB sind die Auswirkungen größer für einige Menschen als andere Menschen).

Der Versuch von Schultz et al. (2007) zeigt , wie soziale Theorien verwendet werden können , wirksame Maßnahmen zu entwerfen. Für eine allgemeinere Argument über die Rolle der Theorie wirksame Interventionen bei der Gestaltung finden Walton (2014) .

  • Gültigkeit (Abschnitt 4.4.1)

Die Konzepte der internen und externen Validität wurden zuerst eingeführt , Campbell (1957) . Siehe Shadish, Cook, and Campbell (2001) für eine ausführlichere Geschichte und eine sorgfältige Ausarbeitung der statistischen Schlussfolgerung Gültigkeit, interne Validität, Konstruktvalidität und externe Validität.

Einen Überblick über die Fragen im Zusammenhang mit statistischen Abschluss Validität in Experimenten sehen Gerber and Green (2012) (für eine sozialwissenschaftliche Perspektive) und Imbens and Rubin (2015) (für eine statistische Perspektive). Einige Fragen der statistischen Schlussfolgerung Gültigkeit , die speziell in der Online - Feldversuchen entstehen umfassen Themen wie rechnerisch effiziente Methoden für die Erstellung von Konfidenzintervall mit abhängigen Daten (Bakshy and Eckles 2013) .

Die interne Validität kann schwierig sein, in komplexen Feldversuchen zu gewährleisten. Siehe zum Beispiel, Gerber and Green (2000) , Imai (2005) und Gerber and Green (2005) für die Debatte über die Umsetzung eines komplexen Feldversuch über Abstimmung. Kohavi et al. (2012) und Kohavi et al. (2013) geben eine Einführung in die Herausforderungen des Intervalls Gültigkeit im Online - Feldversuchen.

Ein großes Anliegen mit interne Validität ist, um Probleme mit der Randomisierung. Ein Weg, um möglicherweise Probleme mit der Randomisierung erkennen ist, die Behandlungs- und Kontrollgruppen auf beobachtbaren Eigenschaften zu vergleichen. Diese Art von Vergleich ist eine Saldoprüfung genannt. Siehe Hansen and Bowers (2008) für einen statistischen Ansatz Kontrollen zu balancieren, und sehen Mutz and Pemantle (2015) für Bedenken über Balance Checks. Zum Beispiel mit einer Waage überprüfen Allcott (2011) festgestellt , dass es einige Hinweise darauf, dass die Randomisierung nicht richtig in drei der Versuche in einigen der Opower Experimente durchgeführt wurde (siehe Tabelle 2; Websites , 2, 6 und 8). Für andere Ansätze finden Imbens and Rubin (2015) , Kapitel 21.

Weitere wichtige Anliegen für die interne Validität bezogen sind: 1) einseitig die Nichteinhaltung, wo nicht jeder in der Behandlungsgruppe, die Behandlung tatsächlich erhalten, 2) zweiseitig Nichteinhaltung, wo nicht jeder in der Behandlungsgruppe, die Behandlung erhält und einige Personen in der Kontrollgruppe erhalten das der Behandlung, 3) Abrieb, wo die Ergebnisse sind nicht für einige Teilnehmer gemessen wird, und 4) Störungen, wo die Behandlung über vom Menschen in der Behandlungsbedingung, um Menschen in der Kontrollbedingung schwappt. Siehe Gerber and Green (2012) Kapitel 5, 6, 7 und 8 für mehr auf jede dieser Fragen.

Weitere Informationen über die Konstruktvalidität finden Westen and Rosenthal (2003) , und mehr auf Konstruktvalidität in großen Datenquellen, Lazer (2015) und Kapitel 2 dieses Buches.

Ein Aspekt der externen Validität ist die Einstellung , wo eine Intervention getestet wird. Allcott (2015) bietet eine sorgfältige theoretische und empirische Behandlung der Standortwahl Bias. Dieses Problem wird auch diskutiert in Deaton (2010) . Zusätzlich zu den in vielen Standorten repliziert werden, hat sich die Home Energy Bericht Intervention auch durch mehrere Forschergruppen (zB unabhängig untersucht worden Ayres, Raseman, and Shih (2013) ).

  • Heterogene Behandlungseffekte (Abschnitt 4.4.2)

Für einen hervorragenden Überblick über die Heterogenität der Behandlungseffekte in Feldversuchen finden Sie in Kapitel 12 von Gerber and Green (2012) . Für Einführungen in die Heterogenität der Behandlungseffekte in medizinischen Studien, siehe Kent and Hayward (2007) , Longford (1999) , und Kravitz, Duan, and Braslow (2004) . Die Heterogenität der Behandlungseffekte konzentrieren im Allgemeinen auf Unterschiede basierend auf Vorbehandlung Eigenschaften. Wenn Sie in Heterogenität interessiert sind basierend auf post-Behandlungsergebnisse, dann komplexere approachs nötig sind , um wie Hauptschichtung (Frangakis and Rubin 2002) ; siehe Page et al. (2015) für eine Überprüfung.

Viele Forscher schätzen , die Heterogenität der Behandlungseffekte lineare Regression, aber neuere Methoden beruhen auf maschinelles Lernen, zum Beispiel Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , und Athey and Imbens (2016a) .

Es besteht eine gewisse Skepsis gegenüber Ergebnisse der Heterogenität der Effekte wegen mehrfachen Vergleichs Probleme und "fishing" . Es gibt eine Vielzahl von statistischen Ansätzen , die die Bedenken über mehrere Vergleich helfen kann (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Ein Ansatz zur Besorgnis über "fishing" ist die Vorregistrierung, die immer häufiger in der Psychologie immer (Nosek and Lakens 2014) , Politikwissenschaft (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) und Wirtschaft (Olken 2015) .

In der Studie von Costa and Kahn (2013) nur etwa die Hälfte der Haushalte in dem Experiment konnten die demografische Informationen verknüpft werden. Leser, die sich in den Einzelheiten und mögliche Probleme mit dieser Analyse sollte auf das Originalpapier beziehen.

  • Mechanismen (Abschnitt 4.4.3)

Die Mechanismen sind unglaublich wichtig, aber sie erweisen sich als sehr schwierig, zu studieren. Forschung über Mechanismen in engem Zusammenhang mit der Studie von Mediatoren in der Psychologie im Zusammenhang mit (aber auch sehen VanderWeele (2009) für einen präzisen Vergleich zwischen den beiden Ideen). Statistische Ansätze zur Entwicklung von Mechanismen, wie der Ansatz entwickelt , in Baron and Kenny (1986) , sind durchaus üblich. Leider stellt sich heraus , dass diese Verfahren sind abhängig von einigen starken Annahmen (Bullock, Green, and Ha 2010) und leiden , wenn es mehrere Mechanismen, wie man in vielen Situationen erwarten könnte (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) und Imai and Yamamoto (2013) bieten einige verbesserte statistische Methoden. Ferner VanderWeele (2015) bietet eine Behandlung in Buchlänge mit einer Reihe von wichtigen Ergebnissen zu Sensitivitätsanalyse eines umfassenden Ansatzes einschließlich.

Ein separater Ansatz konzentriert sich auf Experimente, die den Mechanismus direkt zu manipulieren versuchen (zB geben Segler Vitamin C). Leider mehrere Mechanismen in vielen sozialwissenschaftlichen Einstellungen gibt es oft und es ist schwer, Behandlungen zu entwickeln, die man ändern, ohne die anderen zu verändern. Einige Ansätze zur Veränderung experimentell Mechanismen werden beschrieben in Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , und Pirlott and MacKinnon (2016) .

Schließlich haben Mechanismen auch eine lange Geschichte in der Philosophie der Wissenschaft , wie beschrieben Hedström and Ylikoski (2010) .

  • Die Nutzung vorhandener Umgebungen (Abschnitt 4.5.1.1)

Weitere Informationen über die Verwendung von Fernstudium und Prüfung Studien Diskriminierung sehen zu messen Pager (2007) .

  • Bauen Sie Ihr eigenes Experiment (Abschnitt 4.5.1.2)

Die häufigste Art, die Teilnehmer auf Experimente zu rekrutieren, die Sie bauen, ist Amazon Mechanical Turk (MTurk). Da MTurk imitiert Aspekte der traditionellen Laborexperimenten bezahlten Menschen Aufgaben zu erledigen, die sie für Frei viele Forscher nicht tun würde, bereits bei Menschen Experimente führt, als traditionelle in schneller und kostengünstiger Datensammlung mit Turkers (die Arbeiter auf MTurk) als Teilnehmer begonnen auf dem Campus Laborexperimente (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Die größte Stärke von Experimenten mit Teilnehmern aus MTurk rekrutiert sind logistisch: sie können die Forscher die Teilnehmer schnell und nach Bedarf zu rekrutieren. Während Laborexperimente Wochen dauern kann laufen und Feldversuchen Monate dauern kann, um Set-up, Experimente mit von MTurk rekrutierte Teilnehmer können in Tagen ausgeführt werden. Zum Beispiel Berinsky, Huber, and Lenz (2012) konnten 400 Probanden an einem einzigen Tag zu rekrutieren in 8 Minuten Experiment teilzunehmen. Ferner können diese Teilnehmer für nahezu jeden Zweck rekrutiert werden (einschließlich Umfragen und Massen Zusammenarbeit, wie 3 in den Kapiteln diskutiert und 5). Die einfache Einstellung bedeutet, dass Forscher Sequenzen verwandter Experimente in schneller Folge ausgeführt werden können.

Bevor die Teilnehmer aus MTurk für eigene Experimente zu rekrutieren, gibt es vier wichtige Dinge zu wissen. Erstens haben viele Forscher eine unspezifische Skepsis von Experimenten mit Turkers. Da diese Skepsis nicht spezifisch ist, ist es schwer, mit Beweisen zu begegnen. Doch nach mehreren Jahren Studien mit Turkers können wir nun feststellen, dass diese Skepsis nicht besonders notwendig ist. Es wurden viele Studien die Demografie von Turkers auf andere Populationen und viele Studien zum Vergleich der Ergebnisse von Experimenten mit Turkers zu den Ergebnissen aus anderen Populationen zu vergleichen. In Anbetracht all dieser Arbeit, ich glaube , dass der beste Weg für Sie , daran zu denken ist , dass Turkers eine angemessene Bequemlichkeit Probe sind, ähnlich wie die Schüler , aber etwas vielfältiger (Berinsky, Huber, and Lenz 2012) . So, wie die Schüler eine angemessene Bevölkerung für einige, aber nicht alle der experimentellen Forschung, sind Turkers eine vernünftige Bevölkerung für einige, aber nicht alle Forschung. Wenn Sie mit Turkers arbeiten werden, dann macht es Sinn, viele dieser vergleichenden Studien zu lesen und ihre Nuancen zu verstehen.

Zweitens haben die Forscher Best Practices entwickelt zur Steigerung der internen Validität von Turk Experimente, und Sie sollten sich darüber zu erfahren , und befolgen Sie diese Best Practices (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Zum Beispiel, Forscher Turkers Verwendung werden ermutigt , Sieb- und Brechanlagen zu verwenden , um unaufmerksame Teilnehmer entfernen (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (siehe aber auch DJ Hauser and Schwarz (2015b) und DJ Hauser and Schwarz (2015a) ). Wenn Sie nicht unaufmerksam Teilnehmer entfernen, dann kann eine Wirkung der Behandlung durch Rauschen von unaufmerksam Teilnehmer eingeführt auswaschbar, und die Anzahl der Teilnehmer in der Praxis unaufmerksam kann erheblich sein. In dem Experiment von Huber und Kollegen (2012) etwa 30% der Teilnehmer ausgefallen Grund Aufmerksamkeit Screener. Ein weiteres Problem gemeinsam mit Turkers ist nicht naiv Teilnehmer (Chandler et al. 2015) .

Drittens, relativ zu anderen Formen der digitalen Experimenten MTurk Experimente können nicht maßstäblich; Stewart et al. (2015) schätzt , dass zu einem bestimmten Zeitpunkt gibt es nur etwa 7.000 Menschen auf MTurk.

Schließlich sollten Sie wissen , dass MTurk eine Gemeinschaft mit eigenen Regeln und Normen (Mason and Suri 2012) . In der gleichen Weise , dass man versuchen würde , über die Kultur eines Landes , um herauszufinden , wo Sie Ihre Experimente würden laufen, sollten Sie versuchen , mehr über die Kultur zu erfahren und Normen der Turkers (Salehi et al. 2015) . Und sollten Sie wissen , dass die Turkers wird über Ihr Experiment sprechen , wenn Sie etwas Unpassendes oder unethisch tun (Gray et al. 2016) .

MTurk ist eine unglaublich bequeme Möglichkeit , die Teilnehmer auf Ihre Experimente zu rekrutieren, ob es sich um Laborartig, wie Huber, Hill, and Lenz (2012) , oder mehr Feldartig, wie Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , und Mao et al. (2016) .

  • Bauen Sie Ihr eigenes Produkt (Abschnitt 4.5.1.3)

Wenn Sie versuchen , Ihr eigenes Produkt zu schaffen , denken, ich empfehlen , dass Sie den Rat von der Movielens - Gruppe in angebotenen lesen Harper and Konstan (2015) . Eine wichtige Erkenntnis aus ihrer Erfahrung ist, dass für jedes erfolgreiche Projekt gibt es viele, viele Ausfälle. Zum Beispiel hat die Gruppe Movielens andere Produkte wie GopherAnswers , die waren völlig gescheitert (Harper and Konstan 2015) . Ein weiteres Beispiel eines Forschers Versagen, während ein Produkt zu bauen versucht, ist der Versuch Edward Castronova ein Online-Spiel namens Arden zu bauen. Trotz $ 250.000 Finanzierung war das Projekt ein Flop (Baker 2008) . Projekte wie GopherAnswers und Arden sind leider viel häufiger als Projekte, wie Movielens. Schließlich, als ich sagte, dass ich nicht von irgendwelchen anderen Forscher wussten, dass die Produkte für die wiederholte Versuche erfolgreich aufgebaut hatte hier sind meine Kriterien: 1) Teilnehmer das Produkt verwenden, weil von dem, was es bietet ihnen (zB sie nicht bezahlt werden und sie sind nicht Freiwillige helfen Science) und 2) das Produkt für mehr als eine unterschiedliche Experiment (dh nicht das gleiche Experiment mehrmals mit verschiedenen Teilnehmer-Pools verwendet wurde). Wenn Sie weitere Beispiele kennen, lassen Sie es mich wissen.

  • Partner mit dem leistungsstarken (Abschnitt 4.5.2)

Ich habe die Idee von Pasteur Quadrant diskutiert häufig bei Tech - Unternehmen gehört, und es hilft , die Forschungsanstrengungen bei Google organisieren (Spector, Norvig, and Petrov 2012) .

Bond und Kollegen Studie (2012) versucht , auch die Wirkung dieser Behandlungen auf die Freunde von denen , die sie empfangen zu erkennen. Aufgrund der Gestaltung des Experiments sind diese Übertragungswirkungen schwer zu erkennen sauber; interessierte Leser sollten sehen , Bond et al. (2012) für eine ausführlichere Diskussion. Dieses Experiment ist Teil einer langen Tradition von Experimenten in der Politikwissenschaft über die Bemühungen der Abstimmung zu fördern (Green and Gerber 2015) . Diese get-out-the-vote Experimente sind häufig teilweise, weil sie in Pasteurs Quadrant sind. Das heißt, es gibt viele Menschen, die motiviert sind, Stimm- und Wahl zu erhöhen kann ein interessantes Verhalten sein allgemeinere Theorien über Verhaltensänderungen und gesellschaftlichen Einfluss zu testen.

Andere Forscher haben Beratung zur Verfügung gestellt über Feldversuche mit Partnerorganisationen wie Parteien laufen, NGOs und Unternehmen (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Andere haben angeboten Ratschläge , wie Partnerschaften mit Organisationen können Forschungsdesigns auswirken (Green, Calfano, and Aronow 2014; King et al. 2007) ., (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerschaft kann auch zu ethischen Fragen führen (Humphreys 2015; Nickerson and Hyde 2016) .

  • Design - Beratung (Abschnitt 4.6)

Wenn Sie einen Analyseplan erstellen werden, bevor das Experiment ausgeführt wird, schlage ich vor, dass Sie durch das Lesen Richtlinien für die Berichterstattung beginnen. Die Consort (Consolidated Standard - Bericht von Trials) Richtlinien wurden in der Medizin entwickelt (Schulz et al. 2010) und modifiziert für Sozialforschung (Mayo-Wilson et al. 2013) . Eine verwandte Reihe von Leitlinien wurde von der Redaktion des Journal of Experimental Politikwissenschaft entwickelt worden (Gerber et al. 2014) (siehe auch Mutz and Pemantle (2015) und Gerber et al. (2015) ). Schließlich wurden Leitlinien für die Berichterstattung in der Psychologie entwickelt (Group 2008) , und auch Simmons, Nelson, and Simonsohn (2011) .

Wenn Sie einen Analyseplan erstellen, sollten Sie es für die Vorregistrierung, weil die Vorregistrierung das Vertrauen zu erhöhen, die andere in den Ergebnissen haben. Wenn Sie darüber hinaus mit einem Partner arbeiten, wird es Ihrem Partner die Möglichkeiten einschränken, die Analyse nach der die Ergebnisse ändern zu sehen. Die Vorregistrierung ist in der Psychologie immer häufiger geworden (Nosek and Lakens 2014) , Politikwissenschaft (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) und Wirtschaft (Olken 2015) .

Während Ihr Voranalyse Plan erstellen , sollten Sie sich bewusst sein , dass auch einige Forscher Regression und verwandte Ansätze verwenden , um die Genauigkeit des geschätzten Behandlungseffekt zu verbessern, und es gibt eine Debatte über diesen Ansatz: Freedman (2008) , Lin (2013) , und Berk et al. (2013) ; siehe Bloniarz et al. (2016) für weitere Informationen.

Design - Beratung speziell für Online - Feldversuchen wird auch dargestellt in Konstan and Chen (2007) und Chen and Konstan (2015) .

  • Erstellen Null variable Kostendaten (Abschnitt 4.6.1)

Weitere Informationen über die MusicLab Experimente finden Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) und Salganik (2007) . Weitere Informationen über die Winner-take-all Märkte finden Frank and Cook (1996) . Weitere Informationen über das Entwirren Glück und Geschick allgemeiner, siehe Mauboussin (2012) , Watts (2012) und Frank (2016) .

Es ist ein weiterer Ansatz Teilnehmer Zahlungen zu beseitigen, dass die Forscher mit Vorsicht verwenden sollten: die Wehrpflicht. In vielen Online-Feldversuchen Teilnehmer werden grundsätzlich in Experimenten erarbeitet und nie kompensiert. Beispiele für diesen Ansatz sind Restivo und van de Rijt der (2012) Experiment auf Belohnungen in Wikipedia und Bond und Kollegen (2012) Experiment auf die Menschen ermutigen, zu stimmen. Diese Versuche nicht wirklich Null variable Kosten haben, haben sie Null variablen Kosten für Forscher. Auch wenn die Kosten für viele dieser Experimente extrem klein ist, um jeden Teilnehmer auferlegt geringen Kosten eine enorme Anzahl von Teilnehmern schnell addieren können. Die Forscher laufen massiven Online-Experimente rechtfertigen oft die Bedeutung der kleinen geschätzten Behandlungseffekte, indem er sagte, dass diese kleinen Effekte wichtig werden können, wenn zu viele Menschen angewendet. Genau das gleiche Denken gilt für Kosten, die Forscher auf die Teilnehmer verhängen. Wenn Ihre Experimente eine Million Menschen verursacht eine Minute verschwenden, ist das Experiment nicht sehr schädlich für eine bestimmte Person, aber insgesamt hat es fast zwei Jahre Zeit verschwendet.

Ein weiterer Ansatz Null variablen Kosten Zahlung an die Teilnehmer zu schaffen , ist eine Lotterie zu verwenden, ein Ansatz, der auch in der Umfrageforschung verwendet wurde (Halpern et al. 2011) . Schließlich , um mehr über die Gestaltung angenehm benutzer Erfahrungen sehen Toomim et al. (2011) .

  • Ersetzen, Verfeinern und verkleinern (Abschnitt 4.6.2)

Hier sind die ursprünglichen Definitionen der drei R, von Russell and Burch (1959) :

"Ersatz bedeutet die Substitution für bewusstes Leben höheren Tieren von insentient Material. Reduktionsmittel Verringerung der Anzahl von Tieren verwendet, um Informationen von einer gegebenen Menge und Präzision zu erhalten. Refinement jede Abnahme der Häufigkeit oder Schwere der unmenschlichen Verfahren auf jene Tiere angewandt, die noch verwendet werden müssen. "

Die drei R, die ich vorschlagen, nicht die ethischen Grundsätze in Kapitel 6. Vielmehr beschrieben außer Kraft setzen, sie sind eine aufwendigere Version eines dieser Prinzipien beneficence spezifisch für die Festlegung von Menschenversuchen.

Wenn emotionale Ansteckung bedenkt, gibt es drei nicht-ethische Fragen im Auge zu behalten, wenn dieses Experiment zu interpretieren. Erstens ist es nicht klar, wie die tatsächlichen Details des Experiments mit den theoretischen Ansprüche verbinden; in anderen Worten, es gibt Fragen über Konstruktvalidität. Es ist nicht klar, dass die positiven und negativen Wort zählt eigentlich ein guter Indikator für den emotionalen Zustand der Teilnehmer sind, weil 1) nicht klar ist, dass die Worte, die Menschen hinterlassen ein guter Indikator für ihre Gefühle und 2) ist es nicht klar, dass die Sentiment - Analyse - Technik insbesondere , dass die Forscher in der Lage , verwendet , um zuverlässig Emotionen ableiten (Beasley and Mason 2015; Panger 2016) . Mit anderen Worten, es könnte ein schlechtes Maß für eine vorgespannte Signal sein. Zweitens zeigt das Design und die Analyse des Experiments nichts über die am stärksten betroffen war (dh es gibt keine Analyse der Heterogenität der Behandlungseffekte) und welche der Mechanismus sein könnte. In diesem Fall hatten die Forscher viele Informationen über die Teilnehmer, aber sie waren im wesentlichen wie widgets in der Analyse behandelt. Drittens war die Effektgröße in diesem Versuch sehr klein; die Differenz zwischen den Behandlungs- und Kontrollbedingungen beträgt etwa 1 von 1000 Wörtern. In ihrem Papier, Kramer und Kollegen machen den Fall, dass ein Effekt dieser Größe ist wichtig, weil Hunderte von Millionen von Menschen ihre Nachrichten jeden Tag Feed-Zugang. Mit anderen Worten, argumentieren sie, dass auch Effekte, die für jede Person klein sind sie insgesamt groß sind. Auch wenn Sie dieses Argument akzeptieren würden, ist es noch nicht klar, ob ein Effekt dieser Größe in Bezug auf die allgemeine wissenschaftliche Fragen zu emotionalen Ansteckung wichtig ist. Weitere Informationen über die Situationen , in denen kleine Effekte wichtig sind , sehen Prentice and Miller (1992) .

In Bezug auf den ersten R (Replacement), die emotionale Ansteckung Experiment zu vergleichen (Kramer, Guillory, and Hancock 2014) und die emotionale Ansteckung natürliches Experiment (Coviello et al. 2014) bietet einige allgemeine Lehren über die Trade-offs beteiligt mit sich von Experimente auf natürliche Experimente (und andere Ansätze wie die versuchen passende Experimente in nicht-experimentellen Daten zu nähern, finden Sie in Kapitel 2). Zusätzlich zu den ethischen Vorteilen aus experimentellen Umstellung auf nichtexperimentellen Studien ermöglicht auch Forscher Behandlungen zu studieren, die sie logistisch nicht in der Lage sind, zu implementieren. Diese ethischen und logistische Vorteile haben ihren Preis, aber. Mit natürlichen Experimenten haben die Forscher weniger Kontrolle über Dinge wie die Rekrutierung von Teilnehmern, die Randomisierung und die Art der Behandlung. Zum Beispiel ist eine Begrenzung der Niederschläge als Behandlung, dass es sowohl Positivität zunimmt und abnimmt Negativität. In der experimentellen Studie jedoch Kramer und Kollegen waren in der Lage, selbständig Positivität und Negativität zu justieren.

Der besondere Ansatz von verwendeten Coviello et al. (2014) wurde in weiter ausgearbeitet Coviello, Fowler, and Franceschetti (2014) . Eine Einführung in die instrumentale Variablen siehe Angrist and Pischke (2009) (weniger formal) oder Angrist, Imbens, and Rubin (1996) (mehr formal). Für eine skeptische Einschätzung der instrumentellen Variablen siehe Deaton (2010) , und für eine Einführung in instrumentalen Variablen mit schwachen Instrumente (regen ist ein schwaches Instrument), siehe Murray (2006) .

Allgemeiner gesagt , eine gute Einführung in natürliche Experimente ist Dunning (2012) und Rosenbaum (2002) , Rosenbaum (2009) , und Shadish, Cook, and Campbell (2001) bieten gute Ideen über kausale Effekte ohne Experimente zu schätzen.

Im Hinblick auf die zweite R (Refinement), gibt es wissenschaftliche und logistische Kompromisse, wenn sich mit der Gestaltung der emotionalen Ansteckung unter Berücksichtigung von Beiträge zur Steigerung der Beiträge zu blockieren. Zum Beispiel kann es der Fall, dass die technische Umsetzung der News Feed sein ist es wesentlich einfacher ist, ein Experiment zu tun mit den Beiträgen eher als ein Experiment mit Steigerung der Beiträge (beachten Sie, dass ein Experiment mit blockierenden Beiträge als Schicht implementiert werden könnte auf die Blockierung oben auf dem News Feed System ohne dass Änderungen des zugrunde liegenden Systems). Wissenschaftlich jedoch die Theorie durch das Experiment angegangen nicht eindeutig ein Design gegenüber den anderen vor.

Leider bin ich nicht bewusst wesentliche frühere Untersuchungen über die relativen Vorteile der Sperrung und den Inhalt in den News-Feed zu steigern. Auch habe ich nicht viel Forschung über die Verfeinerung Behandlungen gesehen, um sie weniger schädlich; eine Ausnahme ist Jones and Feamster (2015) , die den Fall der Messung von Internet - Zensur hält (ein Thema , das ich in Kapitel 6 in Beziehung zu der Encore - Studie diskutieren (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

In Bezug auf die dritte R (Reduction), ist eine gute Einführung in die traditionelle Leistungsanalyse Cohen (1988) . Vorbehandlung Kovarianten kann in der Konstruktionsphase und der Analysestufe von Experimenten einbezogen werden; Kapitel 4 von Gerber and Green (2012) bietet eine gute Einführung in beiden Ansätzen und Casella (2008) bietet eine tiefergehende Behandlung. Techniken, die diese Vorbehandlung Informationen in der Randomisierung verwenden werden in der Regel entweder blockiert experimentelle Designs oder geschichteten experimentellen Designs (die Terminologie nicht verwendet wird konsequent in Gemeinden) genannt; Diese Techniken sind tief in den geschichteten Stichprobenverfahren in Kapitel 3. Siehe diskutiert im Zusammenhang mit Higgins, Sävje, and Sekhon (2016) für mehr diese Entwürfe in massiven Versuche zur Verwendung. Vorbehandlung Kovariaten können auch in der Analysephase einbezogen werden. McKenzie (2012) untersucht die Differenz-in-Differenzen Ansatz Feldversuchen näher zu analysieren. Siehe Carneiro, Lee, and Wilhelm (2016) , um mehr über die Kompromisse zwischen verschiedenen Ansätzen Genauigkeit der Schätzungen von Behandlungseffekten zu erhöhen. Wenn schließlich der Entscheidung, ob eine Vorbehandlung Kovarianten bei der Konstruktion oder Analysestufe umfassen, um zu versuchen (oder beides), gibt es einige Faktoren zu berücksichtigen. In einer Umgebung , wo die Forscher zeigen wollen , dass sie nicht "fishing" sind (Humphreys, Sierra, and Windt 2013) , unter Verwendung der Vorbehandlung Kovariaten in der Entwurfsphase hilfreich sein kann (Higgins, Sävje, and Sekhon 2016) . Logistisch schwierig sein kann , zum Beispiel in Situationen , in denen die Teilnehmer nacheinander ankommen, vor allem Online - Feldversuche, Vorbehandlung Informationen , die in der Entwurfsphase, siehe Xie and Aurisset (2016) .

Es lohnt sich ein wenig Intuition über das Hinzufügen von warum Differenz-in-Differenzen können als Differenz-in-Mittel so viel effektiver sein. Viele Online - Ergebnisse haben eine sehr hohe Varianz (siehe zB Lewis and Rao (2015) und Lamb et al. (2015) ) und sind relativ stabil über die Zeit. In diesem Fall wird die Änderung Score haben wesentlich geringere Varianz, die Leistung des statistischen Tests zu erhöhen. Ein Grund, diese Annäherung nicht öfter verwendet wird, ist, dass vor dem digitalen Zeitalter es nicht üblich war Vorbehandlung erwarteten Ergebnissen. Eine konkretere Weise darüber nachzudenken ist ein Experiment, sich vorzustellen, zu messen, ob eine bestimmte Routine-Übung Gewichtsverlust verursacht. Wenn Sie einen Unterschied-in-Mittel Ansatz tun, wird Ihre Schätzung Variabilität, die in den Gewichten in der Bevölkerung aus der Variabilität kommt. Wenn Sie einen Unterschied-in-Differenz Ansatz tun jedoch, dass natürlich vorkommende Variation Gewichte wird entfernt und Sie können leichter einen Unterschied durch die Behandlung verursacht erkennen.

Ein wichtiger Weg , um die Anzahl der Teilnehmer in Ihrem Experiment zu reduzieren , ist eine Energieanalyse durchzuführen, die Kramer und Kollegen haben auf der Grundlage der Effektgrößen erfolgen konnte aus dem natürlichen Experiment beobachtet Coviello et al. (2014) oder früher nicht-experimentelle Forschung von Kramer (2012) (in der Tat sind diese Aktivitäten am Ende dieses Kapitels). Beachten Sie, dass diese Verwendung von Power-Analyse ein wenig anders als üblich ist. Im analogen Zeitalter, Forscher Leistungsanalyse im Allgemeinen haben, um sicherzustellen, dass ihre Studie nicht zu klein war (dh unter-powered). Nun aber sollten Forscher Power-Analyse zu tun, um sicherzustellen, dass ihre Studie nicht zu groß ist (dh über-powered).

Schließlich hielt ich eine vierte R Zugabe: Repurpose. Das heißt, wenn die Forscher sich mit experimentellen Daten finden, als sie benötigen, um ihre eigene Forschung Frage zu beantworten, sollten sie die Daten umfunktionieren neue Fragen zu stellen. Zum Beispiel vorstellen, dass Kramer und Kollegen einen Unterschied-in-Differenzen-Schätzer verwendet hatten und fanden sich mit mehr Daten als ihre Forschungsfrage so zu befassen. Anstatt die Daten nicht in vollem Umfang verwenden, können sie die Größe des Effekts als Funktion vorge Behandlung emotionalen Ausdruck studiert haben. So wie Schultz et al. (2007) fanden heraus , dass die Wirkung der Behandlung unterschiedlich war für leichte und schwere Nutzer, vielleicht die Auswirkungen der Nachrichten - Feeds für die Menschen verschieden waren , die schon eher glücklich zu schreiben (oder traurig) Nachrichten. Repurposing könnte zu "fishing" führen (Humphreys, Sierra, and Windt 2013) und "p-Hacking" (Simmons, Nelson, and Simonsohn 2011) , aber diese sind weitgehend adressierbar mit einer Kombination aus ehrlichen Berichterstattung (Simmons, Nelson, and Simonsohn 2011) , die Vorregistrierung (Humphreys, Sierra, and Windt 2013) und Methoden des maschinellen Lernens , die über~~POS=TRUNC zu vermeiden versuchen.