verdere commentaar

Deze sectie is ontworpen om te worden gebruikt als referentie, in plaats van te worden gelezen als een verhaal.

  • Inleiding (paragraaf 4.1)

Vragen over causaliteit in sociaal onderzoek zijn vaak complex en ingewikkeld. Voor een fundamentele aanpak van causaliteit op basis van causale grafieken, zie Pearl (2009) , en voor een fundamentele aanpak op basis van mogelijke uitkomsten, zie Imbens and Rubin (2015) (en de technische bijlage in dit hoofdstuk). Voor een vergelijking tussen deze twee benaderingen, zie Morgan and Winship (2014) . Voor een formele benadering van het definiëren van een confounder Zie VanderWeele and Shpitser (2013) .

In het hoofdstuk maakte ik wat leek op een heldere lijn tussen ons vermogen om causale schattingen van experimentele en niet-experiment gegevens. In werkelijkheid, ik denk dat het onderscheid vager. Bijvoorbeeld, iedereen accepteert dat roken kanker veroorzaakt, hoewel we nooit een gerandomiseerde gecontroleerde experiment dat mensen dwingt om te roken hebben gedaan. Voor uitstekend boek lengte behandelingen op het maken van causale schattingen van niet-experimentele gegevens zie Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , en Dunning (2012) .

Hoofdstukken 1 en 2 van Freedman, Pisani, and Purves (2007) bieden een heldere inleiding in de verschillen tussen de experimenten, gecontroleerde experimenten en gerandomiseerde gecontroleerde experimenten.

Manzi (2012) geeft een fascinerend en leesbare inleiding in de filosofische en statistische onderbouwing van gerandomiseerde gecontroleerde experimenten. Het biedt ook interessante real-world voorbeelden van de macht van de experimenten in het bedrijfsleven.

  • Wat zijn experimenten? (Paragraaf 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) zorgen voor een goede introducties van de statistische aspecten van experimenteel ontwerp en analyse. Verder zijn er uitstekende behandelingen van het gebruik van experimenten op veel verschillende terreinen: economie (Bardsley et al. 2009) , sociologie (Willer and Walker 2007; Jackson and Cox 2013) , psychologie (Aronson et al. 1989) , de politieke wetenschappen (Morton and Williams 2010) , en sociaal beleid (Glennerster and Takavarasha 2013) .

Het belang van de werving van deelnemers (bijvoorbeeld bemonstering) is vaak onder-gewaardeerd in experimenteel onderzoek. Echter, als het effect van de behandeling is heterogeen in de populatie, dan sampling kritisch. Longford (1999) is hier heel duidelijk toen hij pleit voor onderzoekers denken experimenten als bevolkingsonderzoek met willekeurige bemonstering.

  • Twee dimensies van experimenten: lab-veld en analoog-digitaal (paragraaf 4.3)

De tweedeling die ik presenteerde tussen lab en veldexperimenten is een beetje vereenvoudigd. In feite, hebben andere onderzoekers meer gedetailleerde typologieën voorgesteld, in het bijzonder degenen die de verschillende vormen van veldexperimenten scheiden (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Verder zijn er nog twee andere soorten experimenten uitgevoerd door sociale wetenschappers die niet netjes passen in het lab en in het veld tweedeling:. Survey experimenten en sociale experimenten Survey experimenten zijn experimenten met de infrastructuur van bestaande enquêtes en vergelijk reacties op alternatieve versies van de dezelfde vragen (sommige survey experimenten worden gepresenteerd in hoofdstuk 3); voor meer informatie over survey experimenten zien Mutz (2011) . Sociale experimenten zijn experimenten waarbij de behandeling een aantal sociaal beleid dat alleen een regering kan worden geïmplementeerd. Sociale experimenten zijn nauw verwant aan evaluatie van het programma. Voor meer informatie over het beleid experimenten, zie Orr (1998) , Glennerster and Takavarasha (2013) , en Heckman and Smith (1995) .

Een aantal kranten hebben labo en veldexperimenten in de abstracte vergeleken (Falk and Heckman 2009; Cialdini 2009) en in termen van uitkomsten van specifieke experimenten in de politieke wetenschappen (Coppock and Green 2015) , economie (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) en psychologie (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) biedt een mooi onderzoek ontwerp voor het vergelijken van resultaten uit het lab en veldexperimenten.

Zorgen over de deelnemers hun gedrag te veranderen, omdat ze weten dat ze worden nauwlettend geobserveerd worden soms vraageffecten, en ze zijn onderzocht in de psychologie (Orne 1962) en economie (Zizzo 2009) . Hoewel meestal geassocieerd met lab experimenten, kunnen deze zelfde problemen problemen veldexperimenten veroorzaken ook. In feite zijn vraageffecten soms ook Hawthorne-effecten, een term die is afgeleid van een veldexperiment, in het bijzonder de beroemde verlichting experimenten die begon in 1924 bij de Hawthorne Works van de Western Electric Company (Adair 1984; Levitt and List 2011) . Beide effecten vraag en Hawthorn effecten zijn nauw verwant aan het idee van reactieve meting in hoofdstuk 2 (zie ook Webb et al. (1966) ).

De geschiedenis van veldexperimenten is beschreven in de economie (Levitt and List 2009) , de politieke wetenschappen (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psychologie (Shadish 2002) , en de openbare orde (Shadish and Cook 2009) . Een gebied van de sociale wetenschappen, waar veldproeven werd al snel prominent is de internationale ontwikkeling. Voor een positieve beoordeling van dat werk in de economie zien Banerjee and Duflo (2009) , en voor een kritische evaluatie te zien Deaton (2010) . Voor een overzicht van dit werk in de politieke wetenschappen zien Humphreys and Weinstein (2009) . Ten slotte hebben de ethische uitdagingen die betrokken zijn bij veldexperimenten onderzocht in de politieke wetenschappen (Humphreys 2015; Desposato 2016b) en ontwikkelingseconomie (Baele 2013) .

In het hoofdstuk stelde ik voorbehandeling informatie kan worden gebruikt om de nauwkeurigheid van geschatte behandelingseffecten te verbeteren, maar er is enige discussie over deze benadering: Freedman (2008) , Lin (2013) en Berk et al. (2013) ; zie Bloniarz et al. (2016) voor meer informatie.

  • Die verder gaat dan eenvoudige experimenten (paragraaf 4.4)

Ik heb ervoor gekozen om zich te concentreren op drie concepten: validiteit, heterogeniteit van de effecten van de behandeling, en mechanismen. Deze concepten hebben verschillende namen in verschillende gebieden. Bijvoorbeeld, psychologen hebben de neiging om verder te gaan dan eenvoudige proeven door te focussen op mediators en moderators (Baron and Kenny 1986) . Het idee van mediators wordt gevangen genomen door wat ik noem mechanismen, en het idee van moderators wordt gevangen genomen door wat ik de externe validiteit (bijvoorbeeld, zou de resultaten van het experiment zijn anders als het werd uitgevoerd in verschillende situaties) en heterogeniteit van de behandeling effecten (bellen bijvoorbeeld zijn de effecten groter voor sommige mensen dan anderen).

Het experiment van Schultz et al. (2007) laat zien hoe maatschappijtheorieën kan worden gebruikt om effectieve interventies te ontwerpen. Voor een meer algemene discussie over de rol van de theorie in het ontwerpen van effectieve interventies, zie Walton (2014) .

  • Geldigheid (paragraaf 4.4.1)

De concepten van de interne en externe validiteit werden voor het eerst geïntroduceerd in Campbell (1957) . Zie Shadish, Cook, and Campbell (2001) voor een meer gedetailleerde geschiedenis en een zorgvuldige uitwerking van statistische conclusie validiteit, interne validiteit, validiteit en externe validiteit te construeren.

Voor een overzicht van kwesties in verband met statistische conclusie geldigheid experimenten zien Gerber and Green (2012) (voor een sociaal-wetenschappelijk perspectief) en Imbens and Rubin (2015) (voor een statistische vooruitzichten). Sommige problemen van de statistische conclusie geldigheid die zich specifiek voordoen in online veldproeven omvatten onderwerpen zoals computationeel efficiënte methoden voor het creëren van betrouwbaarheidsintervallen met afhankelijke gegevens (Bakshy and Eckles 2013) .

Interne validiteit kan moeilijk zijn om te verzekeren in complexe veldproeven. Zie bijvoorbeeld Gerber and Green (2000) , Imai (2005) , en Gerber and Green (2005) voor discussie over de uitvoering van een samengesteld veldexperiment over stemming. Kohavi et al. (2012) en Kohavi et al. (2013) geven een inleiding in de uitdagingen van de interval geldigheid online veldexperimenten.

Een belangrijk punt van zorg met interne validiteit is problemen met de randomisatie. Een manier om potentieel problemen de randomisatie detecteren is op de behandeling en controlegroepen vergelijk waarneembare kenmerken. Dit soort vergelijking wordt een balans controle. Zie Hansen and Bowers (2008) voor een statistische benadering van de controles in evenwicht te brengen, en te zien Mutz and Pemantle (2015) voor zorgen over balans controles. Bijvoorbeeld met behulp van een balans controleren Allcott (2011) vonden dat er enig bewijs dat de randomisatie niet correct in drie van de experimenten werd uitgevoerd enkele OPower experimenten (zie tabel 2; plaatsen 2, 6 en 8). Voor andere benaderingen, zie Imbens and Rubin (2015) , hoofdstuk 21.

Andere belangrijke problemen met betrekking tot de interne validiteit zijn: 1) eenzijdige niet-naleving, waarbij niet iedereen in de behandelde groep in feite de behandeling ontvangen, 2) met twee kanten niet-naleving, waarbij niet iedereen in de behandelde groep de behandeling en sommige ontvangt mensen in de controlegroep ontvangen de behandeling, 3) verloop, waarbij de resultaten niet worden gemeten voor sommige deelnemers, en 4) interferentie, waarbij de behandeling de grenzen tussen mensen in de behandelingsgroep aan mensen in de controlegroep. Zie Gerber and Green (2012) de hoofdstukken 5, 6, 7 en 8 voor meer informatie over elk van deze onderwerpen.

Voor meer informatie over construct validiteit, zie Westen and Rosenthal (2003) , en voor meer informatie over construct validiteit in big data bronnen, Lazer (2015) en hoofdstuk 2 van dit boek.

Eén aspect van de externe validiteit is de omgeving waar een interventie wordt getest. Allcott (2015) zorgt voor een zorgvuldige theoretische en empirische behandeling van de gekozen locaties vooringenomenheid. Dit probleem wordt ook besproken in Deaton (2010) . Naast het feit dat gerepliceerd in vele plaatsen, het huis Energierapport interventie ook onafhankelijk onderzocht door meerdere onderzoeksgroepen (bijvoorbeeld Ayres, Raseman, and Shih (2013) ).

  • Heterogeniteit van de effecten van de behandeling (paragraaf 4.4.2)

Voor een uitstekend overzicht van heterogeniteit van behandeleffecten in veldexperimenten, zie hoofdstuk 12 van Gerber and Green (2012) . Voor de inleidingen op de heterogeniteit van de effecten van de behandeling in klinische studies, zie Kent and Hayward (2007) , Longford (1999) , en Kravitz, Duan, and Braslow (2004) . Heterogeniteit van behandelingseffecten algemeen gericht op verschillen naar voorbehandeling kenmerken. Als u geïnteresseerd bent in heterogeniteit op basis van post-behandeling resultaten zijn, dan is complexer approachs nodig zijn zoals principal stratificatie (Frangakis and Rubin 2002) ; Zie Page et al. (2015) voor een overzicht.

Veel onderzoekers schatten de heterogeniteit van de behandeling effecten met behulp van lineaire regressie, maar nieuwere methoden rekenen op machine learning, bijvoorbeeld Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , en Athey and Imbens (2016a) .

Er is enige scepsis over de bevindingen van de heterogeniteit van de effecten als gevolg van meervoudige vergelijking problemen en "vissen." Er zijn een verscheidenheid van statistische methoden die kunnen helpen zorgen over de meervoudige vergelijking (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Een manier om de bezorgdheid over "vissen" is pre-registratie, die steeds vaker in de psychologie (Nosek and Lakens 2014) , de politieke wetenschappen (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) en economie (Olken 2015) .

In het onderzoek van Costa and Kahn (2013) slechts ongeveer de helft van de huishoudens in het experiment konden worden gekoppeld aan de demografische gegevens. Lezers die geïnteresseerd zijn in de informatie en mogelijke problemen met deze analyse moet verwijzen naar de originele papieren.

  • Mechanismen (paragraaf 4.4.3)

Mechanismen zijn ongelooflijk belangrijk, maar ze blijken zeer moeilijk te bestuderen zijn. Onderzoek naar mechanismen die nauw verwant is aan de studie van de bemiddelaars in de psychologie (maar zie ook VanderWeele (2009) voor een nauwkeurige vergelijking tussen de twee ideeën). Statistische benaderingen vinden mechanismen, zoals de aanpak die in Baron and Kenny (1986) , zijn vrij algemeen. Helaas, het blijkt dat deze werkzaamheden is afhankelijk van een aantal sterke aannames (Bullock, Green, and Ha 2010) en lijden wanneer er meerdere mechanismen, zoals men zou verwachten in veel situaties (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) en Imai and Yamamoto (2013) bieden een aantal verbeterde statistische methoden. Verder VanderWeele (2015) biedt een book-length behandeling met een aantal belangrijke resultaten, met inbegrip van een alomvattende aanpak van de gevoeligheidsanalyse.

Een aparte aanpak is gericht op experimenten die proberen het mechanisme direct (bijvoorbeeld die zeilers vitamine C) te manipuleren. Helaas in veel sociale wetenschappen instellingen zijn er vaak meerdere mechanismen en het is moeilijk om behandelingen die veranderen zonder de anderen zoek. Sommige benaderingen van experimenteel veranderen mechanismen zijn beschreven in Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , en Pirlott and MacKinnon (2016) .

Tot slot, mechanismen hebben ook een lange geschiedenis in de filosofie van de wetenschap, zoals beschreven door Hedström and Ylikoski (2010) .

  • Met behulp van bestaande omgevingen (paragraaf 4.5.1.1)

Voor meer informatie over het gebruik van de correspondentie studies en audit studies voor het meten van discriminatie zien Pager (2007) .

  • Bouw je eigen experiment (paragraaf 4.5.1.2)

De meest voorkomende manier om deelnemers te werven voor experimenten die je bouwt is Amazon Mechanical Turk (MTurk). Omdat MTurk bootst aspecten van de traditionele lab experimenten betaalde mensen om taken die zij niet voor vrij veel onderzoekers zou doen voltooien zijn al begonnen met behulp van Turkers (de arbeiders op MTurk) als deelnemers aan menselijke proefpersonen experimenten resulteert in een snellere en goedkopere verzamelen van gegevens dan de traditionele on-campus laboratoriumexperimenten (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

De grootste kracht van experimenten met deelnemers gerekruteerd uit MTurk zijn logistieke: ze laten de onderzoekers de deelnemers snel en zo nodig te werven. Overwegende dat laboratoriumexperimenten weken te lopen kan nemen en veldexperimenten kan maanden duren om de set-up, kunnen experimenten met deelnemers gerekruteerd uit MTurk worden uitgevoerd in dagen. Bijvoorbeeld, Berinsky, Huber, and Lenz (2012) waren in staat om 400 patiënten te werven in een enkele dag om deel te nemen in een 8 minuten experiment. Verder kunnen deze deelnemers worden geworven voor vrijwel elk doel (met inbegrip van enquêtes en massale samenwerking, zoals besproken in de hoofdstukken 3 en 5). Dit gemak van rekrutering betekent dat onderzoekers sequenties van verwante experimenten kunnen worden uitgevoerd in hoog tempo op.

Voor het werven van deelnemers uit MTurk voor uw eigen experimenten, zijn er vier belangrijke dingen om te weten. Ten eerste, veel onderzoekers hebben een niet-specifieke scepsis van experimenten met Turkers. Omdat deze scepsis niet specifiek, is het moeilijk te bestrijden bewijs. Echter, na enkele jaren van studies met behulp van Turkers, kunnen we nu concluderen dat deze scepsis is niet bijzonder nodig. Er zijn veel studies vergelijken van de demografie van Turkers naar andere populaties en vele studies vergelijking van de resultaten van experimenten met Turkers om de resultaten van andere populaties geweest. Gezien al dit werk, ik denk dat de beste manier voor u om na te denken over het is dat Turkers zijn een redelijk gemak monster, net als studenten, maar iets meer divers (Berinsky, Huber, and Lenz 2012) . Dus, net als leerlingen krijgen een redelijke populatie voor sommige, maar niet alle experimenteel onderzoek, Turkers zijn van een redelijke populatie voor sommige, maar niet alle onderzoek. Als je gaat werken met Turkers, dan is het zinvol om veel van deze vergelijkende studies te lezen en hun nuances te begrijpen.

Ten tweede hebben de onderzoekers best-practices voor het verhogen van de interne validiteit van Turk experimenten ontwikkeld, en je moet leren over en volg deze best-practices (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Zo zijn onderzoekers met behulp van Turkers aangemoedigd om screeners te gebruiken om onoplettende deelnemers verwijderen (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (maar zie ook DJ Hauser and Schwarz (2015b) en DJ Hauser and Schwarz (2015a) ). Als je niet onoplettend deelnemers te verwijderen, dan is elke effect van de behandeling kan worden uitgevoerd door lawaai ingevoerd uit onoplettend deelnemers gewassen, en in de praktijk het aantal onoplettende deelnemers aanzienlijk kunnen zijn. In het experiment van Huber en collega's (2012) mislukt ongeveer 30% van de deelnemers basic aandacht zeefinstallatie. Een ander probleem gemeen met Turkers is niet naïef deelnemers (Chandler et al. 2015) .

Ten derde, ten opzichte van andere vormen van digitale experimenten MTurk experimenten niet schaal; Stewart et al. (2015) schat dat op een gegeven moment er slechts ongeveer 7000 mensen MTurk.

Tot slot, moet u weten dat MTurk is een gemeenschap met eigen regels en normen (Mason and Suri 2012) . Op dezelfde manier dat je zou proberen te weten te komen over de cultuur van een land waar je naar uw experimenten uit te voeren, moet je proberen om meer over de cultuur en normen van Turkers erachter te komen (Salehi et al. 2015) . En, moet u weten dat de Turkers zullen praten over uw experiment als je iets ongepast of onethisch te doen (Gray et al. 2016) .

MTurk is een ongelooflijk handige manier om deelnemers te werven voor uw experimenten, of ze zijn lab-achtige, zoals Huber, Hill, and Lenz (2012) , of meer veld-achtige, zoals Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) en Mao et al. (2016) .

  • Bouw je eigen product (paragraaf 4.5.1.3)

Als u denkt aan het proberen om je eigen product te creëren, adviseer ik dat u het advies aangeboden door de MovieLens groep lezen Harper and Konstan (2015) . Een belangrijk inzicht van hun ervaring is dat voor elk succesvol project zijn er vele, vele mislukkingen. Bijvoorbeeld de MovieLens groep lanceerde andere producten, zoals GopherAnswers die volledige mislukkingen waren (Harper and Konstan 2015) . Een ander voorbeeld van een onderzoeker niet tijdens een poging om een ​​product te bouwen is Edward Castronova's poging om een ​​online spel genaamd Arden bouwen. Ondanks de $ 250.000 in de financiering van het project was een flop (Baker 2008) . Projecten als GopherAnswers en Arden zijn helaas veel vaker voor dan projecten zoals MovieLens. Tot slot, toen ik zei dat ik niet weet van een andere onderzoekers die met succes had gebouwd producten voor herhaalde experimenten hier zijn mijn criteria: 1) de deelnemers gebruik maken van het product als gevolg van wat het hen (bijvoorbeeld, worden ze niet betaald en ze zijn niet vrijwilligers helpen wetenschap) en 2) het product is gebruikt voor meerdere verschillende experiment (dat wil zeggen, niet hetzelfde experiment meerdere keren met verschillende deelnemers baden). Als u weet van andere voorbeelden, laat het me weten.

  • Partner met de krachtige (paragraaf 4.5.2)

Ik heb het idee van Pasteur's Quadrant besproken op tech bedrijven gehoord, en het helpt het organiseren van de onderzoeksinspanningen op Google (Spector, Norvig, and Petrov 2012) .

Binding en onderzoek collega's (2012) wordt ook geprobeerd het effect van deze behandelingen op de vrienden van degenen die ze ontvangen detecteren. Door de opzet van het experiment, deze spillovers moeilijk om netjes te detecteren; geïnteresseerde lezers zou moeten zien Bond et al. (2012) voor een meer diepgaande discussie. Dit experiment maakt deel uit van een lange traditie van experimenten in de politieke wetenschappen aan de inspanningen ter bevordering van het stemmen (Green and Gerber 2015) . Deze get-out-the-vote experimenten komen vaak voor een deel omdat ze in Pasteur Kwadrant. Dat wil zeggen, er zijn veel mensen die gemotiveerd zijn om de stemming en de stemming te verhogen kan een interessante gedrag meer algemene theorieën over gedragsverandering en sociale invloed te testen.

Andere onderzoekers hebben verstrekt advies over het uitvoeren van veldproeven met partnerorganisaties zoals politieke partijen, ngo's en bedrijven (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Anderen hebben advies over hoe partnerschappen met organisaties onderzoek ontwerpen van invloed kan zijn aangeboden (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerschap kan ook leiden tot ethische vragen (Humphreys 2015; Nickerson and Hyde 2016) .

  • Ontwerp, advies (paragraaf 4.6)

Als je gaat maken van een analyse plannen voordat u uw experiment, stel ik voor dat je begint met het lezen van richtlijnen voor rapportage. The Consort (geconsolideerde Standard rapportering van de proeven) richtlijnen zijn ontwikkeld in de geneeskunde (Schulz et al. 2010) en aangepast voor sociaal onderzoek (Mayo-Wilson et al. 2013) . Een verwante set van richtlijnen is ontwikkeld door de redactie van het Journal of Experimental Politieke Wetenschappen (Gerber et al. 2014) (zie ook Mutz and Pemantle (2015) en Gerber et al. (2015) ). Ten slotte hebben de rapportage richtlijnen zijn ontwikkeld in de psychologie (Group 2008) , en zie ook Simmons, Nelson, and Simonsohn (2011) .

Als u een analyse plan te maken moet u overwegen pre-registreren, omdat pre-registratie van het vertrouwen dat anderen in de resultaten zal toenemen. Verder, als u werkt met een partner, zal het vermogen van uw partner om de analyse te veranderen na het zien van de resultaten te beperken. Voorinschrijving is steeds vaker in de psychologie (Nosek and Lakens 2014) , de politieke wetenschappen (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) en economie (Olken 2015) .

Tijdens het maken van uw pre-analyse plan moet u zich ervan bewust dat sommige onderzoekers ook regressie en aanverwante benaderingen te gebruiken om de nauwkeurigheid van de geschatte effect van de behandeling te verbeteren, en er is enige discussie over deze aanpak: Freedman (2008) , Lin (2013) , en Berk et al. (2013) ; zie Bloniarz et al. (2016) voor meer informatie.

Ontwerp advies specifiek voor online veldexperimenten wordt ook gepresenteerd in Konstan and Chen (2007) en Chen and Konstan (2015) .

  • Maak zero variabele kosten van gegevens (paragraaf 4.6.1)

Voor meer informatie over de MusicLab experimenten, zie Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , en Salganik (2007) . Voor meer informatie over winner-take-all markten, zie Frank and Cook (1996) . Voor meer informatie over ontwarren geluk en vaardigheid meer in het algemeen, zie Mauboussin (2012) , Watts (2012) en Frank (2016) .

Er is een andere benadering voor het elimineren van deelnemer betalingen die onderzoekers moet gebruiken met de nodige voorzichtigheid: dienstplicht. In veel online veldexperimenten deelnemers zijn in principe opgeroepen voor experimenten en nooit gecompenseerd. Voorbeelden van deze aanpak zijn Restivo en Van de Rijt's (2012) experiment op beloningen in Wikipedia en Bond en collega's (2012) experiment op het stimuleren van mensen om te stemmen. Deze experimenten hebben niet echt nul variabele kosten, ze hebben nul variabele kosten voor onderzoekers. Hoewel de kosten van veel van deze experimenten is zeer klein elke deelnemer, kleine lasten enorm aantal deelnemers kan snel oplopen. Onderzoekers running massale online experimenten rechtvaardigen vaak het belang van kleine verwachte effecten van de behandeling door te zeggen dat deze kleine effecten van belang kan worden wanneer toegepast op veel mensen. Exact dezelfde denken geldt voor de kosten die de onderzoekers op te leggen aan de deelnemers. Als uw experimenten zorgt ervoor dat een miljoen mensen tot een minuut te verspillen, het experiment is niet erg schadelijk is voor een bepaalde persoon, maar in totaal bijna twee jaar tijd is verspild.

Een andere benadering voor het creëren van nul variabele kosten betaling aan deelnemers aan een loterij, een aanpak die ook is gebruikt in survey-onderzoek gebruiken (Halpern et al. 2011) . Tot slot, voor meer informatie over het ontwerpen van plezierige gebruikerservaring-ervaringen zien Toomim et al. (2011) .

  • Vervang, verfijnen en verkleinen (paragraaf 4.6.2)

Hier zijn de oorspronkelijke definities van de drie R, van Russell and Burch (1959) :

"Vervanging betekent dat de vervanging van bewuste levende hogere dieren van Insentient materiaal. Reductiemiddelen vermindering van het aantal dieren dat om informatie van een bepaald bedrag en precisie te verkrijgen. Verfijning: een afname in de incidentie of de ernst van onmenselijke procedures toegepast voor die dieren die nog moeten worden gebruikt. "

De drie R's die ik voorstel niet negeren de ethische principes in hoofdstuk 6 beschreven Integendeel, ze zijn een meer uitgewerkte versie één van die beginselen-weldadigheid-specifiek voor de instelling van de menselijke experimenten.

Bij het overwegen van Emotional Contagion, zijn er drie niet-ethische kwesties in gedachten te houden bij het interpreteren van dit experiment. Ten eerste is het niet duidelijk hoe de werkelijke details van het experiment verbinden met de theoretische conclusies; met andere woorden, er vragen over construct validiteit. Het is niet duidelijk dat de positieve en negatieve woord telt zijn eigenlijk een goede indicator van de emotionele toestand van de deelnemers omdat 1) het is niet duidelijk dat de woorden die mensen plaatsen zijn een goede indicator van hun emoties en 2) het is niet duidelijk dat de bijzondere sentiment analyse techniek die de onderzoekers in staat is om op betrouwbare wijze af te leiden emoties (Beasley and Mason 2015; Panger 2016) . Anders gezegd, kan er een slechte mate van voorgespannen signaal. Ten tweede, het ontwerpen en analyseren van de proef zegt niets over die was het meest beïnvloed (dat wil zeggen, er is geen analyse van heterogeniteit van behandelingseffecten) en wat het mechanisme zou kunnen zijn. In dit geval hadden de onderzoekers veel informatie over de deelnemers, maar zij werden in hoofdzaak behandeld zoals widgets in de analyse. Ten derde, het effect grootte in dit experiment zeer klein; het verschil tussen behandelde en aandoeningen is ongeveer 1 in 1000 woorden. In hun paper, Kramer en collega's maken het geval dat een effect van deze omvang is van belang omdat honderden miljoenen mensen toegang krijgen tot hun News Feed elke dag. Met andere woorden, ze beweren dat zelfs effecten die klein is voor elke persoon die zij zijn groot in totaal zijn. Zelfs als je om dit argument te accepteren, is het nog steeds niet duidelijk of een effect van deze omvang is het van belang met betrekking tot de meer algemene wetenschappelijke vraag over emotionele besmetting. Voor meer informatie over de situaties waarin kleine effecten zijn belangrijk zie Prentice and Miller (1992) .

In termen van de eerste R (vervanging), het vergelijken van de Emotional Contagion experiment (Kramer, Guillory, and Hancock 2014) en de emotionele besmetting natuurlijk experiment (Coviello et al. 2014) biedt een aantal algemene lessen over de trade-offs die betrokken zijn bij het ​​verplaatsen van experimenten om natuurlijke experimenten (en andere benaderingen, zoals die passen bij die poging om experimenten in niet-experimentele data te benaderen, zie hoofdstuk 2). Naast de ethische voordelen overschakelen van experimenteel niet-experimentele studies laat ook onderzoekers behandelingen die ze logistiek niet implementeren bestuderen. Deze ethische en logistieke voordelen komen op een prijs, echter. Met natuurlijke experimenten onderzoekers hebben minder controle over zaken als werving van deelnemers, randomisatie, en de aard van de behandeling. Bijvoorbeeld, een beperking van neerslag als behandeling is dat het zowel verhoogt positiviteit en negativiteit afneemt. In de experimentele studie is echter Kramer en collega's waren in staat om positiviteit en negativiteit onafhankelijk van elkaar aan te passen.

De specifieke aanpak van Coviello et al. (2014) werd verder uitgewerkt in Coviello, Fowler, and Franceschetti (2014) . Voor een kennismaking met instrumentele variabelen zien Angrist and Pischke (2009) (minder formele) of Angrist, Imbens, and Rubin (1996) (meer formele). Voor een sceptische beoordeling van instrumentele variabelen zie Deaton (2010) , en voor een kennismaking met instrumentele variabelen met zwakke instrumenten (regen is een zwak instrument), zie Murray (2006) .

Meer in het algemeen, een goede introductie tot de natuurlijke experimenten is Dunning (2012) , en Rosenbaum (2002) , Rosenbaum (2009) , en Shadish, Cook, and Campbell (2001) bieden een goede ideeën over het schatten van causale effecten zonder experimenten.

In termen van de tweede R (Refinement), zijn er wetenschappelijke en logistieke afwegingen bij het overwegen van het wijzigen van het ontwerp van Emotional Contagion van het blokkeren van berichten tot het stimuleren van berichten. Zo kan het zijn dat de technische uitvoering van de News Feed maakt het nagenoeg gemakkelijker een experiment met blokkerende berichten in plaats van een proef met stimuleren berichten zijn (merk op dat een proef met blokkerende berichten kan worden geïmplementeerd als een laag op bovenkant News Toevoersysteem zonder enige noodzaak voor wijziging van het onderliggende systeem). Wetenschappelijk, maar de theorie van het experiment gericht niet duidelijk suggereren een ontwerp over de andere.

Helaas, ik ben niet op de hoogte van belangrijke eerder onderzoek over de relatieve voordelen van het blokkeren en het stimuleren van de inhoud in de News Feed. Ook heb ik niet gezien veel onderzoek over het verfijnen van behandelingen om ze minder schadelijk te maken; enige uitzondering is Jones and Feamster (2015) , die de zaak voor het meten van internetcensuur beschouwt (een onderwerp bespreek ik in hoofdstuk 6 in relatie tot de Encore studie (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

In termen van de derde R (reductie), een goede introductie tot de traditionele macht analyse Cohen (1988) . Voorbehandeling covariaten kunnen in het ontwerpstadium en de analysefase experimenten; Hoofdstuk 4 van Gerber and Green (2012) biedt een goede introductie tot beide benaderingen, en Casella (2008) voorziet in een meer diepgaande behandeling. Technieken die deze voorbehandeling informatie in de randomisatie gebruiken worden meestal genoemd ofwel geblokkeerd experimentele ontwerpen of gelaagde experimentele ontwerpen (de terminologie wordt niet consequent gebruikt in gemeenschappen); deze technieken zijn diep gerelateerd aan de gestratificeerde steekproeven besproken in hoofdstuk 3. Zie Higgins, Sävje, and Sekhon (2016) voor meer informatie over het gebruik van deze ontwerpen in massieve experimenten. Voorbehandeling covariaten zijn mogelijk in de analysefase. McKenzie (2012) onderzoekt de verschil-in-verschillen benadering analyseren veldexperimenten nader. Zie Carneiro, Lee, and Wilhelm (2016) voor meer informatie over de trade-offs tussen de verschillende benaderingen om de precisie in de schattingen van de effecten van de behandeling te verhogen. Tot slot, bij de beslissing of om te proberen voorbehandeling covariaten in het ontwerp of de analyse fase (of beide) omvatten, zijn er een paar factoren te overwegen. In een omgeving waar onderzoekers willen laten zien dat ze niet "vissen" (Humphreys, Sierra, and Windt 2013) , met behulp van voorbehandeling covariaten in de ontwerpfase kan nuttig zijn (Higgins, Sävje, and Sekhon 2016) . In situaties waar de deelnemers arriveren achtereenvolgens, vooral online veldexperimenten, met behulp van pre-behandeling van informatie in de ontwerpfase kan logistiek moeilijk zijn, zie bijvoorbeeld Xie and Aurisset (2016) .

Het is de moeite waard het toevoegen van een beetje van intuïtie over de reden waarom het verschil-in-verschillen zo veel effectiever kan zijn dan het verschil-in-middelen. Veel online uitkomsten hebben een zeer hoge variantie (zie bijvoorbeeld, Lewis and Rao (2015) en Lamb et al. (2015) ) en zijn relatief stabiel in de tijd. In dit geval wordt de wijziging score aanzienlijk kleinere variantie, waardoor de kracht van de statistische toets. Een reden dat deze benaderd wordt niet meer gebruikt wordt dat vóór het digitale tijdperk het niet gebruikelijk om voorbehandeling uitkomsten. Een meer concrete manier om na te denken over het is om een ​​experiment voorstellen om te meten of een specifieke oefening routine veroorzaakt gewichtsverlies. Als u een verschil-in-middelen aanpak doet, zal uw schatting variabiliteit die afkomstig is van de schommelingen in de gewichten in de bevolking. Als een verschil in-difference aanpak hebben echter, dat natuurlijk voorkomende variatie in gewicht wordt verwijderd en gemakkelijker verschil veroorzaakt door de behandeling detecteren.

Een belangrijke manier om het aantal deelnemers aan het experiment te verminderen is een power analyse, die Kramer en collega's zou hebben gedaan op basis van het effect maten waargenomen vanuit de natuurlijke experiment door te voeren Coviello et al. (2014) of eerder niet experimenteel onderzoek door Kramer (2012) (in feite zijn activiteiten aan het einde van dit hoofdstuk). Merk op dat het gebruik van macht analyse is een beetje anders dan de typische. In het analoge tijdperk, onderzoekers deden over het algemeen macht analyse om ervoor te zorgen dat hun studie was niet te klein (dwz onder-powered). Nu echter, onderzoekers moeten de macht analyse te doen om ervoor te zorgen dat hun studie niet te groot is (dat wil zeggen, over-powered).

Tot slot, ik vond het toevoegen van een vierde R: Repurpose. Dat wil zeggen, als de onderzoekers zich bevinden met meer experimentele data dan ze nodig hebben om hun oorspronkelijke onderzoeksvraag te beantwoorden, moeten ze de gegevens hergebruiken om nieuwe vragen te stellen. Stel bijvoorbeeld dat Kramer en collega's een verschil-in-verschillen schatter zelf had gebruikt en gevonden met meer gegevens dan nodig is om hun onderzoeksvraag te beantwoorden. In plaats niet met de data in de ruimste zin, kunnen zij de grootte van het effect bestudeerd als functie voorbehandelen emotionele expressie. Zoals Schultz et al. (2007) bleek dat het effect van de behandeling was anders voor lichte en zware gebruikers, misschien wel de effecten van de News Feed anders voor mensen die al de neiging om gelukkig (of verdrietig) berichten waren. Herbestemming zou kunnen leiden tot "vissen" (Humphreys, Sierra, and Windt 2013) en "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , maar deze zijn grotendeels adresseerbaar met een combinatie van eerlijke rapportage (Simmons, Nelson, and Simonsohn 2011) , pre-registratie (Humphreys, Sierra, and Windt 2013) , en machine learning methoden die proberen te voorkomen dat over-fitting.