ytterligere kommentarer

Denne delen er utformet for å bli brukt som en referanse, i stedet for å bli lest som en fortelling.

  • Innledning (§ 4.1)

Spørsmål om kausalitet i samfunnsforskningen er ofte komplekse og intrikate. For en grunnlegg tilnærming til kausalitet basert på årsaks grafer, se Pearl (2009) , og for en grunnlegg tilnærming basert på mulige utfall, se Imbens and Rubin (2015) (og den tekniske vedlegg i dette kapitlet). For en sammenligning mellom disse to tilnærmingene, se Morgan and Winship (2014) . For en formell tilnærming til å definere en confounder, se VanderWeele and Shpitser (2013) .

I kapittelet, opprettet jeg det virket som en lysende linje mellom vår evne til å gjøre årsaks estimater fra eksperimentelle og ikke-eksperimentdata. I virkeligheten tror jeg at skillet er blurrier. For eksempel, alle aksepterer at røyking fører til kreft, selv om vi aldri har gjort en randomisert kontrollert eksperiment som tvinger folk til å røyke. For gode bok lengde behandlinger på å gjøre årsaks anslag fra ikke-eksperimentelle data se Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , og Dunning (2012) .

Kapittel 1 og 2 av Freedman, Pisani, and Purves (2007) gir en klar innføring i forskjellene mellom eksperimenter, kontrollerte eksperimenter, og randomiserte kontrollerte forsøk.

Manzi (2012) gir et fascinerende og lesbar innføring i filosofiske og statistiske fundamentet for randomiserte kontrollerte eksperimenter. Det gir også interessante reelle eksempler på kraften av eksperimentering i næringslivet.

  • Hva er eksperimenter? (§ 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) gir gode introduksjoner til de statistiske aspekter av eksperimentell design og analyse. Videre, det er gode behandlinger av bruk av eksperimenter i mange ulike felt: økonomi (Bardsley et al. 2009) , Sosiologi (Willer and Walker 2007; Jackson and Cox 2013) , psykologi (Aronson et al. 1989) , Statsvitenskap (Morton and Williams 2010) , og sosialpolitikk (Glennerster and Takavarasha 2013) .

Betydningen av deltaker rekruttering (f.eks sampling) er ofte undervurdert i eksperimentell forskning. Men hvis effekten av behandlingen er heterogene i befolkningen, så prøvetaking er avgjørende. Longford (1999) gjør dette punktet klart da han talte for forskere tenker på eksperimenter som en befolkningsundersøkelse med tilfeldig prøvetaking.

  • To dimensjoner av eksperimenter: lab-feltet og analog-digital (§ 4.3)

Den motsetningen som jeg presenterte mellom lab og feltforsøk er litt forenklet. Faktisk har andre forskere foreslått mer detaljerte typologier, spesielt de som skiller de ulike former for feltforsøk (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Videre er det to andre typer eksperimenter utført av samfunnsvitere som ikke passer pent inn i lab og felt dikotomi:. Undersøkelsen eksperimenter og sosiale eksperimenter Survey eksperimenter eksperimenter med infrastrukturen i eksisterende undersøkelser og sammenligne svar på alternative versjoner av samme spørsmålene (noen undersøkelse eksperimenter er presentert i kapittel 3); for mer om undersøkelsen eksperimenter se Mutz (2011) . Sosiale eksperimenter eksperimenter der behandlingen er noen sosialpolitikk som bare kan gjennomføres av en regjering. Sosiale eksperimenter er nært knyttet til programevaluering. For mer om politiske eksperimenter, se Orr (1998) , Glennerster and Takavarasha (2013) , og Heckman and Smith (1995) .

En rekke aviser har sammenlignet med lab og feltforsøk i det abstrakte (Falk and Heckman 2009; Cialdini 2009) og i form av utfall av konkrete eksperimenter i statsvitenskap (Coppock and Green 2015) , økonomi (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) og psykologi (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) gir en fin forskningsdesign for å sammenligne resultater fra lab og feltforsøk.

Bekymringer om deltakerne endrer sin atferd, fordi de vet at de blir nøye fulgt kalles etterspørselseffekter, og de ​​har blitt studert i psykologi (Orne 1962) og økonomi (Zizzo 2009) . Selv om det meste i forbindelse med laboratorieeksperimenter, kan de samme problemene føre til problemer for feltforsøk i tillegg. Faktisk er etterspørselsvirkninger også noen ganger kalt hawthorneeffekten, et begrep som stammer fra et felteksperiment, spesielt de berømte belysning eksperimenter som begynte i 1924 på Hawthorne Works of the Western Electric Company (Adair 1984; Levitt and List 2011) . Begge etterspørselseffekter og Hawthorn effekter er nært knyttet til ideen om reaktiv måling omtalt i kapittel 2 (se også Webb et al. (1966) ).

Historien om feltforsøk har blitt beskrevet i økonomi (Levitt and List 2009) , statsvitenskap (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psykologi (Shadish 2002) , og offentlig politikk (Shadish and Cook 2009) . Et område av samfunnsvitenskapelig hvor feltforsøk ble raskt fremtredende er internasjonal utvikling. For en positiv vurdering av dette arbeidet innen økonomi se Banerjee and Duflo (2009) , og for en kritisk vurdering se Deaton (2010) . For en gjennomgang av dette arbeidet i statsvitenskap se Humphreys and Weinstein (2009) . Endelig har de etiske utfordringene som er involvert med feltforsøk blitt utforsket i statsvitenskap (Humphreys 2015; Desposato 2016b) og utviklingsøkonomi (Baele 2013) .

I kapittelet, foreslo jeg at forbehandling informasjonen kan brukes til å forbedre presisjonen av estimerte behandlingseffekter, men det er noen debatt om denne tilnærmingen: Freedman (2008) , Lin (2013) , og Berk et al. (2013) ; se Bloniarz et al. (2016) for mer informasjon.

  • Moving utover enkle forsøk (§ 4.4)

Jeg har valgt å fokusere på tre begreper: validitet, heterogenitet av behandlingseffekter, og mekanismer. Disse begrepene har forskjellige navn på ulike felt. For eksempel psykologer pleier å gå utover enkle forsøk ved å fokusere på meklere og moderatorer (Baron and Kenny 1986) . Ideen om meklere fanges opp av det jeg kaller mekanismer, og ideen om moderatorer fanges opp av det jeg kaller ekstern validitet (f.eks ville resultatene av eksperimentet være annerledes hvis det ble kjørt i ulike situasjoner) og heterogenitet av behandlingseffekter ( for eksempel er effekten større for noen mennesker enn andre mennesker).

Eksperimentet av Schultz et al. (2007) viser hvordan sosiale teorier kan brukes til å utforme effektive tiltak. For en mer generell diskusjon om rollen som teorien i å utforme effektive tiltak, se Walton (2014) .

  • Gyldighet (avsnitt 4.4.1)

Begrepene intern og ekstern validitet ble først introdusert i Campbell (1957) . Se Shadish, Cook, and Campbell (2001) for en mer detaljert historie og en forsiktig utarbeidelse av statistisk konklusjon validitet, indre validitet, begrepsvaliditet og ytre validitet.

For en oversikt over problemstillinger knyttet til statistisk konklusjon gyldighet i eksperimenter se Gerber and Green (2012) (for et samfunnsvitenskapelig perspektiv) og Imbens and Rubin (2015) (for et statistisk perspektiv). Noen spørsmål om statistisk konklusjon gyldigheten som oppstår spesielt i online feltforsøk omfatte spørsmål som beregningsmessig effektive metoder for å lage konfidensintervall med avhengige data (Bakshy and Eckles 2013) .

Intern gyldighet kan være vanskelig å sikre i komplekse feltforsøk. Se for eksempel, Gerber and Green (2000) , Imai (2005) , og Gerber and Green (2005) for debatt om gjennomføringen av et komplekst felt eksperiment om stemmegivning. Kohavi et al. (2012) og Kohavi et al. (2013) gir en innføring i utfordringene i intervallet gyldighet i nettfeltforsøk.

En stor bekymring med intern validitet er problemer med randomisering. En måte å potensielt oppdage problemer med randomisering er å sammenligne behandlings- og kontrollgrupper på observerbare egenskaper. Denne typen av sammenligningen blir kalt et dekningskontroll. Se Hansen and Bowers (2008) for en statistisk tilnærming for å balansere sjekker, og se Mutz and Pemantle (2015) for bekymringer om dekningskontroll. For eksempel bruker en balanse sjekk Allcott (2011) fant at det er noen bevis på at randomisering ikke ble riktig implementert i tre av forsøkene i noen av de opower eksperimenter (se tabell 2; sider 2, 6 og 8). For andre tilnærminger, se Imbens and Rubin (2015) , kapittel 21.

Andre store bekymringer knyttet til intern validitet er: 1) ensidig avvik, der ikke alle i behandlingsgruppen faktisk har mottatt behandling, 2) to-sidig avvik, der ikke alle i behandlingsgruppen mottar behandling og noen folk i kontrollgruppen mottar behandling, 3) slitasje, der utfallet ikke er målt for noen deltakere, og 4) forstyrrelser, hvor behandlingen smitter over fra folk i behandlingen tilstanden til folk i kontroll tilstand. Se Gerber and Green (2012) kapittel 5, 6, 7 og 8 for mer om hver av disse spørsmålene.

For mer om begrepsvaliditet, se Westen and Rosenthal (2003) , og for mer om begrepsvaliditet i store datakilder, Lazer (2015) og kapittel 2 i denne boken.

Et aspekt av ekstern validitet er innstillingen der en intervensjon blir testet. Allcott (2015) gir en grundig teoretisk og empirisk behandling av valg av bias. Dette problemet er også omtalt i Deaton (2010) . I tillegg til å være kopiert i mange områder, Home Energy Rapporter intervensjon har også blitt uavhengig studert av flere forskningsgrupper (for eksempel Ayres, Raseman, and Shih (2013) ).

  • Heterogenitet behandlingseffekter (pkt 4.4.2)

For en utmerket oversikt over heterogenitet av behandlingseffekter i feltforsøk, se kapittel 12 av Gerber and Green (2012) . For introduksjoner til heterogenitet av behandlingseffekter i medisinske forsøk, se Kent and Hayward (2007) , Longford (1999) , og Kravitz, Duan, and Braslow (2004) . Heterogenitet behandlingseffekter generelt fokus på forskjeller basert på forbehandling egenskaper. Hvis du er interessert i heterogenitet basert på etterbehandlingsresultater, og mer komplekse approachs er nødvendig slik som rektor stratifisering (Frangakis and Rubin 2002) ; se Page et al. (2015) for en gjennomgang.

Mange forskere anslå heterogenitet av behandlingseffekter ved bruk av lineær regresjon, men nyere metoder stole på maskinlæring, for eksempel Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , og Athey and Imbens (2016a) .

Det er en viss skepsis om funn av heterogenitet av effekter på grunn av flere sammenligning problemer og "fiske". Det finnes en rekke statistiske metoder som kan hjelpe adresse bekymringer om multippel sammenligning (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . En tilnærming til bekymringer om "fishing" er forhåndsregistrering, som blir stadig vanligere i psykologi (Nosek and Lakens 2014) , statsvitenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) og økonomi (Olken 2015) .

I studiet av Costa and Kahn (2013) bare omtrent halvparten av husholdningene i forsøket var i stand til å være knyttet til demografisk informasjon. Lesere som er interessert i detaljer og mulige problemer med denne analysen bør se den opprinnelige papiret.

  • Mekanismer (avsnitt 4.4.3)

Mekanismer er utrolig viktig, men de viser seg å være svært vanskelig å studere. Forskning om mekanismer nært knyttet til studiet av meklere i psykologi (men se også VanderWeele (2009) for en nøyaktig sammenligning mellom de to ideer). Statistiske tilnærminger til å finne mekanismer, slik som den metode utviklet i Baron and Kenny (1986) , er ganske vanlig. Dessverre viser det seg at disse prosedyrene er avhengig av noen sterke forutsetninger (Bullock, Green, and Ha 2010) og lider når det er flere mekanismer, som man kunne forvente i mange situasjoner (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) og Imai and Yamamoto (2013) tilby noen bedre statistiske metoder. Videre VanderWeele (2015) tilbyr en bok-lengde behandling med en rekke viktige resultater, blant annet en helhetlig tilnærming til sensitivitetsanalyse.

En egen tilnærming fokuserer på eksperimenter som forsøker å manipulere mekanismen direkte (for eksempel gi seilere vitamin C). Dessverre, i mange samfunnsvitenskapelige innstillinger er det ofte flere mekanismer, og det er vanskelig å utforme behandlinger som endrer man uten å endre de andre. Noen tilnærminger til eksperimentelt endrer mekanismer er beskrevet i Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , og Pirlott and MacKinnon (2016) .

Endelig mekanismer har også en lang historie i vitenskapsteori som beskrevet av Hedström and Ylikoski (2010) .

  • Bruk av eksisterende miljøer (avsnitt 4.5.1.1)

For mer om bruk av korrespondanse studier og revisjons studier for å måle diskriminering se Pager (2007) .

  • Bygg din egen eksperiment (avsnitt 4.5.1.2)

Den vanligste måten å rekruttere deltakere til eksperimenter som du bygger er Amazon Mechanical Turk (MTurk). Fordi MTurk ligner aspekter av tradisjonelle laboratorieeksperimenter-betale folk for å fullføre oppgaver som de ikke ville gjøre for å få gratis-mange forskere har allerede begynt å bruke Turkers (arbeiderne på MTurk) som deltakere i mennesker eksperimenter som resulterer i raskere og billigere datainnsamling enn tradisjonelle on-campus laboratorieforsøk (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Den største styrken til eksperimenter med deltakere rekruttert fra MTurk er logistisk: de tillater forskere å rekruttere deltakere raskt og etter behov. Mens laboratorieeksperimenter kan ta uker å kjøre og feltforsøk kan ta måneder å sette opp, kan eksperimenter med deltakere rekruttert fra MTurk kjøres i dag. For eksempel Berinsky, Huber, and Lenz (2012) var i stand til å rekruttere 400 individer på en enkelt dag for å delta i en 8 minutters eksperiment. Videre kan disse deltakerne rekrutteres for praktisk talt alle formål (herunder undersøkelser og masse samarbeid, som omtalt i kapittel 3 og 5). Denne enkle rekruttering gjør at forskerne kan kjøre sekvenser av beslektede eksperimenter i rask rekkefølge.

Før rekruttere deltakere fra MTurk for dine egne eksperimenter, er det fire viktige ting å vite. Først mange forskere har en ikke-spesifikk skepsis av forsøk med Turkers. Fordi denne skepsisen er ikke bestemt, er det vanskelig å møte med bevis. Men etter flere år med studier med Turkers, vi kan nå konkludere med at denne skepsisen er ikke spesielt nødvendig. Det har vært mange studier som sammenligner den demografiske sammensetningen av Turkers til andre populasjoner og mange studier som sammenligner resultatene av eksperimenter med Turkers til resultater fra andre populasjoner. Gitt alt dette arbeidet, tror jeg at den beste måten for deg å tenke på det er at Turkers er en rimelig praktisk prøve, mye som studenter, men litt mer variert (Berinsky, Huber, and Lenz 2012) . Dermed, akkurat som studenter er en rimelig befolkning for noen, men ikke alle eksperimentell forskning, Turkers er en rimelig befolkning for noen, men ikke all forskning. Hvis du kommer til å jobbe med Turkers, så det er fornuftig å lese mange av disse komparative studier og forstå deres nyanser.

For det andre, har forskerne utviklet beste praksis for å øke indre validiteten av Turk eksperimenter, og du bør lære om og følge disse beste praksis (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . For eksempel er forskerne bruker Turkers oppfordres til å bruke sikte å fjerne uoppmerksom deltakere (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (men se også DJ Hauser and Schwarz (2015b) og DJ Hauser and Schwarz (2015a) ). Hvis du ikke fjerner uoppmerksom deltakere, så noen effekt av behandlingen kan bli vasket ut av støy innført fra uoppmerksom deltakere, og i praksis antall uoppmerksomme deltakerne kan være betydelige. I forsøket på Huber og kolleger (2012) ca 30% av deltakerne ikke klarte grunnleggende oppmerksomhet verk. Et annet problem som er felles med Turkers er ikke naive deltakere (Chandler et al. 2015) .

For det tredje, i forhold til andre former for digitale eksperimenter, MTurk eksperimenter kan ikke riktig målestokk, Stewart et al. (2015) anslår at det til enhver tid er det bare ca 7000 mennesker på MTurk.

Til slutt, bør du vite at MTurk er et fellesskap med sine egne regler og normer (Mason and Suri 2012) . På samme måte som du ville prøve å finne ut om kulturen i et land der du skulle kjøre eksperimentene dine, bør du prøve å finne ut mer om kultur og normer for Turkers (Salehi et al. 2015) . Og, bør du vite at Turkers vil snakke om eksperimentet hvis du gjør noe upassende eller uetisk (Gray et al. 2016) .

MTurk er en utrolig praktisk måte å rekruttere deltakere til eksperimentene dine, enten de er lab-aktig, som Huber, Hill, and Lenz (2012) , eller mer felt-aktig, slik som Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , og Mao et al. (2016) .

  • Bygg ditt eget produkt (avsnitt 4.5.1.3)

Hvis du tenker på å prøve å lage ditt eget produkt, anbefaler jeg at du leser råd tilbys av MovieLens gruppen i Harper and Konstan (2015) . En viktig innsikt fra deres erfaring er at for hver vellykket prosjekt er det mange, mange feil. For eksempel MovieLens gruppen lanserte andre produkter som GopherAnswers som var fullstendig feil (Harper and Konstan 2015) . Et annet eksempel på en forsker sviktende mens du forsøker å bygge et produkt er Edward Castronova forsøk på å bygge en online spill kalt Arden. Til tross for $ 250 000 i støtte, prosjektet var en flopp (Baker 2008) . Prosjekter som GopherAnswers og Arden er dessverre mye mer vanlig enn prosjekter som MovieLens. Til slutt, når jeg sa at jeg ikke vet om noen andre forskere som hadde lykkes bygget produkter for gjentatt eksperimentering her er mine kriterier: 1) deltakere bruke produktet på grunn av hva det gir dem (f.eks, de er ikke betalt, og de er ikke frivillige bidrar vitenskap) og 2) produktet har vært brukt i mer enn én distinkt eksperiment (dvs. ikke det samme eksperimentet flere ganger med ulike deltaker bassenger). Hvis du vet om andre eksempler, vennligst gi meg beskjed.

  • Partner med den kraftige (avsnitt 4.5.2)

Jeg har hørt ideen om Pasteurs kvadrant diskutert ofte på tech-selskapene, og det bidrar til å organisere forskningsinnsats på Google (Spector, Norvig, and Petrov 2012) .

Bond og kollegers studie (2012) forsøker også å påvise effekten av disse behandlingene på venner av dem som fikk dem. På grunn av utformingen av eksperimentet, er disse søl er vanskelige å oppdage ren; interesserte lesere bør se Bond et al. (2012) for en mer grundig diskusjon. Dette eksperimentet er en del av en lang tradisjon for eksperimenter i statsvitenskap på innsats for å oppmuntre stemmegivning (Green and Gerber 2015) . Disse get-out-the-stemme eksperimenter er vanlig blant annet fordi de er i Pasteurs kvadrant. Det vil si, det er mange mennesker som er motivert til å øke stemmegivning og stemmegivning kan være en interessant atferd for å teste mer generelle teorier om atferdsendring og sosial påvirkning.

Andre forskere har gitt råd om hvordan du kjører feltforsøk med partnerorganisasjoner som politiske partier, frivillige organisasjoner og bedrifter (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Andre har tilbudt råd om hvordan partnerskap med organisasjoner kan påvirke forskningsdesign (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerskap kan også føre til etiske spørsmål (Humphreys 2015; Nickerson and Hyde 2016) .

  • Design råd (§ 4.6)

Hvis du skal lage en analyse plan før du kjører eksperimentet, foreslår jeg at du starter med å lese retningslinjene for rapportering. Den CONSORT (Consolidated Standard Rapportering av forsøk) Retningslinjene ble utviklet i medisin (Schulz et al. 2010) og modifisert for samfunnsforskning (Mayo-Wilson et al. 2013) . En beslektet sett med retningslinjer er utviklet av redaktørene i tidsskriftet Journal of Experimental statsvitenskap (Gerber et al. 2014) (se også Mutz and Pemantle (2015) og Gerber et al. (2015) ). Endelig har rapporterings retningslinjer er utviklet i psykologi (Group 2008) , og se også Simmons, Nelson, and Simonsohn (2011) .

Hvis du oppretter en analyse plan bør du vurdere før du registrerer det fordi pre-registrering vil øke tilliten til at andre har i resultatene. Videre, hvis du arbeider med en partner, vil det begrense partneren din evne til å endre analysen etter å ha sett resultatene. Pre-registrering blir stadig mer vanlig i psykologi (Nosek and Lakens 2014) , statsvitenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , og økonomi (Olken 2015) .

Mens du lager din pre-analyse plan bør du være oppmerksom på at enkelte forskere også bruke regresjon og beslektede tilnærminger for å forbedre presisjonen av den beregnede behandlingseffekt, og det er noen debatt om denne tilnærmingen: Freedman (2008) , Lin (2013) , og Berk et al. (2013) ; se Bloniarz et al. (2016) for mer informasjon.

Design råd spesielt for online feltforsøk er også presentert i Konstan and Chen (2007) og Chen and Konstan (2015) .

  • Lag null variable kostnadsdata (avsnitt 4.6.1)

For mer om de MusicLAB eksperimenter, se Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , og Salganik (2007) . For mer om vinneren tar alle markeder, se Frank and Cook (1996) . For mer om untangling flaks og dyktighet mer generelt, se Mauboussin (2012) , Watts (2012) , og Frank (2016) .

Det er en annen tilnærming til å eliminere deltaker utbetalinger som forskere bør bruke med forsiktighet: verneplikt. I mange elektroniske feltforsøk deltakerne er i utgangspunktet innkalt til eksperimenter og aldri kompensert. Eksempler på denne tilnærmingen inkluderer Restivo og van de Rijt s (2012) eksperiment på belønninger i Wikipedia og Bond og kollegaen (2012) eksperiment på å oppmuntre folk til å stemme. Disse eksperimentene har egentlig ikke null variable kostnader, de har null variable kostnader for forskere. Selv om kostnadene for mange av disse eksperimentene er ekstremt liten til hver deltaker, små kostnader pålagt et enormt antall deltakere kan legge opp raskt. Forskere kjører massive online eksperimenter rettferdig ofte viktigheten av små estimerte behandlingseffekter ved å si at disse små effekter kan bli viktig når den brukes til mange mennesker. Den samme tankegang gjelder kostnader som forskere legger på deltakere. Hvis eksperimentene forårsaker en million mennesker til å kaste bort ett minutt, er forsøket ikke veldig skadelig for en bestemt person, men samlet er det bortkastet nesten to år av gangen.

En annen tilnærming for å lage null variable kostnader betaling til deltakerne, er å bruke et lotteri, en metode som også har vært brukt i undersøkelsen forskning (Halpern et al. 2011) . Til slutt, for mer om å designe underholdbrukeropplevelser se Toomim et al. (2011) .

  • Erstatt, øker, og redusere (§ 4.6.2)

Her er de opprinnelige definisjoner av de tre R, fra Russell and Burch (1959) :

"Replacement betyr erstatning for bevisste levende høyerestående dyr av insentient materiale. Reduksjonen innebærer reduksjon i antall dyr benyttet for å innhente informasjon fra et gitt beløp og presisjon. Avgrensning betyr enhver reduksjon i forekomst eller alvorlighetsgrad av inhumane prosedyrer anvendt på de dyr som fortsatt må bli brukt. "

De tre R-er som jeg foreslår ikke overstyre de etiske prinsipper som er beskrevet i kapittel 6. De er heller en mer utdypet versjon en av disse prinsippene-godgjør-spesifikt for innstillingen av menneskelige eksperimenter.

Når du vurderer Emosjonell Contagion, er det tre ikke-etiske problemstillinger å huske på når man skal tolke dette eksperimentet. For det første er det ikke klart hvordan den faktiske detaljer av forsøket kobles til de teoretiske krav; med andre ord, er det spørsmål om gyldigheten konstruksjon. Det er ikke klart at de positive og negative ord teller er faktisk en god indikator på den følelsesmessige tilstand av deltakerne fordi 1) det er ikke klart at ordene som folk legger ut er en god indikator på sine følelser og 2) det er ikke klart at den spesielle følelser analyseteknikk som forskerne brukt er i stand til å pålitelig antyde følelser (Beasley and Mason 2015; Panger 2016) . Med andre ord, kan det være et dårlig mål på en partisk signal. For det andre, utforming og analysen av forsøket forteller oss noe om hvem som var mest påvirket (dvs. det er ingen analyse av heterogenitet av behandlingseffekt) og hva mekanismen måtte være. I dette tilfellet, forskerne hadde mye informasjon om deltakerne, men de ble i hovedsak behandlet som widgets i analysen. For det tredje effektstørrelse i dette forsøk var meget liten; forskjellen mellom behandlings- og kontrollforhold er ca. 1 av 1000 ord. I deres papir, Kramer og kolleger gjør det slik at en effekt av denne størrelsen er viktig fordi hundrevis av millioner av mennesker tilgang til sine News Feed hver dag. Med andre ord, hevder de at selv effekter som er små for hver person de er store samlet. Selv om du skulle godta dette argumentet, er det fortsatt ikke klart om en effekt av denne størrelsen er viktig når det gjelder mer generelle vitenskapelige spørsmål om emosjonell smitte. For mer om de situasjoner hvor små effekter er viktig se Prentice and Miller (1992) .

I forhold til den første R (Replacement), sammenligner Emotional Contagion eksperiment (Kramer, Guillory, and Hancock 2014) og emosjonell smitte naturlig eksperiment (Coviello et al. 2014) har noen generelle lærdommer om avveiningene som er involvert med å flytte fra eksperimenter til naturlige eksperimenter (og andre tilnærminger som passer på at forsøk på å tilnærme eksperimenter i ikke-eksperimentelle data, se kapittel 2). I tillegg til de etiske fordeler, bytte fra eksperimentell til ikke-eksperimentelle studier gir også forskere å studere behandlinger som de er logistikkmessig i stand til å distribuere. Disse etiske og logistiske fordelene kommer til en kostnad, men. Med naturlige eksperimenter forskere har mindre kontroll over ting som rekruttering av deltakere, randomisering, og arten av behandlingen. For eksempel, en begrensning av nedbør som behandling er at det både øker positivitet og reduserer negativitet. I eksperimentell studie imidlertid Kramer og kolleger var i stand til å justere positivitet og negativitet uavhengig av hverandre.

Den spesielle tilnærming brukes av Coviello et al. (2014) ble ytterligere utdypet i Coviello, Fowler, and Franceschetti (2014) . For en innføring i instrumentelle variabler se Angrist and Pischke (2009) (mindre formell) eller Angrist, Imbens, and Rubin (1996) (mer formelt). For en skeptisk vurdering av instrumental variabler se Deaton (2010) , og for en introduksjon til instrumentvariabler med svake instrumenter (regn er en svak instrument), se Murray (2006) .

Mer generelt en god introduksjon til naturlige eksperimenter er Dunning (2012) , og Rosenbaum (2002) , Rosenbaum (2009) , og Shadish, Cook, and Campbell (2001) har gode ideer om å estimere kausale effekter uten eksperimenter.

Når det gjelder den andre R (Refinement), er det vitenskapelige og logistiske avveininger når de vurderer å endre utformingen av emosjonell Contagion fra blokkerer innlegg til å øke innlegg. For eksempel kan det være slik at den tekniske gjennomføringen av News Feed gjør det er betydelig lettere å gjøre et eksperiment med å blokkere innlegg i stedet for et eksperiment med å forsterke innlegg (merk at et eksperiment med å blokkere meldinger kan gjennomføres som et lag på toppen av News feed systemet uten behov for endringer av det underliggende systemet). Vitenskapelig, men teorien adressert av eksperimentet ikke klart foreslå en design over den andre.

Dessverre er jeg ikke kjent med betydelig tidligere forskning om den relative verdien av blokkering og øke innholdet i News Feed. Også har jeg ikke sett mye forskning om raffinering behandlinger for å gjøre dem mindre skadelig; ett unntak er Jones and Feamster (2015) , som anser det gjelder måling av Internett-sensur (et tema jeg diskutere i kapittel 6 i forhold til Encore studien (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Når det gjelder den tredje R (Reduction), en god introduksjon til tradisjonelle maktanalyse er Cohen (1988) . Forbehandling kovariater kan inngå i designfasen og analysefasen av eksperimenter; Kapittel 4 av Gerber and Green (2012) gir en god innføring i begge tilnærminger, og Casella (2008) gir en mer inngående behandling. Teknikker som bruker denne forbehandlingen informasjonen i randomisering er vanligvis kalles enten blokkert eksperimentelle design eller stratifisert eksperimentelle design (terminologien er ikke brukt konsekvent på tvers av lokalsamfunn); disse teknikkene er dypt knyttet til stratifisert utvelging teknikker som omtales i kapittel 3. Se Higgins, Sävje, and Sekhon (2016) for mer om hvordan du bruker disse designene i massive eksperimenter. Forbehandling kovariabler kan også inkluderes i analysetrinnet. McKenzie (2012) undersøker den forskjell-i-forskjeller tilnærming til å analysere feltforsøk i større detalj. Se Carneiro, Lee, and Wilhelm (2016) for mer om de avveininger mellom ulike tilnærminger for å øke presisjonen i estimatene av behandlingseffekter. Til slutt, når du bestemmer om du vil prøve å inkludere pre-behandling kovariater på design eller analysen scenen (eller begge deler), er det noen faktorer å vurdere. I en setting der forskerne ønsker å vise at de ikke er "fiske" (Humphreys, Sierra, and Windt 2013) , ved hjelp av pre-behandling kovariater i designfasen kan være nyttig (Higgins, Sävje, and Sekhon 2016) . I situasjoner der deltakerne ankommer sekvensielt, særlig elektroniske feltforsøk, ved hjelp av pre-behandling informasjon i designfasen kan være vanskelig logistikkmessig, se for eksempel Xie and Aurisset (2016) .

Det er verdt å legge litt av intuisjon om hvorfor forskjellen-in-forskjellene kan være så mye mer effektivt enn difference-in-midler. Mange online utfall har svært høy varians (se f.eks Lewis and Rao (2015) og Lamb et al. (2015) ), og er relativt stabile over tid. I dette tilfellet, vil endringen stillingen har vesentlig mindre varians, noe som øker strømmen av den statistiske testen. En grunn til dette nærmet ikke brukes oftere er at før den digitale tidsalderen var det ikke vanlig å ha pre-behandlingsresultatene. En mer konkret måte å tenke på det er å forestille seg et eksperiment for å måle om en spesifikk øvelse rutine fører til vekttap. Hvis du gjør en forskjell-i-midler tilnærming, vil estimatet ha variasjon som kommer fra variasjonen i vekter i befolkningen. Hvis du gjør en forskjell-i-forskjell tilnærming, men at naturlig forekommende variasjon i vektene blir fjernet, og du kan lettere oppdage en forskjell forårsaket av behandlingen.

En viktig måte å redusere antall deltakere i eksperimentet er å gjennomføre en maktanalyse, som Kramer og kolleger kunne ha gjort basert på effektstørrelser observert fra den naturlige eksperiment ved Coviello et al. (2014) eller tidligere ikke-eksperimentell forskning av Kramer (2012) (faktisk disse er aktiviteter på slutten av dette kapitlet). Legg merke til at denne bruken av maktanalyse er litt annerledes enn vanlig. I den analoge alder, forskere generelt gjorde maktanalyse for å sørge for at deres studie var ikke for lite (dvs. under-drevet). Nå har imidlertid forskere bør gjøre maktanalyse for å sørge for at deres studie ikke er for stor (dvs. overdrevet).

Til slutt, vurderte jeg å legge en fjerde R: Gjenbruk. Det vil si, hvis forskerne finne seg selv med mer eksperimentelle data enn de trenger for å løse sine opprinnelige problemstilling, bør de gjenbruke data til å stille nye spørsmål. Tenk deg for eksempel at Kramer og kolleger hadde brukt en forskjell-i-forskjeller estimator og funnet seg selv med mer data enn nødvendig for å ta sin problemstilling. Snarere enn å ikke bruke dataene til den grad, kunne de ha studert størrelsen av effekten som funksjon å pre-behandling emosjonelle uttrykk. På samme måte som Schultz et al. (2007) fant at effekten av behandlingen var annerledes for lette og tunge brukere, kanskje effekten av News Feed var annerledes for folk som allerede hadde en tendens til å legge glade (eller trist) meldinger. Gjenbruk kan føre til "fishing" (Humphreys, Sierra, and Windt 2013) og "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , men disse er i stor grad adresser med en kombinasjon av ærlig rapportering (Simmons, Nelson, and Simonsohn 2011) , pre-registrering (Humphreys, Sierra, and Windt 2013) , og maskinlæringsmetoder som forsøker å unngå over-fitting.