Yderligere kommentarer

Dette afsnit er beregnet til at blive brugt som reference, i stedet for at blive læst som en fortælling.

  • Introduktion (afsnit 4.1)

Spørgsmål om kausalitet i social forskning er ofte komplekse og indviklede. For en grundlæggende tilgang til kausalitet baseret på kausale grafer, se Pearl (2009) , og for en grundlæggende tilgang baseret på mulige resultater, se Imbens and Rubin (2015) (og det tekniske tillæg i dette kapitel). For en sammenligning mellem disse to tilgange, se Morgan and Winship (2014) . For en formel tilgang til at definere en confounder, se VanderWeele and Shpitser (2013) .

I kapitlet, jeg skabte hvad der føltes som en klar linje mellem vores evne til at gøre kausale skøn fra eksperimentelle og ikke-eksperiment data. I virkeligheden tror jeg, at sondringen er blurrier. For eksempel, alle accepterer, at rygning forårsager kræft, selv om vi aldrig har gjort et randomiseret kontrolleret eksperiment, der tvinger folk til at ryge. For fremragende bog længde behandlinger om at gøre kausale estimater fra ikke-eksperimentelle data se Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , og Dunning (2012) .

Kapitel 1 og 2 i Freedman, Pisani, and Purves (2007) tilbyder en klar indføring i forskellene mellem eksperimenter, kontrollerede eksperimenter, og randomiserede kontrollerede eksperimenter.

Manzi (2012) giver et fascinerende og læsbar indføring i de filosofiske og statistiske fundament for randomiserede kontrollerede eksperimenter. Det giver også interessante virkelige verden eksempler på magt eksperimenter i erhvervslivet.

  • Hvad er eksperimenter? (Afsnit 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) give gode introduktioner til de statistiske aspekter af eksperimentel design og analyse. Endvidere er der gode behandlinger af brugen af eksperimenter på mange forskellige områder: økonomi (Bardsley et al. 2009) , Sociologi (Willer and Walker 2007; Jackson and Cox 2013) , psykologi (Aronson et al. 1989) , Statskundskab (Morton and Williams 2010) , og socialpolitik (Glennerster and Takavarasha 2013) .

Betydningen af ​​deltagere rekruttering (f.eks prøveudtagning) er ofte under-værdsat i eksperimentel forskning. Men hvis effekten af behandlingen er heterogen i befolkningen, så prøvetagning er kritisk. Longford (1999) gør dette punkt klart, når han går ind for forskere tænker på eksperimenter som en befolkningsundersøgelse med tilfældig prøveudtagning.

  • To dimensioner af eksperimenter: lab-feltet og analog-digital (afsnit 4.3)

Den dikotomi, som jeg præsenterede mellem lab og markforsøg er en smule forenklet. Faktisk har andre forskere foreslået mere detaljerede typologier, især dem, der adskiller de forskellige former for markforsøg (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Endvidere er der to andre typer af eksperimenter udført af samfundsforskere, der ikke passer pænt ind i laboratoriet og i marken dikotomi:. Undersøgelsens eksperimenter og sociale eksperimenter Survey eksperimenter er eksperimenter med infrastrukturen i eksisterende undersøgelser og sammenligne reaktioner på alternative versioner af samme spørgsmål (nogle undersøgelsens eksperimenter er vist i kapitel 3); for mere om undersøgelsens eksperimenter se Mutz (2011) . Sociale eksperimenter er eksperimenter, hvor behandlingen er nogle socialpolitik, som kun kan gennemføres af en regering. Sociale eksperimenter er tæt knyttet til program evaluering. For mere om politiske eksperimenter, se Orr (1998) , Glennerster and Takavarasha (2013) , og Heckman and Smith (1995) .

En række papirer har sammenlignet lab og feltforsøg i det abstrakte (Falk and Heckman 2009; Cialdini 2009) og i form af resultaterne af specifikke eksperimenter i statskundskab (Coppock and Green 2015) , økonomi (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) og psykologi (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) byder på en dejlig forskningsdesign til at sammenligne resultater fra lab og markforsøg.

Bekymringer om deltagerne ændrer deres adfærd, fordi de ved, de bliver observeres nøje kaldes efterspørgsel effekter, og de ​​er blevet undersøgt i psykologi (Orne 1962) og økonomi (Zizzo 2009) . Selvom det meste forbundet med lab forsøg, kan disse samme spørgsmål give problemer for markforsøg så godt. Faktisk er efterspørgslen effekter også nogle gange kaldet Hawthorne effekt, et begreb, der stammer fra et felt eksperiment, specielt de berømte belysning eksperimenter, der begyndte i 1924 på Hawthorne Works i den vestlige Electric Company (Adair 1984; Levitt and List 2011) . Både efterspørgslen effekter og Hawthorn effekter er tæt knyttet til ideen om reaktiv måling diskuteret i kapitel 2 (se også Webb et al. (1966) ).

Historien om markforsøg er blevet beskrevet i økonomi (Levitt and List 2009) , statskundskab (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psykologi (Shadish 2002) , og den offentlige orden (Shadish and Cook 2009) . Et område af samfundsvidenskabelige hvor markforsøg hurtigt blev fremtrædende er international udvikling. For en positiv anmeldelse af dette arbejde inden for økonomi ser Banerjee and Duflo (2009) , og for en kritisk vurdering se Deaton (2010) . For en gennemgang af dette arbejde i statskundskab se Humphreys and Weinstein (2009) . Endelig har de etiske udfordringer forbundet med markforsøg blevet udforsket i statskundskab (Humphreys 2015; Desposato 2016b) og udviklingsøkonomi (Baele 2013) .

I kapitlet, foreslog jeg, at forbehandling oplysninger kan bruges til at forbedre præcisionen af estimerede behandlingseffekt, men der er en vis debat om denne fremgangsmåde: Freedman (2008) , Lin (2013) , og Berk et al. (2013) ; se Bloniarz et al. (2016) for mere information.

  • Flytning ud over simple eksperimenter (afsnit 4.4)

Jeg har valgt at fokusere på tre begreber: gyldighed, heterogenitet behandling effekter og mekanismer. Disse begreber har forskellige navne i forskellige områder. For eksempel psykologer tendens til at bevæge sig ud over simple eksperimenter ved at fokusere på mæglere og moderatorer (Baron and Kenny 1986) . Ideen om mediatorer er fanget af det, jeg kalder mekanismer, og tanken om moderatorer er fanget af det, jeg kalder ekstern validitet (f.eks, ville resultaterne af forsøget være anderledes, hvis det blev kørt i forskellige situationer) og heterogenitet behandlingseffekter ( fx er virkningerne større for nogle mennesker end andre mennesker).

Forsøget i Schultz et al. (2007) viser, hvordan sociale teorier kan anvendes til at designe effektive indgreb. For en mere generel diskussion om den rolle, teori i at designe effektive interventioner, se Walton (2014) .

  • Gyldighed (afsnit 4.4.1)

Begreberne intern og ekstern validitet blev først introduceret i Campbell (1957) . Se Shadish, Cook, and Campbell (2001) for en mere detaljeret historie og en omhyggelig udarbejdelse af statistisk konklusion gyldighed, intern validitet, konstruere gyldighed, og ekstern validitet.

For en oversigt over spørgsmål vedrørende statistisk konklusion gyldighed i forsøg se Gerber and Green (2012) (for en samfundsvidenskabelig overslag) og Imbens and Rubin (2015) (for en statistisk overslag). Nogle spørgsmål vedrørende statistisk konklusion gyldighed, der opstår specielt i online markforsøg omfatter spørgsmål såsom beregningsmæssigt effektive metoder til at skabe konfidensintervaller med afhængige data (Bakshy and Eckles 2013) .

Intern validitet kan være vanskeligt at sikre i komplekse markforsøg. Se for eksempel, Gerber and Green (2000) , Imai (2005) , og Gerber and Green (2005) til debat om gennemførelsen af et komplekst felt eksperiment om at stemme. Kohavi et al. (2012) og Kohavi et al. (2013) giver en indføring i udfordringerne i intervallet gyldighed i online markforsøg.

En stor bekymring med intern gyldighed er problemer med randomisering. En måde at potentielt opdage problemer med randomisering er at sammenligne behandlings- og kontrolgrupper på observerbare træk. Denne form for sammenligning kaldes en balance check. Se Hansen and Bowers (2008) for en statistisk metode til at balancere kontrol, og se Mutz and Pemantle (2015) for bekymringer om balance kontrol. For eksempel ved anvendelse af en balance kontrollere Allcott (2011) fandt, at der er tegn på, at randomiseringen ikke er implementeret korrekt i tre af forsøgene i nogle af OPower eksperimenter (se tabel 2; sites 2, 6, og 8). For andre tilgange, se Imbens and Rubin (2015) , kapitel 21.

Andre store betænkeligheder med hensyn til interne validitet er: 1) ensidig manglende overholdelse, hvor ikke alle i behandlingsgruppen faktisk modtog behandling, 2) to-sidet manglende overholdelse, hvor ikke alle i behandlingsgruppen modtager behandling og nogle mennesker i kontrolgruppen modtage den behandling, 3) nedslidning, hvor resultaterne ikke er målt for nogle deltagere, og 4) interferens, hvor behandlingen smitter fra folk i behandlingen tilstand til folk i kontrolgruppen tilstand. Se Gerber and Green (2012) kapitel 5, 6, 7 og 8 for yderligere oplysninger om hvert af disse spørgsmål.

For mere om konstruktion gyldighed, se Westen and Rosenthal (2003) , og for mere om konstruktion gyldighed i store datakilder, Lazer (2015) og kapitel 2 i denne bog.

Et aspekt af ekstern validitet er indstilling, hvor en intervention testes. Allcott (2015) giver en grundig teoretisk og empirisk behandling af site selektionsbias. Dette spørgsmål er også behandlet i Deaton (2010) . Ud over at blive kopieret i mange steder, Home Energy Report indgriben er også blevet uafhængigt undersøgt af flere forskningsgrupper (f.eks Ayres, Raseman, and Shih (2013) ).

  • Heterogenitet behandlingseffekter (afsnit 4.4.2)

For et glimrende overblik over uensartede behandling effekter i markforsøg, se kapitel 12 i Gerber and Green (2012) . For introduktioner til heterogenitet behandlingseffekt i medicinske forsøg, se Kent and Hayward (2007) , Longford (1999) , og Kravitz, Duan, and Braslow (2004) . Heterogenitet behandlingseffekt normalt fokusere på forskelle baseret på forbehandling egenskaber. Hvis du er interesseret i heterogenitet baseret på post-behandlingsresultater, så er der behov for mere komplekse approachs såsom principal lagdeling (Frangakis and Rubin 2002) ; se Page et al. (2015) for en gennemgang.

Mange forskere anslår heterogenitet behandlingseffekt ved lineær regression, men nyere metoder er afhængige af machine learning, for eksempel Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , og Athey and Imbens (2016a) .

Der er en vis skepsis over fund af heterogenitet effekter på grund af flere sammenligning problemer og "fiskeri". Der er en række statistiske metoder, der kan hjælpe adresse bekymringer multipel sammenligning (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . En metode til bekymring om "fiskeri" er præregistrering, som bliver mere og mere almindelige i psykologi (Nosek and Lakens 2014) , statskundskab (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) og økonomi (Olken 2015) .

I undersøgelsen af Costa and Kahn (2013) kun omkring halvdelen af husstandene i eksperimentet kunne være forbundet med demografiske oplysninger. Læsere, der er interesserede i detaljerne og mulige problemer med denne analyse bør henvise til den oprindelige papir.

  • Mekanismer (afsnit 4.4.3)

Mekanismer er utroligt vigtige, men de viser sig at være meget vanskeligt at studere. Forskning om mekanismer tæt knyttet til studiet af mæglere i psykologi (men se også VanderWeele (2009) for en præcis sammenligning mellem de to ideer). Statistiske metoder til at finde mekanismer, såsom den tilgang, udviklet i Baron and Kenny (1986) , er ganske almindelige. Desværre viser det sig, at disse handlinger afhænger nogle stærke antagelser (Bullock, Green, and Ha 2010) og lider, når der er flere mekanismer, som man kunne forvente i mange situationer (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) og Imai and Yamamoto (2013) tilbyder nogle forbedrede statistiske metoder. Endvidere VanderWeele (2015) tilbyder en bog-længde behandling med en række vigtige resultater, herunder en samlet tilgang til følsomhedsanalyse.

En separat tilgang fokuserer på eksperimenter, der forsøger at manipulere mekanismen direkte (fx giver sejlere vitamin C). Desværre, i mange samfundsvidenskabelige indstillinger er der ofte flere mekanismer og det er svært at designe behandlinger, der ændrer en uden at ændre de andre. Nogle metoder til eksperimentelt ændrer mekanismer er beskrevet i Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , og Pirlott and MacKinnon (2016) .

Endelig mekanismer har også en lang historie i videnskabsteori som beskrevet af Hedström and Ylikoski (2010) .

  • Brug af eksisterende miljøer (afsnit 4.5.1.1)

For mere om brug af korrespondance undersøgelser og revision undersøgelser for at måle diskrimination se Pager (2007) .

  • Byg din egen eksperiment (afsnit 4.5.1.2)

Den mest almindelige måde at rekruttere deltagere til eksperimenter, som du bygge er Amazon Mechanical Turk (MTurk). Fordi MTurk efterligner aspekter af traditionelle lab forsøg-betalende folk til at udføre opgaver, som de ikke ville gøre for gratis-mange forskere er allerede begyndt at bruge Turkers (arbejderne på MTurk) som deltagere i mennesker eksperimenter resulterer i hurtigere og billigere dataindsamling end traditionelle laboratorieforsøg på campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Den største styrke i eksperimenter med deltagere rekrutteret fra MTurk er logistisk: de tillader forskerne at rekruttere deltagere hurtigt og efter behov. Ud fra følgende betragtninger lab forsøg kan tage uger at køre og markforsøg kan tage måneder at sætte op, kan eksperimenter med deltagere rekrutteret fra MTurk køres i dag. For eksempel Berinsky, Huber, and Lenz (2012) var i stand til at rekruttere 400 patienter på en enkelt dag for at deltage i en 8 minutters eksperiment. Endvidere kan disse deltagere rekrutteres til stort set alle formål (herunder undersøgelser og masse samarbejde, som omtalt i kapitel 3 og 5). Denne lette rekrutteringen betyder, at forskerne kan køre sekvenser af relaterede eksperimenter hurtigt efter hinanden.

Før rekruttere deltagere fra MTurk for dine egne eksperimenter, der er fire vigtige ting at vide. Først, mange forskere har en ikke-specifik skepsis af forsøg med Turkers. Fordi denne skepsis er ikke specifik, er det svært at imødegå med beviser. Men efter flere års studier ved hjælp Turkers, vi kan nu konkludere, at denne skepsis er ikke specielt nødvendigt. Der har været mange undersøgelser, der sammenligner demografi af Turkers til andre populationer og mange studier, der sammenligner resultaterne af eksperimenter med Turkers til resultaterne fra andre befolkningsgrupper. I betragtning af alt dette arbejde, jeg tror, ​​at den bedste måde for dig at tænke på det er, at Turkers er en rimelig bekvemmelighed prøve, meget gerne studerende, men lidt mere forskelligartet (Berinsky, Huber, and Lenz 2012) . Således ligesom studerende er en rimelig population for nogle, men ikke alle eksperimentel forskning, Turkers er en rimelig population for nogle, men ikke alle forskning. Hvis du kommer til at arbejde med Turkers, så giver det mening at læse mange af disse sammenlignende undersøgelser og forstå deres nuancer.

For det andet har forskere udviklet bedste praksis for at øge den interne gyldighed Turk eksperimenter, og du skal lære om og følge disse bedste praksis (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . For eksempel, er forskerne bruger Turkers opfordres til at bruge sorterværk til at fjerne uopmærksom deltagere (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (men se også DJ Hauser and Schwarz (2015b) og DJ Hauser and Schwarz (2015a) ). Hvis du ikke fjerner uopmærksom deltagere, så nogen effekt af behandlingen kan vaskes ud af støj indført fra uopmærksom deltagere, og i praksis antallet af uopmærksomme deltagere kan være betydelige. I forsøget af Huber og kolleger (2012) mislykkedes omkring 30% af deltagerne grundlæggende opmærksomhed sorterværk. Et andet almindeligt problem med Turkers er ikke-naive deltagere (Chandler et al. 2015) .

For det tredje, i forhold til nogle andre former for digitale eksperimenter, MTurk eksperimenter kan ikke skalere, Stewart et al. (2015) anslår, at på ethvert givet tidspunkt er der kun omkring 7.000 mennesker på MTurk.

Endelig bør du vide, at MTurk er et fællesskab med sine egne regler og normer (Mason and Suri 2012) . På samme måde, som du ville forsøge at finde ud af om kulturen i et land, hvor du skulle køre dine eksperimenter, skal du forsøge at finde ud af mere om kultur og normer Turkers (Salehi et al. 2015) . Og du skal vide, at Turkers vil tale om dit eksperiment, hvis du gør noget upassende eller uetisk (Gray et al. 2016) .

MTurk er en utrolig praktisk måde at rekruttere deltagere til dine eksperimenter, uanset om de er lab-lignende, såsom Huber, Hill, and Lenz (2012) , eller flere felt-lignende, såsom Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , og Mao et al. (2016) .

  • Byg dit eget produkt (afsnit 4.5.1.3)

Hvis du tænker på at forsøge at oprette dit eget produkt, vil jeg anbefale, at du læser de råd, der tilbydes af MovieLens gruppen i Harper and Konstan (2015) . Et centralt indsigt fra deres erfaring er, at for hver vellykket projekt der er mange, mange fiaskoer. For eksempel MovieLens gruppen lancerede andre produkter som GopherAnswers der var komplette fiaskoer (Harper and Konstan 2015) . Et andet eksempel på en forsker ikke under forsøget på at opbygge et produkt er Edward Castronova forsøg på at opbygge et online spil kaldet Arden. Trods $ 250.000 i finansiering, projektet var et flop (Baker 2008) . Projekter som GopherAnswers og Arden er desværre langt mere udbredt end projekter som MovieLens. Endelig, når jeg sagde, at jeg ikke kender nogen andre forskere, der med succes havde bygget produkter til gentagen eksperimenter her er mine kriterier: 1) Deltagerne bruger produktet på grund af, hvad det giver dem (f.eks, er de ikke betalt, og de er ikke frivillige hjælper videnskab) og 2) produktet har været anvendt i mere end et særskilt forsøg (dvs. ikke de samme eksperiment flere gange med forskellige deltager puljer). Hvis du kender til andre eksempler, så lad mig det vide.

  • Partner med den kraftige (afsnit 4.5.2)

Jeg har hørt idéen om Pasteurs Kvadrant diskuteret ofte på tech virksomheder, og det hjælper med at organisere forskningsindsatsen på Google (Spector, Norvig, and Petrov 2012) .

Bond og kollegers undersøgelse (2012) forsøger også at påvise effekten af disse behandlinger på venner af dem, der modtog dem. På grund af designet af eksperimentet disse afsmitning er vanskelige at detektere rent; interesserede læsere bør se Bond et al. (2012) for en mere grundig diskussion. Dette eksperiment er en del af en lang tradition for eksperimenter i statskundskab på bestræbelser på at tilskynde stemme (Green and Gerber 2015) . Disse get-out-the-afstemning eksperimenter er almindelige i en del, fordi de er i Pasteurs kvadrant. Det vil sige, at der er mange mennesker, der er motiverede for at øge stemmeafgivelse og stemmeafgivelse kan være en interessant adfærd at teste mere generelle teorier om adfærdsændring og social indflydelse.

Andre forskere har rådgivet om at løbe markforsøg med partnerorganisationer, såsom politiske partier, ngo'er og virksomheder (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Andre har tilbudt rådgivning om, hvordan partnerskaber med organisationer kan påvirke forskningsdesign (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerskab kan også føre til etiske spørgsmål (Humphreys 2015; Nickerson and Hyde 2016) .

  • Design rådgivning (afsnit 4.6)

Hvis du vil oprette en analyse plan, før du kører dit eksperiment, vil jeg foreslå, at du starter med at læse retningslinjer for rapportering. Consort (konsoliderede Standard indberetningen af forsøg) retningslinjer blev udviklet i medicin (Schulz et al. 2010) og modificeret til social forskning (Mayo-Wilson et al. 2013) . Et beslægtet sæt retningslinjer er udviklet af redaktørerne af Journal of Experimental statskundskab (Gerber et al. 2014) (se også Mutz and Pemantle (2015) og Gerber et al. (2015) ). Endelig har rapportering retningslinjer er udviklet i psykologi (Group 2008) , og se også Simmons, Nelson, and Simonsohn (2011) .

Hvis du opretter en analyse plan bør du overveje præregistrering det, fordi præregistrering vil øge tilliden til, at andre har i dine resultater. Yderligere, hvis du arbejder med en partner, vil det begrænse din partners evne til at ændre analysen efter at have set resultaterne. Præ-registrering bliver mere og mere almindelig i psykologi (Nosek and Lakens 2014) , statskundskab (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , og økonomi (Olken 2015) .

Mens du opretter din foranalyse plan bør du være opmærksom på, at nogle forskere også bruge regression og relaterede tilgange til at forbedre præcisionen af den anslåede behandlingseffekt, og der er en vis debat om denne fremgangsmåde: Freedman (2008) , Lin (2013) , og Berk et al. (2013) ; se Bloniarz et al. (2016) for mere information.

Design rådgivning specielt til online markforsøg præsenteres også i Konstan and Chen (2007) og Chen and Konstan (2015) .

  • Opret nul variable data omkostninger (afsnit 4.6.1)

For mere om de MusicLab eksperimenter, se Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , og Salganik (2007) . For mere om vinderen tager alle markeder, se Frank and Cook (1996) . For mere om udrede held og dygtighed mere generelt se Mauboussin (2012) , Watts (2012) , og Frank (2016) .

Der er en anden tilgang til at fjerne deltager betalinger, forskerne skal bruge med forsigtighed: værnepligten. I mange online markforsøg deltagere er dybest set indkaldt til eksperimenter og aldrig kompenseret. Eksempler på denne fremgangsmåde omfatter Restivo og van de Rijt s (2012) eksperiment på belønninger i Wikipedia og Bond og kollegas (2012) eksperiment om at tilskynde folk til at stemme. Disse eksperimenter har egentlig ikke nul variable omkostninger, de har nul variable omkostninger for forskere. Selvom prisen på mange af disse eksperimenter er ekstremt lille for hver deltager, små omkostninger pålagt et enormt antal deltagere kan tilføje op hurtigt. Forskere kører massive online eksperimenter begrunder ofte betydningen af ​​små estimerede behandlingseffekt ved at sige, at disse små effekter kan blive vigtig, når den anvendes til mange mennesker. Den nøjagtige samme tankegang gælder for omkostninger, forskere pålægger deltagerne. Hvis dine eksperimenter forårsager en million mennesker til at spilde et minut, eksperimentet er ikke meget skadeligt for en bestemt person, men samlet det har spildt næsten to års tid.

En anden tilgang til at skabe nul variable betaling omkostninger for deltagerne er at bruge et lotteri, en tilgang, der er også blevet brugt i undersøgelsen forskning (Halpern et al. 2011) . Endelig mere om at designe fornøjelig bruger-erfaringer se Toomim et al. (2011) .

  • Udskift, Tilpas, og Reducer (punkt 4.6.2)

Her er de oprindelige definitioner af de tre R, fra Russell and Burch (1959) :

"Udskiftning betyder substitution for bevidste levende højere dyr af insentient materiale. Reduktion betyder reduktion i antallet af dyr, der anvendes til at indhente oplysninger om en given mængde og præcision. Refinement: ethvert fald i hyppigheden eller sværhedsgraden af ​​inhumane procedurer, der anvendes til de dyr, som stadig skal bruges. "

De tre R'er, som jeg foreslår ikke tilsidesætte de etiske principper, der er beskrevet i kapitel 6. De er snarere en mere uddybet udgave en af ​​dem, principper-godgørenhed-specifikt for fastlæggelse af menneskelige eksperimenter.

Når man overvejer Følelsesmæssig Contagion, der er tre ikke-etiske spørgsmål at huske på, når de fortolker dette eksperiment. Det første er det ikke klart, hvordan de faktiske detaljer i forsøget forbindelse til de teoretiske krav; med andre ord, der er spørgsmål om konstruktion gyldighed. Det er ikke klart, at de positive og negative ord tæller er faktisk en god indikator for den følelsesmæssige tilstand af deltagere, fordi en) det ikke er klart, at de ord, som folk udstationerer er en god indikator for deres følelser, og 2) det er ikke klart, den særlige følelse analyse teknik, forskerne brugte er i stand til pålideligt udlede følelser (Beasley and Mason 2015; Panger 2016) . Med andre ord, kan der være en dårlig målestok for en forudindtaget signal. For det andet, design og analyse af forsøget fortæller os intet om, hvem der var mest påvirket (dvs. der er ingen analyse af heterogenitet af behandlingseffekt), og hvad mekanismen kunne være. I dette tilfælde, forskerne havde masser af oplysninger om deltagerne, men de var væsentlige behandlet som widgets i analysen. Tredje, effekten størrelse i dette eksperiment var meget lille; forskellen mellem behandling og kontrol betingelser er omkring 1 ud af 1.000 ord. I deres papir, Kramer og kolleger gør sådan, at en effekt af denne størrelse er vigtig, fordi hundreder af millioner af mennesker adgang til deres News Feed hver dag. Med andre ord, hævder de, at selv effekter, der er små for hver person, de er store i samlet. Selv hvis du skulle acceptere dette argument, er det stadig ikke klart, om en effekt af denne størrelse er vigtig med hensyn til mere generelle videnskabelige spørgsmål om følelsesmæssige afsmitning. For mere om de situationer, hvor små effekter er vigtige se Prentice and Miller (1992) .

Med hensyn til den første R (reserve), at sammenligne den Emotional Contagion eksperimentet (Kramer, Guillory, and Hancock 2014) og den følelsesmæssige afsmitning naturlige eksperiment (Coviello et al. 2014) har nogle generelle erfaringer om afvejninger forbundet med at flytte fra eksperimenter til naturlige eksperimenter (og andre tilgange som matcher det forsøg på at tilnærme eksperimenter i ikke-eksperimentelle data, se kapitel 2). Ud over de etiske fordele, skifte fra eksperimentel til ikke-eksperimentelle studier muliggør også forskere til at studere behandlinger, de er logistisk ikke kan implementere. Disse etiske og logistiske fordele kommer til en pris, dog. Med naturlige eksperimenter forskere har mindre kontrol over ting som rekruttering af deltagere, randomisering, og arten af ​​behandlingen. For eksempel er en begrænsning af nedbør som en behandling er, at den både øger positivitet og formindsker negativitet. I den eksperimentelle undersøgelse, men Kramer og kolleger var i stand til at justere positivitet og negativitet selvstændigt.

Den særlige fremgangsmåde, der anvendes af Coviello et al. (2014) blev yderligere uddybet i Coviello, Fowler, and Franceschetti (2014) . For en introduktion til instrumentale variabler se Angrist and Pischke (2009) (mindre formelle) eller Angrist, Imbens, and Rubin (1996) (mere formel). For en skeptisk vurdering af instrumentale variabler se Deaton (2010) , og for en introduktion til instrumentale variabler med svage instrumenter (regn er et svagt instrument), se Murray (2006) .

Mere generelt en god introduktion til naturlige eksperimenter er Dunning (2012) , og Rosenbaum (2002) , Rosenbaum (2009) , og Shadish, Cook, and Campbell (2001) tilbyder gode ideer om estimering kausale effekter uden eksperimenter.

Med hensyn til anden R (Refinement), der er videnskabelige og logistiske afvejninger, når overvejer at ændre udformningen af ​​Emotional Contagion at blokere indlæg til at øge indlæg. For eksempel kan det være tilfældet, at den tekniske gennemførelse af News Feed gør det væsentligt lettere at gøre et forsøg med at blokere indlæg i stedet for et eksperiment med at øge indlæg (bemærk, at et eksperiment med at blokere indlæg kunne gennemføres som et lag på toppen af ​​News Feed systemet uden behov for ændringer af det underliggende system). Videnskabeligt imidlertid teorien behandles af eksperimentet ikke klart foreslå en konstruktion over den anden.

Desværre er jeg ikke bekendt med væsentlig tidligere forskning om de relative fordele ved blokering og øge indholdet i News Feed. Desuden har jeg ikke set meget forskning om raffinering behandlinger for at gøre dem mindre skadelige; eneste undtagelse er Jones and Feamster (2015) , som mener, der er tale om måling af Internet censur (et emne jeg diskuterer i kapitel 6 i forhold til den Encore studiet (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Med hensyn til det tredje R (Reduction), en god introduktion til traditionel magt analyse er Cohen (1988) . Forbehandling kovariater kan indgå i projekteringsfasen og analyse fase af eksperimenter; Kapitel 4, Gerber and Green (2012) giver en god introduktion til begge tilgange, og Casella (2008) giver en mere dybdegående behandling. Teknikker, der bruger denne forbehandling information i randomiseringen kaldes typisk enten blokeret eksperimentelle design eller stratificeret eksperimentelle design (terminologien ikke anvendes konsekvent på tværs af samfund); disse teknikker er dybt forbundet med de lagdelte stikprøver diskuteret i kapitel 3. Se Higgins, Sävje, and Sekhon (2016) for mere om brug af disse designs i massive eksperimenter. Forbehandling kovarianter kan også inkluderes i analysen fase. McKenzie (2012) udforsker forskellen-in-forskelle tilgang til analyse markforsøg mere detaljeret. Se Carneiro, Lee, and Wilhelm (2016) for mere om de afvejninger mellem forskellige tilgange til at øge præcision i estimater af behandlingseffekt. Endelig, når beslutter, om at forsøge at inkludere forbehandling kovariater på design eller analyse fase (eller begge), der er et par faktorer at overveje. I et miljø, hvor forskere ønsker at vise, at de ikke er "fiskeri" (Humphreys, Sierra, and Windt 2013) , ved hjælp af forbehandling kovariater i projekteringsfasen kan være nyttigt (Higgins, Sävje, and Sekhon 2016) . I situationer, hvor deltagerne ankommer sekventielt, især online markforsøg, ved hjælp af forbehandling information i projekteringsfasen kan være svært logistisk, se f.eks Xie and Aurisset (2016) .

Det er værd at tilføje en smule intuition om, hvorfor forskel-in-forskelle kan være så meget mere effektiv end forskel-in-midler. Mange online udfald har meget høj varians (se fx Lewis and Rao (2015) og Lamb et al. (2015) ), og er relativt stabile over tid. I dette tilfælde vil ændringen score har væsentligt mindre varians, øge kraften i statistisk test. En grund til dette nærmede ikke anvendes oftere, er, at før den digitale tidsalder var det ikke almindeligt at have pre-behandlingsresultater. En mere konkret måde at tænke på det er at forestille sig et eksperiment for at måle, om en bestemt øvelse rutine medfører vægttab. Hvis du gør en forskel-in-midler tilgang, vil din vurdering have variation, der kommer fra variation i vægt i befolkningen. Hvis du gør en forskel-in-forskel tilgang imidlertid, at naturligt forekommende variation i vægte bliver fjernet, og man kan lettere påvise en forskel skyldes behandlingen.

En vigtig måde at reducere antallet af deltagere i dit eksperiment er at gennemføre en magt analyse, som Kramer og kolleger kunne have gjort på grundlag af de effektstørrelser observeret fra den naturlige eksperiment ved Coviello et al. (2014) eller tidligere ikke-eksperimentel forskning af Kramer (2012) (i virkeligheden er disse aktiviteter i slutningen af dette kapitel). Bemærk at denne brug af magt analyse er en smule anderledes end typiske. I den analoge tidsalder, forskere generelt gjorde magt analyse for at sikre, at deres undersøgelse ikke var for lille (dvs. under-powered). Men nu forskerne bør gøre magt analyse for at sikre, at deres undersøgelse ikke er for stor (dvs. over-powered).

Endelig overvejede jeg tilføje en fjerde R: Genbrug. Det er, hvis forskerne finder sig selv med mere eksperimentelle data, end de har brug for at løse deres oprindelige forskningsspørgsmål, bør de repurpose data til at stille nye spørgsmål. For eksempel forestille sig, at Kramer og kolleger havde brugt en forskel-in-forskelle estimator og fandt sig selv med flere data, end der er nødvendige for at løse deres forskning spørgsmål. Snarere end ikke at bruge de data til i videst muligt omfang, kunne de have studeret størrelsen af ​​effekten som en funktion til at pre-behandling følelsesmæssige udtryk. Ligesom Schultz et al. (2007) fandt, at virkningen af behandlingen var forskellig for lette og tunge brugere, måske virkningerne af News Feed var forskellige for folk, der allerede havde en tendens til at postere glade (eller SAD) meddelelser. Nyorientering kunne føre til "fiskeri" (Humphreys, Sierra, and Windt 2013) og "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , men disse er stort set adresseres med en kombination af ærlig rapportering (Simmons, Nelson, and Simonsohn 2011) , præregistrering (Humphreys, Sierra, and Windt 2013) , og maskine læringsmetoder, der forsøger at undgå over-montering.