Gyldigheten refererer til hvor mye resultatene av et eksperiment understøtte en mer generell konklusjon.
Ingen eksperiment er perfekt, og forskere har utviklet et omfattende ordforråd for å beskrive mulige problemer. Gyldighet refererer til i hvilken grad resultatene av et bestemt eksperiment støtter en mer generell konklusjon. Sosialforskere har funnet det nyttig å splitte gyldigheten i fire hovedtyper: statistisk konklusjon gyldighet, intern validitet, konstruksjonsgyldighet og ekstern validitet (Shadish, Cook, and Campbell 2001, chap. 2) . Mastering av disse konseptene vil gi deg en mental sjekkliste for kritikk og forbedring av design og analyse av et eksperiment, og det vil hjelpe deg å kommunisere med andre forskere.
Statistisk konklusjon gyldighet sentrerer om den statistiske analysen av forsøket ble gjort riktig. I sammenheng med Schultz et al. (2007) , kan et slikt spørsmål fokusere på om de har beregnet sine \(p\) -verdier riktig. De statistiske prinsippene må designe og analysere eksperimenter ligger utenfor omfanget av denne boken, men de har ikke fundamentalt endret seg i den digitale tidsalderen. Det som har forandret seg er imidlertid at datamiljøet i digitale eksperimenter har skapt nye muligheter, for eksempel bruk av maskinlæringsmetoder for å estimere heterogenitet av behandlingseffekter (Imai and Ratkovic 2013) .
Intern validitet senterer om eksperimentelle prosedyrer ble utført på riktig måte. Tilbake til forsøket av Schultz et al. (2007) , kan spørsmål om intern validitet sitte rundt randomisering, levering av behandling og måling av resultater. For eksempel kan du være bekymret for at forskningsassistentene ikke har lest de elektriske målere på en pålitelig måte. Faktisk var Schultz og kolleger bekymret for dette problemet, og de hadde et utvalg av målere lest to ganger; Heldigvis var resultatene i det vesentlige identiske. Generelt synes Schultz og kollegers eksperiment å ha høy intern validitet, men dette er ikke alltid tilfelle: Komplekse felt og online eksperimenter utløser ofte problemer som faktisk leverer riktig behandling til de riktige personene og måler resultatene for alle. Heldigvis kan den digitale tidsalderen bidra til å redusere bekymringer om intern validitet fordi det nå er lettere å sikre at behandlingen leveres til de som skal motta den og å måle utfall for alle deltakere.
Konstruer validitetssentre rundt kampen mellom dataene og de teoretiske konstruksjonene. Som diskutert i kapittel 2, er konstruksjoner abstrakte begreper som samfunnsvitenskapsmenn grunner om. Dessverre har disse abstrakte konseptene ikke alltid klare definisjoner og målinger. Tilbake til Schultz et al. (2007) , påstanden om at forbudsmessige sosiale normer kan redusere strømforbruket, krever forskere å designe en behandling som vil manipulere "injunctive sosiale normer" (for eksempel et uttrykksikon) og å måle «strømforbruk». I analoge eksperimenter designet mange forskere sine egne behandlinger og målte sine egne utfall. Denne tilnærmingen sikrer at, så mye som mulig, samsvarer forsøkene med de abstrakte konstruksjonene som studeres. I digitale eksperimenter hvor forskere samarbeider med bedrifter eller regjeringer om å levere behandlinger og bruke kontinuerlige datasystemer til å måle resultater, kan kampen mellom eksperimentet og de teoretiske konstruksjonene være mindre stramt. Dermed forventer jeg at konstruksjonsgyldigheten vil være en større bekymring i digitale eksperimenter enn i analoge eksperimenter.
Endelig sentrerer ekstern validitet om resultatene av dette eksperimentet kan generaliseres til andre situasjoner. Tilbake til Schultz et al. (2007) kan man spørre om denne samme ideen gir folk informasjon om deres energiforbruk i forhold til sine jevnaldrende og et signal om forbudsmessige normer (f.eks. Et uttrykksikon) - ville redusere energiforbruket dersom det ble gjort på en annen måte i en annen innstilling. For de fleste veldesignede og veldrevne eksperimenter er bekymringer om ekstern validitet det vanskeligste å ta opp. Tidligere involvert disse debattene om ekstern validitet ikke noe mer enn en gruppe mennesker som satt i et rom, og forsøkte å forestille seg hva som ville ha skjedd hvis prosedyrene var blitt gjort på en annen måte, eller på et annet sted eller med ulike deltakere . Heldigvis lar den digitale tidsalderen forskere bevege seg utover disse datafrie spekulasjonene og vurdere empirisk ekstern validitet.
Fordi resultatene fra Schultz et al. (2007) var så spennende, et selskap som heter Opower, samarbeider med verktøy i USA for å distribuere behandlingen i større grad. Basert på utformingen av Schultz et al. (2007) opprettet Opower tilpassede Home Energy Reports som hadde to hovedmoduler: En viser husholdningens strømforbruk i forhold til sine naboer med et uttrykksikon og en som gir tips for å redusere energiforbruket (figur 4.6). Så, i samarbeid med forskere, løp Opower randomiserte kontrollerte eksperimenter for å vurdere effekten av disse Home Energy Reports. Selv om behandlingene i disse forsøkene vanligvis ble levert fysisk - vanligvis gjennom gammeldags sneglepost - ble resultatet målt ved hjelp av digitale enheter i den fysiske verdenen (f.eks. Effektmålere). Videre, i stedet for å samle inn denne informasjonen manuelt med forskningsmiljøer som besøkte hvert hus, ble Opower-eksperimentene gjort i samarbeid med kraftselskaper som gjorde det mulig for forskerne å få tilgang til effektavlesningene. Dermed ble disse delvise digitale felteksperimentene kjørt i massiv skala til lav variabel kostnad.
I et første sett med eksperimenter som involverte 600.000 husholdninger fra 10 forskjellige steder, Allcott (2011) at Allcott (2011) senket strømforbruket. Med andre ord, var resultatene fra den mye større, mer geografisk varierte studien kvalitativt lik resultatet fra Schultz et al. (2007) . Videre viste Allcott (2015) i etterfølgende forskning med åtte millioner flere husholdninger fra 101 forskjellige nettsteder at Allcott (2015) konsekvent senket strømforbruket. Dette mye større settet av eksperimenter avslørte også et interessant nytt mønster som ikke ville være synlig i et enkelt eksperiment: virkningenes størrelse ble redusert i de senere forsøkene (figur 4.7). Allcott (2015) spekulerte på at denne tilbakegangen skjedde fordi behandlingen over tid ble brukt på ulike typer deltakere. Mer spesifikt var verktøy med mer miljømessige fokuserte kunder mer sannsynlig å vedta programmet tidligere, og deres kunder var mer lydhør overfor behandlingen. Som verktøy med mindre miljømessige fokuserte kunder vedtok programmet, syntes effekten å avta. På samme måte som randomisering i eksperimentene sikrer at behandlings- og kontrollgruppen er like, sikrer randomisering på forskningssteder at estimatene kan generaliseres fra en gruppe deltakere til en mer generell befolkning (tenk tilbake til kapittel 3 om prøvetaking). Hvis forskningssteder ikke samples tilfeldig, kan generalisering - selv fra et perfekt designet og utført eksperiment - være problematisk.
Sammen har disse 111 eksperimentene -10 i Allcott (2011) og 101 i Allcott (2015) involvert ca. 8,5 millioner husholdninger fra hele USA. De viser konsekvent at Home Energy Reports reduserer gjennomsnittlig strømforbruk, et resultat som støtter de opprinnelige funnene fra Schultz og kolleger fra 300 boliger i California. Utover bare å kopiere disse opprinnelige resultatene, viser oppfølgingsforsøkene også at størrelsen på effekten varierer etter plassering. Dette settet av eksperimenter illustrerer også to mer generelle poeng om delvis digitale felteksperimenter. For det første vil forskerne kunne empirisk ta opp bekymringer om ekstern validitet når kostnadene ved å kjøre eksperimenter er lave, og dette kan oppstå hvis resultatet allerede måles ved hjelp av et kontinuerlig datasystem. Derfor foreslår det at forskere skal være på utkikk etter andre interessante og viktige oppføringer som allerede er registrert, og deretter designe eksperimenter på toppen av denne eksisterende måleinfrastrukturen. For det andre minner dette settet med eksperimenter om at digitale felteksperimenter ikke bare er online; I økende grad forventer jeg at de vil være overalt med mange utfall målt av sensorer i det bygde miljøet.
De fire typene validitets-statistisk konklusjonsgyldighet, intern validitet, konstruksjonsgyldighet og ekstern validitet - gi en mental sjekkliste for å hjelpe forskere å vurdere om resultatene fra et bestemt eksperiment støtter en mer generell konklusjon. Sammenlignet med analoge alderseksperimenter, i digitale alderseksperimenter, bør det være lettere å adressere ekstern validitet empirisk, og det bør også være lettere å sikre intern validitet. På den annen side vil problemer med konstruktiv validitet trolig være mer utfordrende i digitale alderseksperimenter, spesielt digitale felteksperimenter som involverer partnerskap med selskaper.