Gyldigheten refererer til hvor mye resultatene av et eksperiment understøtte en mer generell konklusjon.
Ingen forsøk er perfekt, og forskere har utviklet et omfattende vokabular for å beskrive mulige problemer. Gyldigheten refererer til hvorvidt resultatet av en bestemt eksperiment støtte noen mer generelle konklusjon. Samfunnsvitere har funnet det nyttig å dele validitet inn i fire hovedtyper: statistisk konklusjon validitet, indre validitet, begrepsvaliditet og ekstern validitet (Shadish, Cook, and Campbell 2001, Ch 2) . Maste disse konseptene vil gi deg en mental sjekkliste for kritikk og forbedre design og analyse av et eksperiment, og det vil hjelpe deg å kommunisere med andre forskere.
Statistiske konklusjon validitet sentre rundt om den statistiske analysen av forsøket ble gjort riktig. I sammenheng med Schultz et al. (2007) slikt spørsmål kan fokusere på hvorvidt de beregnede sine p-verdier på riktig måte. Statistisk analyse er utenfor omfanget av denne boken, men jeg kan si at de statistiske prinsippene for å designe og analysere eksperimenter ikke har endret seg i den digitale tidsalderen. Men de forskjellige datamiljø i digitale eksperimenter skape nye statistiske muligheter (for eksempel ved hjelp av maskinlæringsmetoder for å estimere heterogenitet av behandlingseffekter (Imai and Ratkovic 2013) ) og nye beregnings utfordringer (for eksempel blokkering i massive eksperimenter (Higgins, Sävje, and Sekhon 2016) ).
Intern validitet sentre rundt om eksperimentelle prosedyrer ble utført på riktig måte. Retur til eksperimentet av Schultz et al. (2007) , spørsmål om intern validitet kan sentrere rundt randomisering, levering av behandlingen, og måling av resultater. For eksempel kan du være opptatt av at forskningsassistenter ikke har lest den elektriske meter pålitelig. Faktisk, Schultz og kolleger var bekymret for dette problemet, og de hadde en prøve av meter lest to ganger; Heldigvis, var resultatene i det vesentlige identiske. Generelt, Schultz og medarbeidere 'eksperiment synes å ha høy intern gyldighet, men dette er ikke alltid tilfelle; komplekst felt og elektroniske eksperimenter ofte får problemer faktisk levere riktig behandling til de rette menneskene og måle resultatene for alle. Heldigvis kan den digitale tidsalderen bidra til å redusere bekymringer om intern validitet fordi det gjør det lettere å sikre at behandlingen er levert som designet for de som er ment å motta den, og for å måle utfall for alle deltakerne.
Begrepsvaliditet sentre rundt kampen mellom data og teoretiske utlegninger. Som omtalt i kapittel 2, konstruerer er abstrakte begreper som samfunnsvitere grunn om. Dessverre har disse abstrakte begreper ikke alltid har klare definisjoner og målinger. Retur til Schultz et al. (2007) , hevder at midlertidige sosiale normer kan redusere strømforbruket krever forskerne å utforme en behandling som vil manipulere "forføyninger sosiale normer" (for eksempel et uttrykksikon) og å måle "elektrisitet bruk". I analoge eksperimenter, mange forskere utviklet sine egne behandlinger og målt sine egne resultater. Denne tilnærmingen sikrer at så mye som mulig, eksperimenter matche abstrakte konstruksjoner som studeres. I digitale eksperimenter hvor forskere samarbeider med bedrifter eller myndigheter for å levere behandlinger og bruker alltid-på datasystemer for å måle resultater, kan kampen mellom forsøket og de teoretiske utlegninger være mindre stramt. Derfor forventer jeg at begrepsvaliditet vil tendere til å være en større bekymring i digitale eksperimenter enn analoge eksperimenter.
Til slutt, ekstern validitet sentre rundt om resultatene av dette eksperimentet ville generalisere til andre situasjoner. Retur til Schultz et al. (2007) , kan man spørre, vil denne samme idé-gi folk informasjon om energiforbruket i forhold til sine jevnaldrende og et signal om forføyninger normer (for eksempel et uttrykksikon) reduser energiforbruket hvis det ble gjort på en annen måte i en annen innstilling? For de fleste godt designet og godt kjøre eksperimenter, bekymringer om ekstern validitet er de vanskeligste å håndtere. I det siste, disse debattene om ekstern validitet var ofte bare en haug med folk som sitter i et rom prøver å forestille seg hva som ville skjedd hvis prosedyrene ble gjort på en annen måte, eller på et annet sted, eller med forskjellige mennesker. Heldigvis gjør den digitale tidsalder forskere til å gå utover disse datafrie spekulasjoner og vurdere ekstern validitet empirisk.
Fordi resultatene fra Schultz et al. (2007) var så spennende, et selskap som heter opower inngått samarbeid med verktøy i USA for å distribuere behandlingen mer utbredt. Basert på design av Schultz et al. (2007) , opower opprettet tilpasset Home Energy Rapporter som hadde to hovedmoduler, en som viser en husholdning i strømforbruk i forhold til sine naboer med et uttrykksikon og en som gir tips for å senke energiforbruket (figur 4.6). Så, i samarbeid med forskere, løp opower randomiserte kontrollerte eksperimenter for å vurdere effekten av Home Energy Reports. Selv om behandlinger i disse forsøkene ble vanligvis levert fysisk-vanligvis gjennom gammeldags brevpost-resultatet ble målt ved hjelp av digitale enheter i den fysiske verden (f.eks strøm meter). Snarere enn å manuelt samle inn denne informasjonen med forskningsassistenter besøker hvert hus ble opower forsøkene gjort i samarbeid med kraftselskaper slik at forskerne å få tilgang til strømavlesninger. Dermed ble disse delvis digitale feltforsøk kjøre på en massiv skala til lave variable kostnader.
I et første sett av forsøk med 600.000 husholdninger som betjenes av 10 energiselskaper rundt om i USA, Allcott (2011) fant Home Energy Rapporter senket strømforbruket med 1,7%. Med andre ord, resultatene fra den mye større, mer geografisk forskjellige studien var kvalitativt lik resultatene fra Schultz et al. (2007) . Men virkningen størrelse var mindre: i Schultz et al. (2007) husholdningene i beskrivende og injektiv normer tilstand (den med den uttrykksikon) redusert elektrisitetsforbruket med 5%. Den nøyaktige årsaken til denne forskjellen er ukjent, men Allcott (2011) spekulert i at motta et håndskrevet uttrykksikon som en del av en studie sponset av et universitet kan ha en større effekt på atferd enn å motta en trykt uttrykksikon som en del av en masseprodusert rapport fra en kraftselskap.
Videre, i senere forskning, Allcott (2015) rapporterte om ytterligere 101 forsøk med ytterligere 8 millioner husstander. I de neste 101 eksperimenter fortsatte Home Energy Rapporter å føre folk til å senke strømforbruket, men effekten var enda mindre. Den nøyaktige årsaken til denne nedgangen er ikke kjent, men Allcott (2015) spekulert i at effektiviteten av rapporten ut til å avta over tid fordi det ble faktisk blir brukt til ulike typer deltakere. Mer spesifikt, verktøy i flere miljøforkjemper områder var mer sannsynlig vedta programmet tidligere og deres kunder var mer mottakelig for behandlingen. Som hjelpemidler med mindre miljø kunder vedtatt programmet, dens effektivitet ut til å avta. Dermed like randomisering i eksperimenter sikrer at behandling og kontroll gruppe er like, sikrer randomisering i forskning områder som estimatene kan generaliseres fra en gruppe deltakere til et mer generelle befolkningen (tenker tilbake til kapittel 3 om sampling). Hvis forsknings områder som ikke er samplet tilfeldig, så generalisering-selv fra en perfekt designet og gjennomført eksperiment-kan være problematisk.
Sammen utgjør disse 111 eksperimentene-10 i Allcott (2011) og 101 i Allcott (2015) -involved ca 8,5 millioner husstander i hele USA. De viser gjennomgående at Home Energy Reports redusere det gjennomsnittlige strømforbruket, et resultat som støtter de opprinnelige resultatene av Schultz og kolleger fra 300 boliger i California. Utover bare å kopiere disse opprinnelige resultatene, oppfølging forsøk viser også at størrelsen på effekten varierer fra sted til sted. Dette settet med eksperimenter illustrerer også to mer generelle punkter om delvis digitale feltforsøk. Først vil forskerne kunne empirisk adresse bekymringer om ekstern validitet når kostnadene ved å drive eksperimenter er lav, og dette kan skje hvis utfallet allerede er målt ved en alltid-på datasystem. Derfor tyder det på at forskningen skal være på utkikk etter andre interessante og viktige atferd som allerede er registrert, og deretter utforme eksperimenter på toppen av denne eksisterende måleinfrastruktur. For det andre, dette settet med eksperimenter minner oss om at digitale feltforsøk er ikke bare online; stadig jeg forventer at de vil være overalt med mange utfall målt av sensorer i det bygde miljø.
De fire typer validitet-statistisk konklusjon validitet, indre validitet, begrepsvaliditet, ekstern validitet-gi en mental sjekkliste for å hjelpe forskere vurdere om resultatene fra et bestemt eksperiment støtte en mer generell konklusjon. Sammenlignet med analoge alder eksperimenter i digitale alder eksperimenter bør det være lettere å ta ekstern validitet empirisk og det skal være lettere å sikre intern validitet. På den annen side vil spørsmål om begrepsvaliditet trolig være mer utfordrende i digitale alder eksperimenter (selv om det ikke var tilfelle med de opower eksperimenter).