Gyldighed refererer til, hvor meget resultaterne af et eksperiment støtte en mere generel konklusion.
Ingen eksperiment er perfekt, og forskere har udviklet et omfattende ordforråd til at beskrive mulige problemer. Validitet refererer til, i hvilket omfang resultaterne af en bestemt eksperiment støtte nogle mere generelle konklusion. Sociale forskere har fundet det nyttigt at opdele gyldighed i fire hovedtyper: statistisk konklusion validitet, intern validitet, konstruere gyldighed, og ekstern validitet (Shadish, Cook, and Campbell 2001, Ch 2) . Mastering disse begreber vil give dig en mental tjekliste for kritisere og forbedre design og analyse af et eksperiment, og det vil hjælpe dig med at kommunikere med andre forskere.
Statistisk konklusion gyldighed centre rundt om den statistiske analyse af forsøget blev udført korrekt. I forbindelse med Schultz et al. (2007) sådant spørgsmål kunne fokusere på, om de beregnede deres p-værdier korrekt. Statistisk analyse ligger uden for rammerne af denne bog, men jeg kan sige, at de statistiske principper, der er nødvendige for at designe og analysere eksperimenter ikke har ændret sig i den digitale tidsalder. Men den anden data miljø i digitale eksperimenter skaber nye statistiske muligheder (f.eks ved hjælp af maskine læringsmetoder at estimere heterogenitet behandlingseffekter (Imai and Ratkovic 2013) ) og nye beregningsmæssige udfordringer (f.eks, blokering i massive eksperimenter (Higgins, Sävje, and Sekhon 2016) ).
Intern validitet centre rundt om de eksperimentelle procedurer blev udført korrekt. Vender tilbage til forsøget med Schultz et al. (2007) , kan spørgsmål om intern validitet centrere omkring randomisering, levering af behandlingen, og måling af resultater. For eksempel kan du være bekymret for, at den forskning assistenter ikke læste de elektriske målere pålideligt. Faktisk Schultz og kolleger var bekymrede over dette problem, og de havde en stikprøve af målere læst to gange; heldigvis var resultaterne i det væsentlige identiske. Generelt Schultz og kollegers eksperiment synes at have høj intern validitet, men dette er ikke altid tilfældet; komplekst felt og online eksperimenter ofte løber ind i problemer rent faktisk leverer den rette behandling til de rigtige mennesker og måling af resultaterne for alle. Heldigvis kan den digitale tidsalder hjælpe med at reducere bekymringer om intern validitet, fordi det gør det lettere at sikre, at behandlingen leveres som designet til dem, der skulle modtage den, og for at måle resultater for alle deltagere.
Construct validitet centre rundt kampen mellem data og de teoretiske konstruktioner. Som omtalt i kapitel 2, konstruktioner er abstrakte begreber, som samfundsforskere grund om. Desværre har disse abstrakte begreber ikke altid har klare definitioner og målinger. Vender tilbage til Schultz et al. (2007) , påstanden om, at påbud sociale normer kan sænke elforbruget kræver forskere til at designe en behandling, der ville manipulere "forbudsprocedurers sociale normer" (f.eks, et humørikon) og måle "elforbrug". I analoge eksperimenter, mange forskere designet deres egne behandlinger og målte deres egne resultater. Denne fremgangsmåde sikrer, at så meget som muligt, eksperimenterne matcher de abstrakte konstruktioner blev undersøgt. I digitale eksperimenter hvor forskere partner med virksomheder eller regeringer at levere behandlinger og bruge altid-på datasystemer til at måle resultater, kan kampen mellem eksperimentet og de teoretiske konstruktioner være mindre stram. Jeg forventer derfor, at konstruktion gyldighed vil have en tendens til at være en større bekymring i digitale eksperimenter end analoge eksperimenter.
Endelig ekstern validitet centre rundt om resultaterne af dette forsøg vil generalisere til andre situationer. Vender tilbage til Schultz et al. (2007) , kunne man spørge, vil denne samme idé-give folk oplysninger om deres energiforbrug i forhold til deres jævnaldrende og et signal om påbud normer (f.eks et humørikon) -reducere energiforbrug, hvis det blev gjort på en anden måde i en anden indstilling? For de fleste godt designet og veldrevet eksperimenter, bekymringer om ekstern validitet er de sværeste at løse. I fortiden, disse debatter om ekstern validitet var ofte bare en flok mennesker, der sidder i et rum forsøger at forestille sig, hvad der ville være sket, hvis procedurerne blev udført på en anden måde, eller et andet sted, eller med forskellige mennesker. Heldigvis den digitale tidsalder giver forskerne til at bevæge sig ud over disse data-fri spekulationer og vurdere ekstern validitet empirisk.
Fordi resultaterne fra Schultz et al. (2007) var så spændende, et selskab ved navn Opower indgået et samarbejde med forsyningsselskaber i USA for at implementere behandlingen mere bredt. Baseret på design af Schultz et al. (2007) , Opower skabt tilpassede Home Energy Reports, der havde to vigtigste moduler, en viser en husstands el-forbrug i forhold til sine naboer med en smiley og en giver tips til at sænke energiforbruget (Figur 4.6). Så i samarbejde med forskere, løb Opower randomiserede kontrollerede eksperimenter for at vurdere virkningen af Home Energy Reports. Selvom behandlinger i disse forsøg blev typisk leveret fysisk-regel gennem gammeldags snail mail-resultatet blev målt ved hjælp af digitale enheder i den fysiske verden (f.eks power meter). Snarere end manuelt at indsamle disse oplysninger med forskningsassistenter besøger hvert hus blev Opower eksperimenterne alle gjort i samarbejde med elselskaber gør det muligt for forskerne at få adgang til elforbruget. Således blev disse delvist digitale markforsøg køre på et massivt omfang ved lave variable omkostninger.
I et første sæt af forsøg med 600.000 husstande, der betjenes af 10 elselskaber rundt omkring i USA, Allcott (2011) fandt Home Energy Report sænket elforbruget med 1,7%. Med andre ord, at resultaterne fra det meget større, mere geografisk spredt undersøgelse var kvalitativt til resultaterne fra Schultz et al. (2007) . Men virkningen størrelse var mindre: i Schultz et al. (2007) husholdningerne i det beskrivende og injektiv normer tilstand (den ene med humørikon) reducerede deres el-forbrug med 5%. Den præcise årsag til denne forskel er ukendt, men Allcott (2011) spekuleret på, at modtage et håndskrevet humørikon som en del af en undersøgelse sponsoreret af et universitet kan have en større effekt på adfærd end at modtage en trykt humørikon som en del af en masseproduceret rapport fra en elselskab.
Endvidere i efterfølgende forskning, Allcott (2015) rapporterede om yderligere 101 forsøg med yderligere 8 millioner husstande. I de næste 101 eksperimenter fortsatte Home Energy Report at få folk til at sænke deres elforbrug, men effekterne var endnu mindre. Den præcise årsag til dette fald er ikke kendt, men Allcott (2015) spekuleret på, at effektiviteten af den rapport, syntes at være faldende over tid, fordi det faktisk blev anvendt til forskellige typer af deltagere. Mere specifikt forsyningsselskaber i flere miljøforkæmper områder var mere sandsynligt vedtage programmet tidligere og deres kunder var mere lydhør over for behandlingen. Som forsyningsværker med mindre miljømæssige kunder vedtog programmet, dets effektivitet syntes at falde. Ligesom randomisering i forsøg sikrer, at behandlingen og kontrolgruppen er ens, randomisering i forskning sites sikrer således, at estimaterne kan generaliseres fra en en gruppe af deltagere til en mere almindelige befolkning (tænker tilbage på kapitel 3 om prøveudtagning). Hvis forskning steder ikke udtages tilfældigt, så generalisering-selv fra en perfekt designet og udført eksperiment-kan være problematisk.
Tilsammen udgør disse 111 eksperimenter-10 i Allcott (2011) og 101 i Allcott (2015) -involved omkring 8,5 millioner husstande fra hele USA. De viser konsekvent, at Hjem Energy Reports reducere gennemsnitlige elforbrug, et resultat, der understøtter de oprindelige resultater af Schultz og kolleger fra 300 hjem i Californien. Udover bare at kopiere disse oprindelige resultater, de opfølgende eksperimenter viser også, at størrelsen af effekten varierer efter sted. Dette sæt eksperimenter illustrerer også to mere generelle punkter om delvist digitale markforsøg. For det første vil forskerne kunne empirisk adresse bekymringer om ekstern validitet, når udgifterne til drift af eksperimenter er lav, og det kan ske, hvis udfaldet allerede er ved at blive målt med en altid-on datasystem. Derfor er det tyder på, at forskning skal være på udkig efter andre interessante og vigtige adfærd, der allerede er optaget, og derefter designe eksperimenter på toppen af denne eksisterende måling infrastruktur. For det andet, dette sæt eksperimenter minder os om, at digitale markforsøg er ikke bare online; i stigende grad forventer jeg, at de vil være overalt med mange resultater målt af sensorer i det byggede miljø.
De fire typer af gyldigheden-statistisk konklusion gyldighed, intern validitet, konstruere gyldighed, ekstern validitet-giver en mental tjekliste til at hjælpe forskerne vurdere, om resultaterne fra et bestemt eksperiment støtte en mere generel konklusion. Sammenlignet med analoge alder eksperimenter, i digitale alder eksperimenter bør det være lettere at løse ekstern validitet empirisk og det skal være lettere at sikre intern validitet. På den anden side vil spørgsmål om konstrukt gyldighed sandsynligvis være mere udfordrende i digitale alder eksperimenter (selvom det ikke var tilfældet med de Opower eksperimenter).