Geldigheid verwijst naar hoeveel de resultaten van een experiment ondersteunen een algemene conclusie.
Geen enkel experiment is perfect en onderzoekers hebben een uitgebreid vocabulaire ontwikkeld om mogelijke problemen te beschrijven. Geldigheid verwijst naar de mate waarin de resultaten van een bepaald experiment een meer algemene conclusie ondersteunen. Sociale wetenschappers hebben gevonden dat het nuttig is om validiteit te verdelen in vier hoofdtypen: statistische conclusiegeldigheid, interne validiteit, constructvaliditeit en externe validiteit (Shadish, Cook, and Campbell 2001, chap. 2) . Het beheersen van deze concepten zal je een mentale checklist geven voor het bekritiseren en verbeteren van het ontwerp en de analyse van een experiment, en het zal je helpen communiceren met andere onderzoekers.
Statistische conclusie validiteit draait rond of de statistische analyse van het experiment correct is uitgevoerd. In de context van Schultz et al. (2007) , zou een dergelijke vraag zich kunnen concentreren op de vraag of ze hun \(p\) -waarden correct hebben berekend. De statistische principes die moeten worden ontworpen en geanalyseerd, vallen buiten het bestek van dit boek, maar ze zijn in het digitale tijdperk niet fundamenteel veranderd. Wat echter is veranderd, is dat de gegevensomgeving in digitale experimenten nieuwe mogelijkheden heeft gecreëerd, zoals het gebruik van machine-leermethoden om de heterogeniteit van de behandeleffecten in te schatten (Imai and Ratkovic 2013) .
Interne validiteit draait rond of de experimentele procedures correct werden uitgevoerd. Terugkerend naar het experiment van Schultz et al. (2007) , vragen over de interne validiteit zouden zich kunnen concentreren op randomisatie, behandeling en meting van uitkomsten. U bent bijvoorbeeld bang dat de onderzoeksassistenten de elektrische meters niet betrouwbaar hebben gelezen. Schultz en zijn collega's maakten zich zelfs zorgen om dit probleem en ze hadden een steekproef van meters tweemaal gelezen; gelukkig waren de resultaten in wezen identiek. Over het algemeen lijkt het experiment van Schultz en collega's een hoge interne validiteit te hebben, maar dit is niet altijd het geval: complexe veld- en online-experimenten lopen vaak tegen problemen aan door de juiste behandeling aan de juiste mensen te geven en de resultaten voor iedereen te meten. Gelukkig kan het digitale tijdperk zorgen over interne validiteit helpen verminderen, omdat het nu gemakkelijker is om ervoor te zorgen dat de behandeling wordt afgeleverd bij degenen die het zouden moeten ontvangen en om de resultaten voor alle deelnemers te meten.
Constructvaliditeit draait om de overeenkomst tussen de gegevens en de theoretische constructies. Zoals besproken in hoofdstuk 2, zijn constructen abstracte concepten waar sociale wetenschappers over redeneren. Helaas hebben deze abstracte concepten niet altijd duidelijke definities en metingen. Terugkerend naar Schultz et al. (2007) , de bewering dat injunctie van sociale normen het elektriciteitsverbruik kan verlagen, vereist dat onderzoekers een behandeling ontwerpen die "injunctive social normen" (bijvoorbeeld een emoticon) manipuleert en "elektriciteitsgebruik" meet. In analoge experimenten hebben veel onderzoekers hun eigen behandelingen ontworpen en hun eigen resultaten gemeten. Deze aanpak zorgt ervoor dat de experimenten zoveel mogelijk overeenkomen met de abstracte constructies die worden bestudeerd. In digitale experimenten waarbij onderzoekers samenwerken met bedrijven of overheden om behandelingen te leveren en altijd beschikbare gegevenssystemen gebruiken om resultaten te meten, is de overeenkomst tussen het experiment en de theoretische constructies minder strikt. Dus ik verwacht dat constructvaliditeit in digitale experimenten een grotere zorg zal zijn dan in analoge experimenten.
Ten slotte richt externe validiteit zich op de vraag of de resultaten van dit experiment kunnen worden gegeneraliseerd naar andere situaties. Terugkerend naar Schultz et al. (2007) , zou je je af kunnen vragen of ditzelfde idee - mensen voorzien van informatie over hun energieverbruik in relatie tot hun leeftijdsgenoten en een signaal van dwangnormen (bijv. Een emoticon) - het energieverbruik zou verminderen als het op een andere manier zou zijn gedaan in een andere setting. Voor de meeste goed ontworpen en goed uitgevoerde experimenten zijn zorgen over externe validiteit het moeilijkst aan te pakken. In het verleden waren deze debatten over externe validiteit vaak niets anders dan een groep mensen die in een kamer zat en zich probeerde voor te stellen wat er zou zijn gebeurd als de procedures op een andere manier of op een andere plaats of met verschillende deelnemers waren gedaan . Gelukkig stelt het digitale tijdperk onderzoekers in staat verder te gaan dan deze data-vrije speculaties en de externe validiteit empirisch te beoordelen.
Omdat de resultaten van Schultz et al. (2007) waren zo opwindend, dat een bedrijf genaamd Opower samenwerkte met nutsbedrijven in de Verenigde Staten om de behandeling op grotere schaal in te zetten. Gebaseerd op het ontwerp van Schultz et al. (2007) , Opower creëerde aangepaste Home Energy Reports met twee hoofdmodules: één met het elektriciteitsverbruik van een huishouden ten opzichte van zijn buren met een emoticon en één met tips voor het verlagen van het energieverbruik (figuur 4.6). Vervolgens heeft Opower in samenwerking met onderzoekers gerandomiseerde gecontroleerde experimenten uitgevoerd om de impact van deze Home Energy Reports te beoordelen. Hoewel de behandelingen in deze experimenten meestal fysiek werden uitgevoerd - meestal via ouderwetse slakkenpost - werd het resultaat gemeten met behulp van digitale apparaten in de fysieke wereld (bijvoorbeeld energiemeters). Verder, in plaats van het handmatig verzamelen van deze informatie met onderzoeksmedewerkers die elk huis bezoeken, werden de Opower-experimenten allemaal gedaan in samenwerking met energiebedrijven waardoor de onderzoekers toegang hadden tot de vermogensmetingen. Aldus werden deze gedeeltelijk digitale veldexperimenten op een enorme schaal uitgevoerd met lage variabele kosten.
In een eerste reeks experimenten met 600.000 huishoudens uit 10 verschillende locaties, vond Allcott (2011) dat het Home Energy Report het elektriciteitsverbruik verlaagde. Met andere woorden, de resultaten van de veel grotere, meer geografisch diverse studie waren kwalitatief vergelijkbaar met de resultaten van Schultz et al. (2007) . Verder Allcott (2015) in vervolgonderzoek met acht miljoen extra huishoudens van 101 verschillende locaties opnieuw dat het Home Energy Report het elektriciteitsverbruik consequent verlaagde. Deze veel grotere reeks experimenten onthulde ook een interessant nieuw patroon dat niet zichtbaar zou zijn in een enkel experiment: de grootte van het effect daalde in de latere experimenten (figuur 4.7). Allcott (2015) speculeerde dat deze afname plaatsvond omdat in de loop van de tijd de behandeling werd toegepast op verschillende soorten deelnemers. Meer specifiek, nutsbedrijven met meer milieuvriendelijke klanten namen eerder het programma over en hun klanten reageerden beter op de behandeling. Omdat nutsbedrijven met minder milieubewuste klanten het programma gebruikten, leek de effectiviteit ervan af te nemen. Net zoals randomisatie bij experimenten ervoor zorgt dat de behandelings- en controlegroep vergelijkbaar zijn, zorgt randomisatie op onderzoekslocaties ervoor dat de schattingen kunnen worden gegeneraliseerd van één groep deelnemers naar een meer algemene populatie (denk terug aan hoofdstuk 3 over steekproeven). Als onderzoekslocaties niet willekeurig worden bemonsterd, kan generalisatie - zelfs vanuit een perfect ontworpen en uitgevoerd experiment - problematisch zijn.
Samen waren deze 111 experimenten - 10 in Allcott (2011) en 101 in Allcott (2015) - ongeveer 8,5 miljoen huishoudens uit de hele Verenigde Staten. Ze tonen consequent aan dat Home Energy Reports het gemiddelde elektriciteitsverbruik verlaagt, een resultaat dat de oorspronkelijke bevindingen van Schultz en collega's uit 300 huizen in Californië ondersteunt. Naast het repliceren van deze originele resultaten, laten de vervolgexperimenten ook zien dat de grootte van het effect per locatie verschilt. Deze reeks experimenten illustreert ook twee meer algemene punten over gedeeltelijk digitale veldexperimenten. Ten eerste kunnen onderzoekers empirisch zorgen over externe validiteit aanpakken wanneer de kosten van het uitvoeren van experimenten laag zijn, en dit kan gebeuren als het resultaat al wordt gemeten door een always-on gegevenssysteem. Daarom suggereert het dat onderzoekers op zoek moeten naar andere interessante en belangrijke gedragingen die al worden vastgelegd, en vervolgens ontwerpexperimenten moeten uitvoeren bovenop deze bestaande meetinfrastructuur. Ten tweede herinnert deze reeks experimenten ons eraan dat experimenten met digitale velden niet alleen online zijn; steeds vaker verwacht ik dat ze overal zullen zijn met veel resultaten gemeten door sensoren in de gebouwde omgeving.
De vier soorten validiteits-statistische conclusiegeldigheid, interne validiteit, constructvaliditeit en externe validiteit bieden een mentale checklist om onderzoekers te helpen beoordelen of de resultaten van een bepaald experiment een meer algemene conclusie ondersteunen. Vergeleken met experimenten met analoge ouderdom, zou het in digitale-leeftijdsexperimenten eenvoudiger moeten zijn om externe validiteit empirisch aan te pakken, en het zou ook eenvoudiger moeten zijn om de interne validiteit te waarborgen. Aan de andere kant zullen problemen met constructvaliditeit waarschijnlijk uitdagender zijn in digitale-leeftijdsexperimenten, vooral digitale veldexperimenten waarbij partnerschappen met bedrijven zijn betrokken.