Geldigheid verwijst naar hoeveel de resultaten van een experiment ondersteunen een algemene conclusie.
Nr experiment is perfect, en onderzoekers hebben een uitgebreide woordenschat ontwikkeld om mogelijke problemen te beschrijven. Geldigheid verwijst naar de mate waarin de resultaten van een bepaald experiment worden ondersteund in meer algemene conclusie. Sociale wetenschappers hebben ontdekt het nuttig om de geldigheid te splitsen in vier hoofdtypen: statistisch conclusie validiteit, interne validiteit, construct validiteit en externe validiteit (Shadish, Cook, and Campbell 2001, Ch 2) . Het beheersen van deze concepten zal u een mentale checklist voor het bekritiseren en verbetering van het ontwerp en de analyse van een experiment, en het zal u helpen om te communiceren met andere onderzoekers.
Statistische conclusie geldigheid draait om of de statistische analyse van het experiment correct zijn toegevoegd. In het kader van Schultz et al. (2007) zoals vraag zou centreren of zij hun p-waarden correct berekend. Statistische analyse valt buiten het bestek van dit boek, maar ik kan zeggen dat de statistische beginselen die nodig zijn voor het ontwerpen en analyseren van experimenten niet in het digitale tijdperk zijn veranderd. Echter, de verschillende data-omgeving in digitale experimenten creëert nieuwe statistische mogelijkheden (bijvoorbeeld met behulp van machine learning methoden om heterogeniteit van de effecten van de behandeling te schatten (Imai and Ratkovic 2013) ) en nieuwe computationele uitdagingen (bijvoorbeeld het blokkeren in massieve experimenten (Higgins, Sävje, and Sekhon 2016) ).
Interne validiteit draait om de vraag of de experimentele procedures correct werden uitgevoerd. Terugkerend naar het experiment van Schultz et al. (2007) , vragen over de interne validiteit kon centreren rond de randomisatie, de levering van de behandeling, en het meten van resultaten. Bijvoorbeeld, zou u zich zorgen dat het onderzoek assistenten van de elektrische meters niet betrouwbaar heb gelezen zijn. In feite, Schultz en zijn collega's waren bezorgd over dit probleem en ze hadden een steekproef van meter tweemaal te lezen; Gelukkig, de resultaten waren in wezen identiek. In het algemeen, en Schultz experiment collega's lijkt hoge interne validiteit, maar dit is niet altijd het geval; complex veld en online experimenten vaak in de problemen daadwerkelijk leveren van de juiste behandeling om de juiste mensen en het meten van de resultaten voor iedereen. Gelukkig kan de digitale tijdperk te zorgen over interne validiteit verminderen omdat het daardoor gemakkelijker dat de behandeling wordt geleverd als ontworpen voor diegenen die verondersteld te ontvangen en resultaten voor alle deelnemers meten.
Constructvaliditeit draait om de wedstrijd tussen de gegevens en de theoretische concepten. Zoals besproken in hoofdstuk 2, bouwt zijn abstracte concepten die sociale wetenschappers reden over. Helaas hebben deze abstracte begrippen niet altijd duidelijke definities en metingen. Terugkerend naar Schultz et al. (2007) , de bewering dat sociale normen kan het elektriciteitsverbruik verlagen enkel bevel vereist onderzoekers om een behandeling die zou manipuleren "doen staken van sociale normen" (bijvoorbeeld een emoticon) en "elektriciteit use" meten ontwerpen. In analoge experimenten, veel onderzoekers ontwierpen hun eigen behandelingen en gemeten hun eigen resultaten. Deze benadering wordt bereikt dat zoveel mogelijk de experimenten overeen met de abstracte constructen onderzocht. In digitale experimenten waarbij onderzoekers samenwerken met bedrijven of overheden om behandelingen te leveren en te gebruiken always-on datasystemen om de resultaten te meten, kan de wedstrijd tussen het experiment en de theoretische concepten minder strak. Dus verwacht ik dat constructvaliditeit zal de neiging om een grotere zorg in digitale experimenten dan analoge experimenten.
Tenslotte externe validiteit draait om of de resultaten van dit experiment zou generaliseren naar andere situaties. Terugkerend naar Schultz et al. (2007) , men zou kunnen vragen, zal deze zelfde-idee om mensen informatie over hun energieverbruik in verhouding tot hun collega's en een signaal van injunctive normen (bijvoorbeeld een emoticon) Het verminderen van het energieverbruik als het werd gedaan op een andere manier in een andere instelling? Voor de meeste goed ontworpen en goed geleide experimenten, bezorgdheid over de externe validiteit zijn het moeilijkst aan te pakken. In het verleden, deze debatten over de externe validiteit waren vaak net een heleboel mensen zitten in een kamer proberen voor te stellen wat er zou zijn gebeurd als de procedures op een andere manier werden uitgevoerd, of op een andere plaats, of met verschillende mensen. Gelukkig is het digitale tijdperk kunnen onderzoekers verder te gaan dan deze gegevens vrij van speculaties en externe validiteit empirisch te beoordelen.
Omdat de resultaten van Schultz et al. (2007) waren zo spannend, een bedrijf genaamd Opower samen met hulpprogramma's in de Verenigde Staten om de behandeling op grotere schaal in te zetten. Gebaseerd op het ontwerp van Schultz et al. (2007) , Opower gecreëerd op maat Home Energy Rapporten die twee modules, één met een huishouden elektriciteitsverbruik ten opzichte van zijn buren met een emoticon en één met tips voor het verlagen van het energieverbruik hadden (Figuur 4.6). Dan, in samenwerking met onderzoekers, liep Opower gerandomiseerde gecontroleerde experimenten om de impact van de Home Energy Rapporten beoordelen. Hoewel de behandelingen in deze experimenten gewoonlijk geleverd fysisch meestal via ouderwetse post-de uitkomst werd gemeten met behulp van digitale apparaten in de fysieke wereld (bijvoorbeeld vermogensmeters). In plaats van deze informatie met aio een bezoek aan elk huis handmatig verzamelen, werden de Opower experimenten alles gebeurt in samenwerking met energiebedrijven waardoor de onderzoekers om de macht lezingen. Zo werden deze gedeeltelijk digitaal veldproeven uitgevoerd op grote schaal tegen lage variabele kosten.
In een eerste reeks experimenten met 600.000 huishoudens bediend door 10 nutsbedrijven over de hele Verenigde Staten, Allcott (2011) vond de Home Energy Report verminderd elektriciteitsverbruik met 1,7%. Met andere woorden, het resultaat van de veel grotere, meer geografisch diverse studie waren kwalitatief vergelijkbaar met de resultaten van Schultz et al. (2007) . Maar het effect grootte was kleiner: in Schultz et al. (2007) van de huishoudens in de beschrijvende en injectieve normen voorwaarde (degene met de emoticon) verminderden hun gebruik van elektriciteit met 5%. De exacte reden voor dit verschil is niet bekend, maar Allcott (2011) speculeerden dat hij een handgeschreven emoticon kader van een onderzoek gesponsord door een universiteit een groter effect op het gedrag kunnen hebben dan het ontvangen van een gedrukte emoticon als onderdeel van een in serie geproduceerde rapport van een energiebedrijf.
Verder, in de daaropvolgende onderzoek, Allcott (2015) rapporteerde over een extra 101 experimenten met nog eens 8 miljoen huishoudens. In deze volgende 101 experimenten bleef het Home Energy Report om ertoe leiden dat mensen om hun elektriciteitsverbruik te verlagen, maar de effecten waren nog kleiner. De precieze reden voor deze afname is niet bekend, maar Allcott (2015) speculeerden dat de effectiviteit van het verslag bleek te dalen in de tijd omdat het eigenlijk toegepast op verschillende deelnemers. Meer in het bijzonder, nutsbedrijven in meer milieuactivist gebieden was het meer waarschijnlijk te nemen van het programma eerder en hun klanten waren beter inspelen op de behandeling. Zoals nutsbedrijven met minder milieu-klanten heeft het programma, bleek de effectiviteit ervan te dalen. Dus, net zoals randomisatie in experimenten zorgt ervoor dat de behandeling en de controle groep zijn vergelijkbaar, randomisatie in onderzoek websites zorgt ervoor dat de schattingen kan worden gegeneraliseerd uit de ene groep deelnemers aan een meer algemene bevolking (denk terug aan hoofdstuk 3 over de bemonstering). Als het onderzoek sites die niet willekeurig worden bemonsterd, dan generalisatie-zelfs van een perfect ontworpen en uitgevoerd experiment-kan problematisch zijn.
Samen vormen deze 111 experimenten-10 in Allcott (2011) en 101 in Allcott (2015) -involved ongeveer 8,5 miljoen huishoudens uit alle hoeken van de Verenigde Staten. Ze tonen aan dat consequent Home Energy Reports verminderen gemiddelde elektriciteitsverbruik, een resultaat dat de oorspronkelijke bevindingen van Schultz en collega's van 300 woningen in Californië ondersteunt. Verder dan alleen het repliceren van deze originele resultaten, de follow-up experimenten tonen ook aan dat de omvang van het effect verschilt per locatie. Deze reeks experimenten illustreert ook twee meer algemene punten over gedeeltelijk digitaal veldexperimenten. Ten eerste zal de onderzoekers in staat zijn om het adres bezorgdheid over de externe validiteit empirisch wanneer de kosten van het runnen van experimenten is laag, en dit kan gebeuren als de uitslag al wordt gemeten door een always-on data systeem. Daarom, het suggereert dat het onderzoek moet worden op de uitkijk voor andere interessante en belangrijke gedragingen die al worden opgenomen, en vervolgens het ontwerp experimenten op de top van deze bestaande meet- infrastructuur. Ten tweede, deze set van experimenten herinnert ons eraan dat de digitale veldexperimenten zijn niet alleen online; steeds Ik verwacht dat ze overal met vele resultaten gemeten door sensoren in de gebouwde omgeving zal zijn.
De vier types van de geldigheid-statistische conclusie validiteit, interne validiteit, construct validiteit, externe validiteit-zorgen voor een mentale checklist om onderzoekers te helpen beoordelen of de resultaten van een bepaald experiment ondersteunen een meer algemene conclusie. In vergelijking met analoge tijdperk experimenten, in het digitale tijdperk experimenten zou gemakkelijker zijn om externe validiteit empirisch aan te pakken en het zou makkelijker zijn om de interne validiteit te garanderen. Anderzijds zullen problemen constructvaliditeit wellicht moeilijker in digitale tijdperk experimenten (hoewel dat niet het geval met de Opower experimenten).