Giltighet hänvisar till hur mycket resultaten av ett experiment stödja en mer allmän slutsats.
Ingen experiment är perfekt, och forskare har utvecklat en omfattande vokabulär för att beskriva eventuella problem. Giltighet hänvisar till i vilken utsträckning resultaten av en viss experiment stödja lite mer generell slutsats. Samhällsvetare har funnit det lämpligt att dela giltighet i fyra huvudtyper: statistisk slutsats giltighet, intern validitet, konstruera giltighet och extern validitet (Shadish, Cook, and Campbell 2001, Ch 2) . Mastering dessa begrepp kommer att ge dig en mental checklista för kritik och förbättra utformningen och analysen av ett experiment, och det kommer att hjälpa dig att kommunicera med andra forskare.
Statistisk slutsats giltighet kretsar kring huruvida den statistiska analysen av experimentet utfördes korrekt. Inom ramen för Schultz et al. (2007) en sådan fråga kan handla om huruvida de beräknade sina p-värden på rätt sätt. Statistisk analys är utanför ramen för denna bok, men jag kan säga att de statistiska principer som behövs för att utforma och analysera försök som inte har ändrats i den digitala tidsåldern. Däremot de olika datamiljö i digitala experiment skapar nya statistiska möjligheter (t.ex. med hjälp av maskininlärningsmetoder för att uppskatta heterogenitet behandlingseffekter (Imai and Ratkovic 2013) ) och nya beräknings utmaningar (t.ex. blockering i massiva experiment (Higgins, Sävje, and Sekhon 2016) ).
Intern validitet kretsar kring huruvida de experimentella procedurer utfördes korrekt. Återgå till experimentet med Schultz et al. (2007) , frågor om intern validitet kan inriktas runt randomisering, leverans av behandlingen, och mätning av resultat. Till exempel kan du vara orolig för att de forskarassistenter inte läsa elmätare på ett tillförlitligt sätt. I själva verket, Schultz och hans kollegor var oroad över detta problem och de hade ett urval av mätare läsa två gånger; lyckligtvis, var resultaten i huvudsak identiska. I allmänhet, Schultz och hans kollegor "experiment verkar ha hög intern validitet, men detta är inte alltid fallet, komplext område och online experiment ofta stöter på problem faktiskt leverera rätt behandling till rätt personer och mäta resultaten för alla. Lyckligtvis kan den digitala tidsåldern bidra till att minska oron för intern validitet eftersom det gör det lättare att se till att behandlingen levereras som syftar till att de som är tänkt att ta emot den och för att mäta resultat för alla deltagare.
Konstruera giltighet kretsar kring matchen mellan data och teoretiska konstruktioner. Som diskuteras i kapitel 2, konstruktioner är abstrakta begrepp som samhällsvetare anledning om. Tyvärr har dessa abstrakta begrepp inte alltid tydliga definitioner och mätningar. Återvänder till Schultz et al. (2007) , påståendet att förbuds sociala normer kan sänka elanvändningen kräver forskare att utforma en behandling som skulle manipulera "förbudsföreläggande sociala normer" (t.ex. en smiley) och för att mäta "el användning". I analoga experiment, många forskare utformat sina egna behandlingar och mätte deras egna resultat. Detta tillvägagångssätt säkerställer att så mycket som möjligt, experimenten matchar abstrakta konstruktioner som studeras. I digitala experiment där forskare samarbetar med företag eller regeringar att leverera behandlingar och använder alltid-på datasystem för att mäta resultat, kan matchen mellan försöket och de teoretiska konstruktioner vara mindre stram. Alltså, jag räknar med att konstruktionen giltighet tenderar att vara en större oro i digitala experiment än analoga experiment.
Slutligen extern validitet kretsar kring huruvida resultaten av detta experiment skulle generalisera till andra situationer. Återvänder till Schultz et al. (2007) , kan man fråga, kommer samma idé som tillhandahåller personinformation om sin energiförbrukning i förhållande till sina kamrater och en signal om förbudsföreläggande normer (t.ex. en smiley) -reduce energianvändning om det gjordes på ett annat sätt i en annan inställning? För de flesta väl utformade och välskött experiment, oro extern validitet är svårast att behandla. I det förflutna, dessa debatter om extern validitet var ofta bara en massa människor som sitter i ett rum som försöker att föreställa sig vad som skulle ha hänt om de förfaranden som gjordes på ett annat sätt, eller på en annan plats, eller med olika människor. Lyckligtvis kan den digitala tidsåldern forskare att gå bortom dessa datafria spekulationer och bedöma extern validitet empiriskt.
Eftersom resultaten från Schultz et al. (2007) var så spännande, ett företag som heter Opower betar med verktyg i USA att distribuera behandlingen mer allmänt. Baserat på utformningen av Schultz et al. (2007) , Opower skapade anpassade Home Energy Rapporter som hade två huvudmoduler, en som visar ett hushålls elanvändning i förhållande till sina grannar med en uttryckssymbol och en ger tips för att sänka energiförbrukningen (Figur 4.6). Sedan, i samarbete med forskare, sprang Opower randomiserade kontrollerade experiment för att utvärdera effekterna av Home Energy Reports. Även om behandlingarna i dessa experiment var oftast levereras fysiskt vanligtvis genom gammaldags snigelpost-utfallet mättes med hjälp av digitala enheter i den fysiska världen (t.ex. kraft meter). Istället för att manuellt samla in denna information med forskarassistenter besöker varje hus ades Opower experiment allt gjort i samarbete med kraftbolagen gör det möjligt för forskarna att få tillgång till kraftavläsningarna. Således var dessa delvis digitala fältexperiment köras på en stor skala till låg rörlig kostnad.
I en första uppsättning experiment med 600.000 hushåll som betjänas av 10 allmännyttiga företag runt om i USA, Allcott (2011) fann Home Energy Report sänkte elförbrukningen med 1,7%. Med andra ord, resultaten från den mycket större, mer geografiskt spridda studien var kvalitativt jämförbar med resultaten från Schultz et al. (2007) . Men effektstorleken var mindre: i Schultz et al. (2007) hushållen i beskrivande och injektiv normer tillstånd (den med smiley) minskade sin elanvändning med 5%. Den exakta orsaken till denna skillnad är okänd, men Allcott (2011) spekulerade i att ta emot en handskriven uttryckssymbol som en del av en studie som sponsras av ett universitet kan ha en större effekt på beteendet än att ta emot en tryckt uttryckssymbol som en del av en massproducerad rapport från en elbolaget.
Vidare, i senare forskning, Allcott (2015) rapporterade om ytterligare 101 försök med ytterligare 8 miljoner hushåll. I dessa kommande 101 experiment fortsatte Home Energy Report att få människor att sänka sin elförbrukning, men effekterna var ännu mindre. Den exakta orsaken till denna nedgång är inte känd, men Allcott (2015) spekulerade att effekten av rapporten verkade vara minskande tiden eftersom det var faktiskt tillämpas på olika typer av deltagare. Närmare bestämt var verktyg i mer miljöaktivist områden mer sannolikt anta programmet tidigare och deras kunder var mer mottaglig för behandling. Som verktyg med mindre miljö kunder antog programmet visade dess effektivitet att minska. Således, precis som randomisering i experiment säkerställer att behandlingen och kontrollgruppen är likartade, randomisering i forskningsanläggningar säkerställer att beräkningarna kan generaliseras från en grupp av deltagare till en mer allmänna befolkningen (tänker tillbaka på kapitel 3 om provtagning). Om forskningsanläggningar inte samplas slumpmässigt, då generalisering even från en perfekt utformad och genomförs experiment-kan vara problematiskt.
Tillsammans utgör dessa 111 experiment-10 i Allcott (2011) och 101 i Allcott (2015) -involved cirka 8,5 miljoner hushåll från hela USA. De visar genomgående att Home Energy Rapporter minska den genomsnittliga elförbrukning, ett resultat som stöder de ursprungliga resultaten av Schultz och kollegor från 300 bostäder i Kalifornien. Utöver bara replikera dessa ursprungliga resultat, uppföljning experiment visar också att storleken på effekten varierar beroende på plats. Denna uppsättning av experiment illustrerar också två mer allmänna synpunkter om delvis digitala fältexperiment. Först kommer forskarna att kunna empiriskt adress oro extern validitet när kostnaden för att driva experiment är låg, och detta kan ske om utfallet redan mäts av en alltid påslagen datasystem. Därför föreslår den att forskningen ska vara på jakt efter andra intressanta och viktiga beteenden som redan spelas in, och sedan utforma experiment ovanpå detta befintlig infrastruktur mätning. För det andra, denna uppsättning av experiment påminner oss om att digitala fältexperiment är inte bara på nätet; allt jag förväntar mig att de kommer att vara överallt med många resultat som mäts av sensorer i den byggda miljön.
De fyra typerna av giltighets-statistisk slutsats giltighet, intern validitet, konstruera giltighet, extern validitet-ger en mental checklista för att hjälpa forskarna att bedöma om resultaten från en viss experiment stödja en mer generell slutsats. Jämfört med analoga ålders experiment i digitala tidsåldern experiment bör det vara lättare att ta itu med extern validitet empiriskt och det borde vara lättare att säkerställa intern validitet. Å andra sidan, kommer frågor om konstruktionen giltighet förmodligen vara mer utmanande i digitala tidsåldern experiment (även om det inte var fallet med de Opower experimenten).