Giltighet hänvisar till hur mycket resultaten av ett experiment stödja en mer allmän slutsats.
Inget experiment är perfekt, och forskare har utvecklat ett omfattande vokabulär för att beskriva eventuella problem. Giltighet hänvisar till i vilken utsträckning resultaten av ett visst experiment stöder en mer generell slutsats. Socialforskare har funnit det lämpligt att dela upp validitet i fyra huvudtyper: statistisk slutgiltighet, intern validitet, konstruktiv validitet och extern validitet (Shadish, Cook, and Campbell 2001, chap. 2) . Mastering av dessa begrepp ger dig en mental checklista för kritik och förbättring av design och analys av ett experiment, och det hjälper dig att kommunicera med andra forskare.
Statistisk slutsatsgiltighet handlar om huruvida den statistiska analysen av experimentet gjordes korrekt. I sammanhanget av Schultz et al. (2007) kan en sådan fråga centrera sig på om de beräknade sina \(p\) -värden korrekt. De statistiska principerna behöver designa och analysera experiment ligger utanför ramen för denna bok, men de har inte förändrats fundamentalt i den digitala tiden. Vad som ändrats är emellertid att datormiljön i digitala experiment har skapat nya möjligheter som att använda maskininlärningsmetoder för att uppskatta heterogenitet av behandlingseffekter (Imai and Ratkovic 2013) .
Intern validitet handlar om huruvida försöksförfarandena utfördes korrekt. Återkommande till experimentet av Schultz et al. (2007) kan frågor om intern validitet kringkalla randomisering, leverans av behandling och mätning av resultat. Till exempel kan du vara oroad över att forskningsassistenterna inte läste elmätarna på ett tillförlitligt sätt. Faktum är att Schultz och kollegor var oroliga över det här problemet, och de hade ett urval av mätare läst två gånger. lyckligtvis var resultaten i huvudsak identiska. Generellt verkar Schultz och kollegors experiment ha hög intern validitet, men det är inte alltid fallet: komplexa fält och online-experiment leder ofta till problem som faktiskt ger rätt behandling till rätt personer och mäter resultaten för alla. Lyckligtvis kan den digitala tiden bidra till att minska bekymmer om intern validitet, eftersom det nu är lättare att se till att behandlingen levereras till dem som ska ta emot den och att mäta resultaten för alla deltagare.
Konstruera validitetscentra runt matchen mellan data och teoretiska konstruktioner. Som diskuteras i kapitel 2 är konstruktioner abstrakta begrepp som sociala forskare resonerar om. Tyvärr har dessa abstrakta begrepp inte alltid tydliga definitioner och mätningar. Återgå till Schultz et al. (2007) kan påståendet att förbudsgivande sociala normer kan sänka elanvändningen kräva att forskare utformar en behandling som skulle manipulera "förbudsgivande sociala normer" (t.ex. ett uttryckssymbol) och att mäta "elanvändning". I analoga experiment utformade många forskare sina egna behandlingar och mättade sina egna resultat. Detta tillvägagångssätt säkerställer att så mycket som möjligt matchar experimenten de abstrakta konstruktionerna som studeras. I digitala experiment där forskare samarbetar med företag eller regeringar för att leverera behandlingar och använda datasystem för att mäta resultat, kan matchningen mellan experimentet och de teoretiska konstruktionerna vara mindre tätt. Således förväntar jag mig att konstruktionsgiltighet tenderar att vara ett större problem i digitala experiment än i analoga experiment.
Slutligen centrerar extern validitet om resultaten av detta experiment kan generaliseras till andra situationer. Återgå till Schultz et al. (2007) kan man fråga sig om samma idé erbjuder människor information om sin energianvändning i förhållande till sina kamrater och en signal om förbudsstandarder (t.ex. ett uttryckssymbol) - skulle minska energianvändningen om det gjordes på ett annat sätt i en annan inställning. För de flesta väldesignade och välskötta experimenten är det svårt att ta itu med oro för extern validitet. Tidigare involverade dessa debatter om extern validitet ingenting mer än en grupp människor som satt i ett rum och försökte föreställa sig vad som skulle ha hänt om förfarandena hade gjorts på ett annat sätt, eller på en annan plats eller med olika deltagare . Lyckligtvis tillåter den digitala tiden forskare att gå bortom dessa datafria spekulationer och utvärdera extern validitet empiriskt.
Eftersom resultaten från Schultz et al. (2007) var så spännande, ett företag med namnet Opower samarbetade med verktyg i USA för att distribuera behandlingen i större utsträckning. Baserat på designen av Schultz et al. (2007) skapade Opower skräddarsydda Home Energy Reports som hade två huvudmoduler: en som visar hushållets elförbrukning i förhållande till sina grannar med ett uttryckssymbol och en som ger tips för att sänka energianvändningen (figur 4.6). Därefter, i samarbete med forskare, sprang Opower randomiserade kontrollerade experiment för att bedöma effekten av dessa Home Energy Reports. Trots att behandlingarna i dessa experiment normalt levererades fysiskt - vanligtvis genom gammaldags snigelpost - mättes resultatet med hjälp av digitala enheter i den fysiska världen (t.ex. effektmätare). Vidare, istället för att manuellt samla in informationen med forskningsassistenter som besöker varje hus, har Opower-experimenten gjorts i partnerskap med kraftföretag som gör det möjligt för forskarna att få tillgång till effektavläsningarna. Sålunda kördes dessa delvis digitala fältförsök i stor skala till låg rörlig kostnad.
I en första uppsättning experiment med 600 000 hushåll från 10 olika platser Allcott (2011) att hushållsrapporten sänkte elförbrukningen. Med andra ord liknade resultaten från den mycket större, mer geografiskt varierande studien kvalitativt liknande resultaten från Schultz et al. (2007) . Vidare Allcott (2015) i efterföljande forskning som involverade åtta miljoner hushåll från 101 olika platser, att Home Energy Report konsekvent sänkte elförbrukningen. Denna mycket större uppsättning experiment visade också ett intressant nytt mönster som inte skulle vara synligt i ett enda experiment: effektens storlek minskade i de senare experimenten (figur 4.7). Allcott (2015) spekulerade på att denna nedgång hände, eftersom behandlingen över tid tillämpades på olika typer av deltagare. Närmare bestämt var användningsområden med mer miljövänliga kunder mer troliga att anta programmet tidigare och deras kunder var mer mottagliga för behandlingen. Eftersom verktyg med mindre miljömässigt fokuserade kunder antog programmet verkar dess effektivitet minska. Såsom att randomisering i experiment säkerställer att behandlings- och kontrollgruppen är likartad, säkerställer randomisering på forskningsplatser att uppskattningarna kan generaliseras från en grupp deltagare till en mer allmän population (tänk tillbaka till kapitel 3 om provtagning). Om forskningsplatser inte samlas slumpmässigt, kan generalisering - även från ett perfekt utformat och genomfört experiment - vara problematisk.
Tillsammans Allcott (2011) dessa 111 experiment Allcott (2011) i Allcott (2011) och 101 i Allcott (2015) - cirka 8,5 miljoner hushåll från hela USA. De visar konsekvent att Home Energy Reports minskar genomsnittlig elförbrukning, ett resultat som stöder de ursprungliga resultaten från Schultz och kollegor från 300 bostäder i Kalifornien. Utöver att bara replikera dessa ursprungliga resultat visar uppföljningsexperimenten också att storleken på effekten varierar efter plats. Denna uppsättning experiment illustrerar också två mer allmänna punkter om delvis digitala fältförsök. För det första kommer forskarna att kunna empiriskt ta itu med oro för extern validitet när kostnaden för löpande experiment är låg, och detta kan inträffa om resultatet redan mäts med ett kontinuerligt datasystem. Därför föreslår det att forskare ska leta efter andra intressanta och viktiga beteenden som redan spelas in och sedan utforma experiment utöver den befintliga mätinfrastrukturen. För det andra påminner denna uppsättning experiment oss om att digitala fältförsök inte bara är online; I allt större utsträckning förväntar jag mig att de kommer att vara överallt med många resultat uppmätta av sensorer i den byggda miljön.
De fyra typerna av validitets-statistisk slutgiltighet, intern validitet, konstruktiv validitet och extern validitet - ge en mental checklista för att hjälpa forskare att bedöma om resultaten från ett visst experiment stöder en mer allmän slutsats. Jämfört med analoga åldersexperiment, i digitala åldersexperiment, bör det vara lättare att adressera extern validitet empiriskt, och det bör också vara lättare att säkerställa intern validitet. Å andra sidan kommer problem med konstruktionsgiltighet förmodligen att bli mer utmanande i digitala åldersexperiment, särskilt digitala fältförsök som involverar partnerskap med företag.