Voimassaolo tarkoittaa sitä, kuinka paljon tulokset kokeesta tukevat hieman yleisempi johtopäätös.
Kokeilu ei ole täydellinen, ja tutkijat ovat kehittäneet laajan sanavaraston kuvaamaan mahdollisia ongelmia. Pätevyys viittaa siihen, missä määrin tietyn kokeilun tulokset tukevat joitakin yleisempää päätelmää. Yhteiskuntatieteilijät ovat pitäneet hyödyllistä jakaa pätevyys neljään päätyyppiin: tilastollisen päättelyn pätevyys, sisäinen voimassaolo, konstruktion pätevyys ja ulkoinen pätevyys (Shadish, Cook, and Campbell 2001, chap. 2) . Näiden käsitteiden hallitseminen antaa sinulle mentaalisen tarkistuslistan, joka koettelee ja parantaa kokeilun suunnittelua ja analyysiä ja auttaa sinua kommunikoimaan muiden tutkijoiden kanssa.
Tilastollisen päättelyn kelpoisuus keskittyy siihen, suoritettiinko kokeilun tilastollinen analyysi oikein. Schultz et al. (2007) , tällainen kysymys voisi keskittyä siihen, laskivatko he arvot oikein \(p\) . Tilastolliset periaatteet, joiden on tarkoitus suunnitella ja analysoida kokeita, eivät kuulu tämän kirjan soveltamisalaan, mutta ne eivät ole oleellisesti muuttuneet digitaaliaikana. Tilanmuutos on kuitenkin se, että digitaalisissa kokeissa oleva (Imai and Ratkovic 2013) on luonut uusia mahdollisuuksia, kuten konekielisten oppimismenetelmien avulla, arvioimaan hoidon vaikutusten heterogeenisyyttä (Imai and Ratkovic 2013) .
Sisäinen validiteetti keskittyy siihen, suoritettiinko kokeelliset toimenpiteet oikein. Palautetaan Schultz et al. (2007) , kysymykset sisäisestä pätevyydestä voivat keskittyä satunnaistamiseen, hoidon toimittamiseen ja tulosten mittaamiseen. Saatat esimerkiksi olla huolissaan siitä, että tutkimusavustajat eivät lukeneet sähkömittareita luotettavasti. Itse asiassa Schultz ja kollegat olivat huolissaan tästä ongelmasta, ja heillä oli näyte mittareista, jotka luettiin kahdesti; onneksi tulokset olivat olennaisilta osiltaan samanlaisia. Yleensä Schultzin ja kollegojen kokeilu näyttäisi olevan korkea sisäinen pätevyys, mutta näin ei aina ole: monimutkaiset kenttä- ja verkkokokeet aiheuttavat usein ongelmia, jotka oikeastaan tarjoavat oikean kohtelun oikeille ihmisille ja mittaavat tuloksia kaikille. Onneksi digitaalinen ikä voi auttaa vähentämään huolta sisäisestä validiteetista, koska nyt on helpompi varmistaa, että hoito toimitetaan niille, jotka sen oletetaan saavan, ja mittaamaan tuloksia kaikille osallistujille.
Muodosta validiteettikeskuksia tietojen kesken ja teoreettisten rakenteiden välillä. Kuten luvussa 2 on käsitelty, rakenteet ovat abstrakteja käsitteitä, joita yhteiskuntatieteilijät syyttävät. Valitettavasti näillä abstraktilla käsitteillä ei aina ole selkeitä määritelmiä ja mittauksia. Palaaminen Schultz et al. (2007) mukaan väite, jonka mukaan kieltokanteita säätelevät yhteiskunnalliset normit voivat vähentää sähkön käyttöä, edellyttää tutkijoilta sellaisen hoidon suunnittelua, joka manipuloisi "kieltäviä sosiaalisia normeja" (esim. Hymiö) ja mitattaisi sähkönkäyttöä. Analogisissa kokeissa monet tutkijat suunnittelivat omat hoidot ja mitasivat omat tulokset. Tämä lähestymistapa takaa, että kokeilut vastaavat mahdollisimman pitkälti tutkittavia abstrakteja rakenteita. Digitaalisissa kokeissa, joissa tutkijat ovat kumppanina yritysten tai hallitusten kanssa hoitaa hoitoja ja käyttävät jatkuvasti tietojärjestelmiä tulosten mittaamiseen, kokeiden ja teoreettisten rakenteiden välinen yhteensopivuus voi olla vähemmän tiukka. Odotan siis, että konstruktion pätevyys on yleensä suurempi ongelma digitaalisissa kokeissa kuin analogisissa kokeissa.
Lopuksi, ulkopuolinen validiteetti keskittyy siihen, voidaanko tämän kokeen tuloksia yleistää muihin tilanteisiin. Palaaminen Schultz et al. (2007) , voisi kysyä, voisiko tämä sama ajatus antaa ihmisille tietoa energiankäyttäytymisestä suhteessa vertaisarviointiinsa ja häiritseviä normeja (esim. Hymiö), vähentäisi energiankäyttöä, jos se tehdään eri tavalla muussa ympäristössä. Suurin osa hyvin suunnitelluista ja hyvin suoritetuista kokeista on vaikeinta käsitellä huolta ulkoisesta validiteetista. Aiemmin nämä keskustelut ulkoisesta validiteetista koskettivat usein vain henkilöryhmää, joka istui huoneessa, yrittäen kuvitella, mitä olisi tapahtunut, jos menettelyt olisi tehty eri tavalla tai eri paikassa tai eri osallistujien kanssa . Onneksi digitaalinen aikakausi mahdollistaa tutkijoiden siirtymisen näiden tietojen vapaiden spekulaatioiden ulkopuolelle ja arvioi empiirisesti ulkoista validiteettiä.
Koska tulokset Schultz et al. (2007) olivat niin jännittäviä, Opower-yhtiö nimesi yhteistyössä Yhdysvaltojen apuohjelmien kanssa laajemman hoidon käyttöön. Schultz et al. (2007) , Opower kehitti räätälöityjä kotitalouksien energiaraportteja, joissa oli kaksi päämoduulia: yksi osoittaa kotitalouden sähkönkäytön suhteessa naapureihin hymiöillä ja yksi vinkkejä energiankäytön vähentämiseen (kuva 4.6). Sitten yhteistyössä tutkijoiden kanssa Opower suoritti satunnaistettuja kontrolloituja kokeiluja arvioidakseen näiden kotitalouksien energiaraporttien vaikutuksia. Vaikka näissä kokeissa olevat hoitot toimitettiin tyypillisesti fyysisesti - tavallisesti vanhanaikaisten etanauhojen kautta - tulos mitattiin digitaalisten laitteiden avulla fyysisessä maailmassa (esim. Voimamittarit). Lisäksi, sen sijaan, että kerättiin nämä tiedot talteen jokaisen talon tutkijoiden avustajille, Opower-kokeet tehtiin yhteistyössä voimayhtiöiden kanssa, joiden avulla tutkijat voisivat käyttää tehoarvoja. Näin ollen nämä osittain digitaaliset kenttäkokeet suoritettiin massiivisessa mittakaavassa pienillä muuttuvalla kustannuksella.
Ensimmäisessä sarjassa kokeiluja, joihin osallistui 600 000 kotitaloutta kymmenestä eri toimipaikasta, Allcott (2011) totesi, että Home Energy Report Allcott (2011) laskivat sähkönkulutusta. Toisin sanoen tulokset paljon suuremmasta, maantieteellisesti monimuotoisemmasta tutkimuksesta olivat laadullisesti samanlaisia kuin Schultz et al. (2007) . Lisäksi seuraavassa tutkimuksessa, jossa oli mukana kahdeksan miljoonaa uutta kotitaloutta 101 eri toimipaikasta, Allcott (2015) totesi jälleen, että Home Energy Report johdonmukaisesti alensi sähkönkulutusta. Tämä paljon suurempi joukko kokeita paljasti myös mielenkiintoisen uuden kuvion, joka ei näy missään yksittäisessä kokeessa: vaikutuksen koko heikensi myöhemmissä kokeissa (kuva 4.7). Allcott (2015) arveli, että tämä lasku johtui siitä, että ajan mittaan hoitoa käytettiin erilaisiin osallistujamääriin. Tarkemmin sanottuna ympäristöasioihin keskittyneemmät asiakkaat suhtautuivat todennäköisemmin ohjelmaan aiemmin, ja asiakkaat vastasivat paremmin hoitoon. Koska ympäristöystävällisemmät asiakkaat ottivat käyttöön ohjelman, sen tehokkuus heikkeni. Siten samoin kuin kokeiden satunnaistaminen varmistaa, että hoito- ja kontrolliryhmä on samankaltainen, satunnaistamisella tutkimusalueilla varmistetaan, että arvioita voidaan yleistää yhdestä osallistujaluokasta yleiseen väestöön (ajattele takaisin luku 3 näytteenotosta). Jos tutkimuskohteita ei näytetä satunnaisesti, niin yleistyminen - jopa täysin suunnitellusta ja suoritetusta kokeesta - voi olla ongelmallista.
Yhdessä nämä 111 kokeilua -10 Allcott (2011) ja 101 Allcott (2015) liittyivät noin 8,5 miljoonaa kotitaloutta eri puolilta Yhdysvaltoja. He johdonmukaisesti osoittavat, että Home Energy Reports vähentää keskimääräistä sähkönkulutusta, joka tukee Schultzin ja kollegoiden alkuperäisiä havaintoja 300 kotoa Kaliforniasta. Sen lisäksi, että nämä alkuperäiset tulokset toistuvat, seurantakokeet osoittavat myös, että vaikutuksen koko vaihtelee sijainnin mukaan. Tämä kokeiluohjelma havainnollistaa myös kaksi yleisempiä näkökulmaa osittaisesta digitaalisesta kenttätutkimuksesta. Ensinnäkin tutkijat kykenevät empiirisesti käsittelemään ulkoista pätevyyttä koskevia huolenaiheita, kun kokeiden suorittamisen kustannukset ovat alhaiset, ja tämä voi tapahtua, jos tulos on jo mitattu jatkuvalla tietojärjestelmällä. Siksi se ehdottaa, että tutkijoiden tulisi etsiä muita mielenkiintoisia ja tärkeitä käyttäytymismalleja, jotka on jo kirjattu, ja sitten suunnittelemaan kokeita tämän olemassa olevan mittausinfrastruktuurin päälle. Toiseksi tämä kokeiluohjelma muistuttaa meitä siitä, että digitaaliset kenttätutkimukset eivät ole vain verkossa; Odotan yhä useammin, että ne ovat kaikkialla, jossa on monia rakennetun ympäristön antureiden mittaamia tuloksia.
Neljä tyyppistä validiteetti-tilastollista päättymispäivämäärää, sisäistä pätevyyttä, konstruktion pätevyyttä ja ulkoista pätevyyttä antaa henkisen tarkistuslistan, jotta tutkijat voivat arvioida, tuottavatko tietyn kokeilun tulokset yleisempiä johtopäätöksiä. Verrattuna analogia-ikäisiin kokeisiin digitaalisissa ikäluokissa olisi helpompaa käsitellä ulkoista pätevyyttä empiirisesti, ja myös sisäisen kelpoisuuden varmistaminen olisi helpompaa. Toisaalta rakentamisen pätevyyttä koskevat kysymykset ovat todennäköisesti haastavampia digitaaliajan kokeissa, etenkin digitaalisissa kenttätutkimuksissa, joihin liittyy kumppanuuksia yritysten kanssa.