Veljavnost se nanaša na to, koliko so rezultati poskusa podpirajo bolj splošen sklep.
Noben poskus ni popoln, raziskovalci pa so razvili obsežen besednjak, ki opisuje možne probleme. Veljavnost se nanaša na obseg, v katerem rezultati določenega poskusa podpirajo nekaj splošnejšega zaključka. Socialni znanstveniki so ugotovili, da je koristno razdeliti veljavnost v štiri glavne tipe: statistično veljavnost zaključka, interno veljavnost, gradnjo veljavnosti in zunanjo veljavnost (Shadish, Cook, and Campbell 2001, chap. 2) . Obvladovanje teh konceptov vam bo zagotovilo mentalni kontrolni seznam za kritiziranje in izboljšanje zasnove in analize eksperimenta, ki vam bo pomagal komunicirati z drugimi raziskovalci.
Statistični zakoni o validnosti ugotovitve, ali je bila statistična analiza poskusa opravljena pravilno. V kontekstu Schultz et al. (2007) , se tako vprašanje lahko osredotoči na to, ali so svoje \(p\) vrednosti izračunali pravilno. Statistična načela morajo načrtovati in analizirati eksperimente, ki presegajo obseg te knjige, vendar v digitalni dobi niso bistveno spremenili. Vendar se je spremenilo, da je podatkovno okolje v digitalnih eksperimentih ustvarilo nove možnosti, kot so uporaba metod strojnega učenja za oceno heterogenosti učinkov zdravljenja (Imai and Ratkovic 2013) .
Notranja veljavnost centrov okrog, ali so bili poskusni postopki pravilno izvedeni. Vračanje na poskus Schultz et al. (2007) , bi se lahko vprašanja o notranji veljavnosti osredotočila na randomizacijo, zagotavljanje zdravljenja in merjenje rezultatov. Morda ste na primer zaskrbljeni, da raziskovalci niso zanesljivo prebrali električnih števcev. Dejstvo je, da sta Schultz in kolegi skrbela za ta problem in imela vzorec števcev, ki sta brali dvakrat; na srečo so bili rezultati v bistvu enaki. Na splošno je videti, da je poskus Schultza in sodelavcev visoka interna veljavnost, vendar to ni vedno tako: kompleksni ter spletni poskusi pogosto zaidejo v težave, ki dejansko zagotavljajo pravo zdravljenje pravim ljudem in merijo rezultate za vsakogar. Na srečo lahko digitalna doba pomaga zmanjšati zaskrbljenost glede interne veljavnosti, saj je zdaj lažje zagotoviti, da se zdravljenje dostavi tistim, ki naj bi ga prejeli, in izmeriti rezultate za vse udeležence.
Konstruirajte veljavne centre okoli tekmo med podatki in teoretskimi konstrukti. Kot je razloženo v 2. poglavju, so konstrukti abstraktni koncepti, ki jih razumejo družboslovci. Na žalost ti abstraktni koncepti nimajo vedno jasnih opredelitev in meritev. Vračanje v Schultz et al. (2007) , trditev, da lahko sodne socialne norme zmanjšujejo porabo električne energije, od raziskovalcev zahteva, da oblikujejo zdravljenje, ki bi manipuliralo s "prepovednimi družbenimi normativi" (npr. Z občutkom) in za merjenje "porabe električne energije". V analognih poskusih so mnogi raziskovalci oblikovali lastno zdravljenje in merili svoje lastne rezultate. Ta pristop zagotavlja, da se preskusi, kolikor je mogoče, ujemajo z abstraktnimi konstrukti, ki se jih proučuje. V digitalnih eksperimentih, kjer raziskovalci sodelujejo s podjetji ali vladami, da zagotovijo zdravljenje in uporabljajo vedno podatkovne sisteme za merjenje rezultatov, je lahko tekma med poskusom in teoretičnimi konstrukti manj tesna. Tako pričakujem, da bo gradnja veljavnosti večja skrb v digitalnih eksperimentih kot v analognih eksperimentih.
Nazadnje, zunanja veljavnost centrov okoli, ali rezultati tega poskusa je mogoče posplošiti v druge situacije. Vračanje v Schultz et al. (2007) bi se lahko spraševali, ali bi te iste ideje zagotavljale ljudem informacije o njihovi porabi energije v razmerju do svojih vrstnikov in signal prepovednih norm (npr. Čustvene) - zmanjšalo porabo energije, če bi se to zgodilo na drugačen način v drugačni nastavitvi. Za najbolj dobro zasnovane in dobro vodene eksperimente je najtežje obravnavati skrbi glede zunanje veljavnosti. V preteklosti so te razprave o zunanji veljavnosti pogosto vključevale le skupino ljudi, ki so sedeli v sobi, ki bi poskušali predstavljati, kaj bi se zgodilo, če bi bili postopki opravljeni na drugačen način ali na drugem mestu ali z različnimi udeleženci . Na srečo digitalna doba omogoča raziskovalcem, da presegajo te špekulacije brez podatkov in empirično ocenijo zunanjo veljavnost.
Ker so rezultati Schultz et al. (2007) so bili tako razburljivi, družba, imenovana Opower, je sodelovala z gospodarskimi službami v Združenih državah Amerike, da bi razširila zdravljenje. Na podlagi zasnove Schultz et al. (2007) družba Opower ustvarila prilagojene poročanje o energetiki, ki sta imela dva glavna modula: eno, ki prikazuje porabo električne energije gospodinjstva glede na svoje sosede z emotikonom in eno, ki daje nasvete za zmanjšanje porabe energije (slika 4.6). Potem je v sodelovanju z raziskovalci Opower vodil randomizirane kontrolirane poskuse, da bi ocenil učinek teh poročil o energetiki. Čeprav so bile obdelave v teh eksperimentih praviloma dostavljene fizično - ponavadi s staromodno pošto, je rezultat izmerjen z digitalnimi napravami v fizičnem svetu (npr. Merilniki moči). Nadalje, namesto da bi ročno zbirali te podatke z raziskovalnimi pomočniki, ki so obiskali vsako hišo, so eksperimenti Opowerja opravili v sodelovanju z elektroenergetskimi podjetji, ki raziskovalcem omogočajo dostop do odčitkov moči. Tako so bili ti delno digitalni eksperimenti na terenu izvedeni v velikem obsegu pri nizkih spremenljivih stroških.
V prvem nizu poskusov, v katere je bilo vključenih 600.000 gospodinjstev z 10 različnih mest, je Allcott (2011) ugotovil, da poročilo o energetski učinkovitosti Allcott (2011) porabo električne energije. Z drugimi besedami, rezultati iz precej večje, geografsko raznolike študije so bili kvalitativno podobni rezultatom Schultz et al. (2007) . Poleg tega je v nadaljnjih raziskavah, v katerih je sodelovalo osem milijonov dodatnih gospodinjstev s 101 različnih lokacij, Allcott (2015) ponovno ugotovil, da poročilo o energetski učinkovini dosledno Allcott (2015) porabo električne energije. Ta precej večji nabor poskusov je pokazal zanimiv nov vzorec, ki v nobenem posameznem poskusu ne bi bil viden: velikost učinka se je zmanjšala v kasnejših poskusih (slika 4.7). Allcott (2015) špekuliral, da se je ta upad zgodil, ker se je sčasoma zdravljenje uporabljalo pri različnih vrstah udeležencev. Natančneje, komunalne storitve z okolju prijaznejšimi kupci so bile bolj verjetno, da program prej sprejmejo, in njihove stranke so bolj odzvale na zdravljenje. Ker so programski programi z manj okoljsko usmerjenimi strankami sprejeli program, se je zmanjšala njegova učinkovitost. Torej, prav tako kot randomizacija v poskusih zagotavlja, da sta skupina za zdravljenje in nadzor podobna, randomizacija na raziskovalnih mestih zagotavlja, da se ocene lahko posplošijo iz ene skupine udeležencev v bolj splošno populacijo (razmislite o poglavju 3 o vzorčenju). Če se raziskovalna mesta ne naključno vzorčijo, potem je posplošitev - tudi iz popolnoma izdelanega in izvedenega eksperimenta - lahko problematična.
Skupaj je teh 111 eksperimentov-10 v Allcott (2011) in 101 v Allcott (2015) okoli 8,5 milijona gospodinjstev iz vsega ZDA. Stalno kažejo, da poročila o energetski učinkovitosti zmanjšujejo povprečno porabo električne energije, kar je rezultat, ki podpira izvirne ugotovitve Schultza in kolegov iz 300 domov v Kaliforniji. Poleg replikacije teh prvotnih rezultatov nadaljnji poskusi kažejo, da se velikost učinka razlikuje glede na lokacijo. Ta niz preizkusov ponazarja še dve splošni točki o delno digitalnih eksperimentih na polju. Prvič, raziskovalci bodo lahko empirično reševali zaskrbljenost glede zunanje veljavnosti, če je strošek izvajanja eksperimentov nizek, kar se lahko zgodi, če že izmeri že izmerjeni podatkovni sistem. Zato predlaga, da bi raziskovalci morali biti pozorni na druga zanimiva in pomembna vedenja, ki se že zabeležijo, nato pa načrtujejo poskuse poleg te obstoječe merilne infrastrukture. Drugič, ta nabor preizkusov nas opominja, da digitalni poskusi na polju niso le na spletu; vse bolj pričakujem, da bodo povsod s številnimi izidi, ki jih merijo senzorji v grajenem okolju.
Štiri vrste veljavnosti - statistična zaključka veljavnosti, interna veljavnost, gradnja veljavnosti in zunanja veljavnost - zagotavljajo mentalni kontrolni seznam, ki pomaga raziskovalcem oceniti, ali rezultati iz določenega eksperimenta podpirajo splošnejši zaključek. V primerjavi z anketnimi eksperimenti v poskusih digitalne dobe bi bilo treba lažje obravnavati zunanjo veljavnost empirično, prav tako pa bi bilo treba lažje zagotoviti notranjo veljavnost. Po drugi strani pa bodo vprašanja v zvezi z gradnjo veljavnosti verjetno bolj izzivna v eksperimentih digitalne dobe, zlasti pri digitalnih eksperimentih na področju raziskav, ki vključujejo partnerstva s podjetji.