Veljavnost se nanaša na to, koliko so rezultati poskusa podpirajo bolj splošen sklep.
Ne eksperiment je kot nalašč, in raziskovalci so razvili obsežen besednjak za opis morebitne težave. Veljavnost se nanaša na obseg, v katerem so rezultati posameznega poskusa podprli še nekaj splošnih ugotovitev. Družboslovci so ugotovili, da je koristno, da se razdeli veljavnost v štiri glavne vrste: veljavnost statistično sklepanje, notranja veljavnost, izgradnjo veljavnost in zunanja veljavnost (Shadish, Cook, and Campbell 2001, Ch 2) . Obvladovanje teh konceptov bo vam duševno kontrolni seznam za kritiško in izboljšali zasnovo in analizo poskusa, in to vam bo pomagal komunicirati z drugimi raziskovalci.
Statistični veljavnost ugotovitev centri okoli, ali je bila statistična analiza poskusa narediti pravilno. V okviru Schultz et al. (2007) tako vprašanje lahko osredotočali na to, ali so pravilno izračuna svoje p-vrednosti. Statistična analiza presega namen te knjige, vendar lahko rečem, da so statistična načela, ki so potrebni za oblikovanje in analiziranje poskuse ni spremenila v digitalni dobi. Vendar pa različni podatki okolje v digitalni poskusih ne ustvarja novih statističnih možnosti (na primer, z uporabo metod strojnega učenja za oceno heterogenost učinkov zdravljenja (Imai and Ratkovic 2013) ) in nove računske izzive (npr blokiranje v masovnih poskusov (Higgins, Sävje, and Sekhon 2016) ).
Notranja veljavnost centri okoli, ali so bili eksperimentalni postopki pravilno izvedena. Vračanje k eksperiment Schultz et al. (2007) , bi lahko vprašanja o notranji veljavnosti center okoli naključnih dostavo zdravljenje, in merjenje rezultatov. Na primer, morda skrbi, da so raziskovalni pomočniki niso prebrali električne metrov zanesljivo. Pravzaprav so Schultz in kolegi zaskrbljeni zaradi tega problema in so imeli vzorec metrov dvakrat brati; bi bili rezultati v bistvu enaki. Na splošno se zdi, Schultz in poskus kolegov ", ki imajo veliko notranjo veljavnost, vendar to ni vedno tako; kompleksno področje in spletnih poskusi pogosto naletijo na težave dejansko dali pravo zdravilo za prave ljudi in merilnih rezultatov za vsakogar. Na srečo, lahko digitalni dobi pomagal zmanjšati pomisleke glede notranja veljavnost, ker je lažje, da se zagotovi, da se zdravstvena storitev, kot je zasnovan tako, da tisti, ki naj bi ga prejeli in merjenje rezultatov za vse udeležence.
Zgraditi veljavnost centrov po tekmi med podatki in teoretičnih konstruktov. Kot je opisano v poglavju 2, konstrukti so abstraktni pojmi, da družboslovci razlog približno. Na žalost, ta abstraktni pojmi nimajo vedno jasne opredelitve in meritve. Vračajo Schultz et al. (2007) , je trditev, da pravne družbenih norm lahko znižanje rabe električne energije zahteva, raziskovalce, da oblikujejo zdravljenja, ki bi manipulirati "pravne družbene norme" (npr čustveni simbol) in za merjenje "porabo električne energije". V analognih poskusih, mnogi raziskovalci zasnovan svoje zdravljenje in merijo svoje rezultate. Ta pristop zagotavlja, da se v čim večji meri, poskusi ujemajo abstraktne konstrukti so jih raziskali. V digitalnih poskusih, kjer raziskovalci partner s podjetji ali vlade, da lahko ponudijo zdravljenja in uporabljajo vedno, na podatkovnih sistemov za merjenje rezultatov, se lahko tekma med poskusom in teoretičnih konstruktov je manj tesen. Zato pričakujem, da bo veljavnost konstrukt ponavadi večji problem v digitalni poskusih kot analogne eksperimentov.
Končno, zunanja veljavnost centri okoli, ali bi bili rezultati tega poskusa posplošiti na druge situacije. Vračajo Schultz et al. (2007) , se lahko vprašamo, bo to isto, ideja zagotavljanja ljudje informacije o svoji porabi energije v odnosu do vrstnikov in znak prepovedi na norme (npr čustveni simbol) -reduce porabo energije, če je bilo opravljeno na drugačen način drugačna nastavitev? Za večino dobro zasnovan in dobro voden poskuse, skrbi glede zunanje veljavnosti so najtežje obravnavati. V preteklosti so bile te razprave o zunanji veljavnosti pogosto le kup ljudi, ki sedijo v prostoru poskuša predstavljati, kaj bi se zgodilo, če so bili postopki narediti na drugačen način ali v drugem kraju, ali z različnimi ljudmi. Na srečo, digitalni dobi omogoča raziskovalcem, da se preseže teh podatkov brez špekulacij in oceno zunanje veljavnosti empirično.
Ker rezultati iz Schultz et al. (2007) je bilo tako razburljivo, podjetje z imenom Opower partner komunalno v Združenih državah Amerike za širše uvajanje zdravljenja. Ki temelji na zasnovi Schultz et al. (2007) , Opower ustvarjena po meri hiša poročil energije, ki so imeli dva glavna modula, eno, ki prikazuje porabe električne energije glede gospodinjstvo do svojih sosedov s čustveni simbol in eden zagotavljanje nasvetov za znižanje porabe energije (Slika 4.6). Potem, v sodelovanju z raziskovalci, Opower tekel naključno nadzorovanih poskusov za ocenjevanje vpliva poročil notranje energije. Čeprav je bilo zdravljenje v teh poskusih navadno dostavljeno fizično običajno prek tradicionalnem navadni pošti, rezultat je bila izmerjena z uporabo digitalnih naprav v fizičnem svetu (npr elektrarne metrov). Namesto ročno zbiranja teh informacij z raziskovalnimi pomočniki, ki obiščejo vsako hišo, so Opower poskusi vse narejeno v sodelovanju z energetskih podjetjih, ki omogočajo raziskovalcem za dostop do moči branja. Tako so te delno digitalne terenu poskusi teči v velikem obsegu po nizki spremenljivi stroški.
V prvem nizu poskusov, ki vključujejo 600.000 gospodinjstev za 10 komunalnih podjetij po Združenih državah Amerike služil, Allcott (2011) je pokazala, Home Energy Poročilo znižali porabo električne energije za 1,7%. Z drugimi besedami, so bili rezultati precej večji, bolj geografsko raznoliki študiji kvalitativno podobni rezultati Schultz et al. (2007) . Vendar je bil vpliv velikosti manjši: v Schultz et al. (2007) so gospodinjstva v opisni in injektiven norme stanju (tistega s smeškom) zmanjšale porabo električne energije za 5%. Natančen vzrok za to razliko ni znan, vendar Allcott (2011) razmišljal, da bi lahko imela sprejemu lastnoročni pretres kot del študije, ki jo univerze sponzoriral večji vpliv na obnašanje od prejema s tiskanim pretres kot del serijske proizvodnje poročila iz moč podjetja.
Poleg tega je v poznejših raziskavah, Allcott (2015) je poročal o dodatnih 101 poskusov, ki vključujejo dodatnih 8 milijonov gospodinjstev. V teh naslednjih 101 poskusov Home Energy Poročilo še naprej povzročajo ljudje znižati porabo električne energije, vendar učinki so bili še manjši. Natančen vzrok za ta upad ni znan, vendar Allcott (2015) razmišljal, da je učinkovitost poročila je zdelo, da se sčasoma zmanjšuje, ker je bilo dejansko uporabljajo za različne vrste udeležencev. Natančneje, komunalne storitve v več okoljevarstvenih področjih bolj verjetno sprejme program prej in njihove stranke so bile bolj odziven na zdravljenje. Kot javne službe z manj okoljskimi strankami je sprejela program, njeno učinkovitost pojavil upadati. Tako je, prav tako kot naključnost v poskusih, zagotavlja, da se zdravljenje in kontrolna skupina podobna, naključnost v raziskovalnih območij zagotavlja, da se ocene lahko posplošimo iz ene skupine udeležencev v bolj splošno populacijo (pomislite na 3. poglavju o vzorčenju). Če se raziskovalne strani ne vzorčijo naključno, nato pa posploševanje, tudi iz popolnoma izdelana in izvedli poskus, je lahko problematično.
Skupaj ti 111 poskusi-10 v Allcott (2011) in 101 v Allcott (2015) -involved približno 8,5 milijona gospodinjstev z vseh koncev ZDA. Dosledno kažejo, da Home Energy Poročila zmanjšati povprečno porabo električne energije, rezultat, ki podpira prvotne ugotovitve Schultz in kolegom iz 300 domove v Kaliforniji. Več kot le posnema te izvirne rezultate, so nadaljnji poskusi tudi kažejo, da je velikost učinka se razlikuje glede na lokacijo. Ta sklop poskusov ponazarja tudi dve bolj splošna točk o delno digitalne poljskih poskusih. Prvič, raziskovalci bodo lahko empirično pomisleke o zunanji veljavnosti, če je strošek vodenja poskusov nizka, in to se lahko zgodi, če je rezultat že merjena s sistemom vedno-na podatkih. Zato predlaga, da bi morale biti raziskave na preži za druge zanimive in pomembne vedenja, ki se že posnetih, in nato design poskuse na vrhu te obstoječe merilne infrastrukture. Drugič, ta niz poskusov, nas opominja, da so digitalni terenu poskusi, ne samo na spletu; vedno pričakujem, da bodo povsod z veliko rezultatov, merjenih s senzorji v grajenem okolju.
Štiri vrste veljavnosti sklenitev veljavnost statistični, notranja veljavnost, izgradnjo veljavnost, zunanji Veljavnost zagotavljajo duševno kontrolni seznam za pomoč raziskovalci ocenili, ali so rezultati posameznega eksperimenta podpira bolj splošen sklep. V primerjavi z analognimi starostnih eksperimentov, v digitalni dobi poskusov bi moralo biti lažje reševanje zunanjo veljavnost empirično in to bi bilo lažje, da se zagotovi notranjo veljavnost. Po drugi strani pa se bodo vprašanja o veljavnosti konstrukta verjetno bolj zahtevna v digitalni dobi poskusih (čeprav to ni bilo v primeru poskusov Opower).