Kehtivus viitab, kui palju eksperimendi tulemusi toetada üldisem järeldus.
Ei eksperiment on täiuslik, ja teadlased on välja töötanud ulatusliku sõnavara, et kirjeldada võimalikke probleeme. Kehtivus viitab, mil määral on tulemused eriti eksperiment toeta veel mõned üldine järeldus. Sotsiaalne teadlased on leidnud see kasulik jagada kehtivuse nelja põhitüüpi: statistiline lepingu kehtivuse, sisemine kehtivus, ehitada kehtivuse ja välised kehtivuse (Shadish, Cook, and Campbell 2001, Ch 2) . Mastering neid mõisteid annab teile vaimse kontrollnimekirja kriitikast ja parandada disaini ja analüüsi eksperiment, ja see aitab teil suhelda teiste teadlastega.
Statistilised lepingu kehtivuse keskuste ümber, kas statistilise analüüsi katse tehti õigesti. Seoses Schultz et al. (2007) selline küsimus võib keskenduda kas nad arvutada oma p-väärtused õigesti. Statistiline analüüs väljub see raamat, aga ma ei saa öelda, et statistilisi põhimõtteid vaja kavandada ja analüüsida katsed ei ole muutunud digitaalajastul. Kuid erinevate andmete keskkond digitaalse eksperimendid ei luua uusi statistilisi võimalused (nt kasutades masin õppimise meetodeid, et hinnata heterogeensus ravi mõju (Imai and Ratkovic 2013) ) ja uus arvutuslikke probleeme (nt blokeerides massiivne eksperimente (Higgins, Sävje, and Sekhon 2016) ).
Sisemine kehtivuse keskuste ümber, kas eksperimentaalsed viidi läbi korrektselt. Tulles tagasi eksperiment Schultz et al. (2007) , küsimused sisemine kehtivuse võiks keskpunkti Randomiseerimisele kohaletoimetamise ravi ja tulemuste mõõtmise. Näiteks võite olla mures, et teadustöö assistendid ei lugenud elektriline meetri usaldusväärselt. Tegelikult Schultz ja kolleegid olid mures selle probleemi ja nad pidid proovi meetri lugeda kaks korda; Õnneks olid tulemused praktiliselt identsed. Üldiselt Schultz ja kolleegide katses tundub, et on kõrge sisemine kehtivus, kuid see ei ole alati nii; keeruline valdkond ja online eksperimendid tihti tekib probleeme tegelikult pakkuda õige ravi õiged inimesed ja mõõtmise tulemused kõigile. Õnneks digitaalajastul aitab vähendada muret sisemine kehtivuse sest see teeb lihtsamaks, et tagada ravi tarnitakse mõeldud neile, kes peaksid seda saada ja mõõta tulemusi kõigile osalejatele.
Ehitatakse kehtivuse keskuste ümber sobitada andmed ja teoreetilised. Nagu eelpool peatükis 2, konstruktsioonide abstraktsed mõisted, mis ühiskonnateadlased põhjusel umbes. Kahjuks on need abstraktsed mõisted ei ole alati selged määratlused ja mõõtmine. Tulles tagasi Schultz et al. (2007) väide, et esialgse sotsiaalsed normid võivad alandada elektri kasutamine nõuab teadlased kujundada töötlust, mis manipuleerivad "esialgse sotsiaalsed normid" (nt emotikoni) ja mõõta "elektri kasutamist". In analoog eksperimente, paljud teadlased on kavandatud oma ravi ja mõõta oma tulemusi. See meetod tagab, et võimalikult palju korral katseid sobitada abstraktne konstruktid uuritakse. Digitaalsel eksperimente, kus teadlased partneriks ettevõtete või valitsuste pakkuda ravi ja kasuta alati-andmete süsteemi, et mõõta tulemusi, sobitada eksperimendi ja teoreetilised võib olla vähem pingeline. Seega ma eeldan, et ehitada kehtivuse kipuvad olema suurem mure digitaalse eksperimente kui analoog eksperimente.
Lõpuks välise kehtivuse keskuste ümber, kas antud katse tulemused oleks üldistada teistele olukordadele. Tulles tagasi Schultz et al. (2007) , võiks küsida, kas see sama mõte lisavate inimesed teavet oma energiatarbimise kohta, suhted eakaaslastega ja signaal keelavaid norme (nt emotikoni) -Vähendada energiakasutus, kui seda tehti teistmoodi erinevat seadet? Enamiku hästi läbi mõeldud ja hästi juhitud eksperimente, mure välise kehtivuse on kõige raskem tegeleda. In the past, need arutelud välise kehtivuse olid sageli lihtsalt kamp inimesi istub toas üritab kujutada, mis oleks juhtunud, kui kord tehti teistmoodi, või mõnes muus kohas või erinevate inimestega. Õnneks digitaalajastul võimaldab teadlastel liikuda nende andmete vaba spekulatsioonid ja hinnata välise kehtivuse empiiriliselt.
Kuna tulemused Schultz et al. (2007) oli nii põnev, firma nimega Opower partneriks kommunaalkulud USA kasutada ravi laiemalt. Tuginedes disain Schultz et al. (2007) , Opower loodud kohandatud Home Energy aruanded, mis oli kaks peamist moodulid, millest ühes on majapidamise elektrienergia kasutamise suhtes naabritega emotikoni ja üks andes nõuandeid alandades energiatarbimist (joonis 4.6). Siis koostöös teadlased, Opower jooksis randomiseeritud kontrollitud eksperimente, et hinnata Home Energy aruanded. Kuigi ravi nendes katsetes olid tavaliselt toimetatakse füüsiliselt tavaliselt läbi vanaaegseid tigu mail-tulemus mõõdeti digitaalse seadmeid füüsilises maailmas (nt power meetrit). Selle asemel, et käsitsi koguda seda infot teadustöö assistendid külastavad iga maja, Opower katsed olid kõik teinud koostööd energiaettevõtete võimaldab uurijatel kasutada võimu lugemist. Seega, need osaliselt digitaalse eksperimente viidi läbi ajal massiliselt madala muutuv kulu.
Esimeses katseseerias kaasates 600,000 kodumajapidamiste kätte 10 kommunaalteenuste ettevõtted ümber USA Allcott (2011) leidsid Home Energy aruanne langetada elektri tarbimine 1,7%. Teisisõnu, saadud tulemuste palju suuremad ja geograafiliselt mitmekesine uuringus olid kvalitatiivselt sarnane tulemused Schultz et al. (2007) . Aga mõju suurus oli väiksem: aastal Schultz et al. (2007) leibkondadest kirjeldav ja injective normide seisukorras (üks koos emotikoni) vähendasid elektri kasutamine 5%. Täpsed Selle erinevuse põhjus on teadmata, kuid Allcott (2011) spekuleerinud, et saavad käsitsi emotikoni osana uuringus, mida ülikool võib olla suurem mõju käitumisele kui saavad trükitud emotikoni osana masstootmise aruanne on power Company.
Peale selle hilisem uurimistöö, Allcott (2015) teatas veel 101 eksperimente, mis hõlmab veel 8 miljonit majapidamist. Nende kõrval 101 eksperimendid Home Energy aruanne jätkas põhjustada inimestel langetada oma elektrienergia tarbimist, kuid mõju oli veelgi väiksem. Konkreetset põhjust, miks see langus ei ole teada, kuid Allcott (2015) spekuleerinud, et tõhususe aruande tundus olevat ajas kahanev, sest see oli tegelikult rakendada erinevaid osalejaid. Täpsemalt, kommunaalkulud rohkem keskkonnakaitsja alad olid tõenäoliselt vastu programmi varem ja nende kliendid olid reageerivad ravile. Kuna kommunaalkulud vähem keskkonna kliente vastu programmi, selle tõhusust ilmus vähenema. Nii nagu randomiseerimist katsetes tagab, et ravi ja kontrollgrupis on sarnased, randomiseerimist uurimisasutused tagab hinnanguid saab üldistada alates ühe osalejate rühma üldisemale elanikkonnast (meenutage 3. peatükk umbes proovide võtmine). Kui uurimisasutused ei ole valimisse juhuslikult, siis üldistamise-isegi täiesti projekteeritud ja teostatud eksperimendi-olla problemaatiline.
Üheskoos on need 111 eksperimendid-10 Allcott (2011) ja 101 Allcott (2015) -involved umbes 8,5 miljonit majapidamist üle kogu Ameerika Ühendriigid. Nad näitavad järjepidevalt, et Home Energy Reports vähendada keskmist elektrienergia tarbimist, tulemus, mis toetab esialgsetele järeldustele Schultz ja tema kolleegid 300 kodudes Californias. Kaugemale imitatsiooniga nende esialgsete tulemuste järelkatsetel näitavad ka, et mõju suurust on piirkonniti erinev. See katsekomplektis näitab ka kaks üldisemat punktid, osaliselt digitaalse eksperimente. Esiteks, teadlased saavad empiiriliselt aadress muret välise valiidsuse ekspluatatsioonikulu eksperimendid on väike ja see võib juhtuda, kui tulemus on juba mõõdetud alati-andmete süsteemi. Seetõttu viitab sellele, et teadus peaks olema Tähystäjä muid huvitavaid ja olulisi käitumist, mis on juba salvestatud, ja seejärel disain eksperimente peal seda olemasolevate mõõtmise infrastruktuuri. Teiseks, see katsekomplektis meenutab meile, et digitaalse eksperimente ei ole lihtsalt võrgus; üha Ma eeldan, et nad on kõikjal palju tulemusi mõõdetakse andurid ehitatud keskkonnas.
Nelja liiki kehtivus statistilise järelduse kehtivust, sisemine kehtivus, ehitada kehtivuse välise kehtivus pakkuda vaimse kontrollnimekirja, mis aitab teadlastel hinnata, kas tulemused konkreetse eksperimendi toetada üldisem järeldus. Võrreldes analoog vanuses eksperimente, digitaalajastul eksperimente peaks olema lihtsam käsitleda välise kehtivuse empiiriliselt ja see peaks olema lihtsam tagada sisemine kehtivuse. Teiselt poolt, küsimusi ehitada kehtivuse ilmselt keerukam digitaalajastul eksperimente (kuigi see nii ei olnud koos Opower eksperimendid).