4.4.1 kehtivus

See tõlge loodi arvuti. ×

4.4.1 kehtivus

Kehtivus viitab, kui palju eksperimendi tulemusi toetada üldisem järeldus.

Ükski eksperiment pole ideaalne ja teadlased on välja töötanud ulatusliku sõnavara võimalike probleemide kirjeldamiseks. Kehtivus näitab, mil määral konkreetse katse tulemused toetavad üldisemat järeldust. Sotsiaalteadlased on leidnud kasulikuks jaotuse jagamise neljaks põhiliigiks: statistilise järelduse kehtivus, sisemine kehtivus, konstruktsiooni kehtivus ja (Shadish, Cook, and Campbell 2001, chap. 2) . Nende mõistete omandamine annab teile vaimse kontrollnimekirja eksperimendi kavandamise ja analüüsi kritiseerimiseks ja parandamiseks ning aitab teil teiste teadlastega suhelda.

Statistilise järelduse kehtivus keskendub sellele, kas katse statistiline analüüs tehti korrektselt. Schultz et al. (2007) kontekstis Schultz et al. (2007) , võib selline küsimus keskenduda sellele, kas nad arvutasid oma $p$ -väärtused õigesti. Statistikapõhimõtted, mida on vaja projekteerida ja analüüsida, on katsed väljaspool raamatuid, kuid need ei ole digitaalajastul põhjalikult muutunud. Kuid muutunud on see, et digitaalsete eksperimentide andmekeskkond on loonud uusi võimalusi, näiteks masinate õppe meetodite kasutamine raviefektide heterogeensuse hindamiseks (Imai and Ratkovic 2013) .

Sisemine kehtivus keskendub sellele, kas katseprotseduurid viidi läbi õigesti. Naasmine Schultz et al. (2007) eksperimendile Schultz et al. (2007) , sisemise kehtivuse küsimused võivad keskenduda randomiseerimisele, ravi edastamisele ja tulemuste mõõtmisele. Näiteks võite olla mures, et teadustöö assistendid ei lugenud elektriarvestid usaldusväärselt. Tegelikult Schultz ja tema kolleegid olid selle probleemiga mures, ja neil oli kaks meetrit; õnneks olid tulemused praktiliselt identsed. Üldiselt tundub, et Schultzil ja kolleegide eksperimentil on suur sisemine kehtivus, kuid see ei ole alati nii: keerulised valdkonnad ja veebipõhised eksperimendid tekitavad sageli probleeme, mis annavad õige ravi õigele inimestele ja mõõdavad tulemusi kõigile. Õnneks võib digitaalajastu abil aidata vähendada sisemise kehtivuse muret, sest nüüd on lihtsam tagada, et ravi edastatakse neile, kes peaksid seda vastu võtma, ja kõigi osalejate jaoks tulemuste mõõtmiseks.

Konstruktsiooni kehtivus keskendub andmetele ja teoreetiliste konstruktsioonide vahelisele vastele. Nagu 2. peatükis kirjeldatud, on konstruktsioonid abstraktsed mõisted, mida sotsiaalteadlased mõistavad. Kahjuks pole neil abstraktsetel mõtetel alati alati selgeid määratlusi ja mõõtmisi. Tagasi tagasi Schultz et al. (2007) väide, et ettekirjutuvad sotsiaalsed normid võivad elektritarbimist vähendada, nõuavad teadlased disainida ravi, mis manipuleeriks "ettekirjutatavate sotsiaalsete normidega" (nt emotikoniga) ja mõõdaks "elektritarbimist". Analoogkatsetes tegi paljud teadlased ise oma ravi ja hindas oma tulemusi. Selline lähenemine tagab, et eksperimendid sobivad nii palju kui võimalik uuritavate abstraktsete konstruktsioonidega. Digitaalsete eksperimentide puhul, kus teadlased partnerid ettevõtetega või valitsustega töötlemisviiside pakkumiseks ja tulemuste mõõtmiseks kasutavad alati andmeside süsteeme, võib katse ja teoreetiliste konstruktsioonide vaheline suhe olla väiksem. Seega eeldan, et digitaalsete eksperimentide puhul on konstruktsiooni kehtivus tavaliselt suurem kui analoogkatsetes.

Lõpuks on väline kehtivus keskendunud sellele, kas selle katse tulemusi saab teistele olukordadele üldistada. Tagasi tagasi Schultz et al. (2007) võiks küsida, kas need samad mõtteid pakkuvad inimesed saaksid teavet oma energiakasutuse kohta suhetes oma eakaaslastega ja ettekirjutatavate normide signaali (nt emotikoni) abil vähendada energiatarbimist, kui seda tehti teisiti teistes seadetes. Enamiku hästi kavandatud ja hästi juhitud eksperimentide puhul on probleemid välise kehtivuse osas kõige raskemad. Varasemalt olid need väitamissuhete arutelud tihtipeale kaasatud vaid rühmasse, kes istutas toas, püüdes ette kujutada, mis oleks juhtunud, kui menetlused oleksid sooritatud muul viisil või muul viisil või erinevate osalejatega . Õnneks võimaldab digitaalajastu teadlastel liikuda kaugemale sellest andmetest vaba spekulatsioonist ja hinnata väline kehtivus empiiriliselt.

Kuna Schultz et al. (2007) olid nii põnevad, Opower partneriks USA kommunaalteenustega, et levitada ravimeid laiemalt. Põhineb Schultz et al. (2007) kujundusel Schultz et al. (2007) , Opower lõi kohandatud kodueenergia aruanded, millel oli kaks peamist moodulit: üks leibkonna elektritarbimine naabritega koos emotikoniga ja üks näpunäiteid energiakasutuse vähendamiseks (joonis 4.6). Seejärel viidi Opower koostöös teadlastega läbi randomiseeritud kontrollitud eksperimendid, et hinnata nende kodumajapidamisaruannete mõju. Kuigi nendes eksperimentides pakuti ravimeid tavaliselt tavaliselt füüsiliselt - tavaliselt vanamoodilise tigu saatmise teel - tulemust mõõdeti füüsilise maailma digitaalsete seadmete abil (nt võimsuse mõõturid). Selle asemel, et käsitsi koguda seda teavet uurimisassistenditega, kes külastasid iga maja, viidi Opoweri katsed koostöösse elektrienergiaga tegelevate ettevõtetega, mis võimaldasid teadlastel jõudlusnäitajat kasutada. Seega kasutati neid osaliselt digitaalseid eksperimente väikeste muutuvate kuludega suures ulatuses.

Joonis 4.6: Koduenergia aruannetes oli sotsiaalse võrdluse moodul ja tegevusetapi moodul. Taasesitatud Allcott (2011) loendiga joonised 1 ja 2.

Joonis 4.6: Koduenergia aruannetes oli sotsiaalse võrdluse moodul ja tegevusetapi moodul. Taasesitatud Allcott (2011) joonised 1 ja 2.

Esimeses eksperimentides, mis hõlmasid 600 000 leibkonda kümnest erinevast asukohast, leidis Allcott (2011) , et Allcott (2011) vähendas elektritarbimist. Teiste sõnadega, palju suurema ja geograafiliselt mitmekesise uuringu tulemused olid kvalitatiivselt sarnased Schultz et al. (2007) tulemustega Schultz et al. (2007) . Lisaks sellele leidis Allcott (2015) , et koduse energiaaruande järjekindlalt vähendas elektritarbimist järgnevatel uuringutel, mis hõlmasid kaheksat miljonit täiendavat majapidamist 101st erinevast asukohast. Selline palju suurem katsete kogum näitas ka huvitavat uut mustrit, mis ei oleks ühes katses nähtav: mõju hilisemates katsetes vähenes (joonis 4.7). Allcott (2015) väitis, et see langus toimus, kuna aja jooksul kohaldati erinevat tüüpi osalejate kohtlemist. Konkreetsemalt kasutati keskkonnasõbralikumate klientidega kommunikatsioone tõenäolisemalt programmi varem ja nende kliendid olid ravile paremini reageerivad. Kuna programmid võtsid kasutusele vähem keskkonnasõbralikud kliendid, tundus nende tõhusus vähenemas. Seega, kuna eksperimentide randomiseerimine tagab, et ravi- ja kontrollrühmad on sarnased, tagab uurimispaikade randomiseerimine, et hinnanguid saab üldistada ühelt osaleja rühmadelt üldisemale elanikkonnale (vt 3. peatükki proovide võtmise kohta). Kui uurimissaite pole juhuslikult valimit võetud, võib üldistamine isegi täiesti kavandatud ja läbiviidud katsest olla probleemne.

Joonis 4.7: 111 katse tulemused, milles hinnati koduelektri aruande mõju elektritarbimisele. Sellel saitidel, kus programm hiljem võeti vastu, oli see kergem mõju. Allcott (2015) väidab, et selle mustri peamine allikas on see, et saidid, kus on keskkonnasõbralikumad kliendid, Allcott (2015) programmi tõenäolisemalt varem. Kohandatud Allcott (2015) , joonis 3.

Need kokku 111 katset Allcott (2011) ja 101 Allcott (2015) -l osales umbes 8,5 miljonit leibkonda kogu Ameerika Ühendriikidest. Nad näitavad järjekindlalt, et Koduenergia aruanded vähendavad keskmist elektritarbimist, mis toetab Schultzi ja kolleegide esialgset leidmist 300-st California kodust. Peale lihtsalt nende esialgsete tulemuste kopeerimise näitavad ka järelkatsetused, et mõju suurus erineb asukohast sõltuvalt. See eksperimentide komplekt näitab ka kahte üldist punkti osaliselt digitaalsete katsete kohta. Esiteks, teadlased suudavad empiiriliselt väljendada muret välise kehtivuse pärast, kui eksperimentide käitamise kulud on madalad, ja see võib juhtuda, kui tulemust mõõdetakse alati pidevalt kasutatava andmesüsteemiga. Seepärast soovitab teadlaste tähelepanu pöörata juba olemasolevatele huvitavatele ja olulistele käitumistele ning seejärel kavandada katseid olemasoleva mõõteinfrastruktuuri peal. Teiseks, see eksperimentide komplekt tuletab meile meelde, et digitaalsed katsed ei ole ainult veebis; üha enam, loodan, et need on kõikjal, kus on palju tulemusi, mida mõõdetakse ehitatud keskkonnas olevate anduritega.

Neli kehtivus-statistilise järelduse kehtivust, sisemist kehtivust, konstruktsiooni kehtivust ja välistõendit - esitavad vaimse kontrollnimekirja, mis aitab teadlastel hinnata, kas konkreetse katse tulemused toetavad üldisemaid järeldusi. Võrreldes analoog-vanuse eksperimentidega digitaalajastusega eksperimentides peaks lihtsamini uurida välist õigsust empiiriliselt, samuti peaks olema lihtsam tagada sisemine kehtivus. Teisest küljest on digitaalajastusega eksperimentides konstruktiivse kehtivuse probleemid tõenäoliselt keerukamad, eriti digitaalsete katsete puhul, mis hõlmavad partnerlussuhteid ettevõtetega.