4.4.1 Geldigheid

Hierdie vertaling is geskep deur 'n rekenaar. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.4.1 Geldigheid

Geldigheid verwys na hoeveel die resultate van 'n eksperiment te ondersteun 'n meer algemene gevolgtrekking.

Geen eksperiment is perfek, en navorsers het 'n uitgebreide woordeskat ontwikkel om moontlike probleme te beskryf. Geldigheid verwys na die mate waarin die resultate van 'n bepaalde eksperiment ondersteun 'n paar meer algemene gevolgtrekking. Sosiale wetenskaplikes het gevind dat dit nuttig om geldigheid verdeel in vier hooftipes: statistiese gevolgtrekking geldigheid, interne geldigheid, konstrukgeldigheid, en eksterne geldigheid (Shadish, Cook, and Campbell 2001, Ch 2) . Die bemeestering van hierdie konsepte sal jy 'n geestelike kontrolelys vir kritiek en die verbetering van die ontwerp en ontleding van 'n eksperiment, en dit sal jou help om te kommunikeer met ander navorsers.

Statistiese gevolgtrekking geldigheid sentreer rondom die vraag of die statistiese ontleding van die eksperiment korrek gedoen is. In die konteks van Schultz et al. (2007) sodanige vraag kan konsentreer op die vraag of hulle hul p-waardes korrek bereken. Statistiese analise is buite die bestek van hierdie boek, maar ek kan sê dat die statistiese beginsels wat nodig is om te ontwerp en analiseer eksperimente nie in die digitale era verander. Maar die verskillende data-omgewing in digitale eksperimente het die skep van nuwe statistiese geleenthede (bv, die gebruik van masjienleer metodes om heterogeniteit van behandeling effekte skat (Imai and Ratkovic 2013) ) en nuwe computational uitdagings (bv, sluit in massiewe eksperimente (Higgins, Sävje, and Sekhon 2016) ).

Interne geldigheid sentreer rondom die vraag of die eksperimentele prosedures korrek uitgevoer is. Terugkeer na die eksperiment van Schultz et al. (2007) , vrae oor interne geldigheid kan sentreer rondom die randomisatietechnieken, lewering van die behandeling, en meting van uitkomste. Byvoorbeeld, kan jy bekommerd is dat die navorsingsassistente die elektriese meter nie betroubaar nie lees wees. Trouens, Schultz en kollegas was ook bekommerd oor die probleem en hulle het 'n monster van meter twee keer lees; Gelukkig het die resultate was basies identies. In die algemeen, Schultz en eksperimenteer kollegas blyk te hoë interne geldigheid het nie, maar dit is nie altyd die geval; komplekse veld en aanlyn eksperimente dikwels in die moeilikheid eintlik die lewering van die regte behandeling na die regte mense en die meet van die uitkomste vir almal. Gelukkig kan die digitale era help kommer oor interne geldigheid te verminder, want dit maak dit makliker om te verseker dat die behandeling word verskaf as wat ontwerp is om diegene wat veronderstel is om dit te ontvang en om uitkomste vir alle deelnemers te meet.

Konstrukgeldigheid sentrums regoor die wedstryd tussen die data en die teoretiese konstrukte. Soos bespreek in Hoofstuk 2, konstrukte is abstrakte konsepte wat sosiale wetenskaplikes rede oor. Ongelukkig het hierdie abstrakte konsepte nie altyd duidelik definisies en metings. Om terug te kom Schultz et al. (2007) , die bewering dat sosiale norme kan gebruik elektrisiteit verlaag injunctive vereis navorsers om 'n behandeling wat sou manipuleer "injunctive sosiale norme" (bv, 'n emoticon) en om "elektrisiteit gebruik" meet ontwerp. In analoog eksperimente, baie navorsers ontwerp hul eie behandelings en gemeet hul eie uitkomste. Hierdie benadering verseker dat soveel as moontlik, die eksperimente ooreenstem met die abstrakte konstrukte wat bestudeer word. In digitale eksperimente waar navorsers saam met maatskappye of regerings om behandelings lewer en gebruik altyd-op data stelsels om uitkomste te meet, kan die wedstryd tussen die eksperiment en die teoretiese konstrukte minder stywe wees. So, ek verwag dat konstrukgeldigheid sal neig om 'n groter bron van kommer in digitale eksperimente as analoog eksperimente wees.

Ten slotte, eksterne geldigheid sentreer rondom die vraag of die resultate van hierdie eksperiment sal veralgemeen na ander situasies. Om terug te kom Schultz et al. (2007) , kan 'n mens vra, sal hierdie selfde-idee verskaffing mense inligting oor hul energie gebruik in verhouding tot hul eweknieë en 'n sein van injunctive norme (bv, 'n emoticon) -reduce energie gebruik as dit gedoen is in 'n ander manier in 'n ander instelling? Vir die meeste goed ontwerpte en goed bestuurde eksperimente, kommer oor eksterne geldigheid is die moeilikste om te spreek. In die verlede, hierdie debatte oor eksterne geldigheid was dikwels net 'n klomp mense sit in 'n kamer probeer om te dink wat sou gebeur het as die prosedures in 'n ander manier gedoen, of in 'n ander plek, of met verskillende mense. Gelukkig het die digitale ouderdom in staat stel navorsers om verby hierdie data-vrye bespiegelings en eksterne geldigheid empiries te evalueer.

Omdat die resultate van Schultz et al. (2007) was so opwindend, 'n maatskappy met die naam Opower vennootskap met nuts in die Verenigde State van Amerika om die behandeling wyer ontplooi. Op grond van die ontwerp van Schultz et al. (2007) , Opower geskep persoonlike Tuis Energie Verslae wat twee hoof modules, een wat 'n huishouding se elektrisiteitsverbruik met betrekking tot sy bure met 'n emoticon en een verskaffing wenke vir die verlaging van energieverbruik het (Figuur 4.6). Dan, in vennootskap met navorsers, hardloop Opower gerandomiseerde beheerde eksperimente om die impak van die Huis Energie Verslae evalueer. Selfs al is die behandelings in hierdie eksperimente tipies gelewer fisies-gewoonlik deur outydse slakkepos-die uitslag was gemeet met behulp van digitale toestelle in die fisiese wêreld (bv, mag meter). Eerder as om hierdie inligting met navorsingsassistente besoek elke huis met die hand te versamel, is die Opower eksperimente al gedoen in vennootskap met krag maatskappye in staat stel die navorsers om toegang te verkry tot die krag lesings. So, is hierdie gedeeltelik digitale veldeksperimente uitgevoer op 'n massiewe skaal teen 'n lae veranderlike koste.

Figuur 4.6: Die Huis Energie Verslae in Allcott (2011) het 'n sosiale vergelyking Module en 'n Aksie Stappe Module.

In 'n eerste stel eksperimente waarby 600,000 huishoudings bedien deur 10 nut maatskappye regoor die Verenigde State van Amerika, Allcott (2011) het gevind dat die huis energie Verslag verlaag elektrisiteitsverbruik met 1,7%. Met ander woorde, die resultate van die veel groter, meer geografies diverse studie was kwalitatief soortgelyk aan die resultate van Schultz et al. (2007) . Maar, die effekgrootte was kleiner: in Schultz et al. (2007) die huishoudings in die beskrywende en injective norme toestand (die een met die emoticon) verminder hul elektrisiteitsverbruik met 5%. Die presiese rede vir hierdie verskil is onbekend, maar Allcott (2011) bespiegel dat die ontvangs van 'n handgeskrewe emoticon as deel van 'n studie geborg deur 'n universiteit 'n groter uitwerking op gedrag kan hê as die ontvangs van 'n gedrukte emoticon as deel van 'n massa-vervaardigde verslag van 'n krag maatskappy.

Verdere, in die daaropvolgende navorsing, Allcott (2015) berig oor 'n bykomende 101 eksperimente waarby 'n bykomende 8 miljoen huishoudings. In hierdie volgende 101 eksperimente het voortgegaan om die huis energie Verslag aan veroorsaak dat mense hul elektrisiteitsverbruik te verlaag, maar die gevolge is selfs kleiner. Die presiese rede vir hierdie daling is nie bekend nie, maar Allcott (2015) bespiegel dat die doeltreffendheid van die verslag blyk te wees dalende verloop van tyd, want dit is eintlik toegepas op verskillende tipes van die deelnemers. Meer spesifiek, nuts in meer omgewingspesialis gebiede is meer geneig neem die program vroeër en hul kliënte was meer ontvanklik vir die behandeling. Soos nuts met minder omgewing kliënte het die program, verskyn sy doeltreffendheid te daal. Dus, net soos randomisasie in eksperimente verseker dat die behandeling en kontrole groep is soortgelyk, randomisatietechnieken in navorsing webwerwe verseker dat die skattings veralgemeen kan word van 'n een groep deelnemers aan 'n meer algemene bevolking (dink terug aan Hoofstuk 3 oor monsterneming). As navorsing webwerwe nie lukraak is getoets, dan veralgemening, selfs van 'n perfek ontwerp en uitgevoer eksperiment-kan problematies wees.

Saam, hierdie 111 eksperimente-10 in Allcott (2011) en 101 in Allcott (2015) -involved ongeveer 8,5 miljoen huishoudings van regoor die Verenigde State. Hulle wys konsekwent dat Home Energie Verslae verminder gemiddelde elektrisiteit verbruik, gevolg dat die oorspronklike bevindinge van Schultz en kollegas van 300 huise in Kalifornië ondersteun. Verder as net replicerende hierdie oorspronklike resultate, die opvolg eksperimente toon ook dat die grootte van die effek is afhanklik van die plek. Dit stel eksperimente illustreer ook twee meer algemene punte oor gedeeltelik digitale veldeksperimente. In die eerste plek sal navorsers in staat wees om posadres kommer oor eksterne geldigheid empiries wanneer die koste van die bestuur eksperimente is laag, en dit kan optree as die uitslag is reeds gemeet deur 'n altyd-op data-stelsel. Daarom is dit dui daarop dat navorsing moet wees op die uitkyk vir ander interessante en belangrike gedrag wat reeds aangeteken, en dan ontwerp eksperimente op die top van hierdie bestaande meet infrastruktuur. Tweedens, hierdie reeks van eksperimente herinner ons daaraan dat digitale veldeksperimente is nie net online; toenemend ek verwag dat hulle oral met baie uitkomste gemeet deur sensor in die beboude omgewing sal wees.

Die vier tipes geldigheid-statistiese gevolgtrekking geldigheid, interne geldigheid, konstrukgeldigheid, eksterne geldigheid-bied 'n geestelike kontrolelys om jou te help navorsers bepaal of die resultate van 'n bepaalde eksperiment ondersteun 'n meer algemene gevolgtrekking. In vergelyking met analoog ouderdom eksperimente, in digitale era eksperimente dit moet makliker wees om eksterne geldigheid empiries te spreek en dit moet makliker wees om interne geldigheid te verseker. Aan die ander kant, sal kwessies van konstrukgeldigheid waarskynlik meer uitdagend in digitale era eksperimente wees (hoewel dit was nie die geval met die Opower eksperimente).