4.4.1 Vlefshmëria

Ky përkthim u krijua nga një kompjuter. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.4.1 Vlefshmëria

Vlefshmëria referohet se sa rezultatet e një eksperimenti të mbështetur një konkluzion më të përgjithshme.

Asnjë eksperiment është i përsosur, dhe hulumtuesit kanë zhvilluar një fjalor të gjerë për të përshkruar problemet e mundshme. Vlefshmëria referohet shkallës në të cilën rezultatet e një eksperimenti të veçantë të mbështetur një konkluzion më të përgjithshme. Shkencëtarët socialë kanë gjetur atë të dobishme për të ndarë vlefshmërinë në katër lloje kryesore: vlefshmërisë statistikore përfundim, vlefshmërisë të brendshme, të ndërtuar vlefshmërinë, dhe vlefshmëria e jashtme (Shadish, Cook, and Campbell 2001, Ch 2) . Mastering këto koncepte do t'ju ofrojë një listë e plotë mendore për kritika dhe përmirësimin e dizajnit dhe analizën e një eksperimenti, dhe kjo do të ju ndihmojë të komunikoni me studiues të tjerë.

Vlefshmëria e Statistikave përfundimi qendra rreth nëse analizat statistikore të eksperimentit është bërë si duhet. Në kontekstin e Schultz et al. (2007) pyetje e tillë mund të përqendrohem në nëse llogariten-vlerat p e tyre të saktë. Analiza statistikore është përtej fushëveprimit të këtij libri, por mund të them se parimet statistikore të nevojshme për të hartuar dhe analizuar eksperimente nuk kanë ndryshuar në moshën dixhitale. Megjithatë, mjedisi i ndryshëm e të dhënave në eksperimente dixhitale do të krijojë mundësi të reja statistikore (p.sh., duke përdorur metoda të mësuarit e makinës për të vlerësuar heterogjenitetin e efekteve të trajtimit (Imai and Ratkovic 2013) ) dhe sfidat e reja kompjuterike (p.sh., duke bllokuar në eksperimente masive (Higgins, Sävje, and Sekhon 2016) ).

Vlefshmëria e brendshme qendra rreth nëse procedurat eksperimentale janë kryer në mënyrë korrekte. Pas kthimit në eksperimentin e Schultz et al. (2007) , pyetje në lidhje me vlefshmërinë e brendshëm mund të përqendrohet rreth randomization, ofrimin e trajtimit, dhe matjen e rezultateve. Për shembull, ju mund të jetë i shqetësuar se ndihmësit e hulumtimit nuk kanë lexuar metra elektrike të besueshme. Në fakt, Schultz dhe kolegët ishin të shqetësuar për këtë problem dhe ata kishin një mostër e njehsorëve lexuar dy herë; për fat të mirë, rezultatet ishin në thelb të njëjta. Në përgjithësi, Schultz dhe eksperimenti kolegët "duket të ketë vlefshmëri të lartë të brendshme, por kjo nuk është gjithmonë rasti; fushë komplekse dhe eksperimente në internet shpesh të kandidojë në probleme në fakt duke dhënë trajtimin e duhur për njerëzit e duhur dhe të masin rezultatet për të gjithë. Për fat të mirë, mosha dixhitale mund të ndihmojë në uljen shqetësime në lidhje me vlefshmërinë e brendshëm, sepse kjo e bën më të lehtë për të siguruar që trajtimi është dorëzuar si projektuar për ata që janë menduar për të marrë atë dhe për të matur rezultatet për të gjithë pjesëmarrësit.

Ndërtimi i qendrave të vlefshmërisë rreth ndeshjes në mes të dhënave dhe konstruktet teorike. Siç është diskutuar në Kapitullin 2, ndërton janë koncepte abstrakte që shkencëtarët socialë arsye lidhje. Për fat të keq, këto koncepte abstrakte nuk gjithmonë kanë përkufizime të qarta dhe matjet. Pas kthimit në Schultz et al. (2007) , pretendimi se vendimit gjyqësor normat sociale mund të ulin përdorimin e energjisë elektrike kërkon kërkuesit për të hartuar një trajtim që do të manipulojë "normat e vendimit gjyqësor sociale" (p.sh., një emoticon) dhe për të matur "përdorimin e energjisë elektrike". Në eksperimentet analoge, shumë hulumtues projektuar trajtimet e tyre dhe të matur rezultatet e tyre. Kjo qasje siguron që, sa më shumë të jetë e mundur, eksperimentet ndeshjen ndërton abstrakte që po studiohet. Në eksperimentet dixhitale, ku studiuesit partner me kompani apo qeveritë për të ofruar trajtime dhe të përdorin gjithmonë-në sistemet e të dhënave për të matur rezultatet, ndeshja mes eksperimentit dhe konstruktet teorike mund të jenë më pak të shtrënguar. Pra, unë pres që vlefshmëria konstrukt do të priren të jenë një shqetësim i madh në eksperimente dixhitale sesa eksperimente analoge.

Së fundi, vlefshmëria e jashtme qendrat përreth nëse rezultatet e këtij eksperimenti do të përgjithësoj në situata të tjera. Pas kthimit në Schultz et al. (2007) , mund të kërkojë, do të këtë të njëjtën informacion ide-sigurimin e njerëzve në lidhje me përdorimin e tyre të energjisë në marrëdhënie me kolegët e tyre dhe një sinjal të normave e vendimit gjyqësor (p.sh., një emoticon) përdorimin -Ulja e energjisë në qoftë se ajo është bërë në një mënyrë të ndryshme në një mjedis të ndryshëm? Për më të mirë-projektuar dhe i mirë-drejtuar eksperimente, shqetësimet në lidhje me vlefshmërinë e jashtme janë më të vështirat për të trajtuar. Në të kaluarën, këto debate rreth vlefshmërisë së jashtme shpesh ishin vetëm një bandë e njerëzve të ulur në një dhomë duke u përpjekur për të imagjinojmë se çfarë do të kishte ndodhur nëse procedurat janë bërë në një mënyrë të ndryshme, ose në një vend tjetër, ose me njerëz të ndryshëm. Për fat të mirë, në moshën dixhitale mundëson studiuesit për të lëvizur përtej këtyre spekulimeve të dhënave të lirë dhe të vlerësojë vlefshmërinë e jashtme në mënyrë empirike.

Për shkak se rezultatet e Schultz et al. (2007) ishin aq emocionuese, një kompani e quajtur Opower partneritet me shërbimet në Shtetet e Bashkuara për të vendosur një trajtim më gjerësisht. Bazuar në hartimin e Schultz et al. (2007) , Opower krijuar customized Raportet energjisë në shtëpi që kishte dy module kryesore, njëra që tregon përdorimin e energjisë elektrike për një familje në krahasim me fqinjët e saj me një emoticon dhe një ofruar këshilla për uljen e përdorimit të energjisë (Figura 4.6). Pastaj, në bashkëpunim me hulumtuesit, Opower u zhvillua randomizuar eksperimente të kontrolluara për të vlerësuar ndikimin e raporteve të energjisë në shtëpi. Edhe pse trajtimet në këto eksperimente janë dorëzuar zakonisht fizikisht, zakonisht nëpërmjet modës së vjetër kërmilli postë-rezultati është matur duke përdorur pajisje dixhitale në botën fizike (p.sh., metra pushtet). Në vend se të mbledhur me dorë këtë informacion me asistentët e kërkimit që vizitojnë çdo shtëpi, eksperimentet Opower janë bërë të gjitha në partneritet me kompanitë e energjisë mundësuar kërkuesit për të hyrë në lexime të energjisë. Kështu, këto eksperimente pjesërisht digjitale në terren ishin të drejtuar në një shkallë masive me kosto të ulët të ndryshueshme.

Figura 4.6: Raportet e Energjisë shtëpi në Allcott (2011) kishte një Krahasimi Module sociale dhe një veprim Hapat Module.

Në grupin e parë të eksperimenteve që përfshijnë 600,000 familje shërbyer nga 10 kompanitë e shërbimeve në të gjithë Shtetet e Bashkuara, Allcott (2011) gjetën Energy Raport Kreu ulur konsumin e energjisë elektrike prej 1.7%. Me fjalë të tjera, rezultatet nga studimi shumë më të madh, më shumë gjeografikisht të ndryshme ishin cilësisht të ngjashme me rezultatet e Schultz et al. (2007) . Por, madhësia efekti ishte më e vogël: në Schultz et al. (2007) familjet në përshkrues dhe injective normat kusht (një me emoticon) reduktuar përdorimin e tyre të energjisë elektrike me 5%. Arsyeja e saktë për këtë ndryshim është i panjohur, por Allcott (2011) spekuluar se marrja e një emoticon shkruar me dorë, si pjesë e një studimi të sponsorizuar nga një universitet mund të ketë një efekt më të madh në sjelljen se sa marrjen e një emoticon të shtypura, si pjesë e një raporti në masë të prodhuar nga një Kompania e energjisë.

Më tej, në kërkime të mëvonshme, Allcott (2015) ka raportuar për një shtesë prej 101 eksperimente që përfshijnë një shtesë prej 8 milionë familje. Në këto 101 eksperimente ardhshme Energy Raport Kreu vazhduar të shkaktojë njerëzit për të ulur konsumin e tyre të energjisë elektrike, por efektet kanë qenë edhe më të vogla. Arsyeja e saktë për këtë rënie nuk është e njohur, por Allcott (2015) spekuluar se efektiviteti i raportit duket të jetë në rënie me kalimin e kohës për shkak se ajo ishte në të vërtetë duke u aplikuar në lloje të ndryshme të pjesëmarrësve. Më konkretisht, shërbimet në zonat më mjedisor kishin më shumë gjasa të miratojë programin e mëparshëm dhe klientët e tyre ishin më të përgjegjshme ndaj trajtimit. Si shërbimet me klientët më pak mjedisore miratoi programin, efektiviteti i saj u shfaq të bjerë. Kështu, ashtu si randomization në eksperimente siguron që trajtimi dhe kontrolli grupi janë të ngjashme, randomization në faqet e kërkimit siguron që vlerësimet mund të përgjithësohet nga një grup i pjesëmarrësve në një popullsi më të përgjithshme (të mendoni përsëri në Kapitullin 3 për marrjen e mostrave). Nëse faqet e hulumtimit nuk janë provuan rastësisht, atëherë përgjithësimi, madje edhe nga një projektuar të përkryer dhe të kryer eksperimenti, mund të jetë problematike.

Së bashku, këto 111 eksperimente-10 në Allcott (2011) dhe 101 në Allcott (2015) -involved rreth 8.5 milionë familje nga e gjithë Shtetet e Bashkuara. Ata vazhdimisht tregojnë se raportet Faqja e energjisë të reduktuar konsumin mesatar të energjisë elektrike, një rezultat që mbështet gjetjet origjinale Schultz dhe kolegët nga 300 shtëpi në Kaliforni. Përtej vetëm përsëritur këto rezultate origjinale, ndjekin-up eksperimente të tregojnë se madhësia e efektit ndryshon nga vendndodhja. Ky grup i eksperimenteve gjithashtu ilustron edhe dy pika të përgjithshme në lidhje me eksperimentet në terren pjesërisht dixhitale. Së pari, studiuesit do të jetë në gjendje për të në mënyrë empirike adresuar shqetësimet në lidhje me vlefshmërinë e jashtme, kur kostoja e drejtimin eksperimente është i ulët, dhe kjo mund të ndodhë në qoftë se rezultati tashmë është duke u matur nga një sistem gjithmonë-në të dhëna. Prandaj, ai sugjeron se kërkimi duhet të jetë në sy, për sjellje të tjera interesante dhe të rëndësishme që tashmë janë duke u regjistruar, dhe pastaj të hartuar eksperimente në krye të kësaj infrastrukturës ekzistuese matëse. Së dyti, ky grup i eksperimenteve na kujton se eksperimentet dixhitale në terren nuk janë vetëm online; gjithnjë unë pres që ata do të jenë kudo me shumë rezultate të matura nga sensorët në mjedisin e ndërtuar.

Katër llojet e vlefshmërisë përfundim të vlefshmërisë-statistikore, vlefshmërinë e brendshme, të ndërtuar vlefshmërinë, vlefshmëria-sigurojë jashtëm një listë e plotë mendore për të ndihmuar studiuesit të vlerësuar nëse rezultatet e një eksperimenti të veçantë të mbështetur një konkluzion më të përgjithshme. Krahasuar me eksperimente moshës analoge, në eksperimentet e moshës dixhitale duhet të jetë më e lehtë për të trajtuar vlefshmërinë e jashtme empirikisht dhe ajo duhet të jetë më e lehtë për të siguruar vlefshmërinë e brendshëm. Në anën tjetër, çështjet e validitetit ndërtues ndoshta do të jetë më e vështirë në eksperimentet e moshës dixhitale (edhe pse kjo nuk ishte rasti me eksperimente Opower).