Dilysrwydd yn cyfeirio at faint y canlyniadau arbrawf cefnogi casgliad mwy cyffredinol.
Dim arbrawf yn berffaith, ac mae ymchwilwyr wedi datblygu geirfa helaeth i ddisgrifio'r problemau posibl. Dilysrwydd yn cyfeirio at i ba raddau y canlyniadau arbrawf penodol gefnogi rhai casgliad mwy cyffredinol. Gwyddonwyr cymdeithasol wedi ei chael yn ddefnyddiol i rannu dilysrwydd yn bedwar prif fath: dilysrwydd casgliad ystadegol, dilysrwydd mewnol, adeiladu dilysrwydd, a dilysrwydd allanol (Shadish, Cook, and Campbell 2001, Ch 2) . Bydd feistroli cysyniadau hyn yn darparu rhestr wirio meddwl ar gyfer beirniadu a gwella'r dyluniad a dadansoddiad o arbrawf i chi, a bydd yn helpu i gyfathrebu ag ymchwilwyr eraill.
Dilysrwydd casgliad Ystadegol troi o amgylch a oedd y dadansoddiad ystadegol o'r arbrawf yn cael ei wneud yn gywir. Yng nghyd-destun Schultz et al. (2007) y gallai cwestiwn o'r fath yn canolbwyntio ar p'un a ydynt gyfrifo eu p-gwerthoedd yn gywir. Dadansoddiad ystadegol tu hwnt i gwmpas y llyfr hwn, ond gallaf ddweud nad yr egwyddorion ystadegol sydd eu hangen i ddylunio a dadansoddi arbrofion wedi newid yn yr oes ddigidol. Fodd bynnag, yr amgylchedd gwahanol ddata mewn arbrofion digidol yn creu cyfleoedd ystadegol newydd (ee, gan ddefnyddio dulliau dysgu peiriant i amcangyfrif heterogenedd o effeithiau triniaeth (Imai and Ratkovic 2013) ) a heriau cyfrifiannol newydd (ee, blocio mewn arbrofion enfawr (Higgins, Sävje, and Sekhon 2016) ).
Dilysrwydd mewnol yn troi o amgylch a yw'r gweithdrefnau arbrofol yn cael eu perfformio yn gywir. Gan ddychwelyd at yr arbrawf o Schultz et al. (2007) , gallai cwestiynau am ddilysrwydd mewnol yn canolbwyntio ar yr randomization, cyflwyno'r driniaeth, a mesur canlyniadau. Er enghraifft, efallai y byddwch yn pryderu nad oedd y cynorthwywyr ymchwil yn darllen y mesuryddion trydan yn ddibynadwy. Yn wir, roedd Schultz a chydweithwyr poeni am y broblem hon ac roedd ganddynt sampl o fetrau darllen ddwywaith; yn ffodus, roedd y canlyniadau yn y bôn yr un fath. Yn gyffredinol, Schultz ac arbrofi cydweithwyr 'yn ymddangos i gael dilysrwydd mewnol yn uchel, ond nid yw hyn yn wir bob amser; arbrofion ar-lein maes cymhleth ac yn aml yn rhedeg i mewn i broblemau yn cyflwyno'r driniaeth gywir i'r bobl gywir a mesur y canlyniadau i bawb. Yn ffodus, gall yr oes ddigidol yn helpu i leihau pryderon ynghylch dilysrwydd mewnol gan ei fod yn ei gwneud yn haws i sicrhau bod y driniaeth yn cael ei ddarparu fel a gynlluniwyd i'r rhai sydd i fod i dderbyn ac i fesur canlyniadau ar gyfer yr holl gyfranogwyr.
Adeiladu canolfannau dilysrwydd o amgylch y gêm rhwng y data a'r cysyniadau damcaniaethol. Fel y trafodwyd ym Mhennod 2, yn adeiladu yn gysyniadau haniaethol y mae gwyddonwyr cymdeithasol rheswm am. Yn anffodus, nid yw cysyniadau haniaethol hyn bob amser yn cael diffiniadau a mesuriadau clir. Dychwelyd i Schultz et al. (2007) , yr honiad nad gwaharddol normau cymdeithasol gallu gostwng y defnydd o drydan yn ofynnol i ymchwilwyr i gynllunio triniaeth a fyddai'n trin "normau cymdeithasol gwaharddol" (ee, mae emoticon) ac i fesur "defnydd trydan". Mewn arbrofion analog, mae llawer o ymchwilwyr yn dylunio eu triniaethau eu hunain ac yn mesur eu canlyniadau eu hunain. Mae'r dull hwn yn sicrhau bod, yr arbrofion cymaint ag sy'n bosibl, yn cyd-fynd â'r cysyniadau haniaethol a astudir. Mewn arbrofion digidol lle mae ymchwilwyr bartner gyda chwmnïau neu lywodraethau i gyflwyno triniaethau a defnyddio bob amser-ar systemau data i fesur canlyniadau, efallai y bydd y gêm rhwng yr arbrawf a'r cysyniadau damcaniaethol yn llai dynn. Felly, yr wyf yn disgwyl y bydd dilysrwydd lluniad yn tueddu i fod yn bryder mwy mewn arbrofion digidol nag arbrofion analog.
Yn olaf, dilysrwydd allanol yn troi o amgylch a fyddai canlyniadau'r arbrawf hwn cyffredinoli i sefyllfaoedd eraill. Dychwelyd i Schultz et al. (2007) , gallai un ofyn, bydd hyn yn un wybodaeth syniad sy'n darparu pobl am eu defnydd o ynni mewn perthynas â'u cyfoedion ac yn arwydd o normau gwaharddol (ee, mae emoticon) defnydd o ynni -Lleihau pe bai'n cael ei wneud mewn ffordd wahanol mewn lleoliad gwahanol? Ar gyfer y rhan fwyaf o cynllunio'n dda ac arbrofion rhedeg yn dda-, pryderon ynghylch dilysrwydd allanol yw'r rhai mwyaf anodd i fynd i'r afael. Yn y gorffennol, dadleuon hyn ynglŷn ddilysrwydd allanol yn aml dim ond bagad o bobl yn eistedd mewn ystafell yn ceisio dychmygu beth fyddai wedi digwydd pe bai'r gweithdrefnau eu gwneud mewn ffordd wahanol, neu mewn lle gwahanol, neu gyda gwahanol bobl. Yn ffodus, mae'r oes ddigidol yn galluogi ymchwilwyr i symud y tu hwnt speculations di-data hyn ac yn asesu dilysrwydd allanol empirig.
Oherwydd bod y canlyniadau o Schultz et al. (2007) mor gyffrous, cwmni o'r enw Opower partneriaeth ag cyfleustodau yn yr Unol Daleithiau i ddefnyddio'r driniaeth yn fwy eang. Yn seiliedig ar y dyluniad Schultz et al. (2007) , Opower grëwyd haddasu Adroddiadau Ynni Cartref a oedd dau brif fodiwl, un yn dangos defnydd o drydan aelwyd gymharu â'i chymdogion gyda emoticon ac un yn darparu awgrymiadau ar gyfer gostwng y defnydd o ynni (Ffigur 4.6). Yna, mewn partneriaeth ag ymchwilwyr, Opower rhedodd hap arbrofion rheoledig i asesu effaith yr Adroddiadau Ynni Cartref. Er bod y triniaethau mewn arbrofion hyn yn cael eu cyflwyno fel arfer yn gorfforol-fel arfer trwy hen falwen ffasiwn post-y canlyniad fesur gan ddefnyddio dyfeisiau digidol yn y byd ffisegol (ee, mesuryddion pŵer). Yn hytrach na gasglu'r wybodaeth hon gyda chynorthwywyr ymchwil yn ymweld â phob tŷ llaw, yr arbrofion Opower eu gwneud i gyd mewn partneriaeth â chwmnïau bŵer galluogi ymchwilwyr i gael mynediad i'r darlleniadau pŵer. Felly, mae'r rhain arbrofion maes yn rhannol digidol yn cael eu rhedeg ar raddfa enfawr ar gost newidiol isel.
Mewn set gyntaf o arbrofion sy'n cynnwys 600,000 o aelwydydd a wasanaethir gan 10 o gwmnïau cyfleustodau o amgylch yr Unol Daleithiau, Allcott (2011) canfu'r Adroddiad Ynni Cartref gostwng y defnydd o drydan o 1.7%. Mewn geiriau eraill, mae'r canlyniadau o'r astudiaeth llawer mwy, mwy amrywiol yn ddaearyddol yn ansoddol debyg i'r canlyniadau o Schultz et al. (2007) . Ond, mae maint yr effaith yn llai: yn Schultz et al. (2007) y cartrefi yn y cyflwr normau disgrifiadol a injective (yr un gyda'r emoticon) lleihau eu defnydd o drydan o 5%. Y rheswm union dros y gwahaniaeth hwn yn anhysbys, ond Allcott (2011) speculated y gallai derbyn emoticon llawysgrifen fel rhan o astudiaeth a noddwyd gan brifysgol yn cael effaith fwy ar ymddygiad na derbyn emoticon argraffu fel rhan o adroddiad màs a gynhyrchwyd o cwmni pŵer.
Ymhellach, mewn ymchwil dilynol, Allcott (2015) adroddiad ar 101 arbrofion ychwanegol sy'n cynnwys 8 miliwn ychwanegol o gartrefi. Yn y 101 arbrofion nesaf parhaodd yr Adroddiad Ynni Cartref i achosi pobl at eu defnydd o drydan gostwng, ond mae'r effeithiau hyd yn oed yn llai. Nid yw'r rheswm union am y dirywiad hwn yn hysbys, ond Allcott (2015) speculated bod effeithiolrwydd yr adroddiad yn ymddangos i fod yn dirywio dros amser oherwydd ei fod yn mewn gwirionedd yn cael ei gymhwyso i wahanol fathau o gyfranogwyr. Yn fwy penodol, cyfleustodau mewn ardaloedd mwy amgylcheddwr yn fwy tebygol mabwysiadu'r rhaglen yn gynt ac mae eu cwsmeriaid yn fwy ymatebol i driniaeth. Fel cyfleustodau gyda chwsmeriaid llai amgylcheddol mabwysiadu'r rhaglen, roedd yn ymddangos ei effeithiolrwydd i ddirywio. Felly, yn union fel randomization mewn arbrofion yn sicrhau bod y grŵp triniaeth a rheolaeth yn debyg, randomization mewn safleoedd ymchwil yn sicrhau bod yr amcangyfrifon eu cyffredinoli o un grŵp o gyfranogwyr i boblogaeth mwy cyffredinol (yn meddwl yn ôl at Pennod 3 am samplu). Os nad yw safleoedd ymchwil yn cael eu samplu ar hap, yna gyffredinoli-hyd yn oed o ddylunio a'i gynnal arbrawf-gall fod yn broblem yn berffaith.
Gyda'i gilydd, mae'r rhain 111 arbrofion-10 yn Allcott (2011) a 101 yn Allcott (2015) -involved tua 8.5 miliwn o gartrefi o bob rhan o'r Unol Daleithiau. Maent yn dangos yn gyson bod Adroddiadau Ynni Cartref lleihau'r defnydd o drydan ar gyfartaledd, o ganlyniad sy'n cefnogi canfyddiadau gwreiddiol Schultz a chydweithwyr o 300 o gartrefi yng Nghaliffornia. Y tu hwnt i ddim ond dyblygu canlyniadau gwreiddiol hyn, mae'r arbrofion dilynol hefyd yn dangos bod maint yr effaith yn amrywio yn ôl lleoliad. Mae'r set hon o arbrofion hefyd yn dangos dau mwy o bwyntiau cyffredinol ynghylch arbrofion maes yn rhannol digidol. Yn gyntaf, bydd ymchwilwyr yn gallu empirig gyfeiriad bryderon ynghylch dilysrwydd allanol pan cost rhedeg arbrofion yn isel, a gall hyn ddigwydd os yw'r canlyniad eisoes yn cael ei fesur gan system bob amser-ar ddata. Felly, mae'n awgrymu y dylai ymchwil fod yn wyliadwrus am ymddygiad diddorol a phwysig eraill sydd eisoes yn cael eu cofnodi, ac yna dylunio arbrofion ar ben hyn isadeiledd mesur presennol. Yn ail, y set hon o arbrofion yn ein hatgoffa nad yw arbrofion maes digidol yn unig ar-lein; gynyddol Yr wyf yn disgwyl y byddant yn ym mhob man gyda nifer o ganlyniadau a fesurwyd gan synwyryddion yn yr amgylchedd adeiledig.
Mae pedwar math o ddilysrwydd casgliad dilysrwydd-ystadegol, dilysrwydd mewnol, adeiladu dilysrwydd, dilysrwydd-yn darparu rhestr wirio allanol meddyliol i helpu ymchwilwyr asesu a yw'r ganlyniadau arbrawf penodol cefnogi casgliad mwy cyffredinol. O'i gymharu â arbrofion oed analog, mewn arbrofion oes ddigidol dylai fod yn haws i fynd i'r afael dilysrwydd allanol empirig a dylai fod yn haws i sicrhau dilysrwydd mewnol. Ar y llaw arall, bydd faterion dilysrwydd lluniad yn ôl pob tebyg fod yn fwy heriol mewn arbrofion oes ddigidol (er nad oedd hynny'n wir am yr arbrofion Opower).