4.4.1 Platnost

Tento překlad byl vytvořen na počítači. ×

4.4.1 Platnost

Platnost se odkazuje na kolik výsledky experimentu podporovat obecnější závěr.

Žádný experiment není dokonalý a vědci vyvinuli rozsáhlou slovní zásobu pro popis možných problémů. Platnost se týká rozsahu, ve kterém výsledky konkrétního experimentu podporují nějaký obecnější závěr. Sociální vědci považovali za užitečné rozdělit platnost do čtyř hlavních typů: platnost statistické závěrky, vnitřní platnost, konstrukční platnost a vnější platnost (Shadish, Cook, and Campbell 2001, chap. 2) . Zvládnutí těchto konceptů vám poskytne duševní kontrolní seznam pro kritiku a zlepšení návrhu a analýzy experimentu a pomůže vám komunikovat s dalšími výzkumníky.

Platnost statistického závěru je zaměřena na to, zda byla statistická analýza experimentu provedena správně. V kontextu Schultz et al. (2007) , taková otázka by se mohla soustředit na to, zda správně vypočítali své $p$ hodnoty. Statistické principy, které potřebují navrhnout a analyzovat experimenty, jsou mimo rozsah této knihy, ale v digitálním věku se zásadně nezměnily. Co se však změnilo, je, že datové prostředí v digitálních experimentech vytvořilo nové příležitosti, jako je použití strojních učebních metod pro odhad heterogenity účinků léčby (Imai and Ratkovic 2013) .

Interní platnost se soustředí na to, zda byly experimentální postupy prováděny správně. Návrat k experimentu Schultz et al. (2007) , otázky týkající se vnitřní platnosti by se mohly zaměřit na randomizaci, poskytování léčby a měření výsledků. Mohli byste se například obávat, že výzkumní asistentové spolehlivě nečetli elektroměry. Ve skutečnosti se Schultz a jeho kolegové obávali tohoto problému a měli vzorek metrů dvakrát přečtený; naštěstí byly výsledky v podstatě totožné. Obecně platí, že experiment Schultze a jeho kolegů má vysokou interní platnost, ale to ne vždy platí: komplexní experimenty na poli a on-line se často setkávají s problémy, které skutečně přinášejí správnou léčbu správným lidem a měří výsledky pro každého. Naštěstí digitální věk může pomoci snížit obavy o vnitřní platnost, protože nyní je snazší zajistit, aby léčba byla poskytnuta těm, kteří ji mají přijímat, a aby měřily výsledky pro všechny účastníky.

Konstrukce platnosti se soustředí na shodu mezi daty a teoretickými konstrukty. Jak je uvedeno v kapitole 2, konstrukce jsou abstraktní koncepce, o které se sociální vědci zamýšlejí. Bohužel tyto abstraktní koncepty nemají vždy jasná definice a měření. Návrat k Schultz et al. (2007) tvrzení, že přísnější sociální normy mohou snížit spotřebu elektřiny, vyžaduje od výzkumných pracovníků, aby navrhli léčbu, která by manipulaci s "přísnými sociálními normami" (např. Emotikony) a měření "spotřeby elektrické energie". V analogových experimentech mnoho vědců navrhlo vlastní léčbu a změřilo vlastní výsledky. Tento přístup zajišťuje, aby experimenty odpovídaly studovaným abstraktním konstrukcím. V digitálních experimentech, kdy výzkumníci spolupracují se společnostmi nebo vládami na poskytování léčby a používají vždy-na data systémy pro měření výsledků, může být zápas mezi experimentem a teoretickými konstrukty méně těsný. Předpokládám tedy, že platnost konstruktu bude mít tendenci být větší záležitostí v digitálních experimentech než v analogových experimentech.

Konečně, externí platnost se soustředí na to, zda lze výsledky tohoto experimentu generalizovat do jiných situací. Návrat k Schultz et al. (2007) by se dalo položit otázku, zda tato stejná myšlenka, která lidem poskytne informace o jejich spotřebě energie ve vztahu k jejich rovesníkům a signál příkazových norem (např. Emotikony) - by snížila spotřebu energie, pokud by to bylo provedeno jinak v jiném nastavení. Pro většinu dobře navržených a dobře fungujících experimentů jsou obtíže ohledně externí platnosti nejtěžší. V minulosti se tyto debaty o externí platnosti často netýkaly pouze skupiny lidí, kteří seděli v místnosti a snažili se představit, co by se stalo, kdyby se postupy prováděly jiným způsobem nebo na jiném místě nebo s různými účastníky . Naštěstí digitální věk umožňuje vědcům překonat tyto spekulace bez dat a externě hodnotit empiricky.

Protože výsledky od Schultz et al. (2007) byly tak vzrušující, společnost s názvem Opower spolupracovala s firmami ve Spojených státech, aby rozšířily léčbu. Na základě návrhu Schultz et al. (2007) společnost Opower vytvořila vlastní zprávy o energii domů, které měly dva hlavní moduly: jeden ukazující spotřebu elektrické energie ve vztahu k sousedům se smajlíkem a druh poskytující tipy pro snížení spotřeby energie (obrázek 4.6). Pak společnost Opower ve spolupráci s výzkumnými pracovníky provozovala randomizované kontrolované experimenty s cílem posoudit dopad těchto zpráv o domácí energii. Přestože léčba v těchto experimentech byla typicky dodávána fyzicky - obvykle prostřednictvím staromódní šnečí pošty - výsledek byl měřen pomocí digitálních zařízení ve fyzickém světě (např. Měřiče výkonu). Dále, spíše než ruční shromažďování těchto informací s výzkumnými asistenty, kteří navštěvují každý dům, byly experimenty společnosti Opower uskutečněny ve spolupráci s energetickými společnostmi, které umožnily výzkumným pracovníkům přístup k měření výkonu. Tyto částečně digitální terénní experimenty probíhaly v masivním měřítku při nízkých variabilních nákladech.

Obrázek 4.6: Zprávy o domácí energii měly modul sociální srovnání a modul akčních kroků. Reprodukováno na základě povolení od společnosti Allcott (2011) , obrázky 1 a 2.

V první skupině experimentů zahrnujících 600 000 domácností z 10 různých lokalit společnost Allcott (2011) zjistila, že zpráva o domácí energii snížila spotřebu elektrické energie. Jinými slovy, výsledky z mnohem větší, geograficky odlišné studie byly kvalitativně podobné výsledkům od Schultz et al. (2007) . Dále v následném výzkumu, který zahrnoval osm milionů dalších domácností ze 101 různých lokalit, společnost Allcott (2015) opět zjistila, že zpráva o domácí energii konzistentně snižovala spotřebu elektrické energie. Tato mnohem větší sada experimentů také odhalila zajímavý nový vzorec, který by nebyl viditelný v žádném experimentu: velikost účinků klesla v pozdějších experimentech (obrázek 4.7). Allcott (2015) spekuloval, že k tomuto poklesu došlo, protože postupem se léčba aplikovala na různé typy účastníků. Konkrétněji, nástroje s více zákazníky zaměřenými na životní prostředí pravděpodobně přijaly program dříve a jejich zákazníci byli lépe reagováni na léčbu. Jelikož nástroje s méně zaměřenými zákazníky zaměřenými na životní prostředí přijaly program, jeho účinnost se zdála klesat. Proto, stejně jako randomizace v experimentech zajišťuje podobnost mezi léčbou a kontrolní skupinou, randomizace na výzkumných pracovištích zajišťuje, že odhady lze generalizovat z jedné skupiny účastníků do obecnější populace (přemýšlejte o kapitole 3 o odběru vzorků). Pokud se ve výzkumných místech náhodně nevyberou vzorky, může být generalizace - dokonce i z dokonale navrženého a prováděného experimentu - problematická.

Obrázek 4.7: Výsledky 111 experimentů testujících vliv zprávy o domácí energii na spotřebu elektrické energie. Na místech, kde byl program přijat později, měla tendenci mít menší účinky. Allcott (2015) tvrdí, že hlavním zdrojem tohoto modelu je to, že místa s více zákazníky zaměřenými na životní prostředí pravděpodobně přijali program dříve. Přizpůsobeno od společnosti Allcott (2015) , obrázek 3.

Společně tyto 111 experimentů - 10 ve společnosti Allcott (2011) a 101 v Allcott (2015) zahrnovalo přibližně 8,5 milionu domácností z celého Spojeného státu. Důsledně ukazují, že zprávy o energetické spotřebě domácnosti snižují průměrnou spotřebu elektrické energie, což podporuje výsledky původních zjištění Schultze a kolegů z 300 domů v Kalifornii. Kromě opakování těchto původních výsledků také následné experimenty ukazují, že velikost efektu se liší podle polohy. Tato sada experimentů také ilustruje dva obecnější body týkající se částečně digitálních terénních experimentů. Zaprvé, vědci budou schopni empiricky řešit obavy o externí platnost, pokud jsou náklady na běh experimentů nízké, a to může nastat, pokud se výsledek již měří pomocí neustálého datového systému. Proto navrhuje, aby výzkumníci měli hledat další zajímavé a důležité chování, které jsou již zaznamenány, a pak navrhnout experimenty na vrcholu této stávající měřicí infrastruktury. Za druhé, tato sada experimentů nám připomíná, že experimenty s digitálním polem nejsou pouze online; stále více očekávám, že budou všude s mnoha výsledky měřenými senzory v zastavěném prostředí.

Tyto čtyři typy platnosti - statistická závěrečná platnost, vnitřní platnost, konstrukční platnost a externí platnost - poskytují mentální kontrolní seznam, který pomáhá vědcům posoudit, zda výsledky z určitého experimentu podporují obecnější závěr. Ve srovnání s experimenty analogického věku by v experimentech digitálního věku mělo být snazší externě ověřit empirickou platnost a mělo by být také snazší zajistit vnitřní platnost. Na druhou stranu budou problémy s konstruktivní platností pravděpodobně náročnější v experimentech digitálního věku, zejména experimenty s digitálním polem, které zahrnují partnerství se společnostmi.