Platnosť sa odkazuje na koľko výsledky experimentu podporovať všeobecnejší záver.
Žiadny experiment nie je dokonalý a vedci vyvinuli rozsiahlu slovnú zásobu na popísanie možných problémov. Platnosť sa vzťahuje na rozsah, v akom výsledky konkrétneho experimentu podporujú nejaký všeobecnejší záver. Sociálni vedci zistili, že je užitočné rozdeliť platnosť na štyri hlavné typy: platnosť štatistického záveru, vnútorná platnosť, konštrukčná platnosť a vonkajšia platnosť (Shadish, Cook, and Campbell 2001, chap. 2) . Ovládanie týchto konceptov vám poskytne duševný kontrolný zoznam na kritiku a zlepšenie návrhu a analýzy experimentu a pomôže vám komunikovať s ostatnými výskumníkmi.
Platnosť štatistického záveru sa zameriava na to, či sa štatistická analýza pokusu vykonala správne. V kontexte Schultz et al. (2007) , takáto otázka by sa mohla sústrediť na to, či správne vypočítali svoje \(p\) . Štatistické princípy, ktoré je potrebné navrhnúť a analyzovať, sú mimo rozsahu tejto knihy, ale v digitálnom veku sa zásadne nezmenili. Zmenilo sa však to, že dátové prostredie v digitálnych experimentoch vytvorilo nové príležitosti, ako napríklad používanie metód strojového učenia na odhad heterogenity účinkov liečby (Imai and Ratkovic 2013) .
Interná platnosť sa zameriava na to, či boli experimentálne postupy vykonané správne. Návrat k experimentu Schultz et al. (2007) sa otázky týkajúce sa vnútornej platnosti môžu sústrediť na randomizáciu, poskytovanie liečby a meranie výsledkov. Mohli by ste sa napríklad obávať, že výskumní asistentky spoľahlivo nečítali elektrické meracie prístroje. V skutočnosti sa Schultz a kolegovia obávali tohto problému a mali vzorku metrov čítaných dvakrát; našťastie boli výsledky v podstate identické. Vo všeobecnosti sa zdá, že experiment Schultza a kolegov má vysokú vnútornú platnosť, ale nie vždy to platí: komplexné experimenty na poli a on-line sa často stretávajú s problémami, ktoré skutočne prinášajú správnu liečbu správnym ľuďom a merajú výsledky pre každého. Digitálny vek našťastie môže našťastie pomôcť znížiť obavy o vnútornú platnosť, pretože teraz je ľahšie zabezpečiť, aby sa liečba poskytovala tým, ktorí ju majú prijať, a aby merali výsledky pre všetkých účastníkov.
Konštrukcia platnosti sa sústreďuje na zhodu medzi údajmi a teoretickými konštruktmi. Ako sa uvádza v kapitole 2, konštrukty sú abstraktné pojmy, o ktorých vedia sociálni vedci. Bohužiaľ, tieto abstraktné pojmy nemajú vždy jasné definície a merania. Návrat k Schultz et al. (2007) , tvrdenie, že príkazné sociálne normy môžu znížiť spotrebu elektrickej energie, vyžaduje, aby výskumníci navrhli liečbu, ktorá by manipulovala "príkazné sociálne normy" (napr. Emotikony) a merať "využívanie elektriny". V analógových experimentoch mnohí vedci navrhli svoje vlastné liečby a merali svoje vlastné výsledky. Tento prístup zabezpečuje, aby experimenty v čo najväčšej miere odpovedali študovaným abstraktným konštruktom. V digitálnych experimentoch, kde vedci spolupracujú s firmami alebo vládami na poskytovaní liečby a používajú vždy na dátové systémy na meranie výsledkov, môže byť súvislosť medzi experimentom a teoretickými konštruktmi menej obmedzená. Preto očakávam, že platnosť konštruktu bude mať tendenciu byť väčším problémom v digitálnych experimentoch ako v analógových experimentoch.
Nakoniec, externá platnosť sa zameriava na to, či možno výsledky tohto experimentu zovšeobecniť na iné situácie. Návrat k Schultz et al. (2007) , možno sa opýtať, či by táto tá istá myšlienka - poskytla ľuďom informácie o ich spotrebe energie vo vzťahu k ich rovesníkom a signál príkazných noriem (napr. Emotikony) - by znížila spotrebu energie, ak by to bolo urobené iným spôsobom v inom nastavení. Pre väčšinu dobre navrhnutých a dobre spustených experimentov je najťažšie riešiť obavy z vonkajšej platnosti. V minulosti sa tieto diskusie o vonkajšej platnosti často netýkali len skupiny ľudí sediacich v miestnosti a snažili sa predstaviť, čo by sa stalo, ak by sa postupy vykonali iným spôsobom alebo na inom mieste alebo s rôznymi účastníkmi , Našťastie digitálny vek umožňuje výskumníkom prekonať tieto špekulácie bez údajov a externe zhodnotiť empiricky.
Pretože výsledky od Schultz et al. (2007) boli tak vzrušujúce, spoločnosť s názvom Opower spolupracovala s verejnými službami v Spojených štátoch, aby nasadili liečbu širšie. Na základe návrhu Schultz et al. (2007) spoločnosť Opower vytvorila prispôsobené správy o domácej spotrebe energie, ktoré obsahovali dva hlavné moduly: jeden ukazujúci spotrebu elektrickej energie domácnosti v porovnaní s jej susedmi s emotikonom a druh poskytujúci tipy na zníženie spotreby energie (obrázok 4.6). Potom spoločnosť Opower v spolupráci s výskumnými pracovníkmi vykonala randomizované kontrolované experimenty na posúdenie vplyvu týchto správ o domácej energii. Napriek tomu, že liečby v týchto experimentoch boli zvyčajne dodávané fyzicky - zvyčajne prostredníctvom staromódnej snailovej pošty - výsledok bol meraný pomocou digitálnych zariadení vo fyzickom svete (napr. Merače výkonu). Navyše, ako manuálne zhromažďovanie týchto informácií s asistentmi výskumu navštevujúcimi každý dom, pokusy Opower boli vykonané v spolupráci s energetickými spoločnosťami, ktoré umožnili výskumným pracovníkom prístup k čítaniu energie. Tieto čiastočne digitálne terénne experimenty sa teda uskutočňovali v masívnom meradle pri nízkych variabilných nákladoch.
V prvej sade pokusov, ktoré zahŕňali 600 000 domácností z 10 rôznych lokalít, spoločnosť Allcott (2011) zistila, že správa o domácej energii znížila spotrebu elektrickej energie. Inými slovami, výsledky z oveľa väčšej a geografickejšie odlišnej štúdie boli kvalitatívne podobné výsledkom od Schultz et al. (2007) . Ďalej, v následnom výskume, ktorý zahŕňal osem miliónov ďalších domácností z 101 rôznych lokalít, spoločnosť Allcott (2015) znovu zistila, že správa o domácej energii trvalo znížila spotrebu elektrickej energie. Táto oveľa väčšia sada experimentov tiež odhalila zaujímavý nový vzorec, ktorý by nebol viditeľný v žiadnom jednotlivom experimente: veľkosť účinku poklesla v neskorších pokusoch (obrázok 4.7). Allcott (2015) špekuloval, že k tomuto poklesu došlo, pretože v priebehu času sa liečba aplikovala na rôzne typy účastníkov. Konkrétnejšie, nástroje s viac zákazníkmi zameranými na životné prostredie s väčšou pravdepodobnosťou prijali program skôr a ich zákazníci reagovali citlivejšie na liečbu. Keďže programy s menej zákazníkmi zameranými na životné prostredie prijali program, jeho účinnosť sa zrejme znižovala. Tak ako náhodná randomizácia v experimentoch zabezpečuje, že liečba a kontrolná skupina sú podobné, randomizácia na výskumných miestach zabezpečuje, že odhady sa môžu zovšeobecniť z jednej skupiny účastníkov na všeobecnejšiu populáciu (pozrite sa do kapitoly 3 o odbere vzoriek). Ak sa na miestach výskumu nevyberajú náhodne, potom generalizácia - dokonca aj z dokonale navrhnutého a vykonaného experimentu - môže byť problematická.
Spoločne tieto 111 experimentov - 10 v spoločnosti Allcott (2011) a 101 v spoločnosti Allcott (2015) zahŕňalo približne 8,5 milióna domácností z celého Spojeného kráľovstva. Dôsledne preukazujú, že domáce správy o energii znižujú priemernú spotrebu elektrickej energie, výsledok, ktorý podporuje pôvodné zistenia Schultza a kolegov z 300 domov v Kalifornii. Okrem toho, že sa tieto pôvodné výsledky opakovali, následné experimenty tiež ukazujú, že veľkosť efektu sa líši podľa polohy. Táto sada experimentov tiež ilustruje dve ďalšie všeobecné body o čiastočne digitálnych terénnych experimentoch. Po prvé, výskumníci budú môcť empiricky riešiť obavy týkajúce sa externej platnosti, ak sú náklady na spustenie experimentov nízke, a to môže nastať, ak sa výsledok už meria v neustálom dátovom systéme. Preto navrhuje, aby výskumníci hľadali ďalšie zaujímavé a dôležité správanie, ktoré už sú zaznamenané, a potom navrhnúť experimenty nad túto existujúcu meraciu infraštruktúru. Po druhé, tento súbor experimentov nám pripomína, že experimenty s digitálnymi poľami nie sú len on-line; čoraz viac očakávam, že budú všade s mnohými výsledkami meranými senzormi v zastavanom prostredí.
Štyri typy platnosti - platnosť štatistického záveru, vnútorná platnosť, platnosť konštrukcie a vonkajšia platnosť - poskytujú mentálny kontrolný zoznam, ktorý pomáha výskumníkom posúdiť, či výsledky konkrétneho experimentu podporujú všeobecnejší záver. V porovnaní s experimentmi v analógovom veku by v experimentoch v digitálnom veku malo byť jednoduchšie zvládnuť externú platnosť empiricky a malo by byť tiež jednoduchšie zabezpečiť vnútornú platnosť. Na druhej strane, problémy s konštrukčnou platnosťou budú pravdepodobne náročnejšie v experimentoch v digitálnom veku, najmä pri experimentoch na digitálnom poli, ktoré zahŕňajú partnerstvá so spoločnosťami.